» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


 30 12
发新话题
打印

搞了几天,终于在24GB内存的Mac Mini M4比较爽地用上本地龙虾了

posted by wap, platform: Android
我是24G的M4 pro,9B模型直接webui速度还行,大约60t/s。上龙虾就慢了,看了下每次对话都差不多20k,让它装个小软件,就用掉2M token,喷了。


TOP

posted by wap, platform: Android
本地模型在openclaw里用,上下文才是决定速度的关键,每次聊天基本等于把历史记录都发一遍出去,越来越多,内存少的话就爆了,不开新session的话说个hi它都要等几分钟才回复



TOP

posted by wap, platform: Android
家里养虾不能取代互联网套餐虾。家里可以养,本地干杂活工作量大。
但在外还是得有在外的助手。

首先,复杂的信息整理工作还是在家进行的,工作成果也可以直接访问家里电脑、nas,不一定要这么尚不成熟的网关。
比如,如果需要大量的信息收集整理,比如下载跟踪几十个股票的资料和新闻,不如让家养虾在家自己干活,在外直接nas看一眼。
而且罗列式的界面比问答式的界面高效多了,毕竟是你自己要的内容。

第二,出门在外需要一个顺手的行程助手,包括吃、行、住,比如当天替你安排下周出行,包括酒店机票。那还是用商家的虾算了。
这些破工作没什么难的,难的是信息分离,谁有权至少是收集信息:出差邮件在公司电脑上,订火车票一般是个人12306,还有各种在线会议用各家平台,分立各种日历。
如果信息能全面汇总到系统上,早就有app全套搞定了。
苹果在这方面做得很好了,关键是商务app认,个人app也认。
现在换了虾你还是得给它说一大段话,或者发一堆手机截图。说白了你变缓存了,漏说/发一点就很麻烦。
还不如做好邮件和日历自动化工作。当然如果是小企业,能有录音,那更牛逼。


然后我那新电脑也能调通,本地小ai,接到扣子上以后,问一句你好,反应十秒八秒是有的。当时就没了兴致。

可能还要优化。

我买电脑是因为春节期间在家用小电脑跑Trae搞小程序,挺有意思的,可以让他长期跑。
长期跑的话成本是个问题,尤其前期tk可能还比较贵。所以买个x86的机器,接合本地跑ai和本地调试。
但程序开发,同时浏览文件列表和大量代码,这种ide界面,用虾显然不如向日葵。虾的好处是简讯通知:主人,您的APP更新好了,我们已经杀了一个小龙虾祭天。

再打个比方,你是生产管理者,你希望每天看到小组长们早请示晚汇报呢,还是随时开电脑都有实时的工厂产量/设备/问题状况图表?
所以我觉得,个人自用,又回到向日葵了。

本帖最后由 黄金大表哥 于 2026-3-22 00:26 通过手机版编辑


TOP

posted by wap, platform: Android
更新模型:unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit

这个用下来比GPT OSS 20B聪明,但慢一点。

TOP

是没啥用啊,还不如装个autoglm简单省事

TOP

posted by wap, platform: Android
引用:
原帖由 @dragong  于 2026-4-14 02:58 PM 发表
是没啥用啊,还不如装个autoglm简单省事
确实,我是用来玩的,不用做正事。

TOP

本地部署你如果想要all - in  - one的话,不说24g 哪怕你上128g也是捉襟见肘,各种分享网站上给你打鸡血式的介绍什么诸如mac 跑本地模型多么多么强悍的视频实际上都是吹牛,他根本不敢放出自己的真实使用场景或者说连他自己都不知道怎么能产生真正价值都是一些很基础的测试demo,而且这帮人根本不给你提上下文窗口的事情,就这点内存上下文窗口只要一膨胀本地变的不可用就是分分钟的事情,而且事实上要到达真正干活的标准除了很简单的任务,稍微复杂点的至少到达70b以上的智商才能用,这时候要再结合上下文窗口预留空间,本地没有256g就不要考虑本地部署这件事了,256g以上的 Mac Studio成本也是5w起,这5w你去用在线的服务不香么够你用几年了,除非你极度在乎所谓的隐私有着精神洁癖。
    而且目前mac有个致命的问题虽然采用了统一内存的架构可以装的下体量大的模型,但是这种架构目前更适用于LLM,没了老黄的cuda护城河跟m芯片的绝对算力仍然远落后与英伟达的架构,mac在生图吗,生视频等 Diff Model上几乎不可用也很难用于微调所以能力先天半残,所以还是要想清楚需求
    综合来看老老实实的用云+端方案,模型就用在线的,本地就纯当个执行者的角色或者运行最简单来进行前置过滤,这种方案的话mac 就用最基础的版本够了,完全没必要花冤枉钱去上任何32g以上的版本,甚至自己去捡垃圾弄一台x86 的mini主机也完全可以。

[ 本帖最后由 wenchy 于 2026-4-15 00:53 编辑 ]

TOP

m3max 48g 一直用的qianwen35B 4bit,反应时快时慢,用telegram跟他聊天倒是方便。就是时间长了,感觉没什么大用,经常搜索时候卡住,搜索api还需要花钱。并不实用。

TOP

当初说Mac适合做AI本地推理,指的不是那些256GB或512GB的版本吗?那确实方便(相比组EPYC的12通道内存)和划算(相比买N卡)。24G的做本地推理那是相当的鸡肋啊,买这个还不如买个AMD的AIMax395玩玩呢。

TOP

posted by wap, platform: Android
引用:
原帖由 @squallmlm  于 2026-4-15 10:26 AM 发表
m3max 48g 一直用的qianwen35B 4bit,反应时快时慢,用telegram跟他聊天倒是方便。就是时间长了,感觉没什么大用,经常搜索时候卡住,搜索api还需要花钱。并不实用。
搜索api用的tavily,一个月1000次免费的,我怎么都用不完。

这东西本来就不怎么能做正经事,付费的大型模型的api一开始我也玩过,是聪明很多,但是还是不能让它做正经事。

最后反正都是玩,便宜的mac mini跑跑本地模型不花钱玩玩就行了。

TOP

posted by wap, platform: Android
我用4090跑了一天本地部署就立马放弃了,乖乖掏钱线上token

TOP

本地部署都是弱智级别的,而且对于一般人来说龙虾纯粹就是瞎折腾,几乎没有使用场景

TOP

posted by wap, platform: iPhone
一直没想明白多花上万块为了部署本地弱智模型为什么不去买收费的顶级模型,这之间的差距可隔了好几个50到90的云泥之别。

TOP

posted by wap, platform: Chrome
大佬们,有没有对中文理解比较好,没用内容审查限制的大模型。

TOP

posted by wap, platform: Android
引用:
原帖由 @xwings  于 2026-4-16 08:47 AM 发表
大佬们,有没有对中文理解比较好,没用内容审查限制的大模型。
去huggingface.co用关键字
Uncensored, abliterated之类的关键字搜索一下,非常多。好不好用,对中文理解好不好就不清楚了。

TOP

 30 12
发新话题