Board logo

标题: 搞了几天,终于在24GB内存的Mac Mini M4比较爽地用上本地龙虾了 [打印本页]

作者: lelivre    时间: 2026-3-20 21:21     标题: 搞了几天,终于在24GB内存的Mac Mini M4比较爽地用上本地龙虾了

posted by wap, platform: Android
推理引擎用的是oMLX, 这个目前最快。

本地模型试过了很多个,这个硬件条件下最能用的是:

1. gpt oss 20b 4bit版本,
2. qwen3.5 30b 4bit版本,
3. qwen3.5 9b 4bit版本。

兼顾了速度和质量,还要24GB能装下。

不过我没什么应用场合,感觉有点无聊,不知干啥。
作者: hoveytao    时间: 2026-3-21 12:02

posted by wap, platform: Android
8g的m2一样安装,不过基本上闲置了
作者: 剑二十三    时间: 2026-3-21 12:18

千问线上都弱智了,这本地岂不是弱智的跟傻逼一样
作者: 为谁涅槃    时间: 2026-3-21 12:30

posted by wap, platform: iPhone
这种小模型只能做些基础的重复性的工具使用,不用想去做推理研究和制作。不过本地的智能家居,nas下载管理,本地翻译等轻量级任务应该是可以的。
作者: lvcha    时间: 2026-3-21 12:44

posted by wap, platform: Firefox
nas上也就docker pull一下的事情,没花多长时间。
我大部分时间花在飞书推送上了,然后发现其实是我傻了,它自己能解决。
装好就吃灰了,没需求=没啥用
作者: zhufigo    时间: 2026-3-21 16:32

posted by wap, platform: Android
只有9B那个能跑。前两个模型龙虾很容易内存爆掉,KV CACHE太大
作者: lelivre    时间: 2026-3-21 17:20

posted by wap, platform: Android
引用:
原帖由 @zhufigo  于 2026-3-21 04:32 PM 发表
只有9B那个能跑。前两个模型龙虾很容易内存爆掉,KV CACHE太大
看你内存大小了,我24GB用下来GPT OSS 20b还是很爽的,一直没爆,如果超出上下文长度,它会告诉你,然后你再新开一个session就行了。这个模型虽然做不到秒回,但是两三秒回还是可以的。

用来玩还是很不错,个资也可以放心聊,因为是本地的,不会上传给别人。
作者: 蒂亚戈席尔瓦    时间: 2026-3-21 17:42

龙虾带动了macmini的销量
作者: dzgxg    时间: 2026-3-21 17:56

posted by wap, platform: MAC OS X
我是16g的m1 imac,用ollama接入openclaw的话,基本所有模型都属于不可用的水平,响应极慢甚至一直不响应,前两天试了omlx,感觉更慢,按说应该是比ollama好一些,但确实也是不可用的水平,不过毕竟是很老的电脑了。配置低的话可以用模型跑一些不接入前端的本地任务,24g的话没试过,感觉响应速度能接受的话也行,我拿qwen3:8b接龙虾写过一些脚本,没有问题,如果是接openwebui的话,其实响应速度确实要快很多
作者: 焚岚    时间: 2026-3-21 18:00

posted by wap, platform: iPhone
最后一行喷了,中年人fomo常态
作者: 今夜打老虎    时间: 2026-3-21 18:19

posted by wap, platform: Android
你可以让龙虾在这帖子里对线
作者: 永恒蔚蓝    时间: 2026-3-21 18:42

posted by wap, platform: iPhone
喷了,看来以后闲鱼上会有非常多mac mini
作者: lelivre    时间: 2026-3-21 18:46

posted by wap, platform: Android
引用:
原帖由 @dzgxg  于 2026-3-21 05:56 PM 发表
我是16g的m1 imac,用ollama接入openclaw的话,基本所有模型都属于不可用的水平,响应极慢甚至一直不响应,前两天试了omlx,感觉更慢,按说应该是比ollama好一些,但确实也是不可用的水平,不过毕竟是很老的电脑了。配置低的话可以用模型跑一些不接入前端的本地任务,24g的话没试过,感觉响应速度能接受的话也行,我拿qwen3:8b接龙虾写过一些脚本,没有问题,如果是接openwebui的话,其实响应速度确实要快很多
是这样的,

首先M1确实比M4慢很多,

然后就是模型选择,GPT OSS 20b和Qwen3.5 35B A3b这种MOE模型,每次只有3b左右的激活参数,所以会比8b、9b这种密集模型要快很多。3b vs 9b这样。
作者: dzgxg    时间: 2026-3-21 20:07

posted by wap, platform: MAC OS X
引用:
原帖由 @lelivre  于 2026-3-21 18:46 发表
是这样的,

首先M1确实比M4慢很多,

然后就是模型选择,GPT OSS 20b和Qwen3.5 35B A3b这种MOE模型,每次只有3b左右的激活参数,所以会比8b、9b这种密集模型要快很多。3b vs 9b这样。
所以本地模型接openclaw,以我个人感觉24g内存是底线,16是能接openwebui使用的,因为输出的token量相对少很多,24的话从模型参数到上下文的冗余都大不少。具体还是要看干什么,哪怕是我那老m1,在本地按需调用功能型的小模型也可以干事。24g内存的话可以摸到可玩性的边了,不过没需求的话无所谓
作者: ooo    时间: 2026-3-21 21:49

posted by wap, platform: iPhone
养本地龙虾看来买M5的mac得上32g内存了
作者: zhufigo    时间: 2026-3-21 22:57

posted by wap, platform: Android
我是24G的M4 pro,9B模型直接webui速度还行,大约60t/s。上龙虾就慢了,看了下每次对话都差不多20k,让它装个小软件,就用掉2M token,喷了。
作者: wangxia    时间: 2026-3-22 01:41

posted by wap, platform: Android
本地模型在openclaw里用,上下文才是决定速度的关键,每次聊天基本等于把历史记录都发一遍出去,越来越多,内存少的话就爆了,不开新session的话说个hi它都要等几分钟才回复
作者: 黄金大表哥    时间: 2026-3-22 08:15

posted by wap, platform: Android
家里养虾不能取代互联网套餐虾。家里可以养,本地干杂活工作量大。
但在外还是得有在外的助手。

首先,复杂的信息整理工作还是在家进行的,工作成果也可以直接访问家里电脑、nas,不一定要这么尚不成熟的网关。
比如,如果需要大量的信息收集整理,比如下载跟踪几十个股票的资料和新闻,不如让家养虾在家自己干活,在外直接nas看一眼。
而且罗列式的界面比问答式的界面高效多了,毕竟是你自己要的内容。

第二,出门在外需要一个顺手的行程助手,包括吃、行、住,比如当天替你安排下周出行,包括酒店机票。那还是用商家的虾算了。
这些破工作没什么难的,难的是信息分离,谁有权至少是收集信息:出差邮件在公司电脑上,订火车票一般是个人12306,还有各种在线会议用各家平台,分立各种日历。
如果信息能全面汇总到系统上,早就有app全套搞定了。
苹果在这方面做得很好了,关键是商务app认,个人app也认。
现在换了虾你还是得给它说一大段话,或者发一堆手机截图。说白了你变缓存了,漏说/发一点就很麻烦。
还不如做好邮件和日历自动化工作。当然如果是小企业,能有录音,那更牛逼。


然后我那新电脑也能调通,本地小ai,接到扣子上以后,问一句你好,反应十秒八秒是有的。当时就没了兴致。

可能还要优化。

我买电脑是因为春节期间在家用小电脑跑Trae搞小程序,挺有意思的,可以让他长期跑。
长期跑的话成本是个问题,尤其前期tk可能还比较贵。所以买个x86的机器,接合本地跑ai和本地调试。
但程序开发,同时浏览文件列表和大量代码,这种ide界面,用虾显然不如向日葵。虾的好处是简讯通知:主人,您的APP更新好了,我们已经杀了一个小龙虾祭天。

再打个比方,你是生产管理者,你希望每天看到小组长们早请示晚汇报呢,还是随时开电脑都有实时的工厂产量/设备/问题状况图表?
所以我觉得,个人自用,又回到向日葵了。

本帖最后由 黄金大表哥 于 2026-3-22 00:26 通过手机版编辑




欢迎光临 TGFC Lifestyle (http://tgfcer.com/) Powered by Discuz! 6.0.0