TGFC Lifestyle - Powered by Discuz! Board

标题: 搞了几天，终于在24GB内存的Mac Mini M4比较爽地用上本地龙虾了 [打印本页]

作者: lelivre 时间: 2026-3-20 21:21 标题: 搞了几天，终于在24GB内存的Mac Mini M4比较爽地用上本地龙虾了

posted by wap, platform: Android
推理引擎用的是oMLX, 这个目前最快。

本地模型试过了很多个，这个硬件条件下最能用的是：

1. gpt oss 20b 4bit版本，
2. qwen3.5 30b 4bit版本，
3. qwen3.5 9b 4bit版本。

兼顾了速度和质量，还要24GB能装下。

不过我没什么应用场合，感觉有点无聊，不知干啥。

作者: hoveytao 时间: 2026-3-21 12:02

posted by wap, platform: Android
8g的m2一样安装，不过基本上闲置了

作者: 剑二十三 时间: 2026-3-21 12:18

千问线上都弱智了，这本地岂不是弱智的跟傻逼一样

作者: 为谁涅槃 时间: 2026-3-21 12:30

posted by wap, platform: iPhone
这种小模型只能做些基础的重复性的工具使用，不用想去做推理研究和制作。不过本地的智能家居，nas下载管理，本地翻译等轻量级任务应该是可以的。

作者: lvcha 时间: 2026-3-21 12:44

posted by wap, platform: Firefox
nas上也就docker pull一下的事情，没花多长时间。
我大部分时间花在飞书推送上了，然后发现其实是我傻了，它自己能解决。
装好就吃灰了，没需求=没啥用

作者: zhufigo 时间: 2026-3-21 16:32

posted by wap, platform: Android
只有9B那个能跑。前两个模型龙虾很容易内存爆掉，KV CACHE太大

作者: lelivre 时间: 2026-3-21 17:20

posted by wap, platform: Android

引用:

原帖由 @zhufigo 于 2026-3-21 04:32 PM 发表
只有9B那个能跑。前两个模型龙虾很容易内存爆掉，KV CACHE太大

看你内存大小了，我24GB用下来GPT OSS 20b还是很爽的，一直没爆，如果超出上下文长度，它会告诉你，然后你再新开一个session就行了。这个模型虽然做不到秒回，但是两三秒回还是可以的。

用来玩还是很不错，个资也可以放心聊，因为是本地的，不会上传给别人。

作者: 蒂亚戈席尔瓦 时间: 2026-3-21 17:42

龙虾带动了macmini的销量

作者: dzgxg 时间: 2026-3-21 17:56

posted by wap, platform: MAC OS X
我是16g的m1 imac，用ollama接入openclaw的话，基本所有模型都属于不可用的水平，响应极慢甚至一直不响应，前两天试了omlx，感觉更慢，按说应该是比ollama好一些，但确实也是不可用的水平，不过毕竟是很老的电脑了。配置低的话可以用模型跑一些不接入前端的本地任务，24g的话没试过，感觉响应速度能接受的话也行，我拿qwen3:8b接龙虾写过一些脚本，没有问题，如果是接openwebui的话，其实响应速度确实要快很多

作者: 焚岚 时间: 2026-3-21 18:00

posted by wap, platform: iPhone
最后一行喷了，中年人fomo常态

作者: 今夜打老虎 时间: 2026-3-21 18:19

posted by wap, platform: Android
你可以让龙虾在这帖子里对线

作者: 永恒蔚蓝 时间: 2026-3-21 18:42

posted by wap, platform: iPhone
喷了，看来以后闲鱼上会有非常多mac mini

作者: lelivre 时间: 2026-3-21 18:46

posted by wap, platform: Android

引用:

原帖由 @dzgxg 于 2026-3-21 05:56 PM 发表
我是16g的m1 imac，用ollama接入openclaw的话，基本所有模型都属于不可用的水平，响应极慢甚至一直不响应，前两天试了omlx，感觉更慢，按说应该是比ollama好一些，但确实也是不可用的水平，不过毕竟是很老的电脑了。配置低的话可以用模型跑一些不接入前端的本地任务，24g的话没试过，感觉响应速度能接受的话也行，我拿qwen3:8b接龙虾写过一些脚本，没有问题，如果是接openwebui的话，其实响应速度确实要快很多

是这样的，

首先M1确实比M4慢很多，

然后就是模型选择，GPT OSS 20b和Qwen3.5 35B A3b这种MOE模型，每次只有3b左右的激活参数，所以会比8b、9b这种密集模型要快很多。3b vs 9b这样。

作者: dzgxg 时间: 2026-3-21 20:07

posted by wap, platform: MAC OS X

引用:

原帖由 @lelivre 于 2026-3-21 18:46 发表
是这样的，

首先M1确实比M4慢很多，

然后就是模型选择，GPT OSS 20b和Qwen3.5 35B A3b这种MOE模型，每次只有3b左右的激活参数，所以会比8b、9b这种密集模型要快很多。3b vs 9b这样。

所以本地模型接openclaw，以我个人感觉24g内存是底线，16是能接openwebui使用的，因为输出的token量相对少很多，24的话从模型参数到上下文的冗余都大不少。具体还是要看干什么，哪怕是我那老m1，在本地按需调用功能型的小模型也可以干事。24g内存的话可以摸到可玩性的边了，不过没需求的话无所谓

作者: ooo 时间: 2026-3-21 21:49

posted by wap, platform: iPhone
养本地龙虾看来买M5的mac得上32g内存了

作者: zhufigo 时间: 2026-3-21 22:57

posted by wap, platform: Android
我是24G的M4 pro，9B模型直接webui速度还行，大约60t/s。上龙虾就慢了，看了下每次对话都差不多20k，让它装个小软件，就用掉2M token，喷了。

作者: wangxia 时间: 2026-3-22 01:41

posted by wap, platform: Android
本地模型在openclaw里用，上下文才是决定速度的关键，每次聊天基本等于把历史记录都发一遍出去，越来越多，内存少的话就爆了，不开新session的话说个hi它都要等几分钟才回复

作者: 黄金大表哥 时间: 2026-3-22 08:15

posted by wap, platform: Android
家里养虾不能取代互联网套餐虾。家里可以养，本地干杂活工作量大。
但在外还是得有在外的助手。

首先，复杂的信息整理工作还是在家进行的，工作成果也可以直接访问家里电脑、nas，不一定要这么尚不成熟的网关。
比如，如果需要大量的信息收集整理，比如下载跟踪几十个股票的资料和新闻，不如让家养虾在家自己干活，在外直接nas看一眼。
而且罗列式的界面比问答式的界面高效多了，毕竟是你自己要的内容。

第二，出门在外需要一个顺手的行程助手，包括吃、行、住，比如当天替你安排下周出行，包括酒店机票。那还是用商家的虾算了。
这些破工作没什么难的，难的是信息分离，谁有权至少是收集信息：出差邮件在公司电脑上，订火车票一般是个人12306，还有各种在线会议用各家平台，分立各种日历。
如果信息能全面汇总到系统上，早就有app全套搞定了。
苹果在这方面做得很好了，关键是商务app认，个人app也认。
现在换了虾你还是得给它说一大段话，或者发一堆手机截图。说白了你变缓存了，漏说/发一点就很麻烦。
还不如做好邮件和日历自动化工作。当然如果是小企业，能有录音，那更牛逼。

然后我那新电脑也能调通，本地小ai，接到扣子上以后，问一句你好，反应十秒八秒是有的。当时就没了兴致。

可能还要优化。

我买电脑是因为春节期间在家用小电脑跑Trae搞小程序，挺有意思的，可以让他长期跑。
长期跑的话成本是个问题，尤其前期tk可能还比较贵。所以买个x86的机器，接合本地跑ai和本地调试。
但程序开发，同时浏览文件列表和大量代码，这种ide界面，用虾显然不如向日葵。虾的好处是简讯通知：主人，您的APP更新好了，我们已经杀了一个小龙虾祭天。

再打个比方，你是生产管理者，你希望每天看到小组长们早请示晚汇报呢，还是随时开电脑都有实时的工厂产量/设备/问题状况图表？
所以我觉得，个人自用，又回到向日葵了。

本帖最后由黄金大表哥于 2026-3-22 00:26 通过手机版编辑

欢迎光临 TGFC Lifestyle (http://tgfcer.com/)