Mac M3 Max 128GB挑战大语言模型（LLM）报告-有驾

Mac M3 Max 128GB挑战大语言模型（LLM）报告

汽车知识橙子

发布时间：2024-05-30 02:59

身为统计学家，我始终对大语言模型抱有浓厚兴趣。然而，受限于我那配置不高的电脑，只有一块3090显卡，它仅能应对小型的语言模型。因此，我有了升级电脑的念头。苹果Mac pro系列那高达128gb的内存配置吸引了我的目光。恰逢苹果新推出的M3系列芯片上市，手头又恰好有些闲钱，我便果断下单了一台M3 Max 128gb版本的笔记本。

拿到新电脑后，我迫不及待地开始尝试运行大语言模型。首个挑战的是近来备受瞩目的mixtral 8x7b模型，它在Q8量化后内存占用达48gb。实际体验中，它的回答速度之快令人咋舌，几乎与网页版chatgpt不相上下，每秒能处理23个token。尽管该模型并未宣称支持中文，但当我用中文提问时，它依然能给出答案，且回答得相当有模有样。

接下来，我尝试了Qwen72b Q8量化版。由于Qwen官方的代码中包含了一些mac不支持的python包，因此载入这个模型需要一些额外的操作。经过一番努力，我终于成功将其载入，内存占用高达80GB。这真不愧是72b的大模型，就连一些看似简单的问题，它也能回答得更有条理。不过，它的速度相对较慢，每秒仅能处理4个token。尽管如此，这仍远远超过了我原先3090显卡的性能。作为对比，我的3090在Q4量化下，生成一个字甚至需要等待十几秒。

我总结了自己测试的这些模型，并将其整理成表格。从表格中可以看出，对于小模型而言，3090由于其更多的计算单元和更大的带宽，速度确实会比M3 Max稍快一些，但这种优势并不显著。然而，一旦模型参数大小超过3090的显存容量，3090的速度会急剧下降，变得难以忍受。相比之下，M3 Max则能以相对可接受的速度运行这些大型模型。

大家还想了解哪个模型的性能表现？

全部评论（0）

暂无评论

Mac M3 Max 128GB挑战大语言模型（LLM）报告

全部评论 （0）

热门推荐

全部评论（0）