Mac M3 Max 128GB挑战大语言模型(LLM)报告

身为统计学家,我始终对大语言模型抱有浓厚兴趣。然而,受限于我那配置不高的电脑,只有一块3090显卡,它仅能应对小型的语言模型。因此,我有了升级电脑的念头。苹果Mac pro系列那高达128gb的内存配置吸引了我的目光。恰逢苹果新推出的M3系列芯片上市,手头又恰好有些闲钱,我便果断下单了一台M3 Max 128gb版本的笔记本。

Mac M3 Max 128GB挑战大语言模型(LLM)报告-有驾

拿到新电脑后,我迫不及待地开始尝试运行大语言模型。首个挑战的是近来备受瞩目的mixtral 8x7b模型,它在Q8量化后内存占用达48gb。实际体验中,它的回答速度之快令人咋舌,几乎与网页版chatgpt不相上下,每秒能处理23个token。尽管该模型并未宣称支持中文,但当我用中文提问时,它依然能给出答案,且回答得相当有模有样。

Mac M3 Max 128GB挑战大语言模型(LLM)报告-有驾

接下来,我尝试了Qwen72b Q8量化版。由于Qwen官方的代码中包含了一些mac不支持的python包,因此载入这个模型需要一些额外的操作。经过一番努力,我终于成功将其载入,内存占用高达80GB。这真不愧是72b的大模型,就连一些看似简单的问题,它也能回答得更有条理。不过,它的速度相对较慢,每秒仅能处理4个token。尽管如此,这仍远远超过了我原先3090显卡的性能。作为对比,我的3090在Q4量化下,生成一个字甚至需要等待十几秒。

Mac M3 Max 128GB挑战大语言模型(LLM)报告-有驾

我总结了自己测试的这些模型,并将其整理成表格。从表格中可以看出,对于小模型而言,3090由于其更多的计算单元和更大的带宽,速度确实会比M3 Max稍快一些,但这种优势并不显著。然而,一旦模型参数大小超过3090的显存容量,3090的速度会急剧下降,变得难以忍受。相比之下,M3 Max则能以相对可接受的速度运行这些大型模型。

大家还想了解哪个模型的性能表现?

0

全部评论 (0)

暂无评论