网站首页 > 显卡 > 正文

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？

爱科学显卡2023-05-20 11:29:489360

Meta的大语言模型LLaMA 13B，现在用2060就能跑了~

羊驼家族的Alpaca和Vicuna也都能运行，显存最低只需要6G，简直是低VRAM用户的福音有木有。

GitHub上的搭建教程火了之后，网友们纷纷跑来问苹果M2是不是也能跑。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第1张

这通操作的大致原理是利用最新版CUDA，可以将Transformer中任意数量的层放在GPU上运行。

与此前llama.cpp项目完全运行在CPU相比，用GPU替代一半的CPU可以将效率提高将近2倍。

而如果纯用GPU，这一数字将变成6倍。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第2张

网友实测的结果中，使用CPU每秒能跑2.1个token，而用GPU能跑3.2个。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第3张

生成的内容上，开发者成功用它跑出了“尼采文学”。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第4张

如何操作在开始搭建之前，我们需要先申请获得LLaMA的访问权限。

传送门：https://ai.facebook.com/blog/large-language-model-llama-meta-ai/

此外还需要有一个Linux环境。（Windows用户可以用WSL2）

准备工作完成之后，第一步是将llama.cpp克隆到本地。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第5张

如果没有安装CUDA，可以参考下面的步骤：

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第6张

然后是建立micromamba环境，安装Python和PyTorch等工具。

接着需要在micromamba环境下安装一些包：

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第7张

然后运行Python脚本以执行转换过程：

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第8张

之后将其量化为4bit模式。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第9张

接着是新建一个txt文本文档，把提示词输入进去，然后就可以运行了。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第10张

这步当中-ngl后面的数字是可以修改的，它代表了转换层的数量。

当该值为18时，运行中消耗的VRAM为5.5GB，根据显存的大小最高可以调至40。

网友：AMD不配吗

这一教程出现之后，网友们的新玩具又增加了。

“苦OpenAI久矣”的网友更是感觉仿佛找到了光。

这位网友就表示自己太期待在自己的设备上运行LLM了，宁愿花5千美元购置设备也不想给OpenAI交一分钱。

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第11张

但AMD用户可能就不那么兴奋了，甚至透露出了嫉妒之情。

这套方法要用到CUDA（英伟达专用），所以AMD是不配了吗？

6G显存玩转130亿参数大模型 RTX 2060用户发来贺电 AMD不配吗？第12张

那么，你期待用自己的设备跑大语言模型吗？

☆未收藏(0)

本文由 @爱科学于 2023-05-20 发布在酷瑞百科，如有疑问，请联系我们。
本文链接：https://www.krbk.com/xk/15728.html

爱科学网站编辑

愿我的中国同胞早日脱离迷信，踢开玄学，拥抱科学。

上一篇

14英寸机身塞下18英寸屏！华硕灵耀X 双屏Pro 2023图赏

下一篇

洗刷耻辱 QLC闪存性能追上TLC 可靠性逆袭：32PBW写不死

返回顶部暗黑模式