三步把DeepSeek装进PC, 及存储对端、侧:AI体,验影响
凭借与当前最先进闭源模型不分伯仲的综合能力,以及极有竞争力的训练和推理成本,国内开源大模型深度求索DeepSeek迅速崛起。360纳米AI搜索、腾讯元宝、知乎纷纷接入DeepSeek,本地部署DeepSeek也成为近期的热门话题。
端侧AI在保护隐私、脱机可用等方面具备独特优势,同时也能告别“服务器繁忙”,畅享DeepSeek自由。不过完整版的DeepSeek具备6710亿个参数,家用电脑的配置无法直接部署。DeepSeek在开源DeepSeek-R1的同时,蒸馏6个小模型开源给社区,给在PC上部署创造了可能。
STEP1:选择合适的模型
要把大象装冰箱,除了把冰箱门打开,还得选择“合适”的大象。理论上参数越多的模型能力也越强。但是选择适合自己的最重要。为了满足PC端侧部署的需要,还需要通过量化降低对显存的占用。
以ollama上提供的DeepSeek-R1模型为例,入门版的DeepSeek-R1-1.5B无需独显就能运行(纯CPU推理),模型文件只有1.1GB左右。中等的DeepSeek-R1-7B需要大约8GB显存,模型文件体积4.7GB。大型的DeepSeek-R1-14B需要大约16GB显存,模型文件体积9GB。DeepSeek-R1-32B需要顶级个人电脑来运行,显存需求大约24GB,模型文件体积20GB。
STEP2:部署模型和性能分析
通过ollama可以非常方便地部署DeepSeek大模型,安装ollama后首先pull选定的蒸馏模型。相关网上的教程已经有很多,不过仍需注意了解每一步的具体含义。比如很多教程中提到建立OLLAMA_HOST用户变量并设置为0.0.0.0,这样一来会将11434端口暴露到互联网上,存在一定安全隐患。如果只是本地使用,不要设置这个用户变量。
OLLAMA_MODELS用户变量用于手动指定模型数据的存储位置,对于我们接下来的测试会很有帮助。
在命令行中输入ollama run deepseek-r1:14b,完成加载后就可以和DeepSeek对话了。推理性能毫无疑问是跟显卡直接相关,在这里我们主要关注显存容量和SSD对使用性能的影响。在纯净系统中不运行其他程序的情况下,RTX 3060的12GB显存基本能够满足14b模型的需要。推理过程中的正常表现是GPU满负荷,CPU只有很小负荷,推理速度较快:
如果错误选择了超过显存容量的模型,在模型加载后除了显存基本用满之外,内存占用也会大幅增加,推理过程中GPU利用率低,CPU负荷较高,推理速度缓慢:
如果显存容量不够用,就需要CPU和GPU同时工作,增加CPU和内存占用,并且性能也会下降。模型文件体积则影响加载时间,由于个人电脑的使用性质,ollama默认会在5分钟空闲后释放显存,下次使用需要重新加载,而每一次加载都会影响到使用体验。接下来我们就测试几款不同的SSD加载DeepSeek-R1:32b的用时。
通过HWiNFO64每秒记录模型加载过程中的SSD活动。
PCIe 3.0接口的致态TiPlus5000 2TB用时10秒。PCIe 4.0接口的致态TiPlus7100 2TB用时6秒,相比PCIe 3.0节省40%。PCIe 5.0接口的致态TiPro9000 2TB加载用时4秒,相比PCIe 4.0节省33%,相比PCIe 3.0节省60%。
考虑到模型加载后显存占用的问题,超时自动释放和使用时重新加载是不可避免的。PCIe 5.0旗舰级致态TiPro9000对于端侧AI的使用体验会有非常明显的提升作用。对于想在本地安装Deepseek这类语言大模型的PC用户,存储方案显然首选PCIE5.0满速的固态硬盘。
STEP3:搭建本地知识库
DeepSeek能够为我们的工作和学习效率带来很多帮助,不过作为离线大模型,它的知识是存在截止时间的。对于2024年7月之后出现的新事物,DeepSeek-R1就无法准确地给出回答,譬如我们让它介绍一下今年上市的致态TiPro9000,回答的内容中会有不少错误。
我们可以通过本地知识库来加深DeepSeek对TiPro9000的了解。首先下载安装Cherry Studio,在设置中加入deepseek模型,以及将文本数据转换为向量标识的bge-m3嵌入模型。
接下来在知识库中导入PCEVA评测室之前对致态TiPro9000的评测内容:
现在同DeepSeek对话,它会参考我们在知识库中提供的信息进行回答,准确性得到大幅提升。
以上我们在个人电脑上部署了DeepSeek-R1大模型,通过实际测试验证了不同蒸馏模型对显存的需求,并考察了SSD对于大模型加载性能以及用户体验的影响。最后,通过搭建本地知识库,让本地部署的端侧大模型能够更好地为我们服务。
除了显卡规格直接影响推理速度之外,测试中可以看到SSD性能对端侧大模型的影响也是非常明显的,采用致态TiPro9000这样的满速PCIe 5.0 SSD可有效减少加载时长,提高用户体验。
(内容来源:文汇报)
作者: 编辑:吴雨欣
越牛新闻客户端
越牛新闻微信
绍兴发布微信
越牛新闻微博
绍兴发布微博
新闻热线
0575-88880000
投稿信箱
zjsxnet@163.com