【原创】在P52上用外置显卡继续探索deepseek-r1
上文书说到,P52上的P2000显卡只有4G显存,一次性只能装下1.5b的模型,否则就是CPU和GPU集成运算,速度比较着急deepseek-r1的模型中,1.5b就是玩具,7b-14b算一个等级,32b-70b算是一个等级,门槛在32b
32b模型20G,需要24G显存,有人说2080TI魔改版22G也能运行,
我想提升一下机器,尤其是显卡,
一是内核高级点,怎么也得图灵之后的,对应tesla系列就是T系列,对应Quadro就是RTX,对应GeForce就是20系
二是显存大些,最好24G往上,
三是不想功耗太高,噪音太大,
条件所限,只能用笔记本。
先是查了市场上笔记本显卡配置,发现显存最大16G,核心RTX5000ada,配它的都是旗舰机,价格很美丽,
低一些的,比如P15gen2 2021年款也不便宜,而且这些机器内存还没突破128G,
再加上Intel12代CPU过热,13-14代CPU故障,感觉当前不是购买笔记本的时候。
不得不考虑外置显卡,有24G的显卡一共三款,Titan RTX、3090、4090,
Titan RTX在4000元价位,3090在5300元,4090要13000元,
其实,显存如果上48G,就可以用70b了,最低的RTX8000也有4090的价位,
估计受到deepseek的冲击,后边的显卡显存可能会越来越大,价格也会下滑,
另一方面,国内支持deepseek的算力平台越来越多,价格战已经出现,有些计算可以转到网上,
对我这摸索性质,需求没那么高,能跑起来就行。
于是,经过比较,我买了外置显卡坞和一张3080Ti移动芯片改的外置显卡,显存16G,功耗上限115W,驱动需要手动安装。
现在,我的P52里有两个独立显卡,集成的在BIOS里关了,要不然P2000和3080无法共存。
装上后,用鲁大师做了测试,鲁大师竟然说我的P2000不支持AI,好在有3080还能做AI测试。
这回再跑14b就很轻松了,32b还是集成计算,不过也好像快了点。
写得清楚,小白表示:好像理解了 看来只有台式机了。 台式机是最佳解法,但大部分人都在移动需求,还是P系统列是个不错的选择 panyl 发表于 2025-2-16 12:30
上文书说到,P52上的P2000显卡只有4G显存,一次性只能装下1.5b的模型,否则就是CPU和GPU集成运算,速度比较 ...
楼主有没有在Linux内核下调用GPU算力,如果有好的方法望分享下,Linux内核下不会调,Windows下也不会调,毕竟不是码农出身,只是单纯想玩玩. 本帖最后由 panyl 于 2025-2-17 20:15 编辑
3asayhi 发表于 2025-2-16 15:39
楼主有没有在Linux内核下调用GPU算力,如果有好的方法望分享下,Linux内核下不会调,Windows下也不会调,毕竟 ...
linux没试过,win10可以试试以下设置。
1. 打开环境变量设置:
右键点击 开始菜单 → 系统 → 高级系统设置 → 环境变量。
2. 新建系统变量:
变量名: OLLAMA_GPU_LAYER,变量值: cuda(NVIDIA)
3. 制定GPU设备:
我有两个显卡,为了强制指定 GPU 设备,也添加了系统环境变量
变量名: CUDA_VISIBLE_DEVICES,变量值: 0
系统的GPU顺序是什么,可以反复试试,变量值从0,1,2到更多,我开始用的1发现没效果。
重启ollama,装入模型,观察“任务管理器”的“性能”页面可以看到模型装入过程。
我设置完后,用ollama装入了14b的模型,整个模型装入3080显存,没用到p2000
问了个问题,在3080显卡里运行很快,在任务管理器里看占用率没超过2%,但是nvidia-smi监测图到了88%,这88%不是在装入模型时的截图,就是回答问题过程中的截图
问题及回答见附件。
sharman 发表于 2025-2-16 12:37
写得清楚,小白表示:好像理解了
感谢,读者的评价最重要哈! 16G显存还是不太够啊...32B的没法全加到显存跑 panyl 发表于 2025-2-16 18:55
linux没试过,win10可以试试以下设置。
1. 打开环境变量设置:
按你的方法刚试了下,我的效果还是不太理想,还是以CPU为主,看任务中共享显存利用很高,可能是调用了核显,还要再调试,有空了再按你的思路去摸索GPU的顺序,我的P53是T1000显卡 我手头上还真没有可以跑这个的小黑,全都是核显 wangbin_yh 发表于 2025-2-17 00:30
16G显存还是不太够啊...32B的没法全加到显存跑
是啊,其实比较合适的是3090,不过功耗太高,又眼瞅要淘汰。 Gaoth2007 发表于 2025-2-17 08:21
我手头上还真没有可以跑这个的小黑,全都是核显
可以考虑外置显卡,有雷电3接口就行,好像现在的外置显卡坞都需要这个接口。 3asayhi 发表于 2025-2-17 00:38
按你的方法刚试了下,我的效果还是不太理想,还是以CPU为主,看任务中共享显存利用很高,可能是调用了核显,还 ...
T1000显卡也是4G显存吧,不知道对AI的支持怎么样,比我的P2000 4G提升多少。 panyl 发表于 2025-2-17 20:23
T1000显卡也是4G显存吧,不知道对AI的支持怎么样,比我的P2000 4G提升多少。
是的 4G显存,主要是要先调通过后才能给你参考数据,以前用没有发现,认为是平台太老,随着对AI模型的认知才发现我没有调用GPU的算力 panyl 发表于 2025-2-16 18:55
linux没试过,win10可以试试以下设置。
1. 打开环境变量设置:
任务管理器要选择cuda占用或其他的具体你自己看着办,默认显示的那个是3D占用。你这个跑32B速度有多少 StormBolt 发表于 2025-2-17 23:20
任务管理器要选择cuda占用或其他的具体你自己看着办,默认显示的那个是3D占用。你这个跑32B速度有多少 ...
我用这个命令,问了个问题
C:\Users\P52>ollama run deepseek-r1:32b --verbose
total duration: 1m59.1082793s
load duration: 18.7467ms
prompt eval count: 46 token(s)
prompt eval duration: 2.603s
prompt eval rate: 17.67 tokens/s
eval count: 391 token(s)
eval duration: 1m56.485s
eval rate: 3.36 tokens/s StormBolt 发表于 2025-2-17 23:20
任务管理器要选择cuda占用或其他的具体你自己看着办,默认显示的那个是3D占用。你这个跑32B速度有多少 ...
谢谢指点,知道把任务管理器的3D改为CUDA了:) 我又测了一下14b的速度
C:\Users\P52>ollama run deepseek-r1:14b --verbose
total duration: 7.6745916s
load duration: 18.5174ms
prompt eval count: 144 token(s)
prompt eval duration: 9ms
prompt eval rate: 16000.00 tokens/s
eval count: 277 token(s)
eval duration: 7.638s
eval rate: 36.27 tokens/s panyl 发表于 2025-2-18 21:54
我用这个命令,问了个问题
C:%users\P52>ollama run deepseek-r1:32b --verbose
速度慢得有点不正常,显存那里占用共享显存了? StormBolt 发表于 2025-2-18 23:12
速度慢得有点不正常,显存那里占用共享显存了?
是啊,32b要40G,超过显存容量了,我这3080只有16G panyl 发表于 2025-2-19 19:52
是啊,32b要40G,超过显存容量了,我这3080只有16G
不,显存占到16G就可以了,剩下让CPU跑,放内存里,共享显存要弄成0速度才能最大化
但是ollama我不知道怎么调占比,我用的是LMStudio 我的也是P52回头也整一个外接的,安装的的7b,和网站回复感觉还是有一差距。 学习下 学习下 学习下 StormBolt 发表于 2025-2-19 20:29
不,显存占到16G就可以了,剩下让CPU跑,放内存里,共享显存要弄成0速度才能最大化
但是ollama我不知道 ...
还可以这样吗,回头我研究一下
页:
[1]