panyl 发表于 2025-2-16 12:30

【原创】在P52上用外置显卡继续探索deepseek-r1

上文书说到,P52上的P2000显卡只有4G显存,一次性只能装下1.5b的模型,否则就是CPU和GPU集成运算,速度比较着急


deepseek-r1的模型中,1.5b就是玩具,7b-14b算一个等级,32b-70b算是一个等级,门槛在32b

32b模型20G,需要24G显存,有人说2080TI魔改版22G也能运行,
我想提升一下机器,尤其是显卡,
一是内核高级点,怎么也得图灵之后的,对应tesla系列就是T系列,对应Quadro就是RTX,对应GeForce就是20系
二是显存大些,最好24G往上,
三是不想功耗太高,噪音太大,

条件所限,只能用笔记本。
先是查了市场上笔记本显卡配置,发现显存最大16G,核心RTX5000ada,配它的都是旗舰机,价格很美丽,
低一些的,比如P15gen2 2021年款也不便宜,而且这些机器内存还没突破128G,
再加上Intel12代CPU过热,13-14代CPU故障,感觉当前不是购买笔记本的时候。

不得不考虑外置显卡,有24G的显卡一共三款,Titan RTX、3090、4090,
Titan RTX在4000元价位,3090在5300元,4090要13000元,
其实,显存如果上48G,就可以用70b了,最低的RTX8000也有4090的价位,
估计受到deepseek的冲击,后边的显卡显存可能会越来越大,价格也会下滑,
另一方面,国内支持deepseek的算力平台越来越多,价格战已经出现,有些计算可以转到网上,
对我这摸索性质,需求没那么高,能跑起来就行。

于是,经过比较,我买了外置显卡坞和一张3080Ti移动芯片改的外置显卡,显存16G,功耗上限115W,驱动需要手动安装。
现在,我的P52里有两个独立显卡,集成的在BIOS里关了,要不然P2000和3080无法共存。

装上后,用鲁大师做了测试,鲁大师竟然说我的P2000不支持AI,好在有3080还能做AI测试。
这回再跑14b就很轻松了,32b还是集成计算,不过也好像快了点。




sharman 发表于 2025-2-16 12:37

写得清楚,小白表示:好像理解了

jack-wu1982 发表于 2025-2-16 14:07

看来只有台式机了。

3asayhi 发表于 2025-2-16 15:38

台式机是最佳解法,但大部分人都在移动需求,还是P系统列是个不错的选择

3asayhi 发表于 2025-2-16 15:39

panyl 发表于 2025-2-16 12:30
上文书说到,P52上的P2000显卡只有4G显存,一次性只能装下1.5b的模型,否则就是CPU和GPU集成运算,速度比较 ...

楼主有没有在Linux内核下调用GPU算力,如果有好的方法望分享下,Linux内核下不会调,Windows下也不会调,毕竟不是码农出身,只是单纯想玩玩.

panyl 发表于 2025-2-16 18:55

本帖最后由 panyl 于 2025-2-17 20:15 编辑

3asayhi 发表于 2025-2-16 15:39
楼主有没有在Linux内核下调用GPU算力,如果有好的方法望分享下,Linux内核下不会调,Windows下也不会调,毕竟 ...
linux没试过,win10可以试试以下设置。

1. 打开环境变量设置:
右键点击 开始菜单 → 系统 → 高级系统设置 → 环境变量。

2. 新建系统变量:
变量名: OLLAMA_GPU_LAYER,变量值: cuda(NVIDIA)

3. 制定GPU设备:
我有两个显卡,为了强制指定 GPU 设备,也添加了系统环境变量
变量名: CUDA_VISIBLE_DEVICES,变量值: 0
系统的GPU顺序是什么,可以反复试试,变量值从0,1,2到更多,我开始用的1发现没效果。

重启ollama,装入模型,观察“任务管理器”的“性能”页面可以看到模型装入过程。

我设置完后,用ollama装入了14b的模型,整个模型装入3080显存,没用到p2000
问了个问题,在3080显卡里运行很快,在任务管理器里看占用率没超过2%,但是nvidia-smi监测图到了88%,这88%不是在装入模型时的截图,就是回答问题过程中的截图
问题及回答见附件。

panyl 发表于 2025-2-16 19:59

sharman 发表于 2025-2-16 12:37
写得清楚,小白表示:好像理解了

感谢,读者的评价最重要哈!

wangbin_yh 发表于 2025-2-17 00:30

16G显存还是不太够啊...32B的没法全加到显存跑

3asayhi 发表于 2025-2-17 00:38

panyl 发表于 2025-2-16 18:55
linux没试过,win10可以试试以下设置。

1. 打开环境变量设置:


按你的方法刚试了下,我的效果还是不太理想,还是以CPU为主,看任务中共享显存利用很高,可能是调用了核显,还要再调试,有空了再按你的思路去摸索GPU的顺序,我的P53是T1000显卡

Gaoth2007 发表于 2025-2-17 08:21

我手头上还真没有可以跑这个的小黑,全都是核显

panyl 发表于 2025-2-17 20:16

wangbin_yh 发表于 2025-2-17 00:30
16G显存还是不太够啊...32B的没法全加到显存跑

是啊,其实比较合适的是3090,不过功耗太高,又眼瞅要淘汰。

panyl 发表于 2025-2-17 20:17

Gaoth2007 发表于 2025-2-17 08:21
我手头上还真没有可以跑这个的小黑,全都是核显
可以考虑外置显卡,有雷电3接口就行,好像现在的外置显卡坞都需要这个接口。

panyl 发表于 2025-2-17 20:23

3asayhi 发表于 2025-2-17 00:38
按你的方法刚试了下,我的效果还是不太理想,还是以CPU为主,看任务中共享显存利用很高,可能是调用了核显,还 ...

T1000显卡也是4G显存吧,不知道对AI的支持怎么样,比我的P2000 4G提升多少。

3asayhi 发表于 2025-2-17 21:57

panyl 发表于 2025-2-17 20:23
T1000显卡也是4G显存吧,不知道对AI的支持怎么样,比我的P2000 4G提升多少。

是的 4G显存,主要是要先调通过后才能给你参考数据,以前用没有发现,认为是平台太老,随着对AI模型的认知才发现我没有调用GPU的算力

StormBolt 发表于 2025-2-17 23:20

panyl 发表于 2025-2-16 18:55
linux没试过,win10可以试试以下设置。

1. 打开环境变量设置:


任务管理器要选择cuda占用或其他的具体你自己看着办,默认显示的那个是3D占用。你这个跑32B速度有多少

panyl 发表于 2025-2-18 21:54

StormBolt 发表于 2025-2-17 23:20
任务管理器要选择cuda占用或其他的具体你自己看着办,默认显示的那个是3D占用。你这个跑32B速度有多少 ...

我用这个命令,问了个问题
C:\Users\P52>ollama run deepseek-r1:32b --verbose

total duration:       1m59.1082793s
load duration:      18.7467ms
prompt eval count:    46 token(s)
prompt eval duration: 2.603s
prompt eval rate:   17.67 tokens/s
eval count:         391 token(s)
eval duration:      1m56.485s
eval rate:            3.36 tokens/s

panyl 发表于 2025-2-18 22:03

StormBolt 发表于 2025-2-17 23:20
任务管理器要选择cuda占用或其他的具体你自己看着办,默认显示的那个是3D占用。你这个跑32B速度有多少 ...

谢谢指点,知道把任务管理器的3D改为CUDA了:)

panyl 发表于 2025-2-18 22:17

我又测了一下14b的速度
C:\Users\P52>ollama run deepseek-r1:14b --verbose

total duration:       7.6745916s
load duration:      18.5174ms
prompt eval count:    144 token(s)
prompt eval duration: 9ms
prompt eval rate:   16000.00 tokens/s
eval count:         277 token(s)
eval duration:      7.638s
eval rate:            36.27 tokens/s

StormBolt 发表于 2025-2-18 23:12

panyl 发表于 2025-2-18 21:54
我用这个命令,问了个问题
C:%users\P52>ollama run deepseek-r1:32b --verbose



速度慢得有点不正常,显存那里占用共享显存了?

panyl 发表于 2025-2-19 19:52

StormBolt 发表于 2025-2-18 23:12
速度慢得有点不正常,显存那里占用共享显存了?

是啊,32b要40G,超过显存容量了,我这3080只有16G

StormBolt 发表于 2025-2-19 20:29

panyl 发表于 2025-2-19 19:52
是啊,32b要40G,超过显存容量了,我这3080只有16G

不,显存占到16G就可以了,剩下让CPU跑,放内存里,共享显存要弄成0速度才能最大化

但是ollama我不知道怎么调占比,我用的是LMStudio

lfbzyj 发表于 2025-2-20 16:20

我的也是P52回头也整一个外接的,安装的的7b,和网站回复感觉还是有一差距。

newnbuser 发表于 2025-2-20 17:29

学习下

newnbuser 发表于 2025-2-20 17:29

学习下

newnbuser 发表于 2025-2-20 17:29

学习下

panyl 发表于 2025-2-20 21:13

StormBolt 发表于 2025-2-19 20:29
不,显存占到16G就可以了,剩下让CPU跑,放内存里,共享显存要弄成0速度才能最大化

但是ollama我不知道 ...

还可以这样吗,回头我研究一下
页: [1]
查看完整版本: 【原创】在P52上用外置显卡继续探索deepseek-r1