【原创】在P52上用外置显卡继续探索deepseek-r1

panyl 发表于 2025-2-16 12:30

上文书说到，P52上的P2000显卡只有4G显存，一次性只能装下1.5b的模型，否则就是CPU和GPU集成运算，速度比较着急

deepseek-r1的模型中，1.5b就是玩具，7b-14b算一个等级，32b-70b算是一个等级，门槛在32b

32b模型20G，需要24G显存，有人说2080TI魔改版22G也能运行，
我想提升一下机器，尤其是显卡，
一是内核高级点，怎么也得图灵之后的，对应tesla系列就是T系列，对应Quadro就是RTX，对应GeForce就是20系
二是显存大些，最好24G往上，
三是不想功耗太高，噪音太大，

条件所限，只能用笔记本。
先是查了市场上笔记本显卡配置，发现显存最大16G，核心RTX5000ada，配它的都是旗舰机，价格很美丽，
低一些的，比如P15gen2 2021年款也不便宜，而且这些机器内存还没突破128G，
再加上Intel12代CPU过热，13-14代CPU故障，感觉当前不是购买笔记本的时候。

不得不考虑外置显卡，有24G的显卡一共三款，Titan RTX、3090、4090，
Titan RTX在4000元价位，3090在5300元，4090要13000元，
其实，显存如果上48G，就可以用70b了，最低的RTX8000也有4090的价位，
估计受到deepseek的冲击，后边的显卡显存可能会越来越大，价格也会下滑，
另一方面，国内支持deepseek的算力平台越来越多，价格战已经出现，有些计算可以转到网上，
对我这摸索性质，需求没那么高，能跑起来就行。

于是，经过比较，我买了外置显卡坞和一张3080Ti移动芯片改的外置显卡，显存16G，功耗上限115W，驱动需要手动安装。
现在，我的P52里有两个独立显卡，集成的在BIOS里关了，要不然P2000和3080无法共存。

装上后，用鲁大师做了测试，鲁大师竟然说我的P2000不支持AI，好在有3080还能做AI测试。
这回再跑14b就很轻松了，32b还是集成计算，不过也好像快了点。

sharman 发表于 2025-2-16 12:37

写得清楚，小白表示：好像理解了

jack-wu1982 发表于 2025-2-16 14:07

看来只有台式机了。

3asayhi 发表于 2025-2-16 15:38

台式机是最佳解法,但大部分人都在移动需求,还是P系统列是个不错的选择

3asayhi 发表于 2025-2-16 15:39

panyl 发表于 2025-2-16 12:30
上文书说到，P52上的P2000显卡只有4G显存，一次性只能装下1.5b的模型，否则就是CPU和GPU集成运算，速度比较 ...

楼主有没有在Linux内核下调用GPU算力,如果有好的方法望分享下,Linux内核下不会调,Windows下也不会调,毕竟不是码农出身,只是单纯想玩玩.

panyl 发表于 2025-2-16 18:55

本帖最后由 panyl 于 2025-2-17 20:15 编辑

3asayhi 发表于 2025-2-16 15:39
楼主有没有在Linux内核下调用GPU算力,如果有好的方法望分享下,Linux内核下不会调,Windows下也不会调,毕竟 ...
linux没试过，win10可以试试以下设置。

1. 打开环境变量设置：
右键点击开始菜单 → 系统 → 高级系统设置 → 环境变量。

2. 新建系统变量：
变量名: OLLAMA_GPU_LAYER，变量值: cuda（NVIDIA）

3. 制定GPU设备：
我有两个显卡，为了强制指定 GPU 设备，也添加了系统环境变量
变量名: CUDA_VISIBLE_DEVICES，变量值: 0
系统的GPU顺序是什么，可以反复试试，变量值从0,1,2到更多，我开始用的1发现没效果。

重启ollama，装入模型，观察“任务管理器”的“性能”页面可以看到模型装入过程。

我设置完后，用ollama装入了14b的模型，整个模型装入3080显存，没用到p2000
问了个问题，在3080显卡里运行很快，在任务管理器里看占用率没超过2%，但是nvidia-smi监测图到了88%，这88%不是在装入模型时的截图，就是回答问题过程中的截图
问题及回答见附件。

panyl 发表于 2025-2-16 19:59

sharman 发表于 2025-2-16 12:37
写得清楚，小白表示：好像理解了

感谢，读者的评价最重要哈！

wangbin_yh 发表于 2025-2-17 00:30

16G显存还是不太够啊...32B的没法全加到显存跑

3asayhi 发表于 2025-2-17 00:38

panyl 发表于 2025-2-16 18:55
linux没试过，win10可以试试以下设置。

1. 打开环境变量设置：

按你的方法刚试了下,我的效果还是不太理想,还是以CPU为主,看任务中共享显存利用很高,可能是调用了核显,还要再调试,有空了再按你的思路去摸索GPU的顺序,我的P53是T1000显卡

Gaoth2007 发表于 2025-2-17 08:21

我手头上还真没有可以跑这个的小黑，全都是核显

panyl 发表于 2025-2-17 20:16

wangbin_yh 发表于 2025-2-17 00:30
16G显存还是不太够啊...32B的没法全加到显存跑

是啊，其实比较合适的是3090，不过功耗太高，又眼瞅要淘汰。

panyl 发表于 2025-2-17 20:17

Gaoth2007 发表于 2025-2-17 08:21
我手头上还真没有可以跑这个的小黑，全都是核显
可以考虑外置显卡，有雷电3接口就行，好像现在的外置显卡坞都需要这个接口。

panyl 发表于 2025-2-17 20:23

3asayhi 发表于 2025-2-17 00:38
按你的方法刚试了下,我的效果还是不太理想,还是以CPU为主,看任务中共享显存利用很高,可能是调用了核显,还 ...

T1000显卡也是4G显存吧，不知道对AI的支持怎么样，比我的P2000 4G提升多少。

3asayhi 发表于 2025-2-17 21:57

panyl 发表于 2025-2-17 20:23
T1000显卡也是4G显存吧，不知道对AI的支持怎么样，比我的P2000 4G提升多少。

是的 4G显存，主要是要先调通过后才能给你参考数据，以前用没有发现，认为是平台太老，随着对AI模型的认知才发现我没有调用GPU的算力

StormBolt 发表于 2025-2-17 23:20

panyl 发表于 2025-2-16 18:55
linux没试过，win10可以试试以下设置。

1. 打开环境变量设置：

任务管理器要选择cuda占用或其他的具体你自己看着办，默认显示的那个是3D占用。你这个跑32B速度有多少

panyl 发表于 2025-2-18 21:54

StormBolt 发表于 2025-2-17 23:20
任务管理器要选择cuda占用或其他的具体你自己看着办，默认显示的那个是3D占用。你这个跑32B速度有多少 ...

我用这个命令，问了个问题
C:\Users\P52>ollama run deepseek-r1:32b --verbose

total duration:    1m59.1082793s
load duration:    18.7467ms
prompt eval count: 46 token(s)
prompt eval duration: 2.603s
prompt eval rate: 17.67 tokens/s
eval count:       391 token(s)
eval duration:    1m56.485s
eval rate:          3.36 tokens/s

panyl 发表于 2025-2-18 22:03

StormBolt 发表于 2025-2-17 23:20
任务管理器要选择cuda占用或其他的具体你自己看着办，默认显示的那个是3D占用。你这个跑32B速度有多少 ...

谢谢指点，知道把任务管理器的3D改为CUDA了:)

panyl 发表于 2025-2-18 22:17

我又测了一下14b的速度
C:\Users\P52>ollama run deepseek-r1:14b --verbose

total duration:    7.6745916s
load duration:    18.5174ms
prompt eval count: 144 token(s)
prompt eval duration: 9ms
prompt eval rate: 16000.00 tokens/s
eval count:       277 token(s)
eval duration:    7.638s
eval rate:          36.27 tokens/s

StormBolt 发表于 2025-2-18 23:12

panyl 发表于 2025-2-18 21:54
我用这个命令，问了个问题
C:%users\P52>ollama run deepseek-r1:32b --verbose

速度慢得有点不正常，显存那里占用共享显存了？

panyl 发表于 2025-2-19 19:52

StormBolt 发表于 2025-2-18 23:12
速度慢得有点不正常，显存那里占用共享显存了？

是啊，32b要40G，超过显存容量了，我这3080只有16G

StormBolt 发表于 2025-2-19 20:29

panyl 发表于 2025-2-19 19:52
是啊，32b要40G，超过显存容量了，我这3080只有16G

不，显存占到16G就可以了，剩下让CPU跑，放内存里，共享显存要弄成0速度才能最大化

但是ollama我不知道怎么调占比，我用的是LMStudio

lfbzyj 发表于 2025-2-20 16:20

我的也是P52回头也整一个外接的，安装的的7b，和网站回复感觉还是有一差距。

newnbuser 发表于 2025-2-20 17:29

学习下

newnbuser 发表于 2025-2-20 17:29

学习下

newnbuser 发表于 2025-2-20 17:29

学习下

panyl 发表于 2025-2-20 21:13

StormBolt 发表于 2025-2-19 20:29
不，显存占到16G就可以了，剩下让CPU跑，放内存里，共享显存要弄成0速度才能最大化

但是ollama我不知道 ...

还可以这样吗，回头我研究一下

页: [1]

专门网's Archiver

【原创】在P52上用外置显卡继续探索deepseek-r1