极摩客 EVO-X2 多机集联方案:锐龙 AI Max+ 395 部署 235B 大模型的硬件配置与工作流程梳理
2025-09-12 16:33 发布 27 阅读

一、核心产品与大模型基础需求
1.1现有产品参数
1.1.1:当前单机最高配置产品:235B系列内置产品,最高容量为79GB
1.1.2:现有硬件局限:无法安装更高阶大模型(需130多GB容量),需多台主机组合扩展
2.1目标大模型需求
2.2.1:大模型容量要求:需达到130多GB,以支持“QWEN3-235B-A22B-Thingking-2507”Q4_K_M量化精度的大模型
2.2.2:硬件扩展必要性:现有单台主机完全无法满足安装需求,需2台或3台主机组合实现
二、硬件配置方案(2台/3台主机组合)
2.1.通用硬件要求
2.1.1:主机/副机版本:所有参与组合的机器必须为128G版本
2.2.1:连接方式:通过USB4 Type-C实现主机与副机的“一组一副”布局
2.2.两台主机配置(基础方案)

2.3.三台主机配置(高阶方案)
2.3.1:配置逻辑:与两台方案一致,仅新增1台副机,主机与副机的“一组一副”布局不变
2.3.2:硬件限制:主机仅支持2个“Type-C”接口/通道,因此最高仅能支持“1台主机+2台副机”,即最多3台机器组合
三、软件安装与设备调试流程(按步骤)
3.1副机基础设置:
3.1.1:第一步:在主机上安装“llama.cpp”
3.1.2:第二步:将所有副机通过USB4 Type-C接口与主机连接,核心是配置USB4 P2P网络和开放副机防火墙端口(确保与主机通信)
3.1.3:第三步:所有副机启动llama.cpp RPC服务,允许主机通过配置好的USB4 P2P网络调用副机RPC服务,将模型推理任务分配到每台副机上
3.2.主机调试与连接:
3.2.1:第一步:主机同副机也需要安装“llama.cpp”
3.2.2:第二步:同样的主机也需要配置网络连接和开放防火墙端口,确认调试完成的副机能被主机调用,以及确保主机部署的大模型服务可被外部访问
3.2.3:第三步:主机导入任意一个小模型,进行单机测试,确认llama.cpp本机服务可正常运行
3.3.组合测试:
3.3.1:第一步:连接完成后,测试主机是否能正常识别副机,确保算例可从主机分配至副机(未识别,需重新检查网络配置与硬件连接)
3.3.2:第二步:主机导入目标大模型(130多GB容量)文件,或者将大模型文件导入网络存储服务器上(例如将大模型文件存储在NAS上),但是要确保主机能够访问读取该网络存储服务器上的目标大模型文件
3.3.3:第三步:启动主机llama.cpp本地服务,并通过连接调用副机RPC服务,对目标大模型进行分布式部署
四、工作原理与远端访问流程
4.1云端与远端控制基础
4.1.1:云端部署:在云端建立可通过网页打开的远端地址
4.1.2:访问工具:可使用任意浏览器通过远端地址访问访问云端服务
4.2 算例分配与模型运行逻辑
4.2.1:大模型存放位置:存放在主机磁盘或者网络位置上,所有副机无需内置大模型文件
4.2.2:算例分配流程:
4.2.2.1. 用户通过浏览器访问云端远端地址,向主机发送计算指令
4.2.2.2. 主机接收指令后,将大模型运行所需的算例分配给已连接的副机
4.2.2.3. 副机完成算例计算后,将结果反馈至主机,主机整合后通过远端地址反馈给用户
4.3.局域网客户使用方式
4.3.1:访问权限:仅局域网内所有客户可直接访问远端网页(无需额外配置)
4.3.2:方案选择依据:根据大模型的不同量化精度要求和运行策略,选择2台或3台机器组合
五、测试结果(已验证方案)
5.1:测试配置:3台128G版本机器(1主机+2副机),运行137G容量的“QWEN3”级235B、Q4_K_M量化精度大模型
5.2:测试结果:完全测试成功
六、使用要求与注意事项
6.1使用者基础要求
6.1.1:技能要求:必须具备相关网络基础(需理解局域网、远端访问、端口调试等基础操作)
6.1.2:硬件维护意识:需将组合机器视为服务器使用
6.2运行稳定性要求
6.2.1:开机要求:机器启动后需7*24小时持续开机,不可中途关机
6.2.2:关机后果:一旦关机,需重新执行“调试连接→启动副机服务→启动主机服务”流程,否则无法正常使用
6.3.采购建议
6.3.1:适用人群:仅推荐有网络基础、需运行130GB级235B大模型的用户采购多台机器
6.3.2:数量限制:根据主机“2个Type-C”限制,最多采购3台(1主机+2副机)