求助:用容器的host模式成功完成ray集群启动,但是尝试集群模式代码运行总是报错 #1435
-
我想用隐语尝试真正的集群模式,但是不成功: 2024-08-18 01:43:56,856 INFO worker.py:1540 -- Connecting to existing Ray cluster at address: 192.168.211.129:9000... 但是运行到模型训练处总是报一堆看不懂的错误,问通义千问得到的是“BRPC 服务器失败”、“SPURuntime 缺少 id 属性”,但是具体怎么解决却没有行之有效的办法; 个人预期是alice、bob互相运行自己一部分的数据集然后底层训练时自动进行MPC互相沟通,联合训练,最后在双方的代码中分别都得到一个共同的训练模型,但是似乎哪怕运行成功了也是各自只用自己那一部分的训练数据在训练,两个节点完全没发生沟通交流,实在不明白集群模式怎么使用代码和SPU,官网上关于集群仿真的示例少的可怜,多为单节点模拟的,导致集群模式让我十分困惑; 另外,我发现用容器的host模式后,由于无法通过端口找到容器,我无法在secretnote里添加节点了,这也是我想问的一个问题; (代码与报告见末尾) 宿主机的IP为:192.168.211.129;以下为个人的SPU设置: sf.init(parties=['alice', 'bob'], address='192.168.211.129:9000') cluster_def={ spu = sf.SPU(cluster_def=cluster_def) ### 这是完全的代码: ### 这是运行结果: |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment
-
@MapleleavesCX 嗨,看起来你可能将仿真部署和生产部署混淆了。
请注意,两种模式下Ray的启动命令有所不同,你可在部署页面查看详细信息。 |
Beta Was this translation helpful? Give feedback.
@MapleleavesCX 嗨,看起来你可能将仿真部署和生产部署混淆了。
如果你希望使用仿真模式,只需要一侧启动代码即可。
如果你希望使用生产模式,
sf.init(parties=['alice', 'bob'], address='192.168.211.129:9000')
两侧的代码需要更改参数为:
sf.init(address='alice/bob ray head node address', cluster_config=cluster_config)
请注意,两种模式下Ray的启动命令有所不同,你可在部署页面查看详细信息。
——————————————————————————————
另外,如果问题依然没有解决,可以考虑联系SecretFlow的技术支持(WeChat:secretflow02)来获取一对一的帮助。