pysot训练 #420
-
我是参照这个链接训练的: 用4块GPU的服务器训练, CUDA_VISIBLE_DEVICES=0,1,2,3 只有单个node的这个命令可以正常训练,但是很慢 如果用下面这个就会一直卡住,然后不动了 请问是什么原因?我还是不太明白nnodes这个参数到底是什么意思?是不是因我的服务器本来就只有一个Node? 请问如何查询有多少个Node? |
Beta Was this translation helpful? Give feedback.
Replies: 8 comments 7 replies
-
感觉这个node应该是对应服务器数量的 |
Beta Was this translation helpful? Give feedback.
-
应该是,我当时可能用的老的数据,所以出问题了,后来下载了新的ytbb数据就没事了 |
Beta Was this translation helpful? Give feedback.
-
我也是按照train.md 里面处理的coco 和 VID,yt_bb是直接用的百度云下载的数据和里面提供的train.json 文件,但是我还是会报这个问题,我前天还重新下了一遍。我现在就很困惑。 |
Beta Was this translation helpful? Give feedback.
-
是设备的问题,我也是,所以似乎不能同时训练4个数据集,我都是分开训练的,好麻烦 |
Beta Was this translation helpful? Give feedback.
-
请教一下四个数据集怎么分开训练?读取前一个数据集训练完的pth吗?那学习率怎么办? |
Beta Was this translation helpful? Give feedback.
-
@ZhiyuanChen 作者您好!请问一下: CUDA_VISIBLE_DEVICES=0,1 python -m torch.distributed.launch 会报错: Traceback (most recent call last): 请问一下,这种是什么问题呀?网上搜索也没有结果 |
Beta Was this translation helpful? Give feedback.
-
请问一下你们有没有遇到过这个问题 运行demo和test都没问题,但是运行train的时候报错 |
Beta Was this translation helpful? Give feedback.
-
你好,在进入到pysot的虚拟环境后 再运行readme中间的那个添加路径那个代码 每次重新进入这个虚拟环境的时候都需要运行这个代码 我是在linux下面运行的 我的代码是export PYTHONPATH=/media/wzp/Ricardo/pysot-master:$PYTHONPATH 前面是我的代码路径。希望可以帮到你
…------------------ 原始邮件 ------------------
发件人: "STVIR/pysot" ***@***.***>;
发送时间: 2022年6月13日(星期一) 下午3:41
***@***.***>;
***@***.******@***.***>;
主题: Re: [STVIR/pysot] pysot训练 (Discussion #420)
你好,请问你的这个问题最后怎么解决的呢,我现在也遇到这样的问题,跑单卡和多卡都跑不了,就是因为那个DistModule(module)的问题……服务器是3090cuda11.4的,请问是因为pytorch版本的影响吗,pysot的代码pytorch版本是0.4的……
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: ***@***.***>
|
Beta Was this translation helpful? Give feedback.
请教一下四个数据集怎么分开训练?读取前一个数据集训练完的pth吗?那学习率怎么办?
我比较菜=-=
ytbb数据集就直接把下载的解压带着下载的json文件放到training_dataset/yt_bb目录下就可以了吗?