pysot训练 #420

StrugglingForBetter · 2020-09-06T13:48:20Z

StrugglingForBetter
Sep 6, 2020

我是参照这个链接训练的：
https://github.com/STVIR/pysot/blob/master/TRAIN.md

用4块GPU的服务器训练，

CUDA_VISIBLE_DEVICES=0,1,2,3
python -m torch.distributed.launch
--nproc_per_node=4
--master_port=2333
../../tools/train.py --cfg config.yaml

只有单个node的这个命令可以正常训练，但是很慢

如果用下面这个就会一直卡住，然后不动了
CUDA_VISIBLE_DEVICES=0,1,2,3
python -m torch.distributed.launch
--nnodes=2
--node_rank=0
--nproc_per_node=4
--master_addr=192.168.1.1 \ # adjust your ip here
--master_port=2333
../../tools/train.py

请问是什么原因？我还是不太明白nnodes这个参数到底是什么意思？是不是因我的服务器本来就只有一个Node？

请问如何查询有多少个Node？

Answered by wWHWw

Sep 8, 2020

是设备的问题，我也是，所以似乎不能同时训练4个数据集，我都是分开训练的，好麻烦

请教一下四个数据集怎么分开训练？读取前一个数据集训练完的pth吗？那学习率怎么办？
我比较菜=-=
ytbb数据集就直接把下载的解压带着下载的json文件放到training_dataset/yt_bb目录下就可以了吗？

View full answer

wWHWw · 2020-09-07T01:36:30Z

wWHWw
Sep 7, 2020

感觉这个node应该是对应服务器数量的
顺便问一句，您训练过程中会出现Nonetype has no attribute .shape这种由于不能正确找到图片引发的问题吗？
您的数据集处理步骤尤其是ytbb是怎样的

0 replies

StrugglingForBetter · 2020-09-07T05:57:12Z

StrugglingForBetter
Sep 7, 2020
Author

感觉这个node应该是对应服务器数量的
顺便问一句，您训练过程中会出现Nonetype has no attribute .shape这种由于不能正确找到图片引发的问题吗？
您的数据集处理步骤尤其是ytbb是怎样的

应该是，我当时可能用的老的数据，所以出问题了，后来下载了新的ytbb数据就没事了
就是按照train.md里面的来就行了

0 replies

wWHWw · 2020-09-07T06:01:24Z

wWHWw
Sep 7, 2020

感觉这个node应该是对应服务器数量的
顺便问一句，您训练过程中会出现Nonetype has no attribute .shape这种由于不能正确找到图片引发的问题吗？
您的数据集处理步骤尤其是ytbb是怎样的

应该是，我当时可能用的老的数据，所以出问题了，后来下载了新的ytbb数据就没事了
就是按照train.md里面的来就行了

我也是按照train.md 里面处理的coco 和 VID，yt_bb是直接用的百度云下载的数据和里面提供的train.json 文件，但是我还是会报这个问题，我前天还重新下了一遍。我现在就很困惑。
而且我这跑起来每次logger.info展现训练速度和实时损失的时候，那个ETA越来越长，而且能明显感受到他输出训练信息的间隔也变长了，我现在都在怀疑是不是我的设备跑不了了

0 replies

StrugglingForBetter · 2020-09-07T06:51:59Z

StrugglingForBetter
Sep 7, 2020
Author

是设备的问题，我也是，所以似乎不能同时训练4个数据集，我都是分开训练的，好麻烦

0 replies

wWHWw · 2020-09-08T04:56:06Z

wWHWw
Sep 8, 2020

是设备的问题，我也是，所以似乎不能同时训练4个数据集，我都是分开训练的，好麻烦

请教一下四个数据集怎么分开训练？读取前一个数据集训练完的pth吗？那学习率怎么办？
我比较菜=-=
ytbb数据集就直接把下载的解压带着下载的json文件放到training_dataset/yt_bb目录下就可以了吗？

4 replies

Dennisky Oct 19, 2020

请问您解决了嘛？我也有这个问题，怎么分开训练啊

wWHWw Oct 19, 2020

没有，但是我后来换成固态硬盘，基本两天就能跑完了，我就没再看能不能分开

xyl-507 Feb 7, 2021

@wWHWw 大佬，不好意思，请教一下。如果是换固态的话，需要重新安装系统，配置环境吗？还是说只是把固态插主板上，成为双硬盘，把数据集移动到固态上，然后文件里修改数据集的路径？不知道后面这种方法行不行，前面的感觉有点麻烦。自己现在训练一个ytbb都要四天左右，挺费时间的。谢谢大佬。

wWHWw Feb 10, 2021

应该不用吧？我的服务器是支持热插拔硬盘的，所以是直接插了个固态，数据集挪过去，直接改的地址。

xyl-507 · 2021-02-19T02:57:12Z

xyl-507
Feb 19, 2021

@ZhiyuanChen 作者您好！请问一下：
我想用单节点2块GPU训练时，

CUDA_VISIBLE_DEVICES=0,1

python -m torch.distributed.launch
--nproc_per_node=2
--master_port=2333
../../tools/train.py --cfg config.yaml

会报错：

Traceback (most recent call last):
File "../../tools/train.py", line 319, in
main()
File "../../tools/train.py", line 308, in main
dist_model = DistModule(model)
File "/home/xyl/pysot-master/pysot/utils/distributed.py", line 37, in init
broadcast_params(self.module)
File "/home/xyl/pysot-master/pysot/utils/distributed.py", line 54, in broadcast_params
dist.broadcast(p, 0)
File "/home/xyl/anaconda3/envs/pysot/lib/python3.7/site-packages/torch/distributed/init.py", line 276, in broadcast
return torch._C._dist_broadcast(tensor, src, group)
RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1535493744281/work/torch/lib/THD/base/data_channels/DataChannelNccl.cpp:299, unhandled system error

请问一下，这种是什么问题呀？网上搜索也没有结果

2 replies

leidriver201120 Jun 13, 2022

你好，请问你的这个问题最后怎么解决的呢，我现在也遇到这样的问题，跑单卡和多卡都跑不了，就是因为那个DistModule(module)的问题……服务器是3090cuda11.4的，请问是因为pytorch版本的影响吗，pysot的代码pytorch版本是0.4的……

xyl-507 Jun 13, 2022

训练前，最好把服务器连上网，我的问题就是连上网就解决了！

W-zzzp · 2021-07-19T07:56:15Z

W-zzzp
Jul 19, 2021

请问一下你们有没有遇到过这个问题运行demo和test都没问题，但是运行train的时候报错
Traceback (most recent call last):
File "train.py", line 24, in
from pysot.utils.lr_scheduler import build_lr_scheduler
ModuleNotFoundError: No module named 'pysot'
按照redeme里面的添加过pythonpath了，但是没有用，运行demo和test都是正常的

1 reply

BOTBIT1 Apr 22, 2023

你好，请问您知道运行demo时速度很慢，像是没有使用到GPU，但是通过各种代码测试说明是在使用GPU的，这种情况应该怎么处理呢

W-zzzp · 2022-06-13T08:38:11Z

W-zzzp
Jun 13, 2022

你好，在进入到pysot的虚拟环境后再运行readme中间的那个添加路径那个代码   每次重新进入这个虚拟环境的时候都需要运行这个代码  我是在linux下面运行的我的代码是export PYTHONPATH=/media/wzp/Ricardo/pysot-master:$PYTHONPATH 前面是我的代码路径。希望可以帮到你

…

------------------ 原始邮件 ------------------ 发件人: "STVIR/pysot" ***@***.***>; 发送时间: 2022年6月13日(星期一) 下午3:41 ***@***.***>; ***@***.******@***.***>; 主题: Re: [STVIR/pysot] pysot训练 (Discussion #420) 你好，请问你的这个问题最后怎么解决的呢，我现在也遇到这样的问题，跑单卡和多卡都跑不了，就是因为那个DistModule(module)的问题……服务器是3090cuda11.4的，请问是因为pytorch版本的影响吗，pysot的代码pytorch版本是0.4的…… — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pysot训练 #420

{{title}}

Replies: 8 comments 7 replies

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

pysot训练 #420

Replies: 8 comments · 7 replies

StrugglingForBetter Sep 7, 2020 Author

StrugglingForBetter Sep 7, 2020 Author

Replies: 8 comments 7 replies

StrugglingForBetter
Sep 7, 2020
Author

StrugglingForBetter
Sep 7, 2020
Author