Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

输入图像分辨率问题 #2

Open
Lwt-diamond opened this issue Jun 15, 2024 · 3 comments
Open

输入图像分辨率问题 #2

Lwt-diamond opened this issue Jun 15, 2024 · 3 comments

Comments

@Lwt-diamond
Copy link

https://github.com/iCVTEAM/FRINet/blob/master/code/src/dataset.py 这段代码中,dataset类你定义了一个resize函数,在train和test mode下均将图片reszie到了448,而在collaten_fun函数中,又将图片随机缩放(缩放到最大512)。 论文中你的原话是
image

请问,你按照论文中所写的做了吗?还是采用了别的数据增强的手段。

@xiechenxi99
Copy link
Contributor

image
您好,论文中所写的是使用了和之前工作一致的包括随机缩放等数据增强手段,在推理阶段采用了论文中所写的尺寸

@Lwt-diamond
Copy link
Author

大多数COD的方法都是用的352x352的图像分辨率。但是测试时你们用的是384的图像大小,这是不是会导致不公平的现象? 此外,你们采用的随机缩放数据增强,使得图像分辨率最大能达到512,最小为256。(这种可变输入图像大小的数据增强为什么不在论文中写明?) 在你们的论文中有如下结果:
image
显示可超过了MSCAF-Net,可是超过的效果并不明显,仅有略微提升。而且MSCAF-Net使用的分辨率正是352x352。这是否说明你们的方法达到SOTA并不可靠。(请注意,MSCAF-Net的并没有使用较大的图像分辨率(384)进行测试,也没有采用可变的分辨率(128-512)来训练图像)。

@xiechenxi99
Copy link
Contributor

您好,(1)关于测试输入分辨率,经过简单统计,对比的方法中PFNet[25]为416×416,UGTR[40]为473×473,R-MGL[41]为473×473,FSPNet[11]为384×384,ZoomNet[27]的main scale为384×384(大分辨率分支为1.5倍输入),HitNet[10]为704×704,SARNet[39]为384×384,由于我们主要版本跟随CVPR2023的FSPNet方法设定使用了相同的backbone所以分辨率设置为384×384。(2)关于可变输入图像大小的数据增强,我们在论文中声明采用了"random scaling",这也是COD领域[40][41]常用的数据增强方式之一。此外,感谢您的建议,我们会在未来的工作中注明更加细节的变化范围。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants