输入图像分辨率问题 #2

Lwt-diamond · 2024-06-15T07:48:18Z

https://github.com/iCVTEAM/FRINet/blob/master/code/src/dataset.py 这段代码中，dataset类你定义了一个resize函数，在train和test mode下均将图片reszie到了448，而在collaten_fun函数中，又将图片随机缩放（缩放到最大512）。论文中你的原话是

请问，你按照论文中所写的做了吗？还是采用了别的数据增强的手段。

xiechenxi99 · 2024-06-17T04:42:59Z

您好，论文中所写的是使用了和之前工作一致的包括随机缩放等数据增强手段，在推理阶段采用了论文中所写的尺寸

Lwt-diamond · 2024-06-19T08:16:18Z

大多数COD的方法都是用的352x352的图像分辨率。但是测试时你们用的是384的图像大小，这是不是会导致不公平的现象？此外，你们采用的随机缩放数据增强，使得图像分辨率最大能达到512，最小为256。（这种可变输入图像大小的数据增强为什么不在论文中写明？）在你们的论文中有如下结果：

显示可超过了MSCAF-Net,可是超过的效果并不明显，仅有略微提升。而且MSCAF-Net使用的分辨率正是352x352。这是否说明你们的方法达到SOTA并不可靠。（请注意，MSCAF-Net的并没有使用较大的图像分辨率（384）进行测试，也没有采用可变的分辨率（128-512）来训练图像）。

xiechenxi99 · 2024-06-19T12:01:45Z

您好，(1)关于测试输入分辨率，经过简单统计，对比的方法中PFNet[25]为416×416，UGTR[40]为473×473，R-MGL[41]为473×473，FSPNet[11]为384×384，ZoomNet[27]的main scale为384×384(大分辨率分支为1.5倍输入)，HitNet[10]为704×704，SARNet[39]为384×384，由于我们主要版本跟随CVPR2023的FSPNet方法设定使用了相同的backbone所以分辨率设置为384×384。(2)关于可变输入图像大小的数据增强，我们在论文中声明采用了"random scaling"，这也是COD领域[40][41]常用的数据增强方式之一。此外，感谢您的建议，我们会在未来的工作中注明更加细节的变化范围。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

输入图像分辨率问题 #2

输入图像分辨率问题 #2

Lwt-diamond commented Jun 15, 2024

xiechenxi99 commented Jun 17, 2024

Lwt-diamond commented Jun 19, 2024

xiechenxi99 commented Jun 19, 2024

输入图像分辨率问题 #2

输入图像分辨率问题 #2

Comments

Lwt-diamond commented Jun 15, 2024

xiechenxi99 commented Jun 17, 2024

Lwt-diamond commented Jun 19, 2024

xiechenxi99 commented Jun 19, 2024