Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

采集数据有时候会出现的问题 #68

Open
yyg-max opened this issue Nov 24, 2024 · 7 comments
Open

采集数据有时候会出现的问题 #68

yyg-max opened this issue Nov 24, 2024 · 7 comments

Comments

@yyg-max
Copy link

yyg-max commented Nov 24, 2024

image

比如这个采集过程中出现的问题我这只截取了一个。导致出现很多资源没有采集下来,这个设置间隔时长能解决吗?还是如何解决这个问题

image

@ProudMuBai
Copy link
Owner

有些采集站对采集频率是做了限制的,还有使用代理进行采集也会被拒绝请求,可以通过设置采集间隔,一般2000~3000ms左右,也可以去对应源的提供方那里让他们给你加一下白名单

@yyg-max
Copy link
Author

yyg-max commented Nov 25, 2024

建议加一个采集失败的话自动重试机制,如果设置间隔时长的话采集就太慢了

@yyg-max
Copy link
Author

yyg-max commented Nov 25, 2024

去对应源的提供方的话对方可能也不肯

@yyg-max
Copy link
Author

yyg-max commented Nov 25, 2024

或者加一个失败的队列啥的可以用redis保存,给个管理界面上清晰看到哪个请求失败可以重新一键采取和指定采取啥的这样就能先保证把大部分的内容采取下来失败的可以后面慢慢的采取也可以设置时间间隔,即使再次采集失败也能重试(我觉得这种方式最好)

@ProudMuBai
Copy link
Owner

嗯,的确,采集失败我有设置一次重试操作的,但如果是请求被拒绝确实收益不高,改成把失败请求存到redis然后每天用定时任务把失败请求进行二次处理应该会好很多,等后续有时间我会对采集失败的问题和定向搜索采集这些问题做处理的,最近有点忙,一月份会进行一次大的更新,到时候会加一些新功能和集中处理目前issues的这些问题

@yyg-max
Copy link
Author

yyg-max commented Nov 26, 2024

好的辛苦了,建议把这个需求等级提高点影响确实挺大的

@yyg-max
Copy link
Author

yyg-max commented Nov 27, 2024

image
这个是采集站官方回复的

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants