-
Notifications
You must be signed in to change notification settings - Fork 261
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
采集数据有时候会出现的问题 #68
Comments
有些采集站对采集频率是做了限制的,还有使用代理进行采集也会被拒绝请求,可以通过设置采集间隔,一般2000~3000ms左右,也可以去对应源的提供方那里让他们给你加一下白名单 |
建议加一个采集失败的话自动重试机制,如果设置间隔时长的话采集就太慢了 |
去对应源的提供方的话对方可能也不肯 |
或者加一个失败的队列啥的可以用redis保存,给个管理界面上清晰看到哪个请求失败可以重新一键采取和指定采取啥的这样就能先保证把大部分的内容采取下来失败的可以后面慢慢的采取也可以设置时间间隔,即使再次采集失败也能重试(我觉得这种方式最好) |
嗯,的确,采集失败我有设置一次重试操作的,但如果是请求被拒绝确实收益不高,改成把失败请求存到redis然后每天用定时任务把失败请求进行二次处理应该会好很多,等后续有时间我会对采集失败的问题和定向搜索采集这些问题做处理的,最近有点忙,一月份会进行一次大的更新,到时候会加一些新功能和集中处理目前issues的这些问题 |
好的辛苦了,建议把这个需求等级提高点影响确实挺大的 |
比如这个采集过程中出现的问题我这只截取了一个。导致出现很多资源没有采集下来,这个设置间隔时长能解决吗?还是如何解决这个问题
The text was updated successfully, but these errors were encountered: