Crawlee와 Playwright 스터디 용도로 개발된 트위터 트윗 크롤러입니다.
- 특정 키워드와 관련된 트윗 수집
- 트윗 수집 기간 설정
- 수집된 트윗 상세페이지 스크린샷 기능
- AWS EC2 해외 IP로 테스트 시 국내 IP에서 실행했을때와 수집 트윗 개수가 다른 문제. (ex - 국내 100개, 해외 70개)
HTML을 기준으로 데이터를 수집한 게 아니라 network response 값을 긁어온 것이기 때문에 정확하진 않지만.. 아마 국내와 해외에서 보여주는 콘텐츠가 각각 다른 것으로 추청
$ yarn install
$ yarn dev
트윗 수집 결과는 storage/datasets/default
경로에서 확인 가능합니다.
수집된 트윗 스크린샷은 screenshots
폴더에 저장됩니다.