scrapy crawl scrap -a url="<いい感じのurl> -a depth="<適当な深さ> -o dist/<いい感じのファイル名>.jsonl"
e.g.: scrapy crawl scrap -a url="https://qiita.com/" -a depth=0 -O dist/data.jsonl
動いてほしい(希望的観測) 僕のとこでは動いた
Tips: 形式はjsonl
以外でもいい。json
, csv
, etc.
Python
をインストールしてね(公式からinstallerを落とすか、Microsoft Storeで検索するのが楽、現在3.12以上じゃないと動かないよ)- Poetryをインストールしてね
- 上のリンクは公式のインストーラーだよ
- 見るのがめんどくさい人は
(Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | py -
をPowershell
上で叩いてね - 無事インストールできたら
%APPDATA%\pypoetry
を環境変数に追加してね。僕らの界隈ではよく「パスを通す」って表現するよ - WSLを使ってる人はdocs読みつつ別個対応してね
- このリポジトリをローカルにクローンしてね(下参照)
- クローンしたディレクトリに入って
poetry install
を叩いてね - とりま完成!
- Python: Python is a programming language that lets you work quickly and integrate systems more effectively.
- Scrapy: A Fast and Powerful Scraping and Web Crawling Framework
- Poetry: Python packaging and dependency management made easy
- etc.
git clone https://github.com/Desert-sabaku/scrap.git
clone
したディレクトリ内でgit pull
を叩くとクラウドにアップされた変更がローカルにも反映される。
vscodeはエディター(editor)の一種。ググってインストールしてください。ただのエディターではなくいろいろ機能がついている。git管理が楽でいい。