Skip to content

Desert-sabaku/scrap

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

つかいかた

scrapy crawl scrap -a url="<いい感じのurl> -a depth="<適当な深さ> -o dist/<いい感じのファイル名>.jsonl"

e.g.: scrapy crawl scrap -a url="https://qiita.com/" -a depth=0 -O dist/data.jsonl

動いてほしい(希望的観測) 僕のとこでは動いた

Tips: 形式はjsonl以外でもいい。json, csv, etc.

環境構築

  1. Pythonをインストールしてね(公式からinstallerを落とすか、Microsoft Storeで検索するのが楽、現在3.12以上じゃないと動かないよ)
  2. Poetryをインストールしてね
    1. 上のリンクは公式のインストーラーだよ
    2. 見るのがめんどくさい人は(Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | py -Powershell上で叩いてね
    3. 無事インストールできたら%APPDATA%\pypoetry環境変数に追加してね。僕らの界隈ではよく「パスを通す」って表現するよ
    4. WSLを使ってる人はdocs読みつつ別個対応してね
  3. このリポジトリをローカルにクローンしてね(下参照)
  4. クローンしたディレクトリに入ってpoetry installを叩いてね
  5. とりま完成!

参考文献、リンク

  • Python: Python is a programming language that lets you work quickly and integrate systems more effectively.
  • Scrapy: A Fast and Powerful Scraping and Web Crawling Framework
  • Poetry: Python packaging and dependency management made easy
  • etc.

git clone https://github.com/Desert-sabaku/scrap.git

cloneしたディレクトリ内でgit pullを叩くとクラウドにアップされた変更がローカルにも反映される。

vscodeの話

vscodeはエディター(editor)の一種。ググってインストールしてください。ただのエディターではなくいろいろ機能がついている。git管理が楽でいい。

About

Scrapyを用いたWebスクレイピング

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages