Инструмент сбора данных о разделах, товарах и позициях товаров из российских маркетплейсов.
На данный момент в том или ином виде поддерживаются следующие площадки:
Установка скрапера pip install -r requirements.txt
Все скраперы имеют возможность отправлять POST HTTP коллбэк на указанный адрес после завершения работы. Для отправки коллбэка нужно передать следующие параметры:
-a callback_url="https://website.domain/"
– URL для передачи вебхука-a callback_params="param1=value1¶m2=value2
– urlencoded строка со списком параметров, которые будут отправлены в теле POST запроса коллбэка
Скрапер называется wb
, запускается в следующих режимах:
- Без параметров – обход начинается с карты разделов сайта и заканчивается только когда будет собрано всё.
- Анализ категории:
scrapy crawl wb -o artifacts/wb.json -a category_url="https://www.wildberries.ru/catalog/zhenshchinam/odezhda/vodolazki"
- Анализ товара со всеми вариациями
scrapy crawl wb -o artifacts/wb.json -a good_url="https://www.wildberries.ru/catalog/8685970/detail.aspx"
В обоих случаях он сохранит результаты в файл artifacts/wb.json
благодаря опции -o.
Помимо возможности задать конкретный товар и конкретный раздел, парсер принимает следующий набор опций (ключ -a
нужно ставить каждый раз перед каждой опцией):
-a skip_images=true
– не сохраняет изображения товаров-a skip_variants=true
– сохраняет только родительский товар, но не дочерние-a allow_dupes=true
– отключает фильтр дупликатов страниц, чтобы сохранять каждый встреченный товар, даже если он уже был скачан-a skip_details=true
– проходится только по каталогу, не заходя в карточки товаров. Выгрузка получается сокращенная (только позиции)
Скрапер называется wb_categories
и осуществляет сбор доступных на карте сайта категорий. Запускается без параметров.
Скрапер называется wb_brands
и осуществляет сбор доступных на маркетплейсе брендов. Запускается без параметров.
Скрапер называется ozon
, запускается в следующих режимах:
- Анализ категории:
scrapy crawl ozon -o artifacts/ozon.json -a category_url="https://www.ozon.ru/category/aksessuary-dlya-audiotehniki-15607/"
- Анализ товара со всеми вариациями
scrapy crawl ozon -o artifacts/ozon.json -a good_url="https://www.ozon.ru/context/detail/id/151480118/"
В обоих случаях он сохранит результаты в файл artifacts/ozon.json
благодаря опции -o.
Скрапер называется ozon_brands
и осуществляет сбор доступных на маркетплейсе бренов. Запускается без параметров. Может потребовать подбора юзерагента, скорости парсинга и актуальных в данный момент CSS классов для корректной работы.
Скрапер называется productcenter_producers
и выгружает только данные о производителях. Запускается в следующих режимах:
- Без параметров – обход начинается с меню главной страницы (обходятся только пункты второго уровня)
- Анализ категории
scrapy crawl productcenter_producers -a category_url="https://productcenter.ru/producers/catalog-optichieskiie-pribory-44"
- Анализ страницы производителя
scrapy crawl productcenter_producers -a producer_url="https://productcenter.ru/producers/21613/miteus"
Для скрапера доступен следующий набор опций:
-a only_region=r-"moskovskaia-obl-191"
– автоматически отфильтрует всех производителей по региону, подствавив его в URL. Нужный регион можно узнать, посмотрев на URL выдачи производителей данного региона-office_coords="55.751999,37.617734"
– автоматически вычислит расстояние от адреса производство до указанной точки и подставит в выгрузку. Координаты лучше брать из Яндекс.Карт
Скраперы поддерживаются ребятами из Wondersell. Хотите познакомиться? Пишите на [email protected]