Written by betplan4u08.06.201618.09.2018

Инструкция к Web Scraper

Web Scraper – это расширение для браузера Chrome, устанавливается по этой ссылке.

UPD 18.09.2018: с недавнего времени доступно и для Firefox.

После установки оно появится в меню “Дополнительные инструменты” -> “Инструменты разработчика” -> закладка “Web Scraper” или по горячим клавишам Ctrl+Shift+I или F12. Описание сайта (парсера), в терминологии Web Scraper – sitemap – представляет собой простой текст в формате json.

Установка:

Скачать нужный вам парсер и разархивировать
Открыть файл *.webscraper любым текстовым просмотрщиком или редактором. Подойдёт блокнот или сам Chrome
Выделить и скопировать весь текст (Ctrl+A, Ctrl+C)
В Chrome открыть Web Scraper (F12), это можно сделать на любой закладке
Перейти Create new sitemap -> Import sitemap
Вставить текст в поле Sitemap JSON
Нажать внизу кнопку Import Sitemap. Если парсер с таким именем уже есть, то удалить его с главной вкладки Sitemaps или задать другое имя

webscraper_import

Запуск:

В Chrome открыть Web Scraper (F12), это можно сделать на любой закладке
На закладке Sitemaps выбрать (левый клик) нужный парсер
- Адрес страницы/страниц для парсинга задаются в меню Sitemap (имя_парсера) -> Edit metadata
В меню Sitemap (имя_парсера) выбрать Scrape (при необходимости изменить параметры временных интервалов)
Нажать кнопку Start scraping
Откроется окно в котором будем выполнятся парсинг. Закроется автоматически по окончании процесса

webscraper_scrape

Выгрузка результата:

После окончания работы парсера или если результат уже есть от предыдущих запусков, в меню Sitemap (имя_парсера) выбрать Export data as CSV
Нажать Download now! и сохранить файл

webscraper_download

Особенностью работы Web Scraper является то, что если он не находит нужное поле на странице, то в результат будет записано значение «null». Учитывайте это при дальнейшей работе с данными. В Excel, например, это легко убрать через «Поиск и замена». Найти «null» -> Заменить на «пусто» -> Заменить все.

Один ответ на “Инструкция к Web Scraper”

Уведомление: Результаты скачек с timeform.com — Bet Plan 4 U
Уведомление: Скачки. Карты забегов с timeform.com — Bet Plan 4 U
Andre:

11.09.2018 в 19:52

Привет!
Помогите с парсингом тенниса с софаскор.
У меня не получается правильно создать список ссылок на эвенты(((
Скрепер берет ссылки из списка a.cell.js-event-status-finished, но обращается к последней игре между этими игроками. Например игра между Antchandie H. — Bourcet T. со страницы sofascore.com/ru/tennis/2016-01-09, при парсинге бот переходит на страничку с игрой от 17.09.16

НравитсяНравится

Ответить
betplan4u:

13.09.2018 в 18:22

Приветствую!

Если я правильно понимаю, вы хотите спарсить части страницы, которые взаимосвязаны по дате. Такие задачи часто встречаются, но вот, что надо понимать: задача WebScraper — лишь собрать информацию со страницы. У него нет логики в поведении, он не выполняет никакой обработки забираемой инфы (разве что применить к строке регулярное выражение). Поэтому, если нужный блок не выделен отдельной разметкой страницы, то фокус не пройдёт. Такая вот обратная сторона простоты его философии.

В этих случаях могу посоветовать забирать все блоки, а потом уже каким-то образом обрабатывать и фильтровать выгрузку. Если используется БД CouchDB, то можно возложить эту роль на неё, она умеет внутренние скрипты и сформирует выдачу как угодно.

Наконец, WebScraper далеко не единственный парсер. Например, iMacros может зарядить сколь угодно сложную логику, но это опять программирование.

НравитсяНравится

Ответить
Andre:

21.09.2018 в 11:30

спасибо, я писал про другое)
решил проблему обращением к нужным ссылкам через Elementclick.
Ранее перечислял эти ссылки через link, и это работало не правильно
парсинг это новое для меня, поэтому терминологию всем понятную не знаю)

НравитсяНравится

Ответить
Andre:

27.11.2018 в 14:48

Привет!
Есть просьба. Не могли бы Вы написать парсер бет365 на теннис? Матчи только до-инплей, можно без парных встреч.
Данные для выгрузки: Дата начала игры, время, игрок 1, игрок 2, кэф на победу 1, кэф на победу 2.
Если возможно, еще как-то разделить мужчин/женщин.

НравитсяНравится

Ответить

	Букмекеры к записи Профессия – ставки на спо…
	Andre к записи Результаты скачек с timeform.c…
	Andre к записи Инструкция к Web Scraper
	Andre к записи Инструкция к Web Scraper
	betplan4u к записи Инструкция к Web Scraper

Bet Plan 4 U

Твой конспект в мире ставок на спорт

Инструкция к Web Scraper

Один ответ на “Инструкция к Web Scraper”

Оставьте комментарий Отменить ответ

Поделиться ссылкой:

Похожее

Один ответ на “Инструкция к Web Scraper”

Оставьте комментарий Отменить ответ