Инструкция к Web Scraper

Web Scraper – это расширение для браузера Chrome, устанавливается по этой ссылке.

UPD 18.09.2018: с недавнего времени доступно и для Firefox.

После установки оно появится в меню “Дополнительные инструменты” -> “Инструменты разработчика” -> закладка “Web Scraper” или по горячим клавишам Ctrl+Shift+I или F12. Описание сайта (парсера), в терминологии Web Scraper – sitemap – представляет собой простой текст в формате json.

Установка:

  • Скачать нужный вам парсер и разархивировать
  • Открыть файл *.webscraper любым текстовым просмотрщиком или редактором. Подойдёт блокнот или сам Chrome
  • Выделить и скопировать весь текст (Ctrl+A, Ctrl+C)
  • В Chrome открыть Web Scraper (F12), это можно сделать на любой закладке
  • Перейти Create new sitemap -> Import sitemap
  • Вставить текст в поле Sitemap JSON
  • Нажать внизу кнопку Import Sitemap. Если парсер с таким именем уже есть, то удалить его с главной вкладки Sitemaps или задать другое имя

webscraper_import

Запуск:

  • В Chrome открыть Web Scraper (F12), это можно сделать на любой закладке
  • На закладке Sitemaps выбрать (левый клик) нужный парсер
    • Адрес страницы/страниц для парсинга задаются в меню Sitemap (имя_парсера) -> Edit metadata
  • В меню Sitemap (имя_парсера) выбрать Scrape (при необходимости изменить параметры временных интервалов)
  • Нажать кнопку Start scraping
  • Откроется окно в котором будем выполнятся парсинг. Закроется автоматически по окончании процесса

webscraper_scrape

Выгрузка результата:

  • После окончания работы парсера или если результат уже есть от предыдущих запусков, в меню Sitemap (имя_парсера) выбрать Export data as CSV
  • Нажать Download now! и сохранить файл

webscraper_download

Особенностью работы Web Scraper является то, что если он не находит нужное поле на странице, то в результат будет записано значение «null». Учитывайте это при дальнейшей работе с данными. В Excel, например, это легко убрать через «Поиск и замена». Найти «null» -> Заменить на «пусто» -> Заменить все.

Один ответ на “Инструкция к Web Scraper

  1. Привет!
    Помогите с парсингом тенниса с софаскор.
    У меня не получается правильно создать список ссылок на эвенты(((
    Скрепер берет ссылки из списка a.cell.js-event-status-finished, но обращается к последней игре между этими игроками. Например игра между Antchandie H. — Bourcet T. со страницы sofascore.com/ru/tennis/2016-01-09, при парсинге бот переходит на страничку с игрой от 17.09.16

    Нравится

  2. Приветствую!

    Если я правильно понимаю, вы хотите спарсить части страницы, которые взаимосвязаны по дате. Такие задачи часто встречаются, но вот, что надо понимать: задача WebScraper — лишь собрать информацию со страницы. У него нет логики в поведении, он не выполняет никакой обработки забираемой инфы (разве что применить к строке регулярное выражение). Поэтому, если нужный блок не выделен отдельной разметкой страницы, то фокус не пройдёт. Такая вот обратная сторона простоты его философии.

    В этих случаях могу посоветовать забирать все блоки, а потом уже каким-то образом обрабатывать и фильтровать выгрузку. Если используется БД CouchDB, то можно возложить эту роль на неё, она умеет внутренние скрипты и сформирует выдачу как угодно.

    Наконец, WebScraper далеко не единственный парсер. Например, iMacros может зарядить сколь угодно сложную логику, но это опять программирование.

    Нравится

  3. спасибо, я писал про другое)
    решил проблему обращением к нужным ссылкам через Elementclick.
    Ранее перечислял эти ссылки через link, и это работало не правильно
    парсинг это новое для меня, поэтому терминологию всем понятную не знаю)

    Нравится

  4. Привет!
    Есть просьба. Не могли бы Вы написать парсер бет365 на теннис? Матчи только до-инплей, можно без парных встреч.
    Данные для выгрузки: Дата начала игры, время, игрок 1, игрок 2, кэф на победу 1, кэф на победу 2.
    Если возможно, еще как-то разделить мужчин/женщин.

    Нравится

Оставьте комментарий