Паук / Мануал

Данный модуль обходит заданные урлы и собирает с них внешние ссылки, которые потом проверяются на дроп. Механика направлена на то, чтобы искать дропы с конкретных сайтов. С сайтов конкурентов, жирных профильных ресурсов и в целом с тех, с которых не купить ссылку. По фану я находил дропы на сайте Госдепа США.

Начало работы:

  1. Создаем проект с типом Паук
  2. В меню проекта переходим во вкладку Паук
  3. Добавляем задачу
  4. Нажимаем парсинг

Принцип работы:

  1. Сейчас парсинг происходит в один поток. В процессе расширим, а сейчас надо понять (разработчику) несколько моментов.
  2. При ответе 301 от донора два варианта действий. Если ответ 301 сразу на урл, который указали в задаче, то он заменяется на урл редиректа и парсинг стартует по новому урлу. Например, добавили https://домен, а ответ 301 на https://www.домен. В таком случае, скрипт заменит стартовый урл задачи на адрес с www. А если редирект для внутренней страницы (которая в процессе парсинга получена), то страница помечается пройденной, а урл с 301 добавляется в базу.
  3. При ответе 0 (ноль) автоматический повтор попытки через 5 секунд.
  4. Во всех остальных случаях (кроме ответа 200), будет ошибка. Тогда скрин мне, я разберусь и выпущу быстрый фикс.

Запреты:

Можно установить запреты посредством добавления фрагментов урлов. Например, /forum/. Тогда урлы с этим вхождением будут пропускаться. Также есть возможность почистить такие урлы, если они уже в базе. Для этого идем в настройки задачи (нажимаем на её id в таблице), вписываем запрещенные вхождения и нажимаем кнопку справа (Сохранить и удалить урлы с такими вхождениями).

 

Когда парсинг будет завершен, дальше действуем стандартно. Идем в первичку.