Паук / Мануал
Данный модуль обходит заданные урлы и собирает с них внешние ссылки, которые потом проверяются на дроп. Механика направлена на то, чтобы искать дропы с конкретных сайтов. С сайтов конкурентов, жирных профильных ресурсов и в целом с тех, с которых не купить ссылку. По фану я находил дропы на сайте Госдепа США.
Начало работы:
- Создаем проект с типом Паук
- В меню проекта переходим во вкладку Паук
- Добавляем задачу
- Нажимаем парсинг
Принцип работы:
- Сейчас парсинг происходит в один поток. В процессе расширим, а сейчас надо понять (разработчику) несколько моментов.
- При ответе 301 от донора два варианта действий. Если ответ 301 сразу на урл, который указали в задаче, то он заменяется на урл редиректа и парсинг стартует по новому урлу. Например, добавили https://домен, а ответ 301 на https://www.домен. В таком случае, скрипт заменит стартовый урл задачи на адрес с www. А если редирект для внутренней страницы (которая в процессе парсинга получена), то страница помечается пройденной, а урл с 301 добавляется в базу.
- При ответе 0 (ноль) автоматический повтор попытки через 5 секунд.
- Во всех остальных случаях (кроме ответа 200), будет ошибка. Тогда скрин мне, я разберусь и выпущу быстрый фикс.
Запреты:
Можно установить запреты посредством добавления фрагментов урлов. Например, /forum/. Тогда урлы с этим вхождением будут пропускаться. Также есть возможность почистить такие урлы, если они уже в базе. Для этого идем в настройки задачи (нажимаем на её id в таблице), вписываем запрещенные вхождения и нажимаем кнопку справа (Сохранить и удалить урлы с такими вхождениями).
Когда парсинг будет завершен, дальше действуем стандартно. Идем в первичку.
