
Об парсере изображений
Общие сведения
Это вебпарсер, который ищет и скачивает все изображения с сайта. Может работать в 3х различных режимах. В режиме одностраничного парсера, ищет и скачивает изображения только с указанной страницы. В многостраничном режиме. В таком случае, парсится список предоставленных страниц. И наконец режим парсинга целого сайта. Ищет изображения по всему сайту и по возможности скачивает их. Хоть остановить парсинг и нельзя, но можно закрыть вкладку и продолжить парсинг с последней ссылки. Просто вбей тот же адрес и мод и нажми Начать.
Парсинг реализован в однопоточном режиме со свопингом пользовательских агентов и прокси. Свопинг и подбор оных проводится случайным образом с использованием весов. То есть, чем больше и дольше парсишь сайт, тем лучше и быстрее парсер подберёт самые эффективные прокси и пользовательские агенты.
Для экономии места на сервере, каждые сутки в 0:00 по Москве я удаляю все собранные результаты парсинга.
Данный инструмент разработан в 2х вариациях. Как django приложение и как отдельный CLI инструмент. Довольно важное примечание, если Django приложение я постоянно обновляю и улучшаю, то CLI вариант нет. Учти это. Вот ссылка на
Django приложение. А вот ссылка на скрипт.
Про прокси
Он поддерживает прокси. Пока только общедоступные, но всё же.
Вот пример файла с прокси.
Может работать с такими прокси протоколами как http, https, socks4 socks5. Так же, из-за того что инструмент проверки прокси ещё не готов, недоступна опция автоматической генерации и подборки прокси под конкретный сайт.
Ограничения и дисклеймер
У данного инструмента существует несколько ограничений по парсингу. Такие, как не парсит svg файлы, не парсит фоновые изображения прописанные в стилях. Так же ещё не реализован мод динамического парсинга, хотя к этому иду :). Этот веб инструмент абсолютно бесплатен, единственное чего я прошу, добавь этот инструмент в закладки, или поделись ссылкой на него. Спасибо.
Так же автор данного инструмента не несёт никакой ответственности за то, что парсят посетители. Он создан исключительно в целях экономии времени и нервов тех, кому просто нужно собрать все изображения с сайта.
Рабочие заметки об инструменте
Чистка ImageThief
17.11.2024
Работал над прокси поддержкой для ImageThief
20.11.2024
Опубликовал 9 версию ImageThief, теперь с прокси.
21.11.2024
Отзывы
(0)