ImageThief

Начать

ImageThief-Состояние

ImageThief-Результаты

ImageThief-Логи


							
							

Прокси

?
?
?

Мод

Об парсере изображений

Общие сведения

Это вебпарсер, который ищет и скачивает все изображения с сайта. Может работать в 3х различных режимах. В режиме одностраничного парсера, ищет и скачивает изображения только с указанной страницы. В многостраничном режиме. В таком случае, парсится список предоставленных страниц. И наконец режим парсинга целого сайта. Ищет изображения по всему сайту и по возможности скачивает их. Хоть остановить парсинг и нельзя, но можно закрыть вкладку и продолжить парсинг с последней ссылки. Просто вбей тот же адрес и мод и нажми Начать.
Парсинг реализован в однопоточном режиме со свопингом пользовательских агентов и прокси. Свопинг и подбор оных проводится случайным образом с использованием весов. То есть, чем больше и дольше парсишь сайт, тем лучше и быстрее парсер подберёт самые эффективные прокси и пользовательские агенты.
Для экономии места на сервере, каждые сутки в 0:00 по Москве я удаляю все собранные результаты парсинга.
Данный инструмент разработан в 2х вариациях. Как django приложение и как отдельный CLI инструмент. Довольно важное примечание, если Django приложение я постоянно обновляю и улучшаю, то CLI вариант нет. Учти это. Вот ссылка на Django приложение. А вот ссылка на скрипт.

Про прокси

Он поддерживает прокси. Пока только общедоступные, но всё же. Вот пример файла с прокси. Может работать с такими прокси протоколами как http, https, socks4 socks5. Так же, из-за того что инструмент проверки прокси ещё не готов, недоступна опция автоматической генерации и подборки прокси под конкретный сайт.

Ограничения и дисклеймер

У данного инструмента существует несколько ограничений по парсингу. Такие, как не парсит svg файлы, не парсит фоновые изображения прописанные в стилях. Так же ещё не реализован мод динамического парсинга, хотя к этому иду :). Этот веб инструмент абсолютно бесплатен, единственное чего я прошу, добавь этот инструмент в закладки, или поделись ссылкой на него. Спасибо.
Так же автор данного инструмента не несёт никакой ответственности за то, что парсят посетители. Он создан исключительно в целях экономии времени и нервов тех, кому просто нужно собрать все изображения с сайта.

Рабочие заметки об инструменте

Чистка ImageThief

Часы
17.11.2024
Успешно перенёс .09 версию ImageThief на сервер. С некоторыми кардинальными изменениями. Убрал возможность останавливать парсинг, заменил Process base threading на Thread base threading. Так же заменил несколько таймеров. Дальше будет больше.

Работал над прокси поддержкой для ImageThief

Часы
20.11.2024
Сегодня работал над ImageThief. Я занимался тем, что верстал и подготавливал бэкенд для работы с прокси. И спойлер, я всё сделал. Наверное я бы мог сделать больше, но мне было лень. К концу этого года, собираюсь довести до ума ImageThief и добавить ещё два инструмента поменьше ProxyChecker и ProxyParser.

Опубликовал 9 версию ImageThief, теперь с прокси.

Часы
21.11.2024
Теперь прокси доступны для использования. Признаюсь честно, реализация данной фичи желает оставлять лучшего, но как я обычно говорю, сначала заставь "это" работать, потом заставь "это" работать хорошо. Ну или что-то вроде того.

сердце
облачко
облачко
облачко

Отзывы

(0)
captcha
Отправить
Сейчас тут пусто. Буть первым (o゚v゚)ノ