О парсере текста с сайта
Онлайн парсер который собирает текст, заголовковки, исходный код и прочее (просто используй CSS селектор) с сайтов, веб страниц и списков страниц. С последующей базовой его обработкой, которая включает количество слов, количество уникальных слов и сбора списка частоты появления этих слов в тексте.
Данный инструмент работает в 3-х режимах. В режиме парсинга с одной страницы, со списка страниц и с целого сайта.
Ещё этот парсер текста с веб страниц, представляет из себя веб-реализацию python-библиотеи text-thief. Которая предоставляет общий функционла для работы с текстом. Ещё есть реализация ввиде инструмента командной строки, которая гораздо легче для понимания и изучения. Эта библиотека доступна через PiPI, или можно установить её исходники прямо отсюда.
Отзывы
(0)