Как проводится парсинг
Всё зависит от того что парсить и чем парсить. Можно парсить документы и таблицы, а можно парсить сайты. При чём сайты парсить сложнее чем документы, ибо сайтов великое множество и у каждого своя архитектура, что сильно усложняет парсинг.
Общая схема парсинга чего бы то ни было выглядит так:
- Получить ресурс (документ, страницу сайта)
- Извлечь данные
- Сохранить или обработать их.
Первый шаг, он же самый сложный. Существует много способов защитить контент от парсинга. Начиная от полной его блокировкой (без пароля его не достать), заканчивая блокирования по IP, HTTP-заголовкам.
Извлечь данные обычно не предоставляется чем-то не выполнимым. Обычно это текст или какая-нибудь статистическая информация.
Об обработке и сохранении информации можно говорить много, скажу лишь то, что информацию обычно обрабатывают и сохраняют в заранее указанном формате от заказчика или исходя от потребности.
Данных обычно много, и чтобы спарсить их все требуются очень большие вычислительные возможности с применением многопоточности и облачных вычислений.
Обычно парсер пишут на python-е, не на чистом конечно же, но с использованием соответствующих библиотек. И преимущество этого языка в том, что для любой информации, в какой бы то ни было форме и формате она не была представлена, существует своя библиотека.
0
Использованно в
Парсер интернет магазина, пример.
16.11.2024