Парсер правительства Германии

Основное
Цели
Решение
Результат

Узнай всех власть имущих в Германии

Данный парсер из-за большого объёма работы и необходимости проверок результатов разделён условно на две части.

Первая часть просто скачивает все необходимые страницы для их дальнейшей обработки.

Вторая часть занимается сбором данных.

Вывод результатов получается в форматах JSON и CSV.

Цели

  • Сохранять все данные в формате CSV

  • Сохранять копии страниц участников правительства

  • Сохранять Имя, Фамилию, Должность, Контакты и описание члена правительства

Решение

Парсинг сайта разбит на два этапа.

Первый этап. Сбор сырого материала. Под сырым материалом подразумеваются страницы пагинации и карточки членов правительства.

Для этого использовал python пакет requests

После чего начинается второй этап. Анализ скачанных страниц и сбор данных.

Для этого уже используют beautifulsoup4 пакет.

Как результат получаем два файла в формате JSON и CSV.

Результат

Имеем парсер, который может спарсить всех членов Германского правительства.

Исходники можно посмотреть тут

Репозиторий

Скачать скрипт тут

Архив

Дополнительные материалы


сердце 0
3 соединённые точки 0