Парсер правительства Германии
Узнай всех власть имущих в Германии
Данный парсер из-за большого объёма работы и необходимости проверок результатов разделён условно на две части.
Первая часть просто скачивает все необходимые страницы для их дальнейшей обработки.
Вторая часть занимается сбором данных.
Вывод результатов получается в форматах JSON и CSV.
Цели
-
Сохранять все данные в формате CSV
-
Сохранять копии страниц участников правительства
-
Сохранять Имя, Фамилию, Должность, Контакты и описание члена правительства
Решение
Парсинг сайта разбит на два этапа.
Первый этап. Сбор сырого материала. Под сырым материалом подразумеваются страницы пагинации и карточки членов правительства.
Для этого использовал python пакет requests
После чего начинается второй этап. Анализ скачанных страниц и сбор данных.
Для этого уже используют beautifulsoup4 пакет.
Как результат получаем два файла в формате JSON и CSV.
Результат
Имеем парсер, который может спарсить всех членов Германского правительства.
Исходники можно посмотреть тут
Скачать скрипт тут