Скрыть объявление
Гость Присоединяйся к складчине. Автокаталог для грузовых авто

Gray Hat Python. Part 2

Тема в разделе "Python", создана пользователем Tapac1, 23 янв 2019.

Метки:
  1. Tapac1

    Tapac1 Moder-Coder Команда форума

    Регистрация
    26 сен 2016
    Сообщения
    152
    Симпатии
    105
    Баллы
    51
    Пол
    Мужской
    Род занятий
    Web
    Адрес
    Localhost
    Интересы:
    Разное
    Парсер на Python

    С начало я хотел показать как написать свой парсер в питоне, а потому подумал что лучше будет показать как парсить html страницы на самом питоне,у меня 3-я версия Python,но все тоже самое будет работает и на питоне второй версии.

    Библиотеки которые нам понадобятся: lxml,html5lib,BeautifulSoup.
    Коротко про каждую:
    lxml - библиотека для обработки разметки XML и HTML
    html5lib – встраивается в lxml и может работать с "битым" html кодом
    Beautiful Soup - разбирает файлы html/xml
    Если вы на Линуксе,команды для установки всех нужных библиотек:
    apt-get install python-bs4
    apt-get install python-lxml
    apt-get install python-html5lib


    Если вы в интерпретаторе,загрузите нужные библиотеке в нем.
    После установки необходимого, можно приступать.В результате выполнения скрипта:

    Screenshot_90.png

    вы должны получить структурированный код.

    Примеры для того чтоб посмотреть как работает парсер мы будем делать на сайте спортивного питания Спортивное питание купить Киев и Украина, заказать спортпит по выгодной цене в интернет магазине спорт питания и одежды Bodymarket
    Примеры


    Screenshot_92.png
    Поиск по ссылкам


    Screenshot_93.png
    Парсер DIV блоков

    тут я перешел на другой сайт - Купить спортивное питание Киев и Украина ★ Интернет магазин спортивного питания МегаСила - Megasila ,потому что в изначальном div блоков не нашлось

    Screenshot_94.png
    Ссылки на картинки с сайта


    Screenshot_95.png
    Жмем на любую ссылку и получаем


    Screenshot_96.png

    Итог: благодаря использованию вышеперечисленных библиотек, мы имеем простой и понятный в использовании парсер html-страниц.
    Дополнительные методы библиотеки можно изучить,кликнув по их названию где вы перейдете по ссылке на сайт с их документацией,для перевода можно воспользоватся автопереводом страниц.​
     
    Niko-lay-ka нравится это.

Поделиться этой страницей

Share
Загрузка...
Плагины для XenForo/