Pegue” informações de Sites com Beautifulsoup, biblioteca Python necessária para fazer “parse” de sites.
Como “pegar” informações de Sites com BeautifulSoup?
Vamos falar nesse artigo do Beautifulsoup, biblioteca Python necessária para fazer “parse” de sites.
Veja também: 74 sites que oferecem cursos online gratuitos com certificado
Para iniciarmos o exemplo será necessário instalar a biblioteca Python Beautifulsoup no seu ambiente, e assumo que o leitor tenha PIP instalado, então segue comando para instalação:
A partir desse momento vamos começar a trabalhar com a biblioteca Pyhton.
Imaginamos que você tenha que fazer parse de um simples site, e que este tenha apenas esse arquivo html:
$ <head>
$ <title>
$ Exemplo de Beautifulsoup
$ </title>
$ </head>
$ <body>
$ <p class=“title”>
$ <b>
$ Exemplo de Beautifulsoup
$ </b>
$ </p>
$ <p class=“story”>
$ Vamos fazer “parses” desse simples exemplo de html com Beautifulsoup.
$ <a class=“sister” href=“http://examplo.com/link1” id=“link1”>
$ Link1
$ </a>
$ ,
$ <a class=“sister” href=“http://examplo.com/link2” id=“link2”>
$ Link2
$ </a>
$ and
$ <a class=“sister” href=“http://examplo.com/link2_teste” id=“link2”>
$ Link3 Test
$ </a>
$ ; Vamos lá!!!!!!!!!!!!!!!!!!!!!
$ </p>
$ <p class=“story”>
$ …
$ </p>
$ </body>
$ </html>”””
Vamos fazer nossa biblioteca ler nossa variavel html, dessa forma:
Pronto! Assim como tudo em Python… é simples 🙂
Agora podemos trabalhar com todo o conteúdo HTML a partir dos métodos da biblioteca.
Para o título:
Para as informações desse título:
Para os “P” de HTML:
Para pegar o nome da classe usada no “P”:
Vamos agora demonstrar como fazer uma busca no documento HTML, digamos que tenhamos a necessidade de pegar todos os <a></a> do nosso arquivo HTML, então usaremos esta biblioteca da seguinte maneira:
$ [
$ <a class=“sister”href=“http://examplo.com/link1” id=“link1”>Link1</a>
$ <a class=“sister” href=“http://examplo.com/link2” id=“link2”>Link2</a>
$ <a class=“sister” href=“http://examplo.com/link2_teste” id=“link2”>Link3 Test</a>
$ ]
Vamos deixar essa busca mais elaborada, vamos buscar um ID especifico do nosso arquivo HTML dessa forma:
$ <a class=“sister”href=“http://examplo.com/link1” id=“link1”>Link1</a>
Bom, esta é uma pequena explicação de como funciona o Beautifulsoup. Caso tenham interesse em algo mais especifico, eu utilizei em produção para fazer captura de uns dados, o Script esta no GITHUB no seguinte endereço: https://github.com/linuxsoares/scripts/blob/master/getVerbos.py
nesse Script implementei bastante coisa do Beautifulsoup e algumas outras coisas também.
Qualquer dúvida pode entrar em contato:
Email: linux.soares@gmail.com
Você vai gostar também:
Você pode gostar: