O curso oferece uma introdução à captura de documentos e informações na web. Veremos como automatizar a obtenção de documentos, como extrair informações de conjuntos sequenciais de páginas em HTML, como consultar repetida e automaticamente formulários e como obter dados de APIs. Trabalharemos com exercícios práticos e problemas concretos de consumo de dados das equipes do SEADE. Ao final, para as pessoas interessadas poderão seguir o curso por mais 2 encontros para aprenderem sobre extração de informações de documentos de imagem e/ou pdf e sobre mineração de textos com R.
Leonardo S. Barone
Virtual, às sextas-feiras, das 9h às 13h.
- 14-10-2021 Aula 1 - Primeiros passos na coleta de dados na internet
- 21-10-2021 Aula 2 - Raspando uma página em html e uma sequência de páginas com tabela
- 28-10-2021 Aula 3 - Raspando várias páginas em html de um portal de notícias
- 04-11-2021 Aula 4 - Formulários na web
- 11-11-2021 Aula 5 - Acessando APIs com R
- 18-11-2021 - Tópicos Extras - Limpeza e prepração de textos com R
- 25-11-2021 - Tópicos Extras -Preparação para mineração de texto e extração de arquivos de pdf
Virtual, às sextas-feiras, das 9h às 13h.
- 10-09-2021 Aula 1 - Primeiros passos na coleta de dados na internet
- 17-09-2021 Aula 2 - Raspando uma página em html e uma sequência de páginas com tabela
- 24-09-2021 Aula 3 - Raspando várias páginas em html de um portal de notícias
- 01-10-2021 Aula 4 - Formulários na web
- 08-10-2021 Aula 5 - Acessando APIs com R
- 15-10-2021 - Tópicos Extras - Limpeza e prepração de textos com R
- 22-19-2021 - Tópicos Extras