Turma Online 35 | Python | Semanas 17 e 18 | 2024 | Jessica Montenegro
Antes de começar, vamos organizar nosso setup.
- Fork esse repositório
- Clone o fork na sua máquina (Para isso basta abrir o seu terminal e digitar
git clone url-do-seu-repositorio-forkado
) - Entre na pasta do seu repositório (Para isso basta abrir o seu terminal e digitar
cd nome-do-seu-repositorio-forkado
) - [Add outras instruções caso necessário]
Horário: 9h - 17h (com pausa para o almoço das 12h às 13h)
Objetivo: Escolher a base de dados, formular problemas e hipóteses, desenvolver a análise exploratória e criar a base final para visualização de dados
Material da aula: Slide Semana 17 e Slide Semana 18
- Boas Vindas e Apresentação Professora
- Apresentação do projeto e entregáveis
- Escolher o tema
- Selecionar a Base de Dados
- Definir Objetivo e Perguntas norteadoras
- Realizar Análise Exploratória
Dado é qualquer tipo de valor bruto que, sozinho, não tem significado. Pode ser um número, palavra ou símbolo.
- Exemplo: "20", "João", "Brasil"
Informação é o dado processado e organizado, que já tem algum sentido e pode ser útil para entender algo.
- Exemplo: "João tem 20 anos e mora no Brasil."
Conhecimento é o que a gente entende e aprende a partir da informação, permitindo tomar decisões ou resolver problemas.
- Exemplo: "Sabemos que jovens de 20 anos no Brasil têm maior acesso à tecnologia, o que afeta seus hábitos."
Assim, dados são a base, informação é o dado com sentido, e conhecimento é o aprendizado que tiramos disso.
No início do projeto de dados, essas são perguntas essenciais: Conteúdo: O que eu quero informar? Público : Para quem eu estou contando essa história? Com quem vou compartilhar essa informação?
Há duas abordagens distintas para a escolha de um tema em projetos de análise de dados.
No "caminho comum", o processo segue os seguintes passos:
- Delimitação do tema: Escolha de um assunto amplo.
- Definição do problema: Identificação de uma questão específica a ser resolvida.
- Desenvolvimento de perguntas: Criação de perguntas que guiarão a pesquisa e análise.
- Coleta de dados: Identificação e aquisição de dados necessários para responder às perguntas.
Já no "caminho do projeto final", a proposta é inverter um pouco a ordem tradicional:
- Definir um interesse: Escolher um tema que desperte curiosidade ou paixão.
- Identificar um problema social: Relacionar o tema com uma questão relevante na sociedade.
- Selecionar uma base de dados: Encontrar uma base de dados disponível que seja adequada para o tema.
- Desenvolver perguntas: Formular perguntas que possam ser respondidas com os dados escolhidos.
Essa abordagem mais flexível ajuda na exploração de dados reais, relacionando-os com temas de interesse pessoal e questões sociais importantes.
-
Censo da Educação Superior
- Descrição: Dados sobre a educação superior no Brasil.
- Link: Censo da Educação Superior
-
ENEM (Exame Nacional do Ensino Médio)
- Descrição: Microdados do ENEM, incluindo informações sobre desempenho dos alunos.
- Link: Microdados do ENEM
-
Base de Dados do SUS
- Descrição: Dados sobre o Sistema Único de Saúde, incluindo informações de atendimentos, serviços e procedimentos realizados.
- Link: Base de Dados do SUS
-
Dados Abertos do Ministério da Saúde
- Descrição: Portal com dados sobre saúde pública, incluindo informações sobre vacinação, doenças e atendimentos.
- Link: Ministério da Saúde
-
Gov.br Dados Abertos
- Descrição: Portal que reúne diversos conjuntos de dados abertos do governo brasileiro.
- Link: Gov.br Dados Abertos
-
Data Rio
- Descrição: Portal de dados abertos da cidade do Rio de Janeiro, com informações sobre diversos temas.
- Link: Data Rio
-
Brasil.io
- Descrição: Conjunto de dados abertos sobre o Brasil, incluindo informações de saúde, educação e segurança pública.
- Link: Brasil.io
-
IBGE Dados Abertos
- Descrição: Conjunto de dados do Instituto Brasileiro de Geografia e Estatística, incluindo dados demográficos e socioeconômicos.
- Link: IBGE Dados Abertos
-
Banco Mundial
- Descrição: Conjunto de dados globais sobre desenvolvimento econômico, saúde, educação e outros indicadores.
- Link: Banco Mundial - Dados
-
OECD (Organização para Cooperação e Desenvolvimento Econômico)
- Descrição: Dados sobre diversos indicadores sociais e econômicos de países membros.
- Link: OECD Data
-
Spotify
- Descrição: Conjunto de dados sobre músicas e gêneros no Spotify.
- Link: Spotify Dataset
-
YouTube
- Descrição: Dados sobre estatísticas de vídeos do YouTube.
- Link: YouTube Statistics Dataset
-
Anime and Manga Dataset
- Descrição: Dados sobre animes e mangás, incluindo avaliações e características.
- Link: Anime and Manga Dataset
-
Top 1000 Steam Games 2023
- Descrição: Conjunto de dados sobre os 1000 jogos mais populares da plataforma Steam.
- Link: Top 1000 Steam Games Dataset
-
Kaggle Datasets
- Descrição: Diversos conjuntos de dados em várias áreas, disponíveis no Kaggle.
- Link: Kaggle Datasets
-
Nosso Mundo em Dados
- Descrição: Plataforma com visualizações e conjuntos de dados sobre diversos temas globais.
- Link: Our World in Data
-
Portal de Dados Abertos da Justiça
- Descrição: Dados sobre processos, varas e tribunais do Brasil.
- Link: Justiça Dados Abertos
-
Dados Abertos da ANP (Agência Nacional do Petróleo)
- Descrição: Dados sobre a produção, refino e distribuição de petróleo e gás no Brasil.
- Link: ANP Dados Abertos
Antes de fazer perguntas, você deve compreender:
- Qual é o tema da base de dados?
- Qual é o escopo dos dados (tempo, região, tipo de variáveis)?
- Quais são os principais campos (colunas) e o que eles representam?
Exemplo: Se você está trabalhando com uma base de dados do ENEM, os dados podem incluir notas, dados socioeconômicos, idade dos alunos, etc.
O objetivo geral é a grande questão que você quer responder. Ele deve estar alinhado com o propósito da análise e os resultados que você quer atingir.
Exemplo: Objetivo geral: "Entender os fatores que influenciam o desempenho dos alunos no ENEM."
Você pode criar perguntas específicas que guiarão sua análise. Essas perguntas devem ajudar a quebrar o objetivo geral em partes manejáveis.
-
Perguntas Descritivas: Perguntas que ajudam a entender o básico sobre os dados.
- "Qual é a distribuição das notas dos alunos?"
- "Quantos alunos vêm de escolas públicas versus privadas?"
-
Perguntas Comparativas: Perguntas que comparam diferentes grupos dentro dos dados.
- "Existe diferença no desempenho entre alunos de escolas públicas e privadas?"
- "Alunos de diferentes regiões do país apresentam desempenho diferente?"
-
Perguntas Relacionais: Perguntas que buscam entender relações entre variáveis.
- "Há uma correlação entre a renda familiar e o desempenho nas provas?"
- "A idade dos alunos influencia suas notas finais?"
-
Perguntas Temporais: Perguntas que analisam tendências ao longo do tempo (se aplicável).
- "Como as notas dos alunos evoluíram nos últimos 5 anos?"
- "Há uma tendência de melhora ou piora no desempenho de escolas específicas?"
-
Perguntas de Causalidade ou Hipóteses: Perguntas mais avançadas, que buscam identificar possíveis causas ou testar hipóteses.
- "O tipo de escola (pública ou privada) tem impacto significativo nas notas finais?"
- "Estudantes com maior nível de escolaridade dos pais tendem a obter melhores resultados?"
Certifique-se de que suas perguntas norteadoras sejam específicas e direcionadas. Isso evita análises muito amplas ou inconclusivas.
Exemplo:
- Pergunta vaga: "Como os dados influenciam os resultados dos alunos?"
- Pergunta específica: "Qual a relação entre o tempo de estudo diário e a nota final em matemática no ENEM?"
Verifique se as perguntas que você formulou podem ser respondidas com os dados que você tem.
Exemplo:
- Se a base de dados do ENEM não inclui a variável "horas de estudo", você precisaria ajustar a pergunta ou buscar outra base de dados.
Pense no valor prático das perguntas para o seu projeto. Perguntas que respondem a um problema real ou fornecem insights acionáveis são as mais úteis.
Exemplo:
- "Quais grupos de alunos poderiam se beneficiar de mais recursos educacionais com base no seu desempenho?"
O que eu quero tentar responder? VAMOS AO BRAINSTORM!
Links úteis para referência durante a análise exploratória e manipulação dos dados:
- Documentação Pandas
- Introdução ao Pandas
- Análise Exploratória de Dados I
- Análise Exploratória de Dados II
- Storytelling com Dados
- Markdown Cheatsheet
Desenvolvido com 💜