Recently Published
Aplicação de Técnicas Estatísticas Utilizando R e R Markdown
Relatório acadêmico que demonstra a aplicação de conceitos estatísticos fundamentais com o uso do R. O trabalho está dividido em três seções principais:
Visualização do Dataset VADeaths: Análise da taxa de mortalidade na Virgínia através de um gráfico de barras agrupadas.
Análise de Dados Categóricos: Representação da distribuição de estágios de uma doença com um gráfico de pizza.
Demonstração do Teorema do Limite Central (TLC): Utilização do dataset 'flu' para ilustrar empiricamente como a distribuição das médias amostrais se aproxima da normalidade.
Raio-X da Educação Superior Brasileira: Uma Análise da Evasão e do Desempenho dos Cursos (2019-2023)
Este projeto realiza uma análise exploratória aprofundada (EDA) sobre o cenário da Educação Superior no Brasil, utilizando os microdados públicos do Censo da Educação Superior, disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). O estudo abrange um período de cinco anos, de 2019 a 2023, buscando identificar e visualizar as tendências, desigualdades e transformações que marcaram o setor em um período recente, impactado por profundas mudanças socioeconômicas e pela consolidação do Ensino a Distância (EAD).
A análise se propõe a ser um "raio-x" do sistema, indo além das estatísticas superficiais para responder a perguntas centrais sobre o desempenho dos cursos no país.
Objetivos do Projeto:
Analisar a tendência temporal: Investigar a evolução de indicadores-chave, como o número total de matrículas e, principalmente, as taxas de evasão e conclusão ao longo dos cinco anos.
Identificar e quantificar desigualdades: Comparar o desempenho e o crescimento do setor entre a rede de ensino Pública e Privada, as modalidades Presencial e EAD, e as diferentes regiões geográficas do Brasil.
Explorar o perfil de desempenho: Identificar quais áreas do conhecimento concentram o maior número de alunos e como o seu desempenho (relação entre evasão e conclusão) se comporta.
Construir um modelo preditivo: Utilizar técnicas de Machine Learning (Random Forest) para identificar quais características de um curso (área, modalidade, rede, etc.) são os fatores preditores mais fortes de uma alta taxa de evasão.
Fonte dos Dados e Ferramentas:
Dados: Microdados do Censo da Educação Superior (2019-2023), obtidos através do portal do INEP.
Ferramentas: O projeto foi inteiramente desenvolvido em R. As principais ferramentas utilizadas incluem:
Manipulação de Dados: Pacotes do tidyverse (especialmente dplyr e purrr) para a transformação e limpeza dos dados, e data.table para leitura otimizada de arquivos grandes.
Visualização de Dados: ggplot2 para a criação de todos os gráficos estáticos e plotly para a geração de visualizações interativas.
Análise Geográfica: sf e geobr para o tratamento e plotagem de mapas coropléticos.
Modelagem: caret e randomForest para o treinamento e avaliação do modelo preditivo.
Principais Descobertas e Insights:
A análise revelou um setor em profunda transformação, marcado por tendências claras:
Crescimento Assimétrico: Uma expansão do número de matrículas impulsionada majoritariamente pela rede privada e pela modalidade EAD.
Desigualdade Regional Persistente: A concentração de matrículas e as menores taxas de evasão se mantêm no eixo Sul-Sudeste, enquanto as regiões Norte e Nordeste enfrentam os maiores desafios.
O Paradoxo da Demanda: Áreas do conhecimento com alta demanda de mercado e grande volume de alunos, como Negócios e TI, estão entre as que apresentam as maiores taxas de evasão.
Fatores Preditivos: O modelo de machine learning apontou que a área do conhecimento de um curso é um fator preditivo mais forte para a evasão do que a própria modalidade de ensino (Presencial ou EAD).
Este relatório serve como um recurso para gestores, pesquisadores e formuladores de políticas públicas que buscam compreender, com base em evidências, os desafios e as oportunidades da educação superior no Brasil contemporâneo.
Palavras-chave: R, Data Science, Análise de Dados, Educação Superior, Brasil, INEP, Censo da Educação Superior, Evasão, ggplot2, Machine Learning, Visualização de Dados.
Raio-X da Educação Superior Brasileira: Uma Análise Exploratória e Preditiva de 2019 a 2023
Um dashboard interativo com mapas, gráficos 3D e modelos de machine learning para analisar o desempenho e a evasão em cursos superiores, baseado em 5 anos de microdados do INEP.
Painel de Análise e Modelagem Preditiva da Educação Superior no Brasil (2019-2023)
Este trabalho apresenta uma análise abrangente sobre a evolução da educação superior no Brasil, com base nos Microdados do Censo da Educação Superior do INEP para o período de 2019 a 2023. O objetivo central é identificar e visualizar as principais tendências relacionadas ao desempenho dos cursos, com foco especial nas taxas de evasão e conclusão.
Utilizando a linguagem R e o ambiente R Markdown, o projeto desenvolve um painel de análise interativo que permite a exploração dos dados por diferentes dimensões, como modalidade de ensino (Presencial vs. EAD), rede (Pública vs. Privada), área do conhecimento e distribuição geográfica. Entre as funcionalidades, destacam-se um mapa coroplético interativo das taxas de evasão por estado e uma visualização 3D que correlaciona múltiplas métricas de desempenho.
Adicionalmente, como bônus, são construídos e comparados dois modelos de machine learning (Árvore de Decisão e Random Forest) para classificar cursos com alto risco de evasão, identificando as variáveis mais influentes. Este projeto foi desenvolvido como avaliação final da disciplina de Ciência de Dados, com data de entrega e apresentação em 18/06/2025.
Atividade 12 - CPAD - Ian Lucas de Almeida
Este relatório apresenta uma análise comparativa do uso de memória em diferentes configurações de execução simuladas em ambiente de nuvem. Utilizando o R, os dados foram importados diretamente de arquivos CSV hospedados em um repositório GitHub, processados e posteriormente visualizados por meio de gráficos de linha.
Cada conjunto de dados representa uma situação com variação no controle de execução (por exemplo, delays de 0.1, 0.5, 1 segundo e uma execução sem controle – NONE). O objetivo é observar o comportamento da memória RAM utilizada ao longo do tempo, a fim de identificar padrões de consumo e possíveis gargalos.
Durante a análise, foi realizado o pré-processamento dos dados:
Conversão de datas e horas (currentTime) para o formato apropriado,
Limpeza e conversão da coluna de uso de memória (usedMemory) para valores numéricos.
Os gráficos resultantes permitem comparar visualmente o impacto das diferentes frequências de coleta de dados na utilização da memória, contribuindo para futuras decisões em ambientes de computação em nuvem.
Este projeto reforça o uso do R para manipulação de dados, visualização e integração com fontes externas como o GitHub, promovendo práticas reprodutíveis e automatizadas de análise de desempenho em sistemas distribuídos.
Relatório RMarkdown - Ian Lucas
Atividade prática usando R Markdown, DT e visualizações.