Aplicação de Técnicas de Machine Learning e Deep Learning para Prever o IDEB Municipal Piauiense nos Anos Iniciais do Ensino Fundamental
DOI:
https://doi.org/10.5753/rbie.2026.7071Keywords:
Educação Básica, IDEB, Modelagem Preditiva, Machine Learning, Deep Learning, Ensembles Baseados em Árvores, Políticas Educacionais Baseadas em EvidênciasAbstract
Este estudo investiga a aplicação de modelos preditivos para estimar o Índice de Desenvolvimento da Educação Básica (IDEB) nos anos iniciais do ensino fundamental nos municípios do estado do Piauí, a partir de variáveis educacionais, socioeconômicas e financeiras. A pesquisa utilizou dados públicos e, após rigoroso processo de limpeza, agregação, imputação e seleção de atributos, constituiu uma base multivariada final composta por 1.262 registros e 126 variáveis explicativas, extraídas exclusivamente de fontes oficiais. Foram avaliados dez algoritmos de Machine Learning (ML), incluindo regressões lineares e penalizadas, árvores de decisão, métodos baseados em vizinhança, ensembles e support vector regression e sete arquiteturas de Deep Learning (DL), abrangendo redes do tipo Multilayer Perceptron (MLP), variantes com Dropout e Batch Normalization, arquiteturas convolucionais (CNN), recorrentes (LSTM) e híbridas. Os experimentos seguiram uma abordagem quantitativa, com divisão dos dados em conjuntos de treino e teste (70/30), validação cruzada k-fold, normalização quando necessário e análise de importância de variáveis. O algoritmo Extreme Gradient Boosting (XGBoost) apresentou o melhor desempenho médio entre os modelos avaliados, alcançando 𝑅² = 0,5542 no conjunto de teste e 𝑅² = 0,5455 ± 0,0293 em validação cruzada, com menores erros médios e maior estabilidade relativa em comparação às abordagens lineares e às redes neurais profundas. Além disso, a análise de importância dos preditores identificou o PIB per capita municipal, a taxa de distorção idade-série e a proporção de docentes sem formação superior como os fatores mais relevantes para explicar a variação do IDEB nos municípios piauienses. Os achados contribuem para o aprimoramento de diagnósticos regionais e para a proposição de uma abordagem replicável de apoio ao monitoramento educacional em escala municipal.
Downloads
Referências
Benevento, M. A. (2024). O uso de algoritmos de aprendizagem de máquina para prever o desempenho do aluno (Tese de doutorado). Fundação Getulio Vargas, Escola de Administração de Empresas de São Paulo. Disponível em [link].
Brasil. (1988). Constituição da República Federativa do Brasil de 1988. Brasília, DF: Senado Federal. Disponível em [link].
Brasil. (1996). Lei n.º 9.394, de 20 de dezembro de 1996. Diário Oficial da União. Brasília, DF. Disponível em [link].
Brasil. (2020). Emenda constitucional n.º 108, de 26 de agosto de 2020. Diário Oficial da União. Brasília, DF. Disponível em [link].
Carreira, D., & Pinto, J. M. (2007). Custo aluno-qualidade inicial: Rumo à educação pública de qualidade no Brasil. São Paulo: Global; Campanha Nacional pelo Direito à Educação. Disponível em [link] [GS Search].
Chen, S., & Ding, Y. (2023). A machine learning approach to predicting academic performance in Pennsylvania's schools. Social Sciences, 12(3), 118. https://doi.org/10.3390/socsci12030118 [GS Search].
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Em Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785–794). San Francisco: ACM. http://dx.doi.org/10.1145/2939672.2939785 [GS Search].
Conover, W. J. (1999). Practical nonparametric statistics (3rd ed.). New York: John Wiley & Sons. [GS Search].
Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7, 1–30. [GS Search].
Hanushek, E. A., & Woessmann, L. (2020). Education, knowledge capital, and economic growth. Em S. Sleeper (Ed.), The economics of education (2nd ed.). Amsterdam: Elsevier. https://doi.org/10.1016/B978-0-12-815391-8.00014-8 [GS Search].
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data mining, inference, and prediction (2nd ed.). New York: Springer. [GS Search].
Holmes, W., Bialik, M., & Fadel, C. (2019). Artificial intelligence in education: Promises and implications for teaching and learning. (1st ed.). Center for Curriculum Redesign: Boston, MA, USA. [GS Search].
IBGE. (2023). Estatísticas sociais e econômicas. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística. Disponível em [link].
INEP. (2023). Resultados do IDEB e dos indicadores educacionais. Brasília: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Disponível em [link].
Keras Team. (2025). Keras API documentation. Disponível em [link].
Kursa, M. B., & Rudnicki, W. R. (2010). Feature selection with the Boruta package. Journal of Statistical Software, 36(11), 1–13. https://doi.org/10.18637/jss.v036.i11 [GS Search].
Lundberg, S. M., & Lee, S.-I. (2017). A unified approach to interpreting model predictions. Em Advances in Neural Information Processing Systems (Vol. 30, pp. 4768–4777). https://doi.org/10.48550/arXiv.1705.07874 [GS Search].
Maia, J. S. Z., Bueno, A. P. A., & Sato, J. R. (2021). Assessing the educational performance of different Brazilian school cycles using data science methods. PLOS ONE, 16(3), e0248525. https://doi.org/10.1371/journal.pone.0248525 [GS Search].
MEC. (2023). SAGICAD: Sistema de Avaliação, Gestão da Informação e Cadastro Único. Brasília: Ministério da Educação. Disponível em [link].
Molnar, C. (2020). Interpretable machine learning: A guide for making black box models explainable (3rd ed.). Disponível em [link] [GS Search].
PNUD, IPEA, & FJP. (2022). Atlas do desenvolvimento humano no Brasil. Brasília: Programa das Nações Unidas para o Desenvolvimento, Instituto de Pesquisa Econômica Aplicada e Fundação João Pinheiro. Disponível em [link].
Rocha, F. A. F., Teixeira, J. C. M., & Melo, F. L. N. B. (2015). Análise dos fatores que influenciam o desempenho escolar dos alunos do ensino fundamental no estado do Rio Grande do Norte. Revista Interface, 12(1). [GS Search].
Rodrigues, L. S., Santos, M., Gomes, C. F. S., Choren, R., Goldschmidt, R., & Barbará, S. (2024). Transformers para previsão de desempenho acadêmico no ensino fundamental e médio. Revista Brasileira de Informática na Educação, 32, 213–241. https://doi.org/10.5753/rbie.2024.3661 [GS Search].
SICONFI. (2023). Sistema de Informações Contábeis e Fiscais do Setor Público Brasileiro. Brasília: Tesouro Nacional. Disponível em [link].
Silveira, A. A. D., Schneider, G., & Alves, T. (2023). Simulador de Custo-aluno Qualidade: Padrão de qualidade de referência, versão 02.2023. Curitiba; Goiânia: Laboratório de Dados Educacionais, UFPR; UFG. Disponível em [link].
SIOPE. (2023). Sistema de Informações sobre Orçamentos Públicos em Educação. Brasília: FNDE. Disponível em [link].
Soares, D. J. M., & Santos, W. (2024). Indicadores de avaliação de contexto e resultados educacionais no IDEB: Uma análise das escolas estaduais de ensino médio no Espírito Santo. Revista Brasileira de Estudos Pedagógicos, 105, e5872. https://doi.org/10.24109/2176-6681.rbep.105.5872 [GS Search].
Soares, J. F., & Araújo, R. J. (2006). Nível socioeconômico, qualidade e equidade das escolas de Belo Horizonte. Ensaio: Avaliação e Políticas Públicas em Educação, 14(50), 107–126. https://doi.org/10.1590/S0104-40362006000100008 [GS Search].
Souza, V. F., & Santos, T. C. B. (2021). Processo de mineração de dados educacionais aplicado na previsão do desempenho de alunos: Uma comparação entre técnicas de aprendizagem de máquina e aprendizagem profunda. Revista Brasileira de Informática na Educação, 29. https://doi.org/10.5753/RBIE.2021.29.0.519 [GS Search].
TensorFlow. (2025). TensorFlow documentation. Disponível em [link].
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B, 58(1), 267–288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x [GS Search].
UNESCO. (2022). Reimaginar juntos nossos futuros: Um novo contrato social para a educação. Paris: Organização das Nações Unidas para a Educação, a Ciência e a Cultura. Disponível em [link].
Wang, S., & Luo, B. (2024). Academic achievement prediction in higher education through interpretable modeling. PLOS ONE, 19(9), e0309838. https://doi.org/10.1371/journal.pone.0309838 [GS Search].
Zawacki-Richter, O., Marín, V. I., Bond, M., & Gouverneur, F. (2019). Systematic review of research on artificial intelligence applications in higher education: Where are the educators?. International Journal of Educational Technology in Higher Education, 16, 39. https://doi.org/10.1186/s41239-019-0171-0 [GS Search].
Arquivos adicionais
Published
Como Citar
Issue
Section
Licença
Copyright (c) 2026 Maria Eva Clemencia Fonseca de Castro Silva, Ivan Saraiva Silva, Vinícius Ponte Machado

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

