Application of Machine Learning and Deep Learning Techniques to Predict the Piauiense Municipal IDEB in the Initial Years of Elementary School

Authors

DOI:

https://doi.org/10.5753/rbie.2026.7071

Keywords:

Basic Education, IDEB, Predictive Modeling, Machine Learning, Deep Learning, Tree-Based Ensembles, Evidence-Based Educational Policies

Abstract

This study investigates the application of predictive models to estimate the Basic Education Development Index (IDEB) in the early years of elementary school in municipalities in the state of Piauí, based on educational, socioeconomic, and financial variables. The research used public data and, after a rigorous process of cleaning, aggregation, imputation, and attribute selection, constituted a final multivariate database composed of 1,262 records and 126 explanatory variables, extracted exclusively from official sources. Ten Machine Learning (ML) algorithms were evaluated, including linear and penalized regressions, decision trees, neighborhood-based methods, ensembles, and support vector regression, and seven Deep Learning (DL) architectures, encompassing Multilayer Perceptron (MLP) networks, variants with Dropout and Batch Normalization, convolutional (CNN), recurrent (LSTM), and hybrid architectures. The experiments followed a quantitative approach, with data splitting into training and test sets (70/30), k-fold cross-validation, normalization when necessary, and variable importance analysis. The Extreme Gradient Boosting (XGBoost) algorithm presented the best average performance among the evaluated models, reaching 𝑅² = 0.5542 in the test set and 𝑅² = 0.5455 ± 0.0293 in cross-validation, with lower average errors and greater relative stability compared to linear approaches and deep neural networks. Furthermore, the importance analysis of the predictors identified municipal GDP per capita, age-grade distortion rate, and the proportion of teachers without higher education as the most relevant factors to explain the variation in IDEB (Basic Education Development Index) in the municipalities of Piauí. The findings contribute to the improvement of regional diagnoses and to the proposal of a replicable approach to support educational monitoring at the municipal level.

Downloads

Download data is not yet available.

References

Benevento, M. A. (2024). O uso de algoritmos de aprendizagem de máquina para prever o desempenho do aluno (Tese de doutorado). Fundação Getulio Vargas, Escola de Administração de Empresas de São Paulo. Disponível em [link].

Brasil. (1988). Constituição da República Federativa do Brasil de 1988. Brasília, DF: Senado Federal. Disponível em [link].

Brasil. (1996). Lei n.º 9.394, de 20 de dezembro de 1996. Diário Oficial da União. Brasília, DF. Disponível em [link].

Brasil. (2020). Emenda constitucional n.º 108, de 26 de agosto de 2020. Diário Oficial da União. Brasília, DF. Disponível em [link].

Carreira, D., & Pinto, J. M. (2007). Custo aluno-qualidade inicial: Rumo à educação pública de qualidade no Brasil. São Paulo: Global; Campanha Nacional pelo Direito à Educação. Disponível em [link] [GS Search].

Chen, S., & Ding, Y. (2023). A machine learning approach to predicting academic performance in Pennsylvania's schools. Social Sciences, 12(3), 118. https://doi.org/10.3390/socsci12030118 [GS Search].

Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Em Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785–794). San Francisco: ACM. http://dx.doi.org/10.1145/2939672.2939785 [GS Search].

Conover, W. J. (1999). Practical nonparametric statistics (3rd ed.). New York: John Wiley & Sons. [GS Search].

Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7, 1–30. [GS Search].

Hanushek, E. A., & Woessmann, L. (2020). Education, knowledge capital, and economic growth. Em S. Sleeper (Ed.), The economics of education (2nd ed.). Amsterdam: Elsevier. https://doi.org/10.1016/B978-0-12-815391-8.00014-8 [GS Search].

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data mining, inference, and prediction (2nd ed.). New York: Springer. [GS Search].

Holmes, W., Bialik, M., & Fadel, C. (2019). Artificial intelligence in education: Promises and implications for teaching and learning. (1st ed.). Center for Curriculum Redesign: Boston, MA, USA. [GS Search].

IBGE. (2023). Estatísticas sociais e econômicas. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística. Disponível em [link].

INEP. (2023). Resultados do IDEB e dos indicadores educacionais. Brasília: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Disponível em [link].

Keras Team. (2025). Keras API documentation. Disponível em [link].

Kursa, M. B., & Rudnicki, W. R. (2010). Feature selection with the Boruta package. Journal of Statistical Software, 36(11), 1–13. https://doi.org/10.18637/jss.v036.i11 [GS Search].

Lundberg, S. M., & Lee, S.-I. (2017). A unified approach to interpreting model predictions. Em Advances in Neural Information Processing Systems (Vol. 30, pp. 4768–4777). https://doi.org/10.48550/arXiv.1705.07874 [GS Search].

Maia, J. S. Z., Bueno, A. P. A., & Sato, J. R. (2021). Assessing the educational performance of different Brazilian school cycles using data science methods. PLOS ONE, 16(3), e0248525. https://doi.org/10.1371/journal.pone.0248525 [GS Search].

MEC. (2023). SAGICAD: Sistema de Avaliação, Gestão da Informação e Cadastro Único. Brasília: Ministério da Educação. Disponível em [link].

Molnar, C. (2020). Interpretable machine learning: A guide for making black box models explainable (3rd ed.). Disponível em [link] [GS Search].

PNUD, IPEA, & FJP. (2022). Atlas do desenvolvimento humano no Brasil. Brasília: Programa das Nações Unidas para o Desenvolvimento, Instituto de Pesquisa Econômica Aplicada e Fundação João Pinheiro. Disponível em [link].

Rocha, F. A. F., Teixeira, J. C. M., & Melo, F. L. N. B. (2015). Análise dos fatores que influenciam o desempenho escolar dos alunos do ensino fundamental no estado do Rio Grande do Norte. Revista Interface, 12(1). [GS Search].

Rodrigues, L. S., Santos, M., Gomes, C. F. S., Choren, R., Goldschmidt, R., & Barbará, S. (2024). Transformers para previsão de desempenho acadêmico no ensino fundamental e médio. Revista Brasileira de Informática na Educação, 32, 213–241. https://doi.org/10.5753/rbie.2024.3661 [GS Search].

SICONFI. (2023). Sistema de Informações Contábeis e Fiscais do Setor Público Brasileiro. Brasília: Tesouro Nacional. Disponível em [link].

Silveira, A. A. D., Schneider, G., & Alves, T. (2023). Simulador de Custo-aluno Qualidade: Padrão de qualidade de referência, versão 02.2023. Curitiba; Goiânia: Laboratório de Dados Educacionais, UFPR; UFG. Disponível em [link].

SIOPE. (2023). Sistema de Informações sobre Orçamentos Públicos em Educação. Brasília: FNDE. Disponível em [link].

Soares, D. J. M., & Santos, W. (2024). Indicadores de avaliação de contexto e resultados educacionais no IDEB: Uma análise das escolas estaduais de ensino médio no Espírito Santo. Revista Brasileira de Estudos Pedagógicos, 105, e5872. https://doi.org/10.24109/2176-6681.rbep.105.5872 [GS Search].

Soares, J. F., & Araújo, R. J. (2006). Nível socioeconômico, qualidade e equidade das escolas de Belo Horizonte. Ensaio: Avaliação e Políticas Públicas em Educação, 14(50), 107–126. https://doi.org/10.1590/S0104-40362006000100008 [GS Search].

Souza, V. F., & Santos, T. C. B. (2021). Processo de mineração de dados educacionais aplicado na previsão do desempenho de alunos: Uma comparação entre técnicas de aprendizagem de máquina e aprendizagem profunda. Revista Brasileira de Informática na Educação, 29. https://doi.org/10.5753/RBIE.2021.29.0.519 [GS Search].

TensorFlow. (2025). TensorFlow documentation. Disponível em [link].

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B, 58(1), 267–288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x [GS Search].

UNESCO. (2022). Reimaginar juntos nossos futuros: Um novo contrato social para a educação. Paris: Organização das Nações Unidas para a Educação, a Ciência e a Cultura. Disponível em [link].

Wang, S., & Luo, B. (2024). Academic achievement prediction in higher education through interpretable modeling. PLOS ONE, 19(9), e0309838. https://doi.org/10.1371/journal.pone.0309838 [GS Search].

Zawacki-Richter, O., Marín, V. I., Bond, M., & Gouverneur, F. (2019). Systematic review of research on artificial intelligence applications in higher education: Where are the educators?. International Journal of Educational Technology in Higher Education, 16, 39. https://doi.org/10.1186/s41239-019-0171-0 [GS Search].

Published

2026-05-19

How to Cite

SILVA, M. E. C. F. de C.; SILVA, I. S.; MACHADO, V. P. Application of Machine Learning and Deep Learning Techniques to Predict the Piauiense Municipal IDEB in the Initial Years of Elementary School. Brazilian Journal of Computers in Education, [S. l.], v. 34, p. 717–738, 2026. DOI: 10.5753/rbie.2026.7071. Disponível em: https://journals-sol.sbc.org.br/index.php/rbie/article/view/7071. Acesso em: 30 may. 2026.

Issue

Section

Articles