Machine Learning Applied to Academic Drop Out Prediction in Brazilian Public Universities

Authors

  • Leonardo de Almeida Teodoro Centro Federal de Educação Tecnológica Celso Suckow da Fonseca – CEFET/RJ – Campus Nova Friburgo
  • Marco André Abud Kappel Centro Federal de Educação Tecnológica Celso Suckow da Fonseca – CEFET/RJ – Campus Nova Friburgo

DOI:

https://doi.org/10.5753/rbie.2020.28.0.838

Keywords:

Dropout prediction, Machine Learning, Scholar dropout, Scholar dropout analysis, Feature extraction

Abstract

Brazilian public educational institutions face worrisome annual dropout rates. Therefore, it is essential to recognize students' profiles who are most likely to drop out, considering their characteristics and universities. In this context, the present work aims to identify students with a higher tendency to drop out of public universities and the most determining features for this prediction. To achieve this goal, five machine learning techniques were applied to INEP's education data: Naive Bayes, K-Nearest Neighbors, Decision Trees, Random Forest and Neural Networks. The best result was obtained by the Random Forest technique, which achieved a success rate of approximately 80% of the evasion predictions. The developed model indicates that some of the most determinant characteristics in students' dropout prevision are age, participation in extra-curricular activities, and the course's total hours. The main contribution of the present work is the identification of the most important characteristics for dropout prediction. The presented results can be used to motivate the development of dropout reduction strategies, focused on the support of students that fit the identified characteristic patterns.

Downloads

Download data is not yet available.

References

Ambiel, R. A. (2015). Construção da Escala de Motivos para Evasão do Ensino Superior. Avaliação Psicológica, 14(1), 41-52. doi:10.15689/ap.2015.1401.05 [GS Search]

Araque, F., Roldán, C., & Salguero, A. (2009). Factors influencing university drop out rates. Computers & Education, 563-574. doi:10.1016/j.compedu.2009.03.013 [GS Search]

Baker, R. S., Isotani, S., & Carvalho, A. M. (2011, August 24). Mineração de Dados Educacionais: Oportunidades para o Brasil. Revista Brasileira de Informática na Educação, 19(2), 3-13. doi:10.5753/RBIE.2011.19.02.03 [GS Search]

Bastos, A., & Gomes, C. (2016). A evasão escolar no Ensino Técnico - Um estudo de caso do CEFET-RJ. Educação e Cultura Contemporânea, 13(32), 217-234. doi:10.5935/2238-1279.20160049 [GS Search]

Bonaldo, L., & Pereira, L. N. (2016). Dropout: Demographic profile of Brazilian university students. Procedia - Social and Behavioral Sciences, 228, 138-143. doi:10.1016/j.sbspro.2016.07.020 [GS Search]

Breiman, L. (2001, October). Random Forests. (R. E. Schapire, Ed.) Machine Learning, 45, 5-32. doi:10.1023/A:1010933404324 [GS Search]

Bruce, P., & Bruce, A. (2017). Practical Statistics for Data Scientists: 50 Essential Concepts Using R and Python. Sebastopol: O'Reilly. [GS Search]

Costa, S. L., & Dias, S. M. (2016). A permanência no ensino superior e as estratégias institucionais de enfrentamento da evasão. Jornal de Políticas Educacionais, 9(17/18), 51-60. doi:10.5380/jpe.v9i17/18.38650 [GS Search]

daCosta, F. J., SouzaBispo, M. d., & Pereira, R. d. (2018, March). Dropout and retention of undergraduate students in management: a study at a Brazilian Federal University. RAUSP Management Journal, 53(1), 74-85. doi:10.1016/j.rauspm.2017.12.007 [GS Search]

Delen, D. (2011, August 12). Predicting Student Attrition with Data Mining Methods. Journal of College Student Retention: Research, Theory & Practice, 13(1), 17-35. doi:10.2190/CS.13.1.b [GS Search]

Downey, A. (2012). Think Bayes: Bayesian statistics in python. Needham, Massachusetts, Estados Unidos da América: Green Tea Press. Fonte: https://greenteapress.com/wp/think-bayes/, Acesso em 10 de agosto de 2020. [GS Search]

Fernández, A., Galar, M., & Krawczyk, B. (2018). Learning from Imbalanced Data Sets. Gewerbestrasse, Switzerland: Springer. doi:10.1007/978-3-319-98074-4 [GS Search]

Ferreira, G. (2015). Investigação acerca dos fatores determinantes para a conclusão do Ensino Fundamental utilizando Mineração de Dados Educacionais no Censo Escolar da Educação Básica do INEP 2014. Workshops do IV Congresso Brasileiro de Informática na Educação (pp. 1034-1043). Maceió: Sociedade Brasileira de Computação – SBC. doi:10.5753/cbie.wcbie.2015.1034 [GS Search]

Filho, R. L., Motejunas, P. R., Hipólito, O., & Lobo, M. B. (2007, September). A Evasão no Ensino Superior Brasileiro. Cadernos de Pesquisa, 37(132), 641-659. doi:10.1590/S0100-15742007000300007 [GS Search]

Gardner, M., & Dorling, S. R. (1998, August 1). Artificial neural networks (The multilayer perceptron)—A review of applications in the atmospheric sciences. Atmospheric Environment, 32(14-15), 2627-2636. doi:10.1016/S1352-2310(97)00447-0 [GS Search]

Gislason, P., Benediktsson, J., & Sveinsson, J. (2006, March). Random Forests for land cover classification. Pattern Recognition Letters, 27(4), 294-300. doi:10.1016/j.patrec.2005.08.011 [GS Search]

Granik, M., & Mesyura, V. (2017). Fake news detection using naive Bayes classifier. 2017 IEEE First Ukraine Conference on Electrical and Computer Engineering (UKRCON) (pp. 900-903). Kyiv: IEEE. doi:10.1109/UKRCON.2017.8100379 [GS Search]

INEP. (2019, January 20). Acesso em 20 de janeiro de 2019, disponível em Portal INEP: http://portal.inep.gov.br/web/guest/dados

Instituto nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. (2018, September 20). Sinopse Estatística da Educação Superior 2017. Acesso em 10 de agosto de 2020, disponível em Inep: http://inep.gov.br/sinopses-estatisticas-da-educacao-superior

Lamers, J., Santos, B., & Toassi, R. (2017). Retenção e evasão no ensino superior público: Estudo de caso em um curso norturno de odontologia. Educação em Revista, 33, 1-26. doi:10.1590/0102-4698154730 [GS Search]

Lerner, B., Levinstein, M., Rosenberg, B., Guterman, H., Dinstein, I., & Romem, Y. (1994). Feature Selection and Chromosome Classification Using a Multilayer Perceptron Neural Network. Proceedings of 1994 IEEE International Conference on Neural Networks (ICNN'94) (pp. 3540-3545). Orlando: Institute of Electrical and Electronics Engineers. doi:10.1109/ICNN.1994.374905 [GS Search]

Manhães, L., Cruz, S., Costa, R., Zavaleta, J., & Zimbrão, G. (2011, November 21). Previsão de Estudantes com Risco de Evasão Utilizando Técnicas de Mineração de Dados. Simpósio Brasileiro de Informática na Educação, 150-159. Fonte: https://www.br-ie.org/pub/index.php/sbie/article/view/1585 [GS Search]

Manrique, R., Casanova, M. A., Nunes, B. P., Nurmikko-Fuller, T., & Marino, O. (2019). An Analysis of Student Representation, Representative Features and Classification Algorithms to Predict Degree Dropout. Proceedings of the 9th International Conference on Learning Analytics & Knowledge (pp. 401–410). New York, NY, USA: Association for Computing Machinery. doi:10.1145/3303772.3303800 [GS Search]

Martins, L. C., Carvalho, R. N., & Carvalho, R. S. (2017). Early prediction of college attrition using data mining. 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA) (pp. 1075-1078). Cancun: IEEE. doi:10.1109/ICMLA.2017.000-6 [GS Search]

Meedech, P., Iam-On, N., & Boongoen, T. (2016). Prediction of Student Dropout Using Personal Profile and Data Mining Approach. In P.-A. S. Lavangnananda K. (Ed.), Intelligent and Evolutionary Systems. Proceedings in Adaptation, Learning and Optimization (Vol. 5, pp. 143-155). Springer. doi:10.1007/978-3-319-27000-5_12 [GS Search]

Mitchell, T. M. (1997). Machine Learning. McGraw-Hill Science/Engineering/Math. [GS Search]

Müller, A., & Guido, S. (2017). Introduction to Machine Learning with Python: A GUIDE FOR DATA SCIENTISTS. Em A. Müller, & S. Guido, Introduction to Machine Learning with Python: A GUIDE FOR DATA SCIENTISTS (pp. 68-74,282-284). Sebastopol: O'Reilly. [GS Search]

Nascimento, R., Junior, G., & Roberta, F. (2018, July). Mineração de Dados Educacionais: Um Estudo Sobre Indicadores da Educação em Bases de Dados do INEP. RENOTE - Revista Novas Tecnologias na Educação , 16(1), 1-11. doi:10.22456/1679-1916.85989 [GS Search]

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12(85), 2825−2830. Fonte: [Link] [GS Search]

Pinheiro, M., Silva, J., & Souza, B. (2018). Aprendizado de Máquina Aplicado à Análise de Evasão no Ensino Superior. Computer on the beach, 512-521. Fonte: [Link] [GS Search]

Prestes, E. M., & Fialho, M. G. (2018). Evasão na educação superior e gestão institucional: o caso da Universidade Federal da Paraíba. Ensaio: Avaliação e Políticas Públicas em Educação, 26(100), 869-889. doi:10.1590/s0104-40362018002601104 [GS Search]

Reis, V., Cunha, P., & Spritzer, I. (2012). Evasão no Ensino Superior de Engenharia no Brasil: Um estudo de caso no Cefet/RJ. XL Congresso Brasileiro de Educação em Engenharia. [GS Search]

Rigo, S. J., Cambruzzi, W., Barbosa, J. L., & Cazella, S. i. (2014). Aplicações de Mineração de Dados Educacionais e Learning Analytics com foco na evasão escolar: oportunidades e desafios. Revista Brasileira de Informática na Educação, 22(1). doi:10.5753/RBIE.2014.22.01.132 [GS Search]

Rodrigues, F. S., Brackmann, C. P., & Barone, D. A. (2015). Estudo da Evasão no Curso de Ciência da Computação da UFRGS. Revista Brasileira de Informática na Educação, 23(1), 97-109. doi:10.5753/RBIE.2015.23.01.97 [GS Search]

Sales, A., Balby, L., & Cajueiro, A. (2016, August). Exploiting Academic Records for Predicting Student Drop Out: a case study in Brazilian higher education. Journal of Information and Data Management, 7(2), 166-180. Fonte: [Link] [GS Search]

Santos, K. J., Menezes, A. G., Carvalho, A. B., & Montesco, C. A. (2019). Supervised Learning in the Context of Educational Data Mining to Avoid University Students Dropout. 2019 IEEE 19th International Conference on Advanced Learning Technologies (ICALT) (pp. 207-208). Maceió: IEEE. doi:10.1109/ICALT.2019.00068 [GS Search]

Santos, R., Siebra, C., & Oliveira, E. (2014). Uma Abordagem Temporal para Identificação Precoce de Estudantes de Graduação a Distância com Risco de Evasão em um AVA utilizando Árvores de Decisão. Congresso Brasileiro de Informática na Educação (pp. 262-271). Dourados: Sociedade Brasileira de Computação – SBC. doi:10.5753/cbie.wcbie.2014.262 [GS Search]

Sarker, F., Tiropanis, T., & Davis, H. C. (2014). Linked data, data mining and external open data for better prediction of at-risk students. 2014 International Conference on Control, Decision and Information Technologies (CoDIT) (pp. 652-657). Metz: IEEE. doi:10.1109/CoDIT.2014.6996973 [GS Search]

Silva, J., & Imran, H. (2015, December). Um estudo sobre as variáveis para predição de alunos não concluintes em cursos suportados por Ambientes Virtuais de Ensino e Aprendizagem. RENOTE - Revista Novas Tecnologias na Educação, 13(2). doi:10.22456/1679-1916.61427 [GS Search]

Vlahou, A., Schorge, J., Gregory, B., & Coleman, R. (2003). Diagnosis of Ovarian Cancer Using Decision Tree Classification of Mass Spectral Data. Journal of Biomedicine and Biotechnology, 308-314. Fonte: [Link] [GS Search]

Zhang, Y., Oussena, S., Clark, T., & Kim, H. (2010). Use Data Mining to Improve Student Retention in Higher Education - A Case Study. ICEIS 2010 - Proceedings of the 12th International Conference on Enterprise Information Systems, (pp. 190-197). Madeira. Fonte: [Link] [GS Search]

Published

2020-11-20

How to Cite

TEODORO, L. de A.; KAPPEL, M. A. A. Machine Learning Applied to Academic Drop Out Prediction in Brazilian Public Universities. Brazilian Journal of Computers in Education, [S. l.], v. 28, p. 838–863, 2020. DOI: 10.5753/rbie.2020.28.0.838. Disponível em: https://journals-sol.sbc.org.br/index.php/rbie/article/view/3691. Acesso em: 7 jul. 2024.

Issue

Section

Articles