Machine Learning Techniques for Predicting the Severity of Accidents on Highways in the State of Rio de Janeiro
DOI:
https://doi.org/10.5753/reic.2025.6274Keywords:
Machine Learning, Accident Severity, Road SafetyAbstract
Due to its reliance on road transportation, road safety is a significant challenge in Brazil. The state of Rio de Janeiro exhibits recurring patterns of severe accidents, demanding the identification of its main risk factors. This study applied machine learning techniques to develop a predictive model for accident severity on the state's federal highways between 2020 and 2023, using data from the Federal Highway Police (PRF). Seven supervised classification algorithms were compared, with optimized hyperparameters and evaluation using cross-validation. The Logistic Regression model showed the most robust performance, achieving 73.85% accuracy. Interpretability analysis with the LIME tool indicated that the accident type, time of day, weather conditions, geographical location, and accident density per kilometer were the most influential predictors. The results can support the formulation of more effective public prevention policies.
Downloads
References
Amorim, B. d. S. P. (2019). Uso de aprendizado de máquina para classificação de risco de acidentes em rodovias. Master’s thesis, Universidade Federal de Campina Grande, Campina Grande. Dissertação de Mestrado. Disponível em: [link].
Atwah, A. and Al-Mousa, A. (2021). Car accident severity classification using machine learning. In International Conference on Innovation and Intelligence for Informatics, Computing, and Technologies (3ICT), pages 186–192, online. DOI: 10.1109/3ICT53449.2021.9581646.
Balfaqih, M. et al. (2021). An accident detection and classification system using internet of things and machine learning towards smart city. Sustainability, 14(1):1–13. DOI: 10.3390/su14010210.
Bischl, B. et al. (2023). Hyperparameter optimization: Foundations, algorithms, best practices and open challenges. WIREs Data Mining and Knowledge Discovery, 13(2):1–43. DOI: 10.1002/widm.1484.
Brasil (2022). Geografia. disponível em: [link]. Acesso em: 20 Janeiro 2025.
Brasil (2023). Rodovias federais. disponível em: [link]. Acesso em: 20 Janeiro 2025.
Bruce, P. and Bruce, A. (2017). Practical Statistics for Data Scientists: 50 Essential Concepts. O’Reilly, Sebastopol.
Cardoso, S. P. C. (2023). Optimizing process mining algorithms: A hyperparameter tuning approach. Master’s thesis, Universidade do Porto, Porto.
CNT (2024). Painel cnt de acidentes rodoviários. disponível em: [link]. Acesso em: 20 Janeiro 2025.
Costa, A. D. M., De Freitas, A. G. O., and Pinheiro, R. P. (2021). Mineração de dados na construção de modelo de predição de acidentes com vítimas em recife. Revista de Engenharia e Pesquisa Aplicada, 6(3):70–80. DOI: 10.25286/repa.v6i3.1707.
Costa, J. D. J., Bernardini, F. C., and Viterbo Filho, J. (2014). A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras. AtoZ: novas práticas em informação e conhecimento, pages 139–157. DOI: 10.5380/atoz.v3i2.41346.
De Almeida, R. L. F. et al. (2013). Via, homem e veículo: fatores de risco associados à gravidade dos acidentes de trânsito. Revista Saúde Pública, 47(4):718–732. DOI: 10.1590/S0034-8910.2013047003657.
Demšar, U., Harris, P., Brunsdon, S., Fotheringham, A. S., and McLoone, S. (2013). Principal component analysis on spatial data: an overview. Annals of the Association of American Geographers, 103(1):106–128. DOI: 10.1080/00045608.2012.689236.
DER-RJ (2024). Mapa rodoviário. Secretaria de Estado de Infraestrutura e Obras Públicas, Departamento de Estradas de Rodagem. Escala 1:450.000. [link].
Grus, J. (2021). Data Science do Zero - Noções Fundamentais com Python. Alta Books, Rio de Janeiro, 2ª edition.
Géron, A. (2021). Mãos à Obra - Aprendizado de Máquina com Scikit-Learn, Keras e TensorFlow. Alta Books, Rio de Janeiro, 2ª edition.
Hadjidimitriou, N. S. et al. (2020). Machine learning for severity classification of accidents involving powered two wheelers. IEEE Transactions on Intelligent Transportation Systems, 21(10):4308–4317. DOI: 10.1109/TITS.2019.2939624.
Harrison, M. (2019). Machine Learning - Guia de Referência Rápida: Trabalhando com dados estruturados em Python, volume 1. Novatec, Rio de Janeiro.
IPEA (2020). Custos dos acidentes de trânsito no brasil: Estimativa simplificada com base na atualização das pesquisas do ipea sobre custos de acidentes nos aglomerados urbanos e rodovias. Relatório Técnico 1415-4765, IPEA, Brasília. [link].
Iranitalab, A. and Khattak, A. (2017). Comparison of four statistical and machine learning methods for crash severity prediction. Accident Analysis & Prevention, 108:27–36. DOI: 10.1016/j.aap.2017.08.008.
Kamel, H., Abdulah, D., and M. Al-Tuwaijari, J. (2019). Cancer classification using gaussian naive bayes. In International Engineering Conference (IEC), pages 165–170, Erbil. DOI: 10.1109/IEC47844.2019.8950650.
Kraut, C. and Sapia, H. M. (2022). Aprendizado de máquina utilizando agrupamento e regressão na previsão de locais de acidentes de trânsito em zonas urbanas. Colloquium Exactarum, 14:1–11. DOI: 10.5747/ce.2022.v14.n1.e380.
Larsen, K. R. and Becker, D. S. (2021). Automated Machine Learning for Business. Oxford University Press, Oxford, 1ª edition.
Li, D. and Kanoulas, E. (2018). Bayesian optimization for optimizing retrieval systems. In Web Search and Data Mining Conference, volume 11, pages 360–368, Marina Del Rey. DOI: 10.1145/3159652.3159665.
Magalhães, D., Pozo, A., and Machado, S. (2022). Técnicas de aprendizado de máquinas aplicadas à classificação de decisões judiciais. Revista de Estudos Empíricos em Direito, 9. DOI: 10.19092/reed.v9.573.
Malaquias, E. O. et al. (2021). Acidentes em rodovias brasileiras: Um estudo com técnicas de machine learning para classificar a causa das ocorrências. In Congresso de Pesquisa e Ensino em Transporte da ANPET, number 35, pages 2322–2334, On-line. [link].
Martins, I. E. S. and De Andrade, M. H. S. (2021). Aplicação de técnicas de aprendizado de máquina na análise de ocorrências de trânsito de belo horizonte - mg. Journal of Innovation and Science: Research and Application, 1(1):67–74. DOI: 10.56509/joins.2021.v1.101.
Minussi, J. A., Damacena, C., and Ness Jr., W. L. (2002). Um modelo de previsão de solvência utilizando regressão logística. Journal of Contemporary Administration, 6(3):109–128. DOI: 10.1590/S1415-65552002000300007.
Ribeiro, M. T., Singh, S., and Guestrin, C. (2016). "why should i trust you?": Explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’16, pages 1135–1144. ACM. DOI: 10.1145/2939672.2939778.
Santos, D. e. o. (2021). Machine learning approaches to traffic accident analysis and hotspot prediction. Computers, 10(12):1–15. DOI: 10.3390/computers10120157.
Scholz, J. C. W. and Pinheiro, Y. P. (2023). Prevendo a gravidade de acidentes rodoviários no brasil: A influência do ambiente e características do veículo. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação). Disponível em: [link].
Wu, J. et al. (2019). Hyperparameter optimization for machine learning models based on bayesian optimization. Journal of Electronic Science and Technology. DOI: 10.11989/JEST.1674-862X.80904120.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 The authors

This work is licensed under a Creative Commons Attribution 4.0 International License.
