Análise Comparativa de Métodos de Undersampling em Classificação Automática de Texto Baseada em Transformers


  • Guilherme Fonseca UFSJ
  • Washington Cunha UFMG
  • Leonardo Rocha UFSJ



Classificação Automática de Texto (CAT) em bases de dados desbalanceadas é um desafio comum em aplicações do mundo real. Nesse cenário, uma das classes é sub-representada, podendo provocar um viés no processo de aprendizado. Este trabalho investiga o efeito de métodos de undersampling, que visam reduzir instâncias da classe majoritária, no desempenho de estratégias de CAT recentes, baseada em transformers. Avaliamos 15 estratégias existentes de undersampling e uma proposta nesse trabalho. Nossos resultados sugerem que as abordagens de undersampling são importantes para melhorar o desempenho de métodos de classificação em coleções desbalanceadas, não apenas reduzindo o viés de aprendizado, mas também reduzindo o custo de treinamento.


Como Citar

Fonseca, G., Cunha, W., & Rocha, L. (2024). Análise Comparativa de Métodos de Undersampling em Classificação Automática de Texto Baseada em Transformers. Revista Eletrônica De Iniciação Científica Em Computação, 22(1), 1–10.


