MDLText aplicado na Filtragem Automática de SPIM e SMS Spam


  • Renato Moraes Silva Universidade Estadual de Campinas
  • Tiago A. Almeida Departamento de Computação (DComp) / Universidade Federal de São Carlos (UFSCar)
  • Akebo Yamakami Faculdade de Engenharia Elétrica e de Computação (FEEC) / Universidade Estadual de Campinas (UNICAMP)



Aprendizado online, Navalha de Occam, Categorização de texto, Aprendizado de máquina


A filtragem automática de spam em mensagens instantâneas e SMS é um problema desafiador, pois as mensagens são frequentemente curtas e repletas de ruídos, tais como gírias, expressões idiomáticas, símbolos, emoticons e abreviações, o que dificulta a extração de conhecimento e predição. Para enfrentar esse problema, neste artigo é avaliado um método de classificação de texto baseado no princípio da descrição mais simples, que é eficiente, rápido, escalável, multiclasse e possui aprendizado incremental. Experimentos realizados com uma base de dados real e pública, em cenários de aprendizado online e offline, indicam que o método proposto é promissor para a tarefa de detecção de spam em mensagens instantâneas e SMS.


