MDLText e Indexação Semântica aplicados na Detecção de Spam nos Comentários do YouTube

Authors

  • Renato Moraes Silva Universidade Estadual de Campinas
  • Túlio C. Alberto
  • Tiago A. Almeida Departamento de Computação (DComp) / Universidade Federal de São Carlos (UFSCar)
  • Akebo Yamakami Departamento de Sistemas e Energia (DSE) / Faculdade de Engenharia Elétrica e Computação (FEEC) / Universidade Estadual de Campinas - UNICAMP

DOI:

https://doi.org/10.5753/isys.2017.346

Keywords:

aprendizado de máquina, categorização de texto, princípio da descrição mais simples, YouTube

Abstract

Muitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, métodos tradicionais de categorização de texto podem sofrer limitações devido às características inerentes ao problema: (1) os comentários costumam ser curtos e mal redigidos e (2) o problema de classificação é naturalmente online. Este artigo avalia um método de classificação baseado no princípio da descrição mais simples e compara os resultados com os de métodos tradicionais de aprendizado online. Também é proposta uma técnica ensemble, que combina os métodos de classificação com diferentes técnicas de processamento de linguagem natural. Os experimentos foram cuidadosamente realizados e a análise estatística dos resultados indica que a técnica proposta obteve desempenho superior ao obtido quando apenas os comentários originais foram empregados.

Downloads

Download data is not yet available.

Author Biography

Renato Moraes Silva, Universidade Estadual de Campinas

Departamento de Sistemas e Energia (DSE) \ Faculdade de Engenharia Elétrica e Computação (FEEC) \ Universidade Estadual de Campinas (UNICAMP)

Published

2017-09-30

How to Cite

Silva, R. M., Alberto, T. C., Almeida, T. A., & Yamakami, A. (2017). MDLText e Indexação Semântica aplicados na Detecção de Spam nos Comentários do YouTube. ISys - Brazilian Journal of Information Systems, 10(3), 49–73. https://doi.org/10.5753/isys.2017.346

Issue

Section

Extended versions of selected articles