MDLText e Indexação Semântica aplicados na Detecção de Spam nos Comentários do YouTube

Renato Moraes Silva; Túlio C. Alberto; Tiago A. Almeida; Akebo Yamakami

doi:10.5753/isys.2017.346

Authors

Renato Moraes Silva Universidade Estadual de Campinas
Túlio C. Alberto
Tiago A. Almeida Departamento de Computação (DComp) / Universidade Federal de São Carlos (UFSCar)
Akebo Yamakami Departamento de Sistemas e Energia (DSE) / Faculdade de Engenharia Elétrica e Computação (FEEC) / Universidade Estadual de Campinas - UNICAMP

DOI:

https://doi.org/10.5753/isys.2017.346

Keywords:

aprendizado de máquina, categorização de texto, princípio da descrição mais simples, YouTube

Abstract

Muitos usuários do YouTube produzem conteúdo regularmente e fazem desta tarefa seu principal meio de vida. Contudo, esse sucesso vem despertando a atenção de usuários mal-intencionados, que propagam comentários indesejados para se autopromoverem ou para disseminar links maliciosos. Neste cenário, métodos tradicionais de categorização de texto podem sofrer limitações devido às características inerentes ao problema: (1) os comentários costumam ser curtos e mal redigidos e (2) o problema de classificação é naturalmente online. Este artigo avalia um método de classificação baseado no princípio da descrição mais simples e compara os resultados com os de métodos tradicionais de aprendizado online. Também é proposta uma técnica ensemble, que combina os métodos de classificação com diferentes técnicas de processamento de linguagem natural. Os experimentos foram cuidadosamente realizados e a análise estatística dos resultados indica que a técnica proposta obteve desempenho superior ao obtido quando apenas os comentários originais foram empregados.

Downloads

Não há dados estatísticos.

Biografia do Autor

Renato Moraes Silva, Universidade Estadual de Campinas

Departamento de Sistemas e Energia (DSE) \ Faculdade de Engenharia Elétrica e Computação (FEEC) \ Universidade Estadual de Campinas (UNICAMP)

MDLText e Indexação Semântica aplicados na Detecção de Spam nos Comentários do YouTube

Authors

DOI:

Keywords:

Abstract

Downloads

Biografia do Autor

Renato Moraes Silva, Universidade Estadual de Campinas

Downloads

Published

Como Citar

Issue

Section

Artigos mais lidos pelo mesmo(s) autor(es)

Enviar Submissão

Idioma

Métricas: