Criação e Caracterização de um Corpus de Discurso Sexistas em Português
DOI:
https://doi.org/10.5753/isys.2021.1797Keywords:
sexismo, discurso de ódio, ciência de dadosAbstract
O sexismo é um tópico cujo interesse social tem crescido a medida que a figura feminina vence as barreiras da desigualdade de gênero. O discurso sexista propaga e incentiva o comportamento depreciativo e abusivo contra mulheres. Uma caracterização e identificação precisa são peças-chave para tratar e mitigar a violência. Neste trabalho, apresentamos um corpus de discurso sexista em Português coletado a partir de portais de notícias de grande aceitação popular. O trabalho apresenta três contribuições principais: (1) o processo de criação do corpus e de rotulação de comentários (sexista/não sexista); (2) a caracterização e análise do corpus e do comportamento dos rotuladores anônimos; (3) uma avaliação inicial de técnicas de aprendizagem de máquina para classificação de comentários sexistas/não sexistas. Os resultados preliminares mostram que, ao utilizar support vector machine, é possível identificar comentários sexistas com uma medida F1 acima de 0,8, precisão acima de 0,9 e revocação próxima a 0,8.
Downloads
Referências
Badjatiya, P., Gupta, S., and Gupta, M. (2017). Deep learning for hate speech detection in tweets. pages 759–760.Banks, J. (2010). Regulating hate speech online. International Review of Law, ComputersTechnology, pages 233–239.
Davidson, T., Warmsley, D., and Macy, M. (2017). Automated hate speech detection andthe problem of offensive language. Eleventh International AAAI Conference on Weband Social Media.
Fuglede, B. and Topsoe, F. (2004). Jensen-shannon divergence and hilbert space embedding. page 31.
Glick, P. and Fiske, S. T. (2018). The ambivalent sexism inventory: Differentiating hostile and benevolent sexism. In Social Cognition, pages 116–160. Routledge.
Kwok, I. and Wang, Y. (2013). Locate the hate: Detecting tweets against blacks. In Twenty-seventh AAAI conference on artificial intelligence.
Marques, J. J. and dos Santos, J. L. (2018). Mapa da violência contra a mulher.
Oliveira, S. (2018). Adolescente vítima de bullying se suicida por ‘não aguentar mais’.
Pang, B., Lee, L., and Vaithyanathan, S. (2002). Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing - Volume 10, pages 79–86. Association for Computational Linguistics.
Park, J. H. and Fung, P. (2017). One-step and two-step classification for abusive language detection on twitter. arXiv preprint arXiv:1706.01206.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel,M., Prettenhofer, P., Weiss, R., Dubourg, V., et al. (2011). Scikit-learn: Machine learning in python, the Journal of machine Learning research, 12:2825–2830.
Rossi, M. (2014). Mulher espancada após boatos em rede social morre em Guarujá, SP.
Vianna, J. and Hising, E. (2018). Homem é condenado a 41 anos de prisão por crimes como racismo, terrorismo e divulgação de pedofilia na internet.
Von Smigay, K. E. (2002).Sexismo, homofobia e outras expressões correlatas de violˆencia: desafios para a psicologia política. Psicologia em revista, 8(11):32–46
Downloads
Published
Como Citar
Issue
Section
Licença
Copyright (c) 2021 The authors
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.