Novas Métricas para Avaliação da Qualidade de Estratégias de Modelagem de Tópicos Hierárquica
Keywords:
Modelagem de tópicos, Avaliação automática, Word embeddings, Modelagem de tópicos HierárquicaAbstract
Modelagem Hierárquica de Tópicos (MHT) são abordagens que visam extrair automaticamente tópicos semânticos consistentes a partir de documentos textuais, respeitando a hierarquia nas quais as informações se estruturam. As atuais métricas de avaliação dessas abordagens normalmente medem a qualidade de cada tópico individualmente. Em MHT outras questões precisam ser consideradas: (i) Redundância dos tópicos; (ii) Diversidade semântica dos tópicos construídos; (iii) Consistência topológica. O presente trabalho propõem e avalia três novas métricas de avaliação que consideram essas questões, complementando a metodologia de avaliação de abordagens de MHT sob a perspectiva da estrutura hierárquica em que os tópicos são construídos.Downloads
Referências
Bicalho, P. V., de Oliveira Cunha, T., Mourao, F. H. J., Pappa, G. L., and Jr., W. M. (2014). Generating cohesive semantic topics from latent factors. In BRACIS.
Li, W. and McCallum, A. (2006). Pachinko allocation: Dag-structured mixture models of topic correlations. In Proceedings of the 23rd international conference on Machine learning, pages 577–584. ACM.
Mikolov, T., Grave, E., Bojanowski, P., Puhrsch, C., and Joulin, A. (2017). Advances in pre-training distributed word representations. CoRR, abs/1712.09405.
Mimno, D., Li, W., and McCallum, A. (2007). Mixtures of hierarchical topics with pachinko allocation. In Proceedings of the 24th international conference on Machine learning, pages 633–640.
Nikolenko, S. I., Koltcov, S., and Koltsova, O. (2017). Topic modelling for qualitative studies. Journal of Information Science.
Perotte, A. J., Wood, F., Elhadad, N., and Bartlett, N. (2011). Hierarchically supervised latent dirichlet allocation. In Advances in neural information processing systems, pages 2609–2617.
Teh, Y. W., Jordan, M. I., Beal, M. J., and Blei, D. M. (2006). Hierarchical dirichlet processes. Journal of the American Statistical Association, 101(476):1566–1581.
Viegas, F., Cunha, W., Gomes, C., Pereira, A., Rocha, L., and Goncalves, M. (2020). Cluhtm-semantic hierarchical topic modeling based on cluwords. In Proceedings of the 58th ACL, pages 8138–8150.