Integrando avaliações contrafactuais aos frameworks tradicionais de recomendação interativa
DOI:
https://doi.org/10.5753/reic.2023.3418Keywords:
Multi-Armed Bandit, Sistemas de Recomendação, ContrafactualAbstract
A tarefa de recomendção online vem sendo reconhecida como um problema de Multi-Armed Bandit (MAB). Apesar dos avanços recentes, ainda há falta de consenso sobre as melhores práticas para avaliar essas soluções. Recentemente, observamos dois frameworks complementares que nos permitem avaliar soluções bandit com mais precisão: iRec e OBP. A primeira possui um conjunto completo de coleções de dados, métricas e modelos MAB implementados, permitindo apenas avaliações offline. Já o segundo se limita a algumas soluções bandit, porém com métricas e metodologias mais atuais, como os contrafactuais. Neste trabalho, propomos e avaliamos uma integração entre esses dois frameworks, demonstrando o potencial e a riqueza de análises que podem ser realizadas a partir dessa combinação.
Descargas
Citas
Auer, P., Cesa-Bianchi, N., and Fischer, P. (2002). Finite-time analysis of the multiarmed bandit problem. Machine learning, 47(2-3):235–256.
Liu, Y., Yen, J.-N., Yuan, B., Shi, R., Yan, P., and Lin, C.-J. (2022). Practical counterfactual policy learning for top-k recommendations. In ACM SIGKDD, pages 1141–1151.
Pan, W., Cui, S., Wen, H., Chen, K., Zhang, C., and Wang, F. (2021). Correcting the user feedback-loop bias for recommendation systems. arXiv preprint arXiv:2109.06037.
Saito, Y., Aihara, S., Matsutani, M., and Narita, Y. (2020). Open bandit dataset and pipeline: Towards realistic and reproducible off-policy evaluation. arXiv preprint arXiv:2008.07146.
Sanz-Cruzado, J., Castells, P., and López, E. (2019). A simple multi-armed nearest-neighbor bandit for interactive recommendation. In RecSys, pages 358–362.
Shams, S., Anderson, D., and Leith, D. (2021). Cluster-based bandits: Fast cold-start for recommender system new users.
Silva, T., Silva, N., Werneck, H., Mito, C., Pereira, A. C., and Rocha, L. (2022). irec: An interactive recommendation framework. In SIGIR, pages 3165–3175.
Wu, Q., Iyer, N., and Wang, H. (2018). Learning contextual bandits in a non-stationary environment. In SIGIR, pages 495–504.
Yang, Y., Xia, X., Lo, D., and Grundy, J. (2022). A survey on deep learning for software engineering. ACM Computing Surveys (CSUR), 54(10s):1–73.
Zhou, S., Dai, X., Chen, H., Zhang, W., Ren, K., Tang, R., He, X., and Yu, Y. (2020). Interactive recommender system via knowledge graph-enhanced reinforcement learning. In SIGIR, pages 179–188.
Descargas
Published
Cómo citar
Issue
Section
Licencia
Derechos de autor 2023 Os autores

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
