Um método automático para rotulagem de documentos médicos e categorização




Processamento de linguagem natural, Receitas, Termo - frequência inversa de documento


A ampla adoção de sistemas para o gerenciamento e registro de documentos médicos (MD) têm gerado um grande volume de dados não estruturados. Tais dados correspondem a texto livre contendo expressões ambíguas para relatar a mesma condição clínica ou procedimentos. Isso torna a tarefa de categorização manual do MD sujeita a erros. Este trabalho visa rotular e classificar MD em português utilizando a rotulação binária (Receita e Outros) e a multiclasse (Receitas, Exames, Atestados e Outros). O n-grama e a frequência do termo - frequência inversa do documento (TF–IDF) foram utilizados na etapa de vetorização do texto. Os resultados alcançados são promissores: apresentaram 0,99 e 0,97 para o Kappa na classificação binária e multiclasse, respectivamente. Assim, com a classificação do MD, é possível fornecer segmentação das informações para gerenciar medicamentos prescritos.


Não há dados estatísticos.


