Lisandra BONOTO (Universidade Federal de Juiz de Fora) – ORCID
lisandra.bonoto@estudante.ufjf.br
Marcelo VIRIDIANO (Universidade Federal de Juiz de Fora) – ORCID
marcelo.viridiano@case.edu
A criação de conjuntos de dados multimodais — datasets multimodais — por uma equipe de anotadores demanda não apenas competências específicas, mas também a coordenação cuidadosa entre participantes da tarefa de anotação. Esta comunicação oral busca relatar desafios e aprendizados decorrentes da participação na construção do Framed Multi30K (Viridiano et al., 2024), um recurso multimodal-multilíngue que integra imagens, descrições em diferentes idiomas e anotações semânticas baseadas na Semântica de Frames (Fillmore, 1982). Este novo dataset — desenvolvido a partir da expansão dos datasets Multi 30K (Elliott et al., 2016) e Flickr30K Entities (Plummer et al., 2015) — incluiu tarefas de produção de descrições originais em português brasileiro, tradução de descrições originais em inglês e anotação manual de entidades visuais para frames e elementos de frame, vinculadas às regiões de imagem previamente identificadas. Durante o processo, enfrentaram-se desafios como a manutenção da consistência metodológica entre anotadores, a interpretação de imagens com alto grau de ambiguidade e o tratamento de referências a entidades não visíveis. Observou-se que a presença ou ausência da descrição associada à imagem influenciava significativamente a seleção de frames, podendo introduzir vieses na representação semântica ao condicionar as interpretações e enquadramentos atribuídos. Esses resultados ressaltam a importância de adotar metodologias que considerem as condições em que as anotações são produzidas e que incorporem múltiplas perspectivas, de modo a ampliar a confiabilidade e a aplicabilidade do dataset em tarefas de Processamento de Linguagem Natural que envolvem multimodalidade.
Palavras-chave: anotação semântica; multimodalidade; Semântica de Frames; processamento de linguagem natural.