CONSTRUÇÃO DE UM DATASET MULTIMODAL DE PRODUÇÕES TEXTUAIS DE ALUNOS DE PORTUGUÊS COMO LÍNGUA ADICIONAL: OBSERVAÇÕES INICIAIS

Suelen ÉRICA COSTA DA SILVA (CEFET-MG) – ORCID
suelenerica@cefetmg.br

Priscilla Tulipa DA COSTA (UFMG) – ORCID
tulipa@ufmg.br

Dalmo BUZATO (UFMG) – ORCID
dalmobuzato@dcc.ufmg.br

Este trabalho propõe a construção de um dataset multimodal de produções textuais escritas por alunos de português como língua adicional (PLA). Esta proposta se diferencia dos demais corpus e datasets de textos produzidos por estudantes de PLA devido à diversidade de gêneros textuais considerados, abarcando diferentes tipologias e textos multimodais, além do contexto de produção, textos majoritariamente produzidos por alunos em tarefas desenvolvidas em sala de aula, diferentemente do contexto controlado de testes oficiais. A apresentação discorrerá sobre os métodos de compilação e transcrição dos textos, inspirados na plataforma TEITOK (Janssen, 2016), a anotação dos dados, que seguirá o framework sintático das Universal Dependencies (Nivre et al., 2016), e a disponibilização open-source dos dados. Por fim, potenciais áreas de aplicação dos textos compilados no dataset, como descrição linguística, ensino-aprendizagem de língua portuguesa como língua adicional e modelos de processamento de linguagem natural, serão elencados e elucidados.

Palavras-chave: português como língua adicional; datasets multimodais; corpora de aprendizes; construção de datasets; processamento de linguagem natural.