Aprendizado multilíngue e multimodal para o português do Brasil

Sato, Júlia Yumi Araujo

dc.contributor.author	Sato, Júlia Yumi Araujo
dc.date.accessioned	2023-08-30T20:56:42Z
dc.date.available	2023-08-30T20:56:42Z
dc.date.issued	2023-08-30
dc.identifier.citation	SATO, Júlia Yumi Araujo. Aprendizado multilíngue e multimodal para o português do Brasil. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18470.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/18470
dc.description.abstract	This work explores the domain of multimodal machine translation, which is a process that combines information from different modalities – such as text, images, and audio – to perform translations between languages. Thus, this task aims to analyze the impact of various types of information associated with text and images. Building upon the Visual Translation Language Modelling framework (CAGLAYAN et al., 2021), we enhanced its capabilities to handle other language pairs and more complex scenarios related to the image-text relationship (SATO; CASELI; SPECIA, 2022). To evaluate the model’s generalization ability, we used the multimodal and multilingual corpus How2 (SANABRIA et al., 2018), which includes videos with English subtitles and crowdsourced Portuguese translations. Furthermore, considering that masking (i.e., the process of hiding visual or linguistic tokens during training) can enhance model understanding, as it requires predicting the hidden tokens based on the surrounding context, new masking strategies were proposed considering specific linguistic patterns and different semantic categories (SATO; CASELI; SPECIA, 2023). Extensive experiments in the Portuguese-English multimodal machine translation task demonstrate the effectiveness of the more informed masking techniques. In particular, we found that selective masking related to the ’person’ category significantly improves performance, indicating its crucial role in interpreting visual information. These findings offer insights into the model’s behavior and contribute to the development of more effective masking approaches in multimodal machine translation. Finally, it is worth noting that the approach proposed in this work achieved state-of-the-art results on the How2 dataset (53.1 BLEU) and provided valuable information about the interaction between images and texts in translation systems.	eng
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Tradução automática multimodal	por
dc.subject	Visão e Linguagem	por
dc.subject	Português brasileiro	por
dc.subject	Processamento de Linguagem Naturalv	por
dc.subject	Masking	eng
dc.title	Aprendizado multilíngue e multimodal para o português do Brasil	por
dc.title.alternative	Multilingual and multimodal learning for Brazilian Portuguese	eng
dc.type	TCC	por
dc.contributor.advisor1	Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6608582057810385	por
dc.description.resumo	Este trabalho explora o domínio da tradução automática multimodal, que é um processo que combina informações de diferentes modalidades – como texto, imagens e áudio – para realizar traduções entre idiomas. Assim, esta tarefa tem o objetivo de analisar o impacto de diversos tipos de informações associadas a texto e imagens. Baseando-se no framework Visual Translation Language Modelling (CAGLAYAN et al., 2021), aprimoramos suas capacidades para lidar com outros pares de idiomas e cenários mais complexos relativos à relação entre imagem e texto (SATO; CASELI; SPECIA, 2022). Para avaliar a capacidade de generalização do modelo, utilizamos o corpus multimodal e multilíngue How2 (SANABRIA et al., 2018), que inclui dados de vídeos com legendas em inglês e traduções em português. Além disso, tendo em vista que o masking – isto é, o processo de ocultação de tokens visuais ou linguísticos durante o treinamento – pode aprimorar a compreensão dos modelos, já que torna-se necessário prever os tokens ocultos com base no contexto circundante, foram propostas novas estratégias de masking considerando padrões linguísticos específicos e diferentes categorias semânticas (SATO; CASELI; SPECIA, 2023). Experimentos extensivos na tarefa de tradução automática multimodal português-inglês demonstram a eficácia das técnicas de masking mais informadas. Em particular, descobrimos que o masking seletivo relacionado à categoria “pessoa” melhora significativamente o desempenho, indicando seu papel crucial na interpretação de informações visuais. Essas descobertas oferecem insights sobre o comportamento do modelo e contribuem para o desenvolvimento de abordagens de masking mais eficazes na tradução automática multimodal. Por fim, vale destacar que a abordagem proposta neste trabalho alcança estado-da-arte no conjunto de dados How2 (pontuação BLEU de 53.1) e fornece informações valiosas sobre a interação entre imagens e textos em sistemas de tradução.	por
dc.publisher.initials	UFSCar	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.description.sponsorshipId	Processo nº 2020/15995-1, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)	por
dc.description.sponsorshipId	Processo nº 2022/04442-7, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/7606474803837458	por
dc.identifier.url	https://github.com/LALIC-UFSCar/more-informed-masking	por
dc.identifier.url	https://github.com/LALIC-UFSCar/VTLM_English-Portuguese	por
dc.publisher.course	Engenharia de Computação - EC	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0003-3996-8599	por

Files in this item

Name:: TCC_Julia_Sato_Final.pdf
Size:: 9.166Mb
Format:: PDF

View/Open

Name:: license_rdf
Size:: 810bytes
Format:: application/rdf+xml

View/Open

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil