Show simple item record

dc.contributor.authorVeltroni, Wellington Cristiano
dc.date.accessioned2018-06-06T13:16:03Z
dc.date.available2018-06-06T13:16:03Z
dc.date.issued2018-03-02
dc.identifier.citationVELTRONI, Wellington Cristiano. Alinhamento texto-imagem em sites de notícias. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2018. Disponível em: https://repositorio.ufscar.br/handle/ufscar/10130.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/10130
dc.description.abstractText-image alignment is the task of aligning elements in a text with elements in the image accompanying it. In this work the text-image alignment was applied in news sites. A lot of news do not make clear the correspondence between elements of a text and elements within the associated image. In this scenario, text-image alignment arises with the intention of guiding the reader, bringing clarity to the news and associated image since it explicitly explains the direct correspondence between regions of the image and words (or named entities) in the text. The goal of this work is to combine Natural Language Processing (NLP) and Computer Vision (CV) techniques to generate a text-image alignment for news: the LinkPICS aligner. LinkPICS uses the YOLO convolutional network (CNN) to detect people and objects in the image associated with the news text. Due to the limitation of the number of objects detected by YOLO (only 80 classes), we decided to use three other CNNs to generate new labels for detected objects. In this work, the text-image alignment was divided into two distinct processes: (1) people alignment and (2) objects alignment. In people alignment, the named entities identified in the text are aligned with images of people. In the evaluation performed with the Folha de São Paulo International news corpus, in English, LinkPICS obtained an accuracy of 98% precision. For the objects alignment, the physical words are aligned with objects (or animals, fruits, etc.) present in the image associated with the news. In the evaluation performed with the news corpus of BBC NEWS, also in English, LinkPICS achieved 72% precision. The main contributions of this work are the LinkPICS aligner and the proposed strategy for its implementation, which represent innovations for the NLP and CV areas. In addition to these, another contribution of this work is the possibility of generating a visual dictionary (words associated with images) containing people and objects aligned, which can be used in other researches and applications such as helping to learn a second language.eng
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rights.uriAcesso abertopor
dc.subjectAlinhamentopor
dc.subjectTexto-imagempor
dc.subjectImagem-textopor
dc.subjectAnotação de imagempor
dc.subjectAprendizado visualpor
dc.subjectDicionário visualpor
dc.subjectAlignmenteng
dc.subjectText-imageeng
dc.subjectImage-texteng
dc.subjectImage annotationeng
dc.subjectVisual learningeng
dc.subjectVisual dictionaryeng
dc.titleAlinhamento texto-imagem em sites de notíciaspor
dc.typeDissertaçãopor
dc.contributor.advisor1Caseli, Helena de Medeiros
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6608582057810385por
dc.description.resumoO alinhamento texto-imagem é a tarefa de alinhar elementos presentes em um texto com elementos presentes na imagem que o acompanha. Neste trabalho, o alinhamento texto-imagem foi aplicado em sites de notícias. Muitas notícias não deixam clara para o leitor a correspondência entre elementos do texto e elementos contidos na imagem associada. Nesse cenário, o alinhamento texto-imagem surge com a intenção de orientar o leitor, trazendo clareza para a notícia e a imagem associada uma vez que explicita a correspondência direta entre regiões da imagem e palavras (ou entidades) no texto. O objetivo deste trabalho é combinar técnicas de Processamento de Linguagem Natural (PLN) e Visão Computacional (VC) para gerar um alinhador texto-imagem para notícias: o alinhador LinkPICS. O LinkPICS utiliza a rede convolucional (CNN) YOLO para detectar pessoas e objetos na imagem associada ao texto da notícia. Devido à limitação do número de objetos detectados pela YOLO (80 classes de objetos), optou-se também pela utilização de outras três CNNs para a geração de novos rótulos para objetos. Neste trabalho, o alinhamento texto-imagem foi dividido em dois processos distintos: (1) o alinhamento de pessoas e (2) o alinhamento de objetos. No alinhamento de pessoas, as entidades nomeadas são alinhadas com imagens de pessoas e na avaliação realizada no córpus de notícias da Folha de São Paulo Internacional, em inglês, obteve-se uma precisão de 98%. No alinhamento de objetos, as palavras físicas são alinhadas com objetos (ou animais, frutas, etc.) contidos na imagem associada à notícia e na avaliação realizada no córpus de notícias da BBC NEWS, também em inglês, obteve-se uma precisão de 72%. As principais contribuições deste trabalho são o alinhador LinkPICS e a estratégia proposta para sua implementação, que representam inovações para as áreas de PLN e VC. Além destas, outra contribuição deste trabalho é a possibilidade de geração de um dicionário visual (palavras associadas a imagens) contendo pessoas e objetos alinhados, que poderá ser utilizado em outras pesquisas e aplicações como, por exemplo, no auxílio ao aprendizado de outro idioma.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.description.sponsorshipIdCNPQ: 133679/2015-2por
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/5489287789894756por


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record