Representação multimodal para classificação de informação

Ito, Fernando Tadao

dc.contributor.author	Ito, Fernando Tadao
dc.date.accessioned	2018-08-14T20:03:27Z
dc.date.available	2018-08-14T20:03:27Z
dc.date.issued	2018-06-08
dc.identifier.citation	ITO, Fernando Tadao. Representação multimodal para classificação de informação. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2018. Disponível em: https://repositorio.ufscar.br/handle/ufscar/10365.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/10365
dc.description.abstract	The most basic meaning of "multimodality" is the use of multiple means of information to compose an "artifact", a man-made object that expresses a concept. In our day-to-day life, most media outlets use multimedia to express information: news are composed of videos, narrations and ancillary texts; theater plays tell a story from actors, gestures and songs; electronic games use the player's physical gestures as actions, and respond with visual or musical cues. To interpret such "artifacts," we have to extract information from multiple media and combine them mathematically. The extraction of characteristics is done from mathematical models that receive raw data (texts, images, audio signals) and turns it into a numerical vector, where the distance between instances denotes its relation, where close data encode similar meanings. To create a multimodal semantic space, we use models that `` fuse '' information from multiple data types. In this work, we investigate the interaction between different modes of information representation in the formation of multimodal representations, presenting some of the most used algorithms for vector representation of texts and images and how to merge them. To measure the relative performance of each combination of methods, we use classification and similarity tasks in databases with images and paired texts. We found that in our data sets different methods of unimodal representation can lead to vastly different results. We also note that the performance of a representation in the data classification task does not mean that such representation does not encode the concept of an object, having different results in similarity tasks.	eng
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)	por
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Representação multimodal	por
dc.subject	Representação distribuída	por
dc.subject	Inteligência artificial	por
dc.subject	Aprendizado não-supervisionado	por
dc.subject	Multimodal representation	eng
dc.subject	Distributed representation	eng
dc.subject	Autoencoder	eng
dc.subject	Artificial intelligence	eng
dc.subject	Unsupervised learning	eng
dc.title	Representação multimodal para classificação de informação	por
dc.type	Dissertação	por
dc.contributor.advisor1	Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6608582057810385	por
dc.contributor.advisor-co1	Moreira, Jander
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/7638816418156415	por
dc.description.resumo	O significado mais básico de ``multimodalidade'' é a utilização de múltiplos meios de informação para compor um ``artefato'', um objeto criado pelo homem que expressa um conceito. Em nosso dia-a-dia, diversos meios de comunicação expressam conceitos a partir de multimídia: notícias com narração, vídeos e textos auxiliares; peças de teatro que contam uma história a partir de atores, gestos e músicas; jogos eletrônicos que utilizam os gestos físicos do jogador como ações, e respondem com sinais visuais ou musicais. Para interpretar tais ``artefatos'', temos que extrair informações de múltiplos meios de informação e combiná-los matematicamente. A extração de características é feita a partir de modelos matemáticos que recebem um dado bruto (textos, imagens, sinais de áudio) e o transforma em um vetor numérico, onde a distância entre instâncias denota a sua relação: dados próximos codificam significados similares. Para criar um espaço semântico multimodal, utilizamos modelos que ``fundem'' as informações de múltiplos tipos de dados. Neste trabalho, investigamos a interação entre diferentes modos de representação de informação na formação de representações multimodais, apresentando alguns dos algoritmos mais usados para a representação vetorial de textos e imagens e como fundi-los. Para medir a performance relativa de cada combinação de métodos, utilizamos tarefas de classificação e similaridade em bancos de dados com imagens e textos pareados. Verificamos que, em nossos conjuntos de dados, diferentes métodos de representação unimodal podem levar a resultados vastamente diferentes. Também notamos que a performance de uma representação na tarefa de classificação de dados não significa que tal representação não codifique o conceito de um objeto, tendo diferentes resultados em tarefas de similaridade.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.description.sponsorshipId	CNPq: 136958/2016-8	por
dc.description.sponsorshipId	FAPESP: 16/13002-0	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/1816202262868538	por

Ficheros en el ítem

Nombre:: Disserta__o___Fernando_Tadao_Ito ...
Tamaño:: 4.300Mb
Formato:: PDF
Descripción:: Dissertation

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Teses e dissertações

Mostrar el registro sencillo del ítem