Análise do potencial de modelos contrastivos em tarefas de imagem-para-grafo

dc.contributor.advisor1Comin, Cesar Henrique
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9563440403120931
dc.contributor.advisor1orcidhttps://orcid.org/0000-0003-1207-4982
dc.contributor.authorTakeda, Eduardo Minoru
dc.date.accessioned2026-01-22T14:39:18Z
dc.date.issued2025-12-18
dc.description.abstractLarge Vision-Language Models (VLMs) have demonstrated capabilities in various image-related tasks, such as object detection, recognition, and counting. However, they still face significant challenges when dealing with images of graphs and diagrams. Given this landscape, it becomes crucial to investigate both methods to adapt these models and methodological alternatives capable of exploiting their true capabilities. Among possible approaches, Contrastive Learning stands out for achieving results superior to other models involving multiple textual attributes and positional dependencies. In this context, investigating the capabilities of the CLIP model proves pertinent, especially considering the advancement of other multimodal models across different domains. This work analyzes the potential of CLIP, coupled with Contrastive Learning, for tasks involving the extraction of similarity between graph images and the recognition of their edge lists, as well as the differentiation of graph structures. Results were positive regarding edge list recognition, while the clustering of different structures and degrees of regularity showed promising potential, albeit still requiring further exploration and fine-tuning. The analysis of metrics and the expansion of the methodology's applications may contribute significantly to advancing the state of the art in the field.eng
dc.description.resumoGrandes Modelos de Visão e Linguagem (VLMs) têm demonstrado capacidade para diversas tarefas envolvendo imagens, como detecção, reconhecimento e contagem de objetos. Contudo, ainda apresentam dificuldades significativas ao lidar com imagens de grafos e diagramas. Diante desse cenário, torna-se relevante investigar tanto formas de adaptar esses modelos quanto alternativas metodológicas capazes de explorar suas reais capacidades. Entre as abordagens possíveis, o Aprendizado Contrastivo destaca-se por obter resultados superiores a outros modelos envolvendo múltiplos atributos textuais e dependências posicionais. Nesse contexto, a investigação das capacidades do modelo CLIP mostra-se pertinente, especialmente considerando o avanço de outros modelos multimodais em diferentes domínios. Este trabalho analisa o potencial do CLIP, aliado ao Aprendizado Contrastivo, para tarefas envolvendo a extração da similaridade entre imagens de grafos e a listagem de suas arestas, bem como a diferenciação de estruturas de grafos. Os resultados foram positivos no reconhecimento das listas de arestas, enquanto o agrupamento de diferentes estruturas e graus de regularidade apresentou potencial promissor, embora ainda dependente de maior exploração e ajustes finos. A análise das métricas e a ampliação das aplicações da metodologia adotada podem contribuir de forma significativa para o avanço do estado da arte na área.por
dc.identifier.citationTAKEDA, Eduardo Minoru. Análise do potencial de modelos contrastivos em tarefas de imagem-para-grafo. 2025. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23443.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/23443
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseCiência da Computação - CC
dc.publisher.initialsUFSCar
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectModelos de visão e linguagempor
dc.subjectGrafospor
dc.subjectAprendizado contrastivopor
dc.subjectSimilaridade de grafospor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.ods3. Saúde e Bem-Estar
dc.subject.ods9. Indústria, Inovação e Infraestrutura
dc.titleAnálise do potencial de modelos contrastivos em tarefas de imagem-para-grafopor
dc.title.alternativeOn the potential of contrastive models in image-to-graph taskseng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC_Eduardo_Takeda.pdf
Tamanho:
2.85 MB
Formato:
Adobe Portable Document Format

Coleções