Análise do potencial de modelos contrastivos em tarefas de imagem-para-grafo
| dc.contributor.advisor1 | Comin, Cesar Henrique | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9563440403120931 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0003-1207-4982 | |
| dc.contributor.author | Takeda, Eduardo Minoru | |
| dc.date.accessioned | 2026-01-22T14:39:18Z | |
| dc.date.issued | 2025-12-18 | |
| dc.description.abstract | Large Vision-Language Models (VLMs) have demonstrated capabilities in various image-related tasks, such as object detection, recognition, and counting. However, they still face significant challenges when dealing with images of graphs and diagrams. Given this landscape, it becomes crucial to investigate both methods to adapt these models and methodological alternatives capable of exploiting their true capabilities. Among possible approaches, Contrastive Learning stands out for achieving results superior to other models involving multiple textual attributes and positional dependencies. In this context, investigating the capabilities of the CLIP model proves pertinent, especially considering the advancement of other multimodal models across different domains. This work analyzes the potential of CLIP, coupled with Contrastive Learning, for tasks involving the extraction of similarity between graph images and the recognition of their edge lists, as well as the differentiation of graph structures. Results were positive regarding edge list recognition, while the clustering of different structures and degrees of regularity showed promising potential, albeit still requiring further exploration and fine-tuning. The analysis of metrics and the expansion of the methodology's applications may contribute significantly to advancing the state of the art in the field. | eng |
| dc.description.resumo | Grandes Modelos de Visão e Linguagem (VLMs) têm demonstrado capacidade para diversas tarefas envolvendo imagens, como detecção, reconhecimento e contagem de objetos. Contudo, ainda apresentam dificuldades significativas ao lidar com imagens de grafos e diagramas. Diante desse cenário, torna-se relevante investigar tanto formas de adaptar esses modelos quanto alternativas metodológicas capazes de explorar suas reais capacidades. Entre as abordagens possíveis, o Aprendizado Contrastivo destaca-se por obter resultados superiores a outros modelos envolvendo múltiplos atributos textuais e dependências posicionais. Nesse contexto, a investigação das capacidades do modelo CLIP mostra-se pertinente, especialmente considerando o avanço de outros modelos multimodais em diferentes domínios. Este trabalho analisa o potencial do CLIP, aliado ao Aprendizado Contrastivo, para tarefas envolvendo a extração da similaridade entre imagens de grafos e a listagem de suas arestas, bem como a diferenciação de estruturas de grafos. Os resultados foram positivos no reconhecimento das listas de arestas, enquanto o agrupamento de diferentes estruturas e graus de regularidade apresentou potencial promissor, embora ainda dependente de maior exploração e ajustes finos. A análise das métricas e a ampliação das aplicações da metodologia adotada podem contribuir de forma significativa para o avanço do estado da arte na área. | por |
| dc.identifier.citation | TAKEDA, Eduardo Minoru. Análise do potencial de modelos contrastivos em tarefas de imagem-para-grafo. 2025. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23443. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23443 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.course | Ciência da Computação - CC | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Modelos de visão e linguagem | por |
| dc.subject | Grafos | por |
| dc.subject | Aprendizado contrastivo | por |
| dc.subject | Similaridade de grafos | por |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.subject.ods | 3. Saúde e Bem-Estar | |
| dc.subject.ods | 9. Indústria, Inovação e Infraestrutura | |
| dc.title | Análise do potencial de modelos contrastivos em tarefas de imagem-para-grafo | por |
| dc.title.alternative | On the potential of contrastive models in image-to-graph tasks | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TCC_Eduardo_Takeda.pdf
- Tamanho:
- 2.85 MB
- Formato:
- Adobe Portable Document Format