Segmentação semântica fracamente supervisionada para imagens de fast-food usando arquitetura SegFormer com duplo estudante
| dc.contributor.advisor1 | Ferrari, Ricardo José | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8460861175344306 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0003-1197-2553 | |
| dc.contributor.author | Carvalho, Matheus Ramos de | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/7433192248627231 | |
| dc.contributor.authororcid | https://orcid.org/0009-0007-8203-5096 | |
| dc.contributor.referee | Ferrari, Ricardo José | |
| dc.contributor.referee | Valejo, Alan Demétrius Baria | |
| dc.contributor.referee | Travençolo, Bruno Augusto Nassif | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/8460861175344306 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/9546164790189830 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/2590427557264952 | |
| dc.date.accessioned | 2026-04-24T18:33:10Z | |
| dc.date.issued | 2026-03-02 | |
| dc.description.abstract | This study focuses on Semantic Segmentation (SS) of fast-food sandwich assembly images using Deep Learning and weakly supervised learning techniques. Semantic segmentation, which involves pixel-wise classification of the image, is a fundamental task in computer vision and relevant for quality control in franchise assembly. When dealing with food, challenges arise such as the high visual diversity of ingredients and class imbalance; moreover, existing models often rely on public datasets that do not reflect scenarios such as Closed-Circuit Television (CCTV) imagery, which is the focus of this work. Automating quality control by distinguishing ingredients at the pixel level contributes to standardization and consistency. Manual annotation for supervised training is costly and time-consuming, which justifies exploring weakly supervised models that require only image-level labels. We propose a weakly supervised SS model based on Class Activation Maps (CAMs) to identify ingredients in low-resolution images captured by CCTV. The architecture is lightweight and low-resource: it uses SegFormer-B0 in a dual-student setup with mutual supervision via cross pseudo-labels, and incorporates Test-Time Augmentation (TTA) and Dynamic Threshold Adjustment (DTA) for pseudo-label refinement. Results show mIoU of 43.9% (comparable to DuPL, 41.2%), with greater stability across folds (standard deviation 0.6% versus 6.8% for DuPL). The model also exhibits superior computational efficiency, using 33% less VRAM and achieving 1.5–5× higher throughput than DuPL, making it suitable for real-time deployment in resource-constrained environments. | eng |
| dc.description.resumo | Este estudo foca na Segmentação Semântica (SS) de imagens de montagem de lanches fast-food, utilizando técnicas de Deep Learning e aprendizado fracamente supervisionado. A Segmentação Semântica, que envolve a classificação pixel a pixel da imagem, é uma tarefa fundamental na visão computacional e relevante para o controle de qualidade da montagem em franquias. Ao lidar com alimentos, surgem desafios como a grande diversidade visual dos ingredientes e o desequilíbrio entre classes; além disso, os modelos existentes frequentemente se baseiam em datasets públicos que não refletem cenários como imagens de câmeras de Circuito Fechado de Televisão (CFTV), foco deste trabalho. A automatização do controle de qualidade, distinguindo ingredientes a nível de pixel, contribui para a padronização e a consistência. A anotação manual para treinamento supervisionado é custosa e demorada, o que justifica a exploração de modelos fracamente supervisionados, que requerem apenas rótulos de classificação de imagem. Propõe-se um modelo de SS fracamente supervisionado, baseado em Class Activation Maps (CAMs), para identificar ingredientes em imagens de baixa resolução capturadas por CFTV. A arquitetura é leve e eficiente: utiliza o SegFormer-B0 em configuração de duplo estudante, com supervisão mútua por pseudo-rótulos cruzados, e incorpora Aumento no Tempo de Teste (TTA) e Ajuste Dinâmico de Limiar (DTA) para refinamento dos pseudo-rótulos. Os resultados mostram mIoU de 43,9% (comparável ao DuPL, 41,2%), com maior estabilidade entre folds (desvio padrão 0,6% versus 6,8% do DuPL). O modelo apresenta ainda eficiência computacional superior, utilizando 33% menos VRAM e throughput de 1,5 a 5 vezes maior que o DuPL, tornando-o adequado à implantação em tempo real em ambientes com recursos limitados. | por |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | CARVALHO, Matheus Ramos de. Segmentação semântica fracamente supervisionada para imagens de fast-food usando arquitetura SegFormer com duplo estudante. 2026. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2026. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23987. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23987 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | |
| dc.relation.uri | https://ieeexplore.ieee.org/document/11480818 | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Segmentação semântica | por |
| dc.subject | Segmentação de ingredientes | por |
| dc.subject | Aprendizado fracamente supervisionado | por |
| dc.subject | Segmentação em alimentos | por |
| dc.subject | Deep Learning | eng |
| dc.subject | Fast-Food | eng |
| dc.subject | Semantic segmentation | eng |
| dc.subject | Ingredient segmentation | eng |
| dc.subject | Weakly supervised learning | eng |
| dc.subject | Food segmentation | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.subject.ods | 9. Indústria, Inovação e Infraestrutura | |
| dc.title | Segmentação semântica fracamente supervisionada para imagens de fast-food usando arquitetura SegFormer com duplo estudante | por |
| dc.title.alternative | Weakly supervised semantic segmentation for fast-food images using a dual-student SegFormer architecture | eng |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- FA_DISSERTACAO_MATHEUS.pdf
- Tamanho:
- 12.48 MB
- Formato:
- Adobe Portable Document Format