Multimodal classification for detecting products that do not comply with the Americanas S.A.'s marketplace sales policies

Romualdo, Alan da Silva

dc.contributor.author	Romualdo, Alan da Silva
dc.date.accessioned	2022-08-02T12:25:42Z
dc.date.available	2022-08-02T12:25:42Z
dc.date.issued	2022-04-19
dc.identifier.citation	ROMUALDO, Alan da Silva. Multimodal classification for detecting products that do not comply with the Americanas S.A.'s marketplace sales policies. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16443.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/16443
dc.description.abstract	Multimodal learning for the e-commerce domain, some classification methods are ne- eded for categorization, information retrieval and product recommendations, which are generally composed of different modalities: images and texts. Due to large diversification in the characteristics of these modalities or the absence/incompleteness of information (for example, incomplete product attributes), classification methods face many difficulties in dealing with this information in order to improve their classification. Thus, this work was carried out to investigate the multimodal learning in visual and textual modalities for e-commerce. Our experiments show good results for classification of products from “Adult” and “Illegal Devices” categories, which is part of the dataset provided by the partner company of this project. In these experiments, training was carried out for the specific modalities, deriving text and image models, as well as the fusion of the two mo- dalities in a multimodal model. The best models were the binary textual models trained taking into account product titles and descriptions: TD bin-adult (with a recall of 98%) and TD bin-illegal (with a recall of 95 %). We have some insights about the multimo- dal classification, mainly for the visual modality which, regarding its nature, could not capture patterns as well as textual models.	eng
dc.description.sponsorship	Outra	por
dc.language.iso	eng	eng
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Classificação multimodal	por
dc.subject	Texto	por
dc.subject	Imagem	por
dc.subject	Produtos	por
dc.subject	E-commerce	eng
dc.subject	Multimodal classification	eng
dc.subject	Text	eng
dc.subject	Image	eng
dc.subject	Products	eng
dc.title	Multimodal classification for detecting products that do not comply with the Americanas S.A.'s marketplace sales policies	eng
dc.title.alternative	Classificação multimodal para detecção de produtos em discordância com a política de vendas do marketplace da Americanas	por
dc.type	Dissertação	por
dc.contributor.advisor1	Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6608582057810385	por
dc.description.resumo	O aprendizado multimodal para o domínio do e-commerce possui alguns métodos de classificação para categorização, recuperação de informação e recomendações de produ- tos, que geralmente são compostos por modalidades diferentes: imagens e textos. Devido a grandes variações das características dessas modalidades nos produtos, a ausência ou incompletude de informações (por exemplo, atributos de produtos incompletos), há uma dificuldade de métodos de classificação de trabalhar essas informações para melhorar sua classificação, utilizando então a fusão dos recursos em nível de decisão para classificadores específicos de cada modalidade. Assim, este trabalho foi realizado com o objetivo de in- vestigar o aprendizado multimodal entre modalidades visual e textual para o domínio do e-commerce. Os experimentos descritos neste documento apresentaram bons resultados para classificação de produtos das categorias “Adulto” e “Dispositivos Ilegais”, que fazem parte do conjunto de dados fornecido pela empresa parceira deste projeto. Nesses expe- rimentos, realizou-se o treinamento para as modalidades específicas, com modelos para texto e para imagem, bem como a fusão das duas modalidades em um modelo multimo- dal. Os melhores modelos foram os textuais de classificação binária produzidos levando em consideração títulos e descrições de produtos: TD bin-adult (com recall de 98%) e TD bin-illegal (com um recall de 95%). Temos alguns insights sobre a classificação mul- timodal das classes principalmente para a modalidade visual que, devido à sua natureza, não pode capturar padrões tão bem quanto os modelos textuais.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/6009991525432946	por