Aplicação de métodos de redução de dimensionalidade não lineares em classificadores paramétricos e não paramétricos

Hirasawa, João Gabriel Viana

dc.contributor.author	Hirasawa, João Gabriel Viana
dc.date.accessioned	2023-12-06T20:12:24Z
dc.date.available	2023-12-06T20:12:24Z
dc.date.issued	2023-12-04
dc.identifier.citation	HIRASAWA, João Gabriel Viana. Aplicação de métodos de redução de dimensionalidade não lineares em classificadores paramétricos e não paramétricos. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18998.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/18998
dc.description.abstract	Much of the data collected and used in machine learning applications is structured in high-dimensional spaces. Images, text documents and sensor data are some examples of data collected all the time, and whose number of attributes can easily exceed the number of samples in the set. As a consequence, the curse of dimensionality requires the study of ways to mitigate negative effects in models that use these high-dimensional data sets. One solution to deal with this is dimensionality reduction methods, which seek to generate representations with a more tangible number of dimensions, minimizing the loss of information. In this way, the use of such methods within machine learning becomes a field with potential, as they simplify the structure of the data that feeds the models. This work aimed to evaluate the use of different non-linear dimensionality reduction methods together with parametric and non-parametric models in classification tasks. UMAP and PaCMAP were used on high-dimensional data sets, available on the OpenML platform, and the classification performance of the Quadratic Discriminant Analysis (QDA), Gaussian Naive Bayes, k-NN and XGBoost models was evaluated. The results obtained show an improvement in performance for parametric models, mainly with the use of the supervised implementation of UMAP. Although they were not as effective in a more robust and heavy model, XGBoost, the use of the methods represented an improvement in the model's execution time, which indicates an opportunity for application and study in these situations.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/	*
dc.subject	Redução de dimensionalidade	por
dc.subject	UMAP	por
dc.subject	PaCMAP	por
dc.subject	Reconhecimento de padrões	por
dc.title	Aplicação de métodos de redução de dimensionalidade não lineares em classificadores paramétricos e não paramétricos	por
dc.title.alternative	Application of non-linear dimensionality reduction methods to parametric and non-parametric classifiers	eng
dc.type	TCC	por
dc.contributor.advisor1	Levada, Alexandre Luis Magalhães
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3341441596395463	por
dc.description.resumo	Muitos dos dados coletados e utilizados nas aplicações de aprendizado de máquina estão estruturados em conjuntos de alta dimensionalidade. Imagens, documentos de texto e dados de sensores são alguns exemplos de dados coletados o tempo todo, e cujo número de atributos pode ultrapassar facilmente a quantidade de amostras no conjunto. Como consequência, a maldição da dimensionalidade torna pertinente o estudo de meios para mitigar seus efeitos em modelos que utilizam esses conjuntos de dados de alta dimensionalidade. Uma solução para lidar com isso são os métodos de redução de dimensionalidade, que buscam gerar representações com um número mais palpável de dimensões, minimizando a perda de informação. Dessa forma, o uso de tais métodos dentro do aprendizado de máquina se torna um campo com potencial, à medida que simplificam a estrutura dos dados que alimentam os modelos. Este trabalho teve como objetivo avaliar o uso de diferentes métodos de redução de dimensionalidade não lineares junto a modelos paramétricos e não paramétricos em tarefas de classificação. Foram utilizados o UMAP e o PaCMAP em conjuntos de dados com alta dimensionalidade, disponíveis na plataforma do OpenML, e foi avaliado o desempenho de classificação dos modelos Quadratic Discriminant Analysis (QDA), Gaussian Naive Bayes, k-NN e XGBoost. Os resultados obtidos mostram uma melhora de desempenho para os modelos paramétricos, principalmente com o uso da implementação supervisionada do UMAP. Apesar de não terem sido tão efetivos num modelo mais robusto e pesado, o XGBoost, o uso dos métodos representou uma melhora no tempo de execução do modelo, que indica uma oportunidade de aplicação e estudo nessas situações.	por
dc.publisher.initials	UFSCar	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/5009735422150540	por
dc.publisher.course	Engenharia de Computação - EC	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0001-8253-2729	por

Files in this item

Name:: TCC_Joao_Gabriel_Viana_Hirasaw ...
Size:: 1.904Mb
Format:: PDF
Description:: Trabalho de conclusão de curso

View/Open

Name:: license_rdf
Size:: 913bytes
Format:: application/rdf+xml

View/Open

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, this item's license is described as Attribution 3.0 Brazil