dc.contributor.author | Soares, Vitor Freitas Xavier | |
dc.date.accessioned | 2023-09-05T18:35:56Z | |
dc.date.available | 2023-09-05T18:35:56Z | |
dc.date.issued | 2023-08-28 | |
dc.identifier.citation | SOARES, Vitor Freitas Xavier. Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18517. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/18517 | |
dc.description.abstract | The rapid development and adoption of information technologies, such as the internet, have resulted in an explosion in data generation, significantly increasing the volume of new instances with various attributes. The vast number of attributes present in certain datasets does not necessarily imply better performance, as algorithm performance decreases as attributes are excessively added (Curse of Dimensionality). Therefore, in the field of machine learning, traditional clustering algorithms play a crucial role in analyzing such data by segmenting it based on similarities. A more recent approach involves associating graph construction algorithms with community detection algorithms. In this approach, graphs represent the relationships between the data, while community detection algorithms are responsible for revealing densely connected groups and identifying hidden patterns. In light of this, the aim of this study is to perform an analysis of graph construction algorithms combined with community detection on high-dimensional datasets. Synthetic datasets were used, with the primary evaluation metric being the normalized mutual information index (NMI). Additionally, datasets with different numbers of attributes, groups, samples, and overlap were evaluated to observe the effects of dimensionality on the results. Traditional clustering algorithms, such as K-means and Agglomerative Clustering, were considered as baselines for comparing the performance of others. The results indicated that graph construction algorithms combined with community detection algorithms are a viable alternative and even yield better results in some cases than traditional clustering algorithms for high-dimensional datasets. | eng |
dc.description.sponsorship | Não recebi financiamento | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | * |
dc.subject | Aprendizado da áquina | por |
dc.subject | Algoritmos de agrupamento | por |
dc.subject | Construção de grafos | por |
dc.subject | Detecção de comunidade | por |
dc.subject | Maldição da dimensionalidade | por |
dc.subject | Machine learning | eng |
dc.subject | Graph construction | eng |
dc.subject | Clustering algorithms | eng |
dc.subject | Community detection | eng |
dc.title | Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade | por |
dc.title.alternative | Analysis of graph construction algorithms in high-dimensional datasets | eng |
dc.type | TCC | por |
dc.contributor.advisor1 | Valejo, Alan Demétrius Baria | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9546164790189830 | por |
dc.description.resumo | O rápido desenvolvimento e adoção de tecnologias de informação, como a internet, resultou em uma explosão na geração de dados, aumentando significativamente o volume de novas instâncias com diversos atributos. A vasta quantidade de atributos existentes em determinados conjuntos de dados não implica necessariamente em uma melhor performance, visto que o desempenho dos algoritmos diminui à medida que atributos são adicionados excessivamente (Maldição da Dimensionalidade). Assim, para analisar tais dados, no campo do aprendizado de máquina, os algoritmos de agrupamento tradicionais desempenham um papel crucial, segmentando-os com base em semelhanças. Uma abordagem mais recente é associar algoritmos de construção de grafos a algoritmos de detecção de comunidades. Nesta, os grafos representam as relações entre os dados, enquanto os algoritmos de detecção de comunidade ficam encarregados de revelar grupos densamente conectados e identificar padrões ocultos. Diante disso, o objetivo deste estudo é realizar uma análise de algoritmos de construção de grafos combinada com a detecção de comunidades em conjuntos de dados com alta dimensionalidade. Foram utilizados conjuntos de dados sintéticos com a métrica de avaliação principal sendo o índice externo denominado Informação Mútua Normalizada (NMI). Além disso, foram avaliados conjuntos de dados com diferentes quantidades de atributos, grupos, amostras e sobreposição, com o propósito de observar os efeitos da dimensionalidade nos resultados obtidos. Os algoritmos de agrupamento tradicionais K-means e Agglomerative Clustering foram considerados como baseline para a comparação do desempenho dos demais. Os resultados apontaram que algoritmos de construção de grafos associados aos algoritmos de detecção de comunidade são uma alternativa viável e apresentam até mesmo resultados melhores em alguns casos que os algoritmos de agrupamento tradicionais para conjuntos de dados com alta dimensionalidade. | por |
dc.publisher.initials | UFSCar | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/1871335822766399 | por |
dc.publisher.course | Engenharia de Computação - EC | por |