Show simple item record

dc.contributor.authorAlves, William Adriano
dc.date.accessioned2023-07-03T15:16:11Z
dc.date.available2023-07-03T15:16:11Z
dc.date.issued2023-05-25
dc.identifier.citationALVES, William Adriano. ESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomalias. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18227.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/18227
dc.description.abstractAnomaly (outlier) detection is one of the main problems in data mining. Since anomalies can translate into important information in numerous fields, several methods were developed to identify them, especially unsupervised methods, which is the focus of this work. To soften the need for studies on assessing and quantifying the quality of the result of these unsupervised methods, the IREOS index was proposed as the first internal evaluation technique for unsupervised anomaly detection methods. IREOS allows one to select the best algorithm and parameters for a given problem using only intrinsic information from the data. However, IREOS demands the training of many highly complex classifiers for each object in the dataset whose outlier detection solutions are being analyzed. This feature limits the application of IREOS to small datasets since the classifiers use all points in the dataset during its training. In the present work, we propose ESIREOS, the first version of IREOS that addresses its performance and processing deficiencies using Massive Parallel Computing techniques that efficiently implement horizontal computational scaling for many machine learning problems. ESIREOS also makes use of approximated Nearest Neighbor Graphs to reduce the volume of data and processing power demanded by IREOS without any significant loss in the quality of the results. We evaluate ESIREOS theoretically, estimating its asymptotic complexity and with experiments over real and synthetic datasets to attest to its effectiveness and performance compared to the original version, including large datasets. The results showed that ESIREOS resulted in a significant improvement in computational complexity when compared to the original IREOS while maintaining quality. ESIREOS showed to be capable of evaluating solutions for very large datasets, even those which IREOS was not capable of evaluating in a feasible time. Therefore, this efficient and scalable new version can be used in many scenarios, mainly, but not limited to, those with large or distributed data.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectMineração de Dadospor
dc.subjectDetecção de Anomaliaspor
dc.subjectComputação Paralela Massivapor
dc.subjectData Miningeng
dc.subjectOutlier Detectioneng
dc.subjectMassive Parallel Computingeng
dc.titleESIREOS: Avaliação internal, eficiente e escalável de métodos não supervisionados de detecção de anomaliaspor
dc.title.alternativeESIREOS: Efficient, Scalable, Internal, Relative Evaluation of Outliers Solutionseng
dc.typeDissertaçãopor
dc.contributor.advisor1Naldi, Murilo Coelho
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0573662728816861por
dc.contributor.advisor-co1Marques, Henrique Oliveira
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/6792856084528925por
dc.description.resumoA detecção de anomalias (outliers) é um dos principais problemas em mineração de dados, uma vez que anomalias podem representar informações importantes em numerosas áreas. Vários métodos foram desenvolvidos para identificá-las, especialmente métodos não supervisionados, foco deste trabalho. Endereçando a necessidade de estudos para avaliar e quantificar a qualidade do resultado desses métodos não supervisionados, o índice IREOS foi proposto como a primeira técnica de avaliação interna para métodos não supervisionados de detecção de anomalias. O IREOS permite selecionar o melhor algoritmo e parâmetros para um dado problema usando apenas informações intrínsecas dos dados. No entanto, o IREOS exige o treinamento de muitos classificadores com alta complexidade para cada objeto no conjunto de dados cujas soluções de detecção de anomalias estão sendo analisadas. Essa característica limita a aplicação do IREOS a conjuntos de dados pequenos, já que os classificadores necessários utilizam todos os objetos no conjunto de dados durante o treinamento. No presente trabalho, propomos o ESIREOS, a primeira versão do IREOS que aborda suas deficiências de desempenho e processamento usando técnicas de computação paralela massiva, eficientemente utilizadas para o escalonamento computacional horizontal de muitos problemas de aprendizado de máquina. O ESIREOS também usa grafos de vizinhos mais próximos aproximados para reduzir o volume de dados e o poder de processamento exigidos pelo IREOS sem perda significativa na qualidade dos resultados. Avaliamos o ESIREOS teoricamente, estimando sua complexidade assintótica, e via experimentos com conjuntos de dados reais e sintéticos, para atestar sua eficácia e eficiência em comparação a versão original, incluindo conjuntos de dados com grande volume. Os resultados apresentam que o ESIREOS obteve uma melhora significativa na complexidade computacional em comparação à versão original do IREOS, mantendo a qualidade dos resultados. O ESIREOS mostrou-se capaz de avaliar soluções para conjuntos de dados muito grandes, mesmo aqueles para os quais o IREOS não conseguiu avaliar em um tempo viável. Portanto, esta nova versão eficiente e escalável pode ser usada em muitos cenários, principalmente, mas não limitados a, aqueles com dados grandes ou distribuídos.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCC-Sopor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.publisher.addressCâmpus Sorocabapor
dc.contributor.authorlatteshttp://lattes.cnpq.br/7758293466527368por


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil