Show simple item record

dc.contributor.authorAlves, André Hallwas Ribeiro
dc.date.accessioned2023-09-19T19:18:47Z
dc.date.available2023-09-19T19:18:47Z
dc.date.issued2023-04-05
dc.identifier.citationALVES, André Hallwas Ribeiro. Hybrid and semi-supervised predictive bi-clustering trees for interaction prediction. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18570.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/18570
dc.description.abstractInteraction data is obtained by observing and recording interactions between objects. The use of interaction data makes it possible to solve many complex problems. Currently, there are several ways to use this data to produce solutions. One of them is to predict new interactions based on existing interactions. Machine learning methods can be used to accomplish this task. The study of interactions between objects is essential in several areas of knowledge, such as recommendation systems, analysis of interactions in social networks, the pharmaceutical industry, and bioinformatics. Machine learning is a subarea of artificial intelligence where algorithms are developed with the ability to learn and execute automatically through training and exploration of a previously provided dataset. In this work, we developed two methods based on Predictive Bi-Clustering Trees (PBCTs) for the prediction of interactions in interactions datasets related to the areas of medicine and bioinformatics. We highlight that global approach-based multi-label methods such as PBCTs, can learn and predict all interactions of an object in a single task and explore the relationships between object spaces. Initially, we build a hybrid learning model between PBCT and Extreme Gradient Boosting (XGBoost), wherein the first stage PBCT is used to generate partitions in an interaction matrix. In the second stage, an XGBoost learning model is induced in each partition to reduce the imbalance between positive and negative interactions in outcome predictions. Data from positive interactions indicate the occurrence of an interaction, and data from negative interactions indicate that it did not occur, while data from unknown (unlabeled) interactions indicate cases where there is no information about interactions. To take advantage of the unlabeled data in the PBCT induction procedure, we propose a semi-supervised adaptation in the split function of the PBCT, thus being able to work with labeled and unlabeled data, with different levels of supervision and imbalance. Both introduced methods had their performance evaluated based on evaluation criteria that considered efficiency in predicting interactions and computational performance and through a comparative study with the original PBCT. As a result, both produced methods showed promising through an experimental procedure, presenting contributions to the literature and paving the way for the advancement of the state-of-the-art.por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectAprendizado de máquinapor
dc.subjectPredição de interaçõespor
dc.subjectAprendizado multirrótulopor
dc.subjectMachine learningeng
dc.subjectInteraction predictioneng
dc.subjectMulti-label learningeng
dc.titleHybrid and semi-supervised predictive bi-clustering trees for interaction predictioneng
dc.title.alternativeÁrvores bi-clustering preditivas híbridas e semissupervisionadas para predição de interaçõespor
dc.typeDissertaçãopor
dc.contributor.advisor1Cerri, Ricardo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6266519868438512por
dc.description.resumoDados de interação são obtidos por meio da observação e do registro das interações entre objetos. O uso de dados de interação possibilita a solução de diversos problemas complexos. Atualmente, existem várias maneiras de usar esses dados para produzir soluções, uma das quais é a previsão de novas interações a partir de interações já conhecidas. Para realizar essa tarefa, métodos de aprendizado de máquina podem ser usados. O estudo das interações entre objetos é importante em diversas áreas do conhecimento, como em sistemas de recomendação, na análise de interação em redes sociais, na indústria farmacêutica, e na bioinformática. O aprendizado de máquina é uma sub-área da inteligência artificial onde são desenvolvidos algoritmos com a capacidade de aprender e realizar tarefas automaticamente, por meio do treinamento e da exploração de um conjunto de dados previamente fornecido. Neste trabalho, desenvolvemos dois métodos baseados em Predictive Bi-Clustering Trees (PBCTs) para a predição de interações em conjuntos de dados de interações relacionadas as áreas de medicina e bioinformática. Destacamos que métodos multirrótulo baseados em uma abordagem global como PBCTs, podem prever todas as interações de um objeto em uma única tarefa de predição e explorar as relações entre os espaços de objetos. Inicialmente, construímos um modelo de aprendizado híbrido entre o PBCT e o XGBoost, onde no primeiro estágio o PBCT é usado na geração de partições na matriz de interação e, na segunda etapa, um modelo de aprendizado XGBoost é induzido em cada uma das partições, visando reduzir o desequilíbrio entre interações positivas e negativas nas predições resultantes. Dados de interações positivas indicam a ocorrência de uma interação, e dados de interações negativas indicam a não ocorrência, enquanto dados de interações desconhecidas (não rotulados) indicam casos onde não se tem informações sobre as interações. Com o objetivo de aproveitar os dados não rotulados no procedimento de indução do PBCT, propusemos uma adaptação na função split, transformando o PBCT em um método de aprendizado semi-supervisionado, podendo assim trabalhar com dados rotulados e não rotulados, com diferentes níveis de supervisão e desequilíbrio entre dados rotulados e não rotulados. Ambos os métodos introduzidos tiveram seu desempenho avaliado com base em critérios de avaliação que consideraram a eficiência preditiva e o desempenho computacional, considerando um estudo comparativo com o PBCT original. Com base nos resultados obtidos mediante procedimento experimental, ambos os métodos mostraram-se promissores, apresentando contribuições à literatura e abrindo caminho para o avanço do estado da arte.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.description.sponsorshipIdCódigo de Financiamento nº 001, Processo nº 88887.488550/2020-00, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES)por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/7234224268038252por
dc.contributor.authororcidhttps://orcid.org/0000-0001-8869-1149por
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-2582-1695por


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil