SEnsembles – uma abordagem para melhorar a qualidade das correspondências de instâncias disjuntas em estudos observacionais explorando características idênticas e ensembles de regressores

Borges Junior, Sergio Ricardo

dc.contributor.author	Borges Junior, Sergio Ricardo
dc.date.accessioned	2017-07-19T10:45:12Z
dc.date.available	2017-07-19T10:45:12Z
dc.date.issued	2016-12-16
dc.identifier.citation	BORGES JUNIOR, Sergio Ricardo. SEnsembles – uma abordagem para melhorar a qualidade das correspondências de instâncias disjuntas em estudos observacionais explorando características idênticas e ensembles de regressores. 2016. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2016. Disponível em: https://repositorio.ufscar.br/handle/ufscar/8911.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/8911
dc.description.abstract	Introduction. The datasets used in observational studies have instances belonging to two distinct groups (i.e. treatment group and control group), which are compared in order to estimate the effect of the treatment over the results. For such, in one of the approaches, called Propensity Score Matching (PSM), the propensity score for the instances of both groups is estimated and, subsequently, the correspondence of these instances is performed based on the values for the propensity score. The propensity score is the probability of attribution of a treatment based on the observed characteristics (e.g. income, sex and age). In this context, the logistic regression is widely used to estimate the propensity score and there is an great variety of instance correspondence methods. Objective. This doctor´s thesis has as its main objective to investigate computational alternatives in order to improve the quality of the instance correspondence in datasets that are manipulated in observational studies. Methodology. Techniques that estimate the propensity score and methods to perform the instance correspondence in observational studies were investigated. Thus, it was possible to investigate how the identical characteristics of the instances could be exploited in a new process to perform correspondence and, how ensembles could substitute the logistic regression by estimating the propensity scores of the instances, in the context of the PSM process. Proposal. This thesis proposes a new approach in the context of the PSM process, called “SEnsembles”, which aims to improve the quality of instance correspondence based on two main processes, which use techniques that separately consider the identical characteristics of the instances and the ensembles of regressors, more precisely, bagging, random forest and boosting. Results. The proposed approach “SEnsembles” improves the quality of the instance correspondence for the majority of calipers used (i.e. zero, 0.05, 0.10, 0.15, 0.20, 0.25 and 0.30) when compared to the baseline Nearest Neighbor Matching (NNM). Based on the experiments, when there was an improvement over the baseline, the technique that separates the identical characteristics of the instances presented improvements of up to 53.8% in the quality of correspondence, with an average of gains of 12.1%; and only 2.7% of average in the reduction of the number of pairs of instances matched. The technique which substituted the logistic regression for ensembles of regressors, in turn, presented the best correspondence with the caliper zero and with the values 0.20, 0.25 and 0.30, with improvements of up to 36.3% and an average of gains of 12.7%; and a slightly reduction of 7.6% in the number of pairs of instances matched.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Estudos observacionais	por
dc.subject	Correspondência de instâncias	por
dc.subject	Escore de propensão	por
dc.subject	Observational studies	eng
dc.subject	Instance correspondence	eng
dc.subject	Propensity score	eng
dc.subject	Ensembles	eng
dc.title	SEnsembles – uma abordagem para melhorar a qualidade das correspondências de instâncias disjuntas em estudos observacionais explorando características idênticas e ensembles de regressores	por
dc.type	Tese	por
dc.contributor.advisor1	Ciferri, Ricardo Rodrigues
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8382221522817502	por
dc.contributor.advisor-co1	Santos, Marilde Terezinha Prado
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/9826026025118073	por
dc.description.resumo	Introdução. Os conjuntos de dados manipulados em estudos observacionais possuem instâncias pertencentes a dois grupos distintos (i.e. grupo de tratamento e grupo de controle), as quais são comparadas para estimar o efeito do tratamento sobre os resultados. Para isso, em uma das abordagens, chamada de Propensity Score Matching (PSM), estima-se o escore de propensão para as instâncias de ambos os grupos e, em seguida, efetua-se a correspondência dessas instâncias com base nos valores dos escores de propensão. O escore de propensão é a probabilidade de atribuição de um tratamento com base nas características observadas (por exemplo, renda, sexo e idade). Neste contexto, a regressão logística é amplamente utilizada para estimar o escore de propensão e há uma ampla variedade de métodos de correspondência de instâncias. Objetivo. Esta pesquisa de doutorado tem como objetivo principal investigar alternativas computacionais para melhorar a qualidade das correspondências de instâncias em conjuntos de dados que são manipulados em estudos observacionais. Metodologia. Investigou-se técnicas que estimam o escore de propensão e métodos para se efetuar a correspondência das instâncias em estudos observacionais. Assim, foi possível investigar como as características idênticas das instâncias poderiam ser exploradas em um novo processo de correspondência e, como ensembles, mais precisamente, bagging, random forest e boosting, poderiam substituir a regressão logística ao estimar os escores de propensão das instâncias, no contexto do processo de PSM. Proposta. Esta pesquisa propõe uma nova abordagem no contexto do processo PSM, denominada “SEnsembles”, que visa melhorar a qualidade da correspondência das instâncias com base em 2 processos principais, os quais utilizam técnicas que considerem em separado as características idênticas das instâncias e os ensembles de regressores, mais precisamente, bagging, random forest e boosting. Resultados. A abordagem proposta “SEnsembles” melhorou a qualidade da correspondência de instâncias para a maioria dos calipers utilizado (zero, 0,05, 0,10, 0,15, 0,20, 0,25 e 0,30) quando comparada ao baseline Nearest Neighbor Matching (NNM). Com base nos experimentos, quando houve ganho, a técnica que separa as características idênticas das instâncias proporcionou ganhos de até 53,8% na qualidade da correspondência, com média de 12,1% de melhoria e 2,7% de redução média do número de pares de instâncias correspondidas. Já a técnica que substituiu a regressão logística pelos ensembles proporcionou as melhores correspondências com o caliper zero e com os valores 0,20, 0,25 e 0,30, com ganhos de até 36,3% e, com média de 12,7% de melhoria e 7,6% de redução do número de pares de instâncias correspondidas.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/5342428610131873	por

Files in this item

Name:: TeseSRBJ.pdf
Size:: 5.219Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record