Análise da predição da violência infantil por meio de árvores de decisão e regras de associação

Silva Osses, Aníbal Tomás

dc.contributor.author	Silva Osses, Aníbal Tomás
dc.date.accessioned	2020-06-18T13:09:08Z
dc.date.available	2020-06-18T13:09:08Z
dc.date.issued	2020-06-02
dc.identifier.citation	SILVA OSSES, Aníbal Tomás. Análise da predição da violência infantil por meio de árvores de decisão e regras de associação. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12915.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/12915
dc.description.abstract	According to the United Nations International Children's Emergency Fund (UNICEF), currently around 300 million children around the world suffer from various types of abuse, including: psychological, physical, sexual or negligence. Considering the severity of the problem, the analysis gets more difficult given elements such as: the existence of different definitions of violence used for different contexts, without patterns that ease the study; determine the type of abuse that's happening in each case, being more than one; victims reports and official abuse statistics not always have the expected quality; among others. It should even be noted that, while collecting data, the fact that most of the time the only people that are aware of the abuse situation are the children and their agressors, rendering the situation invisible and making the abuse's prevention a much more difficult task. The aim of this work is to generate and evaluate models based on machine learning techniques that can estimate in which cases a situation of child abuse is currently happening or it could happen, via models represented by rules easily understandable by humans. The scientific method utilized in this project is ex-post-facto based on two structured datasets, one supervised and the other unsupervised, both built by Chilean organizations and that possess numeric and categorical attributes. Feature selection techniques were applied in order to work with the most relevant elements, and then use the C4.5 and Apriori algorithms on each dataset respectively. The first one was evaluated with the areas under the receiver operating characteristic and precision-recall curves, and the second one with the lift, conviction and leverage metrics. About the results, for the classification technique were built models with performances close to 0.9 for each metric; and for the association rules, in all executions the sentences found have higher values than the thresholds that define the implication between their antecedents and consequents.	eng
dc.description.abstract	Según el Fondo de las Naciones Unidas para la Infancia (United Nations International Children’s Emergency Fund, UNICEF), actualmente en el mundo cerca de 300 millones de niños sufren de diversos tipos de maltrato, pudiendo ser: psicológico, físico, abuso sexual, o negligencia. Considerando la gravedad del problema, se suma que el análisis se torna difícil por elementos tales como: existencia de diferentes definiciones de violencia usadas para distintos contextos, no habiendo patrones que faciliten el estudio; determinar cuál es el tipo de maltrato que está ocurriendo en cada caso, pudiendo ser más de uno; los informes de las propias víctimas y las estadísticas oficiales de maltrato no siempre poseen la calidad esperada; entre otros. Incluso se debe destacar que en dichos levantamientos no es considerado el hecho de que en muchas ocasiones las únicas personas que saben que el maltrato está ocurriendo son los niños y sus agresores, siendo la situación invisible y haciendo mucho más difícil realizar la tarea de previsión de la agresión. El objetivo de este trabajo es generar y evaluar modelos basados en técnicas de aprendizaje de máquina que puedan estimar en qué casos está aconteciendo o acontecerá algún acto de maltrato infantil a través de modelos que sean representados por reglas simples de entender por cualquier humano. El método científico utilizado en este proyecto es ex-postfacto utilizando dos conjuntos de datos estructurados, uno supervisado y otro no supervisado, ambos construidos por organizaciones de Chile y que possen atributos categóricos y numéricos. Fueron aplicadas técnicas de selección de atributos para trabajar con los elementos más relevantes, para después utilizar los algoritmos C4.5 y Apriori en cada conjuntos respectivamente. El primero fue evaluado con las áreas bajo las curvas receiver operating characteristic y precision-recall, y el segundo con las métricas lift, conviction, y leverage. Sobre los resultados, para la técnica de clasificación se construyeron modelos con desempeños cercanos al 0,9 para cada métrica; y para las reglas de asociación, en todas las ejecuciones se encontraron sentencias con valores superiores a los umbrales para establecer la implicancia entre sus antecedentes y consecuentes.	spa
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Violência infantil	por
dc.subject	Violência física	por
dc.subject	Abuso sexual	por
dc.subject	Violência psicológica	por
dc.subject	Negligência	por
dc.subject	Fatores de risco	por
dc.subject	Fatores de proteção	por
dc.subject	Aprendizado de máquina	por
dc.subject	Árvores de decisão	por
dc.subject	Regras de associação	por
dc.subject	Child abuse	eng
dc.subject	Physical abuse	eng
dc.subject	Sexual abuse	eng
dc.subject	Psychological abuse	eng
dc.subject	Negligence	eng
dc.subject	Risk factors	eng
dc.subject	Protective factors	eng
dc.subject	Machine learning	eng
dc.subject	Artificial intelligence	eng
dc.subject	Maltrato infantil	spa
dc.subject	Maltrato físico	spa
dc.subject	Abuso sexual	spa
dc.subject	Maltrato psicológico	spa
dc.subject	Negligencia	spa
dc.subject	Factores de riesgo	spa
dc.subject	Factores de protección	spa
dc.subject	Aprendizaje de máquina	spa
dc.subject	Árboles de decisión	spa
dc.subject	Reglas de asociación	spa
dc.title	Análise da predição da violência infantil por meio de árvores de decisão e regras de associação	por
dc.title.alternative	Análisis de la predicción del maltrato infantil a través de árboles de decisión y reglas de asociación	spa
dc.type	Dissertação	por
dc.contributor.advisor1	Fernandes, Ricardo Augusto Souza
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0880243208789454	por
dc.description.resumo	Segundo o Fundo das Nações Unidas para a Infância (United Nations International Children’s Emergency Fund, UNICEF), atualmente cerca de 300 milhões de crianças sofrem de diversos tipo de violência, podendo ser: psicológica, física, abuso sexual, ou negligência. Considerando a gravidade dessa problemática, adiciona-se que analisá-la torna-se difícil por alguns aspectos: existem diferentes definições de violência utilizadas em diversos contextos, não havendo padrões que facilitem o estudo; determinar qual é o tipo de violência que acontece em cada caso, podendo ser um ou mais; os informes das próprias vítimas e as estatísticas oficiais de violência não sempre possuem uma qualidade apropriada; entre outros. Ainda, cabe ressaltar que em tais levantamentos não é considerado o fato de que em muitas ocasiões as únicas pessoas que sabem que a violência acontece são as crianças e os agressores, sendo a situação invisível e tornando muito mais difícil a tarefa de previsão da agressão. O objetivo deste trabalho é gerar e avaliar modelos baseados em técnicas de aprendizado de máquina que possam estimar em que casos está acontecendo ou irá acontecer algum ato de violência infantil através de modelos que sejam representados por regras simples de entender por qualquer humano. O método científico utilizado no projeto é ex-post-facto usando dois conjuntos de dados estruturados, um supervisionado e outro não supervisionado, ambos construídos por organizações do Chile e que possuem atributos categóricos e numéricos. Foram aplicadas técnicas de seleção de atributos para trabalhar com os elementos mais relevantes, para depois utilizar respectivamente os algoritmos C4.5 e Apriori em cada conjunto. Avaliou-se o primeiro com as áreas sob as curvas receiver operating characteristic e precision-recall, e o segundo com as métricas lift, conviction, e leverage. Sobre os resultados, para a técnica de classificação treinaram-se modelos com desempenhos próximos ao 0,9 para as métricas; e para as regras de associação, em todas as execuções encontraram-se sentenças com valores superiores ao limiar para estabelecer a implicância entre seus antecedentes e consequentes.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.description.sponsorshipId	CNPq: 133135/2018-7	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/1307868061359003	por