Universidade Federal de São Carlos – UFSCar
Centro de Ciências Exatas e de Tecnologia
Programa de Pós-Graduação em Ciência da Computação
Aníbal Tomás Silva Osses
Análise da Predição da Violência Infantil por
Meio de Árvores de Decisão e Regras de
Associação
São Carlos - SP
Junho/2020

Aníbal Tomás Silva Osses
Análise da Predição da Violência Infantil por Meio de
Árvores de Decisão e Regras de Associação
Dissertação apresentada ao Programa de
Pós-Graduação em Ciência da Computação
da Universidade Federal de São Carlos, como
parte dos requisitos para a obtenção do título
de Mestre em Ciência da Computação, área
de concentração: Inteligência Artificial.
Orientador: Prof. Dr. Ricardo Augusto Souza
Fernandes
São Carlos - SP
Junho/2020

UNIVERSIDADE FEDERAL DE SÃO CARLOS
Centro de Ciências Exatas e de Tecnologia
Programa de Pós-Graduação em Ciência da Computação
Folha de Aprovação
Defesa de Dissertação de Mestrado do candidato Aníbal Tomás Silva Osses, realizada em 02/06/2020.
Comissão Julgadora:
Prof. Dr. Ricardo Augusto Souza Fernandes (UFSCar)
Prof. Dr. Fábbio Anderson Silva Borges (UESPI)
Prof. Dr. Vinicius Ponte Machado (UFPI)
O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil
(CAPES) - Código de Financiamento 001.
O Relatório de Defesa assinado pelos membros da Comissão Julgadora encontra-se arquivado junto ao Programa de
Pós-Graduação em Ciência da Computação.

Resumo
Segundo o Fundo das Nações Unidas para a Infância (United Nations Inter-
national Children’s Emergency Fund, UNICEF), atualmente cerca de 300 milhões de
crianças sofrem de diversos tipo de violência, podendo ser: psicológica, física, abuso
sexual, ou negligência. Considerando a gravidade dessa problemática, adiciona-se
que analisá-la torna-se difícil por alguns aspectos: existem diferentes definições de
violência utilizadas em diversos contextos, não havendo padrões que facilitem o es-
tudo; determinar qual é o tipo de violência que acontece em cada caso, podendo ser
um ou mais; os informes das próprias vítimas e as estatísticas oficiais de violência
não sempre possuem uma qualidade apropriada; entre outros. Ainda, cabe ressaltar
que em tais levantamentos não é considerado o fato de que em muitas ocasiões as
únicas pessoas que sabem que a violência acontece são as crianças e os agresso-
res, sendo a situação invisível e tornando muito mais difícil a tarefa de previsão da
agressão. O objetivo deste trabalho é gerar e avaliar modelos baseados em técnicas
de aprendizado de máquina que possam estimar em que casos está acontecendo ou
irá acontecer algum ato de violência infantil através de modelos que sejam repre-
sentados por regras simples de entender por qualquer humano. O método científico
utilizado no projeto é ex-post-facto usando dois conjuntos de dados estruturados,
um supervisionado e outro não supervisionado, ambos construídos por organiza-
ções do Chile e que possuem atributos categóricos e numéricos. Foram aplicadas
técnicas de seleção de atributos para trabalhar com os elementos mais relevantes,
para depois utilizar respectivamente os algoritmos C4.5 e Apriori em cada conjunto.
Avaliou-se o primeiro com as áreas sob as curvas receiver operating characteristic
e precision-recall, e o segundo com as métricas lift, conviction, e leverage. Sobre os
resultados, para a técnica de classificação treinaram-se modelos com desempenhos
próximos ao 0,9 para as métricas; e para as regras de associação, em todas as exe-
cuções encontraram-se sentenças com valores superiores ao limiar para estabelecer
a implicância entre seus antecedentes e consequentes.
Palavras-chave: violência infantil, violência física, abuso sexual, violência psico-
lógica, negligência, fatores de risco, fatores de proteção, aprendizado de máquina,
árvores de decisão, regras de associação.

Abstract
According to the United Nations International Children's Emergency Fund
(UNICEF), currently around 300 million children around the world suffer from var-
ious types of abuse, including: psychological, physical, sexual or negligence. Con-
sidering the severity of the problem, the analysis gets more difficult given elements
such as: the existence of different definitions of violence used for different contexts,
without patterns that ease the study; determine the type of abuse that's happen-
ing in each case, being more than one; victims reports and official abuse statistics
not always have the expected quality; among others. It should even be noted that,
while collecting data, the fact that most of the time the only people that are aware
of the abuse situation are the children and their agressors, rendering the situation
invisible and making the abuse's prevention a much more difficult task. The aim of
this work is to generate and evaluate models based on machine learning techniques
that can estimate in which cases a situation of child abuse is currently happening or
it could happen, via models represented by rules easily understandable by humans.
The scientific method utilized in this project is ex-post-facto based on two struc-
tured datasets, one supervised and the other unsupervised, both built by Chilean
organizations and that possess numeric and categorical attributes. Feature selec-
tion techniques were applied in order to work with the most relevant elements, and
then use the C4.5 and Apriori algorithms on each dataset respectively. The first
one was evaluated with the areas under the receiver operating characteristic and
precision-recall curves, and the second one with the lift, conviction and leverage
metrics. About the results, for the classification technique were built models with
performances close to 0.9 for each metric; and for the association rules, in all exe-
cutions the sentences found have higher values than the thresholds that define the
implication between their antecedents and consequents.
Keywords: child abuse, physical abuse, sexual abuse, psychological abuse, negli-
gence, risk factors, protective factors, machine learning, artificial intelligence.

Resumen
Según el Fondo de las Naciones Unidas para la Infancia (United Nations In-
ternational Children’s Emergency Fund, UNICEF), actualmente en el mundo cerca
de 300 millones de niños sufren de diversos tipos de maltrato, pudiendo ser: psicoló-
gico, físico, abuso sexual, o negligencia. Considerando la gravedad del problema, se
suma que el análisis se torna difícil por elementos tales como: existencia de diferen-
tes definiciones de violencia usadas para distintos contextos, no habiendo patrones
que faciliten el estudio; determinar cuál es el tipo de maltrato que está ocurriendo
en cada caso, pudiendo ser más de uno; los informes de las propias víctimas y las
estadísticas oficiales de maltrato no siempre poseen la calidad esperada; entre otros.
Incluso se debe destacar que en dichos levantamientos no es considerado el hecho
de que en muchas ocasiones las únicas personas que saben que el maltrato está ocu-
rriendo son los niños y sus agresores, siendo la situación invisible y haciendo mucho
más difícil realizar la tarea de previsión de la agresión. El objetivo de este trabajo
es generar y evaluar modelos basados en técnicas de aprendizaje de máquina que
puedan estimar en qué casos está aconteciendo o acontecerá algún acto de maltrato
infantil a través de modelos que sean representados por reglas simples de entender
por cualquier humano. El método científico utilizado en este proyecto es ex-post-
facto utilizando dos conjuntos de datos estructurados, uno supervisado y otro no
supervisado, ambos construidos por organizaciones de Chile y que possen atributos
categóricos y numéricos. Fueron aplicadas técnicas de selección de atributos pa-
ra trabajar con los elementos más relevantes, para después utilizar los algoritmos
C4.5 y Apriori en cada conjuntos respectivamente. El primero fue evaluado con las
áreas bajo las curvas receiver operating characteristic y precision-recall, y el segun-
do con las métricas lift, conviction, y leverage. Sobre los resultados, para la técnica
de clasificación se construyeron modelos con desempeños cercanos al 0,9 para cada
métrica; y para las reglas de asociación, en todas las ejecuciones se encontraron
sentencias con valores superiores a los umbrales para establecer la implicancia entre
sus antecedentes y consecuentes.
Palabras clave: maltrato infantil, maltrato físico, abuso sexual, maltrato psicoló-
gico, negligencia, factores de riesgo, factores de protección, aprendizaje de máquina,
árboles de decisión, reglas de asociación.

Lista de Ilustrações
Figura 1 – Representação dos tipos de resultados que um teste pode fazer sobre
um problema de classificação binária. . . . . . . . . . . . . . . . . . . . 35
Figura 2 – Exemplo de curva ROC (esquerda) e curva PR (direita) com seus res-
pectivos valores de AUC. . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 3 – Modelo de desenvolvimento ecológico da violência infantil (BEGLE;
DUMAS; HANSON, 2010). . . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 4 – Árvore de decisão com 2 fatores de risco (LITTLE; RIXON, 1998). . . 49
Figura 5 – Mapa da estimação do riscos de violência infantil: imagem da esquerda
corresponde à estimação para o ano de 2014 (baseada nos dados do
ano 2013) e a imagem da direita representa à estimação do ano de 2014
com os casos reais (pontos são levemente distorcidos para manter a
privacidade) (DALEY et al., 2016). . . . . . . . . . . . . . . . . . . . . 52
Figura 6 – Etapas e fluxo que compõem a metodologia utilizada. . . . . . . . . . . 61
Figura 7 – Fluxograma da metodologia proposta à tarefa de classificação, o que
dividi-se em dois caminhos com conjuntos de dados diferentes. . . . . . 73
Figura 8 – Árvore de decisão obtida ao aplicar o algoritmo J48 na predição de
presença de violência sobre o conjunto de dados de crianças maiores de
12 anos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Figura 9 – Considerações e trabalhos feitos previa aplicação do algoritmo Apriori
sobre os conjuntos de dados não supervisionados. . . . . . . . . . . . . 79

Lista de Tabelas
Tabela 1 – Classificação dos tipos de violência infantil. . . . . . . . . . . . . . . . 24
Tabela 2 – Desempenho dos algoritmos usados para predizer o risco de violência
infantil de uma notificação (CHOULDECHOVA et al., 2018). . . . . . 56
Tabela 3 – Resumo de artigos sobre trabalhos relacionados. . . . . . . . . . . . . . 57
Tabela 4 – Continuação de resumo de artigos sobre trabalhos relacionados. . . . . 58
Tabela 5 – Resultados obtidos ao aplicar três configurações distintas do algoritmo
J48 aos diferentes conjuntos de dados, especificando o número de classes
e registros de cada um e destacando os melhores resultados para cada
atributo preditor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Tabela 6 – Quantidade total de regras conseguidas nas diferentes execuções do
algoritmo Apriori sobre os conjuntos de dados não supervisionados,
utilizando um suporte de 0,05 e confiança de 0,75. . . . . . . . . . . . . 80
Tabela 7 – Quantidade total de regras conseguidas com o algoritmo Apriori onde
os seus valores das métricas lift, conviction, e leverage são maiores às
medias de cada uma das execuções. . . . . . . . . . . . . . . . . . . . . 80
Tabela 8 – Regras de associação geradas com o algoritmo Apriori para cada um
dos diferentes conjuntos de dados diferenciados por vitimizações em
vida e ano e qual é agregação dos atributos que apresenta detalhando
o suporte e a confiança, ademais das métricas utilizadas para avaliá-las. 81

Lista de Abreviaturas e Siglas
ANN Artificial Neural Network
ANOVA ANalysis Of VAriance
AUC Area Under Curve
CAPI Child Abuse Potential Inventory
CART Classification And Regression Tree
CEAD Centro de Estudios y Análisis del Delito
CHAID CHi-squared Automatic Interaction Detector
CPS Child Protective Services
CV Cross-Validation
DSRS Depression Self-Rating Scale
FP False Positive
FN False Negative
IA Inteligência Artificial
ID3 Iterative Dichotomiser 3
JVQ Juvenile Victimization Questionnaire
LASSO Least Absolute Shrinkage and Selection Operator
MH Média Harmônica
ML Machine Learning
MLP Multilayer Perceptron
NB Naive Bayes
NIS National Incidence Study
OCA Organismo Colaborador Acreditado
OMS Organização Mundial da Saúde
OR Odds Ratios
PR Precision-Recall
PRM Predictive Risk Model
PSI Parenting Stress Index
RF Random Forest
ROC Receiver Operating Characteristic
RSES Rosenberg Self-Esteem Scale
RTM Risk Terrain Modeling
SciELO Scientific Electronic Library Online
SENAME Servicio Nacional de Menores
SMOTE Synthetic Minority Over-sampling TEchnique
SOM Self-Organizing Maps
STAXI State-Trait Angry Expression Inventory
SVM Support Vector Machine
TN True Negative
TP True Positive
UNICEF United Nations International Children’s Emergency Fund
VPI Violência entre Parceiros Íntimos
WEKA Waikato Environment for Knowledge Analysis
XGBoost eXtreme Gradient Boosting
Sumário
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1 Contexto da Violência Infantil . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Problema Identificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Motivação e Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4 Proposta de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5 Hipótese e Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.6 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1 Violência Infantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Fatores Relacionados à Violência Infantil . . . . . . . . . . . . . . . 25
2.1.2 Polivitimização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 Tipos de Aprendizado . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1.1 Supervisionado . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1.2 Não Supervisionado . . . . . . . . . . . . . . . . . . . . . 27
2.2.1.3 Semi-Supervisionado . . . . . . . . . . . . . . . . . . . . . 28
2.2.1.4 Por Reforço . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Pré-Processamento de Dados . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3 Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.3.1 Métodos de Filtro . . . . . . . . . . . . . . . . . . . . . . 30
2.2.3.2 Métodos Wrapper . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.3.3 Métodos Embedded . . . . . . . . . . . . . . . . . . . . . . 31
2.2.4 Algoritmos Utilizados no Âmbito dessa Dissertação . . . . . . . . . 32
2.2.4.1 Supervisionado . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.4.2 Não Supervisionado . . . . . . . . . . . . . . . . . . . . . 37
3 Revisão Bibliográfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1 Estudos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1 Técnicas de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.2 Técnicas de Classificação . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.3 Demais Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.4 Análises Comparativas entre Distintos Modelos . . . . . . . . . . . 52
3.2 Resumo dos Aspectos Relevantes dos Trabalhos Relacionados . . . . . . . . 56
3.3 Posicionamento da Presente Pesquisa . . . . . . . . . . . . . . . . . . . . . 59
4 Metodologia Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1 Obtenção e Exploração dos Dados . . . . . . . . . . . . . . . . . . . . . . . 62
4.1.1 Centro de Proteção de Crianças . . . . . . . . . . . . . . . . . . . . 62
4.1.2 Questionário sobre Polivitimização . . . . . . . . . . . . . . . . . . 65
4.2 Pré-processamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2.1 Conjunto de Dados Utilizado para Método Supervisionado . . . . . 66
4.2.2 Conjuntos de Dados Utilizado para Método Não Supervisionado . . 68
4.3 Seleção de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Geração de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.4.1 Algoritmo C4.5 – Classificação . . . . . . . . . . . . . . . . . . . . . 70
4.4.2 Algoritmo Apriori – Regras de Associação . . . . . . . . . . . . . . 71
4.5 Validação de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.1 Modelo de Classificação . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5.2 Modelo de Regras de Associação . . . . . . . . . . . . . . . . . . . . 72
5 Resultados e Discussões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.1 Centro de Proteção de Crianças . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2 Questionário sobre Polivitimização . . . . . . . . . . . . . . . . . . . . . . 79
6 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.1 Trabalho Realizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
APÊNDICE A Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.1 J48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.2 Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
17
1 Introdução
Nesse capítulo são apresentados o contexto e algumas estatísticas sobre a violên-
cia infantil e o problema de sua predição, além de expor a motivação, a justificativa,
e a proposta dessa pesquisa. Ademais, é descrita a hipótese e os objetivos do trabalho,
terminando com um breve resumo sobre a organização desse documento.
1.1 Contexto da Violência Infantil
Em 1989, o Fundo das Nações Unidas para a Infância (United Nations Interna-
tional Children’s Emergency Fund, UNICEF) estabeleceu a Convenção sobre os Direitos
das Crianças, que reconhece os direitos humanos das mesmas e, diferente dos adultos,
precisam de atenção e cuidados especiais. Essa convenção foi consolidada na legislatura
chilena1 e brasileira2 no ano 1990, a qual possui quatro princípios que a definem: não
discriminação, o interesse da criança, desenvolvimento e proteção, e a participação em
decisões que a afetem (UNICEF, 2014). Quando algum desses direitos são violados, se diz
que acontece a vulneração ou violação dos direitos das crianças, podendo existir violência
infantil.
A UNICEF tem feito uma sumarização estatística da violência infantil no mundo
destacando alguns resultados (UNICEF, 2017), os quais estão relacionados com a primeira
infância (dos 0 até os 5 anos):
• 300 milhões de crianças entre 2 e 4 anos (3 a cada 4) são habitualmente vítimas de
algum tipo de disciplina violenta por parte das pessoas que têm os seus cuidados
(cuidadores), não necessariamente sendo os pais delas;
• 250 milhões de crianças (6 a cada 10) são castigadas fisicamente; e
• 1.100 milhões de cuidadores (1 a cada 4 aproximadamente) dizem que o castigo
físico é necessário para educar adequadamente as crianças.
Outras estatísticas estão relacionadas com a violência na escola, a saber:
• 130 milhões de estudantes (1 a cada 3) sofrem de assedio escolar;
• 17 milhões de adolescentes na Europa e na América do Norte (3 a cada 10) admitem
que agridem outros estudantes na escola; e
1 www.leychile.cl/Navegar?idNorma=15824
2 www.planalto.gov.br/ccivil_03/decreto/1990-1994/D99710.htm
18 Capítulo 1. Introdução
• 732 milhões de crianças em idade escolar (1 de cada 2) vivem em países nos quais o
castigo físico não é completamente proibido.
Outrossim, podem ser verificados dados de violências que relacionam-se com o abuso
sexual na infância e adolescência:
• 15 milhões de mulheres adolescentes foram vítimas de relações sexuais forçosas em
algum momento de suas vidas;
• 17 milhões de mulheres adultas, em 38 países subdesenvolvidos, afirmam haver tido
relações sexuais forçosas na infância; e
• 2,5 milhões de mulheres jovens afirmam ter sido vítimas de violência sexual antes
dos 15 anos.
Além desses dados, outra estatística importante exposta pela UNICEF está rela-
cionada às mortes causadas entre adolescentes. Somente no ano 2015, ocorreram 82.000
homicídios de adolescentes no mundo, sendo América Latina e o Caribe onde se regis-
traram quase a metade desses falecimentos, mesmo essa região tendo menos de 10% dos
adolescentes no mundo.
1.2 Problema Identificado
Um dos principais problemas da violência infantil é quando está acontecendo ou
predizer quando irá suceder. Milner (1993) afirma que não existe um modelo que indique
quais são as principais variáveis que identificam o problema da violência. Além disso, os
fatores de risco (elementos que determinam a presença da violência) que ele detalha (soci-
ais, psicofisiológicos, neuropsicológicos, afetivos e comportamentais) não podem predizer
a probabilidade da violência hoje, bem como nem sempre serão os melhores preditores de
ataques futuros.
Gómez (2011) discute vários modelos de violência, explicando que ainda não se
tem uma caraterização universal que descreva essa problemática. Porém, é dito que alguns
fatores de risco podem ser mais preditivos na determinação da violência infantil, sendo
esses: a repetição do abuso por gerações passadas, a juventude dos pais, o estresse, a
pobreza, o uso de drogas, a superlotação na moradia, e o isolamento social. Em um
estudo desenvolvido por Farren (2007) com estudantes de escolas de diferentes idades e
contextos socioeconômicos, são validadas hipóteses que avaliam diversas variáveis como
fatores críticos da violência infantil, sendo essas: os comportamentos problemáticos da
criança, consumo de drogas ou álcool por parte dos pais, a comunicação familiar, e o nível
socioeconômico. Baseado nesses estudos, é possível estabelecer que não existem variáveis
1.3. Motivação e Justificativa 19
nem modelos que sempre vão predizer a violência infantil, mas sim tendências de quais
delas poderiam ser relevantes. Destaca-se que tal assunto será aprofundado no Capítulo 2.
1.3 Motivação e Justificativa
Em diferentes contextos, profissionais de muitas áreas trabalham diretamente com
crianças ou adolescentes com dificuldades diversas e, muitas das vezes, não existe uma
confiança real entre o adulto e o menor para que ele fale com sinceridade de seus problemas.
Porém, em muitas dessas ocasiões, o adulto tem uma noção de que algo não está bem
com essa criança.
Baseado na informação exposta nas seções supramencionadas, é um fato que a
problemática da violência infantil é muito séria e esta presente no mundo todo. É por isso
que esse trabalho visa contribuir na melhora da situação atual da violência em crianças,
mas através de uma abordagem não convencional. Serão usadas técnicas computacionais
de inteligência artificial sobre conjuntos de dados relacionados à violência infantil com
o intuito de criar modelos que entreguem padrões relacionados ao abuso (discutidos em
maiores detalhes no Capítulo 2) e que ajudem na determinação de quando uma criança
está sendo ou poderá ser violentada. Se espera com esse trabalho obter uma proposta
confiável para diminuir a dificuldade que se apresenta ao trabalhar com a violência infantil,
podendo auxiliar qualquer pessoa que esteja habitualmente em contato com crianças e que
creia que alguma delas pode estar em perigo.
Witten (2016) menciona que o aprendizado de máquina (Machine Learning, ML),
pode gerar um conhecimento útil ao analisar dados provenientes de algum fato de inte-
resse. Com isso, tendo um conjunto de dados que representa um estudo de caso, é possível
descobrir informações que permitirão compreender melhor alguns aspectos relevantes ou
prever um resultado. Considerando áreas relacionadas a problemáticas sociais, o ML tem
sido vastamente aplicado. Como exemplo se têm as aplicações na área da saúde, onde
existe uma grande variedade de assuntos estudados com a aplicação de ML, como o re-
conhecimento de padrões sobre as atividades que a demência produz (GAYATHRI et al.,
2015), a predição do consumo de álcool em jovens (LINDSAY et al., 2017), entre outros.
Uma área diferente na qual ML é utilizado é na segurança pública, onde atos criminosos
são preditos por meio de indicadores urbanos (ALVES et al., 2018) ou com dados gerados
por telefonia móvel (BOGOMOLOV et al., 2014). A educação também tem sido vinculada
com essa subárea da inteligência artificial, principalmente no desempenho escolar e aca-
dêmico. Exemplo disso são os trabalhos feitos por Goes e Steiner (2016), onde diferentes
escolas do Brasil são rotuladas de acordo com seu desempenho ou, conforme a proposta
de Mohd et al. (2013), é predito a performance acadêmica de estudantes universitários.
Uma das pesquisas realizadas por Rusell (2015) coleta informações sobre como a análise
20 Capítulo 1. Introdução
preditiva tem sido aplicada em diferentes áreas sociais enfatizando a proteção infantil.
Portanto, pesquisas semelhantes à proposta dessa dissertação já têm sido desenvolvidas,
conforme apresentado no Capítulo 3.
1.4 Proposta de Pesquisa
Em concordância com o estabelecido na seção 1.3, essa pesquisa faz uso de ML
para encontrar e analisar padrões que permitam ajudar na predição da violência infan-
til. Portanto, há a necessidade de uma grande quantidade de dados para poder criar os
modelos que respondam se a criança está em um contexto de abuso ou não. Assim, para
esse trabalho foram obtidos, no Chile, dois conjuntos de dados diferentes relacionados à
violência infantil. O primeiro foi conseguido junto a um centro de proteção que trabalha
com crianças que apresentam variados tipos de problemas (principalmente de violência,
consumo de substâncias e delitos), o qual possui 9.771 registros e 30 atributos relacionados
à criança e seu entorno, tendo três possíveis variáveis preditoras: se tem sofrido violên-
cia, qual tipo de violência, e quem é o principal agressor. O segundo conjunto de dados
corresponde à Primeira Enquete Nacional de Polivitimização em Crianças e Adolescentes
(SUBSECRETARÍA DE PREVENCIÓN DEL DELITO, 2018), que avalia a presença de
32 tipos de vitimizações na vida das crianças, sendo 19.684 as que responderam a enquete
(o conceito de polivitimização será exposto em detalhes no Capítulo 2).
Considerando o fato de que modelos gerados a partir de técnicas de ML na mai-
oria das vezes não são simples de entender para pessoas que não têm conhecimentos em
computação ou estatística, buscou-se aplicar algoritmos que entreguem resultados que o
senso comum seja capaz de compreender sem precisar de estudos prévios. Essas técnicas
são árvores de decisão (ROKACH; MAIMON, 2008) e regras de associação (AGRAWAL;
IMIELIŃSKI; SWAMI, 1993), as quais foram usadas no conjunto de dados do centro de
proteção e da enquete sobre polivitimização, respetivamente. Estritamente, os modelos
que esses algoritmos criam são baseados em regras simples que definem sob quais cir-
cunstâncias a criança está sofrendo violência infantil. No Capítulo 2 serão definidas as
ferramentas computacionais utilizadas.
1.5 Hipótese e Objetivos
Baseado no contexto da violência infantil no Chile e o problema da sua predição,
além dos resultados obtidos por ML nas diferentes áreas de pesquisa, é definida a seguinte
hipótese para validar-se: modelos baseados em regras gerados por meio de técnicas de
ML com dados de instituições chilenas que trabalham com crianças abusadas podem
entregar padrões que permitam estimar em que casos algum ato de violência infantil está
acontecendo ou irá acontecer?
1.6. Organização do Trabalho 21
Sobre os objetivos, o principal propósito do estudo é analisar a utilidade que po-
dem ter árvores de decisão e regras de associação em gerar modelos baseados em regras
para a predição da violência infantil. Para estimar o desempenho dos resultados, serão
utilizadas métricas pertinentes para cada um dos conjuntos e algoritmos aplicados. Como
objetivo secundário espera-se detectar quais são as principais características (variáveis) do
entorno das crianças que entregam maior informação para a predição da violência infantil.
Ademais, destacam-se outros dois objetivos importantes relacionadas a essa pesquisa, mas
que pelo alcance desse projeto são considerados como trabalho futuro:
• Validar os modelos com profissionais que estejam imersos na problemática da vio-
lência infantil, como: sociólogos, psicólogos, trabalhadores sociais, entre outros; e
• Gerar uma ferramenta simples de predição, verificando a ocorrência da violência
infantil em dados que não foram empregados na construção do modelo de preditivo.
1.6 Organização do Trabalho
Este documento tem a seguinte estrutura: o Capítulo 2 apresentará a fundamen-
tação teórica dos elementos que serão usados nesse trabalho; no Capítulo 3 será discutido
o estado da arte de como o ML e a estatística têm sido usados para dar respostas a dife-
rentes problemas relacionados à predição da violência infantil; o Capítulo 4 é destinado a
definir a metodologia proposta da dissertação, em que serão discutidas as características
presentes nos conjuntos de dados, bem como as configurações usadas para gerar os mo-
delos e as formas em que foram avaliados; no Capítulo 5 serão apresentados os resultados
obtidos e as discussões que podem ser geradas a partir desses; e por último, o Capítulo 6
expõe as conclusões de todo o estudo, além de possíveis trabalhos futuros.

23
2 Fundamentação Teórica
Nesse capítulo são expostos os elementos fundamentais da violência que acomete
crianças, bem como a definição, os fatores que se relacionam a ela e o conceito de poliviti-
mização. Ademais, ainda são apresentados os aspectos que fundamentam, de forma geral,
os algoritmos de ML utilizados e as técnicas que visam a validação dos resultados.
2.1 Violência Infantil
A UNICEF (UNICEF, 2005) define a violência infantil como o ato ocasional ou
habitual de violência física, sexual ou emocional em crianças e adolescentes entre 0 e
18 anos, provocado por um familiar ou alguma pessoa do entorno. Esses elementos são
definidos como:
• Violência física – agressão física que pode ou não ter como resultado uma lesão;
• Violência emocional – divide-se em dois, assédio verbal (insultos, críticas negativas
ou ridicularizar) e indiferença ou rechaço para a criança; e
• Abuso sexual – atividade sexual entre um adulto e uma criança.
Além dessas classificações, no documento menciona-se a negligência, fato que acon-
tece quando as necessidades básicas das crianças não são satisfeitas por seus cuidadores.
No Chile, uma instituição que encarrega-se das crianças que sofrem algum tipo de
violência é o Servicio Nacional de Menores (SENAME), o que define a violência infantil
como toda ação que prejudique o desenvolvimento biológico, psicológico e social da criança
(SENAME, 2016). Além disso, considera-se violência deixar de realizar alguma ação que
irá prejudicar a criança. A classificação dos tipos de violência que o SENAME define são:
• Abuso sexual – atividade sexual que um adulto realiza em uma criança, onde o
adulto tem uma posição de poder e a criança não possui a capacidade de parar a
situação;
• Violência física – dano provocado à criança que põe em perigo sua integridade física,
seja pela força (ativo) ou por um descuido casual ou intencionado (passivo); e
• Violência psicológica – atos de adultos que prejudicam a autoestima das crianças
(como ameaças ou insultos), ou também não dar afeto ou rejeitá-las.
24 Capítulo 2. Fundamentação Teórica
Outra instituição do Chile que pertence ao Ministério de Desenvolvimento Social
é o Crece Contigo, que utiliza a mesma definição de violência infantil que a UNICEF
(CRECECONTIGO, 2015). Portanto é possível estabelecer que diferentes organizações
fazem uso de classificações semelhantes para o problema da violência infantil, tanto em
contextos nacionais como internacionais.
Baseado nas definições apresentadas, a Tabela 1 sumariza e estrutura os tipos de
violência infantil supracitados.
Tabela 1 – Classificação dos tipos de violência infantil.
Tipo de Violência Ativo Passivo (Negligência)
Física Violência física Abandono físico
Emocional (Psicológica) Violência emocional Abandono emocional
Sexual Abuso sexual Não definido
Fonte: Elaborado pelo autor.
Além do fato do sofrimento que a violência infantil produz nas crianças quando
a experimentam, existem múltiplos tipos de consequências que conseguem ser geradas
pelos abusos, podendo ser classificadas em 3 grupos diferentes: físicas, psicológicas e do
comportamento (CHILD WELFARE INFORMATION GATEWAY, 2013). Alguns desses
efeitos negativos são:
• Determinadas partes do cérebro deixem de funcionar corretamente, com consequên-
cias cognitivas, socioemocionais e de saúde mental (CHILD WELFARE INFOR-
MATION GATEWAY, 2001);
• Jovens adultos que tenham sofrido de violência podem desenvolver depressão, ansi-
edade, transtornos alimentares e tentativas de suicídio (SILVERMAN; REINHERZ;
GIACONIA, 1996);
• Incremento do risco de abusar de substâncias como drogas e álcool (FELITTI et al.,
1998);
• Maior possibilidade de participar em problemas relacionados com delinquência, gra-
videz na adolescência e baixo desempenho acadêmico (B. THORNBERRY T., 1997);
• Diminuição da capacidade de ter e manter relacionamentos íntimos saudáveis na
idade adulta (COLMAN; WIDOM, 2004); entre outras consequências.
De forma geral e considerando as possíveis consequências da violência infantil,
pode-se dizer que cria um trauma complexo nas crianças (LECANNELIER, 2018), o
qual refere-se à “experiência de ter sofrido múltiplas traumatizações1 especificamente de
1 Entende-se traumatização como o ato ou efeito de traumatizar ou gerar um trauma.
2.1. Violência Infantil 25
origem interpessoal, com resultados nefastos para o desenvolvimento da criança” (VAN
DER KOLK, 2005).
Para entender como se produz ou se evita a violência infantil, existem alguns fatores
que aumentam ou diminuem a probabilidade de que aconteça, os quais são discutidos na
seção (CHILD WELFARE INFORMATION GATEWAY, 2004). Posteriormente, é apre-
sentada a definição do conceito polivitimização (FINKELHOR; ORMROD; TURNER,
2007), o que é necessário para entender um dos conjuntos de dados usados no trabalho.
2.1.1 Fatores Relacionados à Violência Infantil
Existem dois tipos de elementos que podem estar relacionados com a violência
infantil, os fatores de risco e os fatores de proteção.
Os fatores de risco referem-se às circunstâncias estressantes na vida da criança
ou do seu entorno, que acrescentam a possibilidade de que aconteça a violência infantil
(CHILD WELFARE INFORMATION GATEWAY, 2014). É difícil definir quais são os
fatores de risco de forma exata, mas já foram feitos vários estudos sobre os principais
elementos que geram a violência infantil, sempre convergindo em componentes semelhan-
tes. Os primeiros desses trabalhos (MCDONALD; MARKS, 1991) e outros mais recentes
(STITH et al., 2009) destacam diversos fatores, porém agrupados nas mesmas catego-
rias: caraterísticas da criança, interação entre os cuidadores e a criança, caraterísticas
dos cuidadores, e caraterísticas da família e do entorno. Instituições como a Organização
Mundial da Saúde (OMS) descrevem modelos de fatores de risco com atributos parecidos,
a saber: caraterísticas da criança e de seu relacionamento (principalmente com a famí-
lia), fatores comunitários e fatores sociais (BUTCHART; HARVEY, 2009). Organizações
como o Departamento de Saúde e Serviços Humanos (Department of Health and Human
Services) dos Estados Unidos divide em três grupos os fatores de risco: da criança, dos
pais e família, e do entorno e sociais (CHILD WELFARE INFORMATION GATEWAY,
2004).
Sobre os fatores de proteção, pode-se estabelecer que correspondem a elementos
que mitigam o risco da presença da violência infantil e promovem o desenvolvimento sau-
dável da criança, podendo estar presentes no contexto individual, familiar, da comunidade
ou da sociedade; os que não têm sido estudados com a mesma intensidade que os fatores de
risco (CHILD WELFARE INFORMATION GATEWAY, 2014). Nos anos 90, destacaram-
se alguns fatores relacionados principalmente aos pais (MASTEN; GARMEZY, 1985),
para que pesquisas posteriores expandissem a elementos como: comunidade e suporte so-
cial, escola, colegas, família, e aspetos individuais da criança (DURLAK, 1998). Estudos
mais recentes continuam validando fatores semelhantes na prevenção da violência infantil
(AFIFI; MACMILLAN, 2011), que são reafirmados pela OMS (BUTCHART; HARVEY,
2009).
26 Capítulo 2. Fundamentação Teórica
2.1.2 Polivitimização
O termo polivitimização foi estabelecido por Finkelhor et al. (2007) e refere-se
ao fato da criança sofrer múltiplos tipos de vitimizações (é importante destacar que o
conceito “vitimizar” do português é diferente de victimize do inglês, o que corresponde
a quando uma pessoa faz uma má ação em outra2). Nessa pesquisa foram coletados os
dados de 2.030 crianças por meio da enquete Juvenile Victimization Questionnaire (JVQ)
(FINKELHOR et al., 2005), que é composta por 34 perguntas que avaliam a presença
das vitimizações com a sua respectiva cronicidade, as quais são divididas em 4 grupos:
crimes violentos e de propriedade; violações do bem-estar da criança; violência da guerra
e distúrbios civis; e bullying. O questionário também tem perguntas que avaliam alguns
aspetos da saúde mental das crianças, especificamente: ansiedade, sintomas depressivos e
raiva/agressão. Ademais, estabeleceu-se que quando o número de tipos vitimizações que
sofre uma criança for maior que 4, existe o fenômeno da polivitimização, a qual ainda
é classificada em baixa (entre 4 e 6) ou alta (maior que 6) (FINKELHOR; ORMROD;
TURNER, 2007).
Sobre a importância da polivitimização, Finkelhor et al. (2011) aprofundam nesse
assunto. Pesquisas anteriores também referem-se aos efeitos negativos que produz a acu-
mulação de diversos tipos de violência ao longo de tempo, especialmente em crianças
(DONG et al., 2004). Ademais, tem-se estudado o fato de que as vitimizações não são
eventos isolados, pelo que a maioria dos casos de violência serão de polivitimização (FIN-
KELHOR; ORMROD; TURNER, 2007). Além dessas informações, pode-se complementar
que as crianças que tenham experimentado por muito tempo diferentes tipos de vitimiza-
ções podem desenvolver um trauma complexo (COOK et al., 2005).
2.2 Machine Learning
Muitas vezes tenta-se analisar ou resolver problemas que estão associados ao fato
de encontrar relações entre diferentes caraterísticas sobre um conjunto de dados, o que
pode ser difícil de conseguir de acordo com a natureza do assunto. Assim, ML é apli-
cado com sucesso para resolver esse tipo de problema (MAGLOGIANNIS ILIAS, 2007).
O conceito de “aprendizado” está relacionado com o fato de empregar dados históricos
para encontrar padrões que entreguem informação a comportamentos presentes e futuros
(WITTEN et al., 2016). Na prática, ML é uma subárea da inteligência artificial que cons-
trói modelos matemáticos mediante um conjunto de dados que descrevem um fenômeno
(o que é chamado de conjunto de treinamento), tentando fazer predições de algum assunto
de interesse (BISHOP, 2006).
2 https://dictionary.cambridge.org/dictionary/english/victimize
2.2. Machine Learning 27
2.2.1 Tipos de Aprendizado
Em ML existem quatro principais tipos de aprendizado, a saber: supervisionado,
não supervisionado, semi-supervisionado e por reforço. A escolha de qual usar é feita
baseada nas propriedades do conjunto de dados e na natureza do problema (SHAVLIK et
al., 1990).
2.2.1.1 Supervisionado
Algoritmos supervisionados criam modelos a partir de dados que contêm as entra-
das e saídas esperadas (rotulados). Assim, quando o modelo gerado a partir desses dados
estiver pronto, permitirá predizer a saída de um novo registro que não foi usado antes e
que não tem uma saída conhecida (RUSSELL; NORVIG, 2016). As técnicas supervisio-
nadas podem se dividir em 2 grandes grupos, de classificação e regressão (ALPAYDIN,
2009).
• Algoritmos de Classificação – São usados principalmente quando se tem uma coleção
limitada de saídas (categorias) e precisa-se atribuir uma delas ao novo registro, valor
que corresponde à predição (ALPAYDIN, 2009). Alguns dos principais algoritmos de
classificação são: árvores de decisão (Decision Tree) (ROKACH; MAIMON, 2008),
redes neurais artificiais (Artificial Neural Network, ANN) (ROJAS, 2013), Support
Vector Machine (SVM) (WANG, 2005), entre outras técnicas.
• Algoritmos de Regressão – Tais algoritmos são usados quando a saída corresponde
a um valor numérico contínuo, e têm como objetivo calcular o valor de saída de
una nova instância (ALPAYDIN, 2009). Ainda assim, existem variedades dessa téc-
nica que permitem trabalhar com dados categorizados, como a regressão logística
(PAMPEL, 2000).
2.2.1.2 Não Supervisionado
Nesse tipo de aprendizado não se tem um valor final com o qual comparar o
resultado, tendo como objetivo detectar as propriedades ou padrões de um conjunto de
dados sem um “supervisor” (não rotulados). Duas das principais técnicas de aprendizado
não supervisionado são o clustering (agrupamento) e as regras de associação (HASTIE;
TIBSHIRANI; FRIEDMAN, 2009).
• Algoritmos de Agrupamento – Métodos nos quais são construídos clusters ou grupos
de objetos (registros de dados), em que os elementos de um mesmo conjunto possuem
caraterísticas muito semelhantes entre eles, mas diferem das de outros grupos (GAN;
MA; WU, 2007). Algumas das técnicas mais populares de clustering são baseadas
28 Capítulo 2. Fundamentação Teórica
nos centróides dos agrupamentos, como o k-means (WU, 2012) ou os mapas auto-
organizados (Self-Organizing Maps, SOM) (KOHONEN, 1990).
• Regras de Associação – Permitem descobrir fortes relações (regras) entre elementos
de um conjunto de dados, detectando principalmente associações entre seus atributos
(AGRAWAL; IMIELIŃSKI; SWAMI, 1993). O principal algoritmo desse tipo de
aprendizado de máquina é o Apriori (AGRAWAL; SRIKANT et al., 1994).
2.2.1.3 Semi-Supervisionado
As técnicas de aprendizado semi-supervisionado fazem uso de dados rotulados e
não rotulados, tendo como objetivo a classificação desses últimos para obter modelos com
melhores resultados do que aqueles que apenas fazem uso de dados rotulados (SØGAARD,
2013). Existem diferentes tipos de algoritmos de aprendizado semi-supervisionado, os
quais podem ser agrupados em: wrapper (LIU et al., 2016), de agrupamento (clustering)
(BAIR, 2013), e do vizinho mais próximo (nearest neighbor) (NISBET; ELDER; MINER,
2009).
• Wrapper – A finalidade desses métodos é gerar modelos supervisionados a partir
de conjuntos de dados parcialmente rotulados (LIU et al., 2016). Alguns dos mais
populares são: self-training, co-training, e expectation maximization (CHAPELLE;
SCHOLKOPF; ZIEN, 2009).
• Agrupamento – Conforme definido no aprendizado não supervisionado na subse-
ção 2.2.1.2, as técnicas de clustering criam grupos de instâncias que possuem cara-
terísticas semelhantes. No caso do aprendizado semi-supervisionado, isso é feito a
partir de um conjunto de dados que têm os agrupamentos parcialmente atribuídos
(BAIR, 2013).
• Nearest Neighbor – Outro conjunto de técnicas de aprendizado semi-supervisionado
são as que fazem uso dos algoritmos de busca do vizinho mais próximo (NISBET;
ELDER; MINER, 2009), das quais pode-se destacar label propagation e algoritmos
editing e condensed (SØGAARD, 2013).
2.2.1.4 Por Reforço
O aprendizado por reforço tem como objetivo definir que ação deve fazer um agente
(software) em um ambiente (problema) determinado, tentando maximizar algum ganho
estabelecido. A diferença dos algoritmos supervisionados, é que neste tipo de aprendizado
não existem os elementos de entrada e saída. Portanto, as ações que o agente execute
podem não ser completamente corretas ou errôneas (JAKSCH; ORTNER; AUER, 2010).
O aprendizado por reforço não possui técnicas bem definidas como os outros tipos, porém
2.2. Machine Learning 29
é possível destacar o algoritmo q-learning (SUTTON; BARTO, 1998) como a principal
técnica e que dá origem a outras ferramentas nesse tipo de aprendizado.
2.2.2 Pré-Processamento de Dados
O pré-processamento ou preparação dos dados corresponde ao processo pelo qual
os registros são trabalhados para que as ferramentas de ML possam ser usadas mais
facilmente sobre eles (PYLE, 1999). Não é um procedimento fixo e pode ser ou não
composto por diferentes etapas, as que são agrupadas nas seguintes categorias (GARCÍA;
LUENGO; HERRERA, 2015).
• Limpeza de Dados – Corresponde a operações de correção de dados errados, eli-
minação de registros incorretos ou outliers (valores atípicos), redução de elementos
desnecessários, ou qualquer tipo de ruído que possa ter o conjunto (KIM et al.,
2003).
• Transformação de Dados – Etapa em que os dados são modificados de forma apropri-
ada para a extração de informação. Pode realizar-se construção de novos atributos
baseados em outros já existentes, sumarização ou agregação de dados, normalização,
discretização de variáveis, entre outras tarefas (LIN, 2002).
• Integração de Dados – Processo em que são unidas diferentes fontes de dados procu-
rando ter informação homogênea. É efetuado principalmente através da unificação
de variáveis (DETOURS et al., 2003).
• Complementação de Valores – Completar registros vazios ou errados de forma in-
tuitiva, ou estimando valores que serão melhores que deixar o campo em branco
(ALLISON, 2001).
Às vezes, nos problemas de classificação, pode ser necessário equilibrar o número
de instâncias de cada classe da coleção de dados para obter resultados mais confiáveis,
tendo que aplicar os processos de undersampling e oversampling (HE; GARCIA, 2008). O
primeiro consiste em selecionar apenas alguns registros do conjunto para a análise. Nesse
caso, buscando que exista um número semelhante de instâncias de cada uma das classes
do problema. O segundo corresponde ao processo inverso, ou seja, a partir dos elementos
iniciais criam-se outros permitindo de igual forma equilibrar o conjunto de dados (YAP
et al., 2014).
2.2.3 Seleção de Atributos
Esse procedimento tenta escolher um subconjunto de atributos da coleção inicial
que se tem de variáveis. Alguns dos fatores pelos quais é necessário fazer esse trabalho
30 Capítulo 2. Fundamentação Teórica
são (LEE; VERLEYSEN, 2007):
• O tempo de execução dos algoritmos diminui;
• Simplificação dos modelos gerados para sua interpretação;
• Redução do sobre-ajuste nos modelos (overfitting) (HAWKINS, 2004);
• Evitar a presença da “maldição da dimensionalidade” (curse of dimensionality)
(BELLMAN, 2013); entre outros.
O conceito de overfitting refere-se ao treino excessivo de um algoritmo de ML para
um conjunto de dados determinado, implicando que quando é avaliado com outros dados
não conseguem-se os resultados corretos. Pode-se dizer que um modelo sobre-ajustado
é o oposto de um modelo geral, o qual tem um desempenho adequado tanto para os
dados de treino como para dados de validação ou de teste (HAWKINS, 2004). Sobre o
conceito da maldição da dimensionalidade, isso corresponde ao fato de ter demasiadas
dimensões (atributos) em um conjunto de dados, o que produz dois problemas principais:
(1) o número de combinações possíveis das instâncias é excessivamente grande, pelo qual
precisam-se uma enorme quantidade de registros para poder estimar todos os resultados
possíveis; e (2) que em alguns casos o tempo de processamento torna-se inviável (LEE;
VERLEYSEN, 2007).
Existem diferentes técnicas para realizar a seleção de atributos, que podem ser
agrupadas em três principais categorias: de filtro, métodos wrapper, e métodos embedded
(CHANDRASHEKAR; SAHIN, 2014).
2.2.3.1 Métodos de Filtro
Essas técnicas avaliam a correlação dos diferentes atributos de um conjunto com
a variável que representa a classe através de algum teste estatístico (GUYON et al.,
2008), como por exemplo: correlação de Pearson (BENESTY et al., 2009), qui-quadrado
(MCHUGH, 2013) e ANOVA (ANalysis Of VAriance) (RUTHERFORD, 2001). Base-
ado nos resultados do teste aplicado, é que são escolhidos os atributos que têm melhor
desempenho ou que possuem maior relação com a variável preditora.
As principais vantagens desses métodos são que não precisam de um algoritmo
de ML para ser aplicados, e que diminuem a presença de overfitting nos modelos gerados
depois do treinamento. Sobre as desvantagens, pode-se mencionar que esses métodos fazem
apenas uma análise univariada, pela qual não consideram o fato de como um grupo de
caraterísticas pode estar relacionado com o valor a ser predito, além de não identificar
a colinearidade entre os atributos para eliminar variáveis redundantes (GUYON et al.,
2008).
2.2. Machine Learning 31
2.2.3.2 Métodos Wrapper
Criam diferentes sub-conjuntos de caraterísticas a partir dos dados iniciais para
posteriormente ser avaliados com alguma técnica de ML, tentando encontrar quais são
os atributos que permitem gerar o modelo com o melhor desempenho. Existem dois me-
canismos principais para gerar os sub-conjuntos, feature selection e feature extraction
(OLVERA-LÓPEZ et al., 2010).
• Feature Selection (Seleção de Caraterísticas) – Começa-se com um sub-conjunto
vazio e agrega-se um atributo de cada vez, para depois criar um modelo com esses
elementos. Em cada iteração o modelo treinado é avaliado, e o processo é feito até
que ao adicionar uma nova variável o desempenho do algoritmo não melhora (LIU;
MOTODA, 2012).
• Feature Extraction (Extração de Caraterísticas) – Começa-se com o conjunto de
todos os atributos e é removido um atributo de cada vez, para depois criar um
modelo com o novo sub-conjunto. Em cada iteração o modelo treinado é avaliado, e
o processo é feito até que ao remover uma nova variável o desempenho do algoritmo
não melhora (COELHO; RICHERT, 2015).
A principal vantagem desse tipo de técnica (ao contrário dos métodos de filtro)
é que permite avaliar o desempenho de vários atributos ao mesmo tempo. De maneira
oposta, considerando que a cada vez que é criado um novo sub-conjunto de atributos
precisa-se treinar um modelo, a principal desvantagem dos métodos wrapper é o tempo
de processamento que necessitam para obter um resultado, fato que pode tornar inviável
a aplicação dessas técnicas (OLVERA-LÓPEZ et al., 2010).
2.2.3.3 Métodos Embedded
Elas selecionam quais são os atributos que entregaram os melhores resultados
enquanto o modelo é criado (CHANDRASHEKAR; SAHIN, 2014). Alguns dos princi-
pais métodos embedded são: LASSO (Least Absolute Shrinkage and Selection Operator)
(TIBSHIRANI, 1996), ridge regression (MARQUARDT; SNEE, 1975), elastic net (ZOU;
HASTIE, 2005), CART (Classification And Regression Trees) (GUYON; ELISSEEFF,
2003), entre outros.
Considerando a natureza dessas técnicas, as principais vantagens que têm é que
permitem a interação entre os atributos e o modelo, e computacionalmente são menos
custosos que os métodos wrapper. Sobre desvantagens, pode-se mencionar que conceitu-
almente são mais complexos pelo fato de ter juntos os processos de seleção e treinamento
(MALDONADO; WEBER, 2012).
32 Capítulo 2. Fundamentação Teórica
2.2.4 Algoritmos Utilizados no Âmbito dessa Dissertação
Para esse trabalho foram usados dois conjuntos de dados, um supervisionado e
outro não supervisionado, consequentemente precisam-se técnicas de ML adequadas para
cada um (ver subseção 2.2.1). Em seguida, serão apresentados os algoritmos escolhidos
para a análise dessas coleções de dados, além das técnicas utilizadas para a validação dos
modelos treinados.
2.2.4.1 Supervisionado
O conjunto de dados rotulados que se tem, permite classificar três fatos diferentes:
(1) se a criança sofre de algum tipo de violência; (2) qual é o tipo de violência que a criança
sofre; e (3) quem é o principal agressor desse abuso. Ademais, buscando um procedimento
metodológico que seja compreensível a pessoas leigas em inteligência artificial, porém
trabalham com crianças, optou-se pelas árvores de decisão (ROKACH; MAIMON, 2008).
Essa escolha foi motivada pela facilidade que uma árvore de decisão fornece, em termos
de compreensão, como modelo de classificação.
Árvores de decisão (ou de classificação) são usadas para catalogar uma instância
ou objeto dentro de um grupo pré-definido de classes com base nos atributos que ele tem,
sendo uma técnica útil na exploração dos conjuntos de dados (ROKACH; MAIMON,
2008). Algumas das principais vantagens das árvores de decisão sobre outras técnicas de
ML são (JAMES et al., 2013):
• A simplicidade para que qualquer pessoa possa compreender eles como modelo pre-
ditivo através das regras que o compõem;
• Podem utilizar conjuntos de dados combinados por variáveis numéricas e categóricas;
• Não precisa de uma preparação dos dados elaborada;
• Podem lidar facilmente com preditores qualitativos sem a necessidade de criar va-
riáveis de difícil compreensão.
Uma árvore de decisão é formada por um conjunto de nós unidos direcionadamente,
distinguindo 3 elementos diferentes: a raiz, os nós internos e as folhas. A raiz corresponde
a um nó único que não possui vértices de entrada e pode-se entender como o nó inicial
da árvore; os nós internos possuem vértices de entrada e saída e dividem o espaço em
dois ou mais sub-espaços de acordo com alguma função discreta aplicada às instâncias do
conjunto de dados; os nós folhas (também chamados terminais) somente têm vértices de
entrada e são eles os que atribuem uma classe à instância (ROKACH; MAIMON, 2008).
Para exemplificar essa estrutura, na Figura 4 o nó “habilidades do cuidador” é a raiz da
árvore, os dois nós “atitudes do cuidador” são internos e os demais nós correspondem às
2.2. Machine Learning 33
folhas, que classificam o nível de risco que as crianças têm de sofrer violência. Além disso,
todos os vértices têm valores que determinam a continuidade da árvore. Por exemplo, se as
habilidades do cuidador fossem positivas, o risco será pequeno, mas se fossem negativas e
as atitudes do cuidador muito negativas, o risco será elevado. Existem múltiplas variações
de árvores de decisão, como: ID3 (Iterative Dichotomiser 3) (QUINLAN, 1979), CART
(BREIMAN, 2017), CHAID (CHi-squared Automatic Interaction Detector) (KASS, 1980),
entre outras; mas considerando a natureza mista do conjunto de dados usados nessa parte
da pesquisa (categóricos e numéricos), escolheu-se o algoritmo C4.5 (QUINLAN, 1993)
para criar o modelo preditivo da violência infantil.
C4.5 é uma técnica de ML que permite gerar árvores de decisão para resolver
problemas de classificação. Algumas caraterísticas importantes desse algoritmo são: per-
mite trabalhar com atributos que tenham campos vazios, permite trabalhar com variáveis
contínuas e categóricas, e utiliza um processo de poda para substituir galhos que não
aportam na precisão final de classificação por nós folha (QUINLAN, 1993). Sobre seu
funcionamento, C4.5 faz uso da métrica information gain (ou ganho de informação) para
determinar qual atributo é o que melhor divide o conjunto de dados em cada um dos nós
da árvore. O conceito de informação refere-se à pureza de um grupo de instâncias; no
caso de árvores de decisão, a pureza pondera o fato de que um nó esteja representado por
apenas uma classe, ou seja, quando todos os elementos de um nó são da mesma categoria
se diz que é puro (QUINLAN, 1986). Para calcular o valor de information gain precisa-se
antes obter a entropia (𝐻) (SHANNON, 1948) dos dados, que corresponde à imprevi-
sibilidade do estado dos registros (pode-se entender como a medida oposta à pureza).
Considerando que se tem um conjunto 𝐷 com alguma variável aleatória com possíveis
estados {𝑑1, 𝑑2, ..., 𝑑𝑛}, a entropia é calculada por:
𝐻(𝐷) = −
𝑛∑︁
𝑖=1
𝑃 (𝑑𝑖)𝑙𝑜𝑔𝑏𝑃 (𝑑𝑖),
onde 𝑃 (𝑑𝑖) é a probabilidade de que a variável tenha o valor 𝑑𝑖 e 𝑏 é a base do logaritmo.
Assim, o valor da métrica information gain corresponde a uma variação da entropia
calculada antes e depois de fazer a divisão de um nó da árvore, o que pode-se representar
por:
𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛_𝑔𝑎𝑖𝑛(𝐷,𝐴) = 𝐻(𝐷)−
𝑚∑︁
𝑖=1
𝑃 (𝑎𝑖)𝐻(𝑎𝑖),
em que 𝐴 é um atributo qualquer com valores {𝑎1, 𝑎2, ..., 𝑎𝑚} (QUINLAN, 1986).
O Algoritmo 1 apresenta o pseudo-código do procedimento para obter uma árvore
de decisão através da técnica C4.5. Na linha 2 mencionam-se os critérios de parada do
algoritmo, que corresponde a quando a árvore não tem que se dividir mais, o que acontece
quando: todas as instâncias são da mesma classe ou nenhuma das caraterísticas do atributo
proporciona ganho de informação (QUINLAN, 1993). O ciclo entre as linhas 3 e 4 refere-se
ao cálculo da métrica information gain para todos os atributos 𝐴 do conjunto 𝐷, para
34 Capítulo 2. Fundamentação Teórica
depois na variável 𝐴𝑚𝑒𝑙ℎ𝑜𝑟 calcular qual é o que entrega a maior informação. Já nas linhas
7 e 8, cria-se um nó 𝑁𝑜𝑑𝑒 que divide os dados através do atributo 𝐴𝑚𝑒𝑙ℎ𝑜𝑟 e adiciona-se à
árvore 𝑇𝑟𝑒𝑒. Em seguida divide 𝐷 em subconjuntos com base em 𝑁𝑜𝑑𝑒 e os guarda em
𝑆. Por último, cada um dos elementos 𝑠 de 𝑆, de forma recursiva, entra no procedimento
C4.5 para encontrar a sub-árvore 𝑇𝑟𝑒𝑒𝑠𝑢𝑏 e adicioná-la à árvore original 𝑇𝑟𝑒𝑒.
Algoritmo 1 - Pseudo-código do procedimento 𝐶4.5(𝐷) para gerar árvores de decisão
(QUINLAN, 1993).
Input: 𝐷 ◁ 𝐷: conjunto de dados.
1: 𝑇𝑟𝑒𝑒← {}; ◁ 𝑇𝑟𝑒𝑒: conjunto de nós que representam a árvore.
2: if 𝐷 não cumpre algum dos critérios de parada then
3: for all 𝐴 ∈ 𝐷 do ◁ 𝐴: atributo do conjunto de dados.
4: 𝑖𝑔𝐴 ← 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛_𝑔𝑎𝑖𝑛(𝐷,𝐴); ◁ 𝑖𝑔𝐴: valor information gain de 𝐴.
5: end for
6: 𝐴𝑚𝑒𝑙ℎ𝑜𝑟 ← 𝑚𝑎𝑥(𝑖𝑔𝐴); ◁ 𝐴𝑚𝑒𝑙ℎ𝑜𝑟: atributo com melhor ganho de informação.
7: 𝑁𝑜𝑑𝑒← Nó com 𝐴𝑚𝑒𝑙ℎ𝑜𝑟 como divisor; ◁ 𝑁𝑜𝑑𝑒: novo nó de decisão.
8: 𝑇𝑟𝑒𝑒← 𝑇𝑟𝑒𝑒 ∪𝑁𝑜𝑑𝑒;
9: 𝑆 ← Sub-conjuntos de 𝐷 baseados em 𝑁𝑜𝑑𝑒;
10: for all 𝑠 ∈ 𝑆 do
11: 𝑇𝑟𝑒𝑒𝑠𝑢𝑏 ← C4.5(𝑠);
12: 𝑇𝑟𝑒𝑒← 𝑇𝑟𝑒𝑒 ∪ 𝑇𝑟𝑒𝑒𝑠𝑢𝑏;
13: end for
14: return 𝑇𝑟𝑒𝑒𝑠𝑢𝑏;
15: end if
Sobre a validação dos algoritmos, frequentemente as técnicas de classificação fazem
uso do método holdout (ou alguma das suas variações) na criação dos modelos. Holdout
divide aleatoriamente a amostra de dados em dois subconjuntos, um com o qual os mo-
delos são criados (treinamento) e outro para estimar o erro (validação), sendo a maioria
das vezes segmentado em porcentagens de 70 e 30 ou 80 e 20 registros (BLATTBERG;
KIM; NESLIN, 2008). Outra técnica que surge desse procedimento é cross-validation ou
validação cruzada, destacando duas variações. A primeira é o k-fold, a qual tem o mesmo
funcionamento que holdout, mas faz o processo 𝑘 vezes (com 𝑘 um número definido pelo
usuário), considerando todo o conjunto de dados no final para depois estimar o desem-
penho geral de todas as iterações; e a segunda é leave-one-out, que itera tantas vezes o
número de registros existentes no conjunto de dados, tomando apenas um deles em cada
iteração para a validação, enquanto os demais são usados para o treinamento do modelo
(KOHAVI et al., 1995). Para esse estudo foi selecionado o método cross-validation porque
considera-se apropriado ter a flexibilidade de selecionar o número de iterações que serão
executadas para gerar os modelos.
Quando um modelo já está pronto, precisa ser avaliado o desempenho que tem. No
caso das técnicas de classificação, portanto saber se é competente na tarefa de detectar a
classe correta de uma nova instância do problema. Isso é possível através de três métricas
2.2. Machine Learning 35
frequentemente usadas em classificação: precisão, sensibilidade, e especificidade. Essas
métricas são definidas por meio de outros quatro elementos (ALTMAN; BLAND, 1994):
• Verdadeiro Positivo (True Positive, TP) – Instância que foi classificada corretamente
como positiva ou no grupo correto;
• Verdadeiro Negativo (True Negative, TN) – Instância que foi classificada correta-
mente como negativa ou que não pertence a um grupo específico;
• Falso Positivo (False Positive, FP) – Instância que foi classificada incorretamente
como positiva em um grupo que não corresponde a sua classe; e
• Falso Negativo (False Negative, FN) – Instância que foi classificada incorretamente
como negativa em um grupo que corresponde a sua classe.
A Figura 1 apresenta um esquema dos tipos de classificações possíveis: na faixa verde
estão as instâncias que são realmente positivas e na rosa as negativas, enquanto as que
ficam dentro do círculo preto correspondem às instâncias que o modelo classificou como
positivas, sejam verdadeiras ou falsas.
Figura 1 – Representação dos tipos de resultados que um teste pode fazer sobre um
problema de classificação binária.
Fonte: Adaptado de https://transparint.com/blog/2016/04/01/false-negatives-a-serious-
danger-in-your-aml-program.
Portanto, as métricas precisão, sensibilidade, e especificidade são definidas como (ALT-
MAN; BLAND, 1994):
36 Capítulo 2. Fundamentação Teórica
• Precisão – Taxa dos valores que o modelo classificou corretamente como positivos
sobre o total dos que foram preditos como positivos, definida como:
𝑇𝑃
𝑇𝑃 + 𝐹𝑃 ;
• Sensibilidade – Taxa dos valores que o modelo classificou corretamente como posi-
tivos sobre o total de valores positivos, definida como:
𝑇𝑃
𝑇𝑃 + 𝐹𝑁 ;
• Especificidade – Taxa dos valores que o modelo classificou corretamente como ne-
gativos sobre o total de valores negativos, definida como:
𝑇𝑁
𝑇𝑁 + 𝐹𝑃 .
Baseado nas métricas previamente definidas, existem outras técnicas que permitem
avaliar o desempenho dos modelos, como as curvas Receiver Operating Characteristic
(ROC) e Precision-Recall (PR) (DAVIS; GOADRICH, 2006). O primeiro (comumente
conhecido como curva ROC) faz a análise gráfica para diferentes limiares que pode ter
o modelo da sensibilidade contra o complemento da especificidade (1 − 𝑒𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒)
ou a taxa de FP para conseguir calcular a área sob a curva (Area Under Curve, AUC),
número que se encontra no intervalo [0, 1]. Quanto maior for esse número, o modelo terá
uma maior capacidade de diferenciar elementos positivos de negativos (FAWCETT, 2006).
O método PR é semelhante à curva ROC, basicamente porque para diferentes limiares
também contrasta a precisão contra a sensibilidade, obtendo um gráfico similar à curva
ROC. Sua AUC também está contida no intervalo [0, 1], e quanto maior for, significa
que tanto a precisão como a sensibilidade do modelo têm valores elevados. Entretanto,
quando um desses elementos é elevado, normalmente o outro é baixo. Portanto, busca-se
que ambas métricas possuam valores elevados (BOYD; ENG; PAGE, 2013). A Figura 2
apresenta um exemplo de cada curva com seus valores de AUC.
Sobre essas métricas de validação de modelos de classificação (curva ROC e PR),
uma maneira adequada de poder avaliar as duas uniformemente é calcular algum tipo de
média que retorne apenas um valor final para medir a performance. Uma opção é utilizar
a Média Harmônica (MH), a que define-se para o grupo de números {𝑥1, 𝑥2, ..., 𝑥𝑖} como
𝑀𝐻 = 𝑛1
𝑥1
+ 1
𝑥2
+ ...+ 1
𝑥𝑖
.
A MH outorga diferentes pesos aos valores dependendo da sua distribuição, tendo mais
presença no resultado final os números mais pequenos (MOND; PECARIĆ, 1996). No
geral, a curva ROC tem melhores resultados que a curva PR porque não considera o
2.2. Machine Learning 37
Figura 2 – Exemplo de curva ROC (esquerda) e curva PR (direita) com seus respectivos
valores de AUC.
Fonte: Adaptado de https://www.r-bloggers.com/area-under-the-precision-recall-curve.
overfitting do modelo, podendo gerar uma avaliação positiva de um modelo que não seja
real. É por isso que é pertinente utilizar a MH quando tenta-se estimar um valor único
entre essas duas métricas, entregando uma maior ponderação ao valor mais pequeno.
2.2.4.2 Não Supervisionado
O conjunto de dados sobre polivitimização é não supervisionado, pois não existe
um atributo que determine algum valor esperado ou classe para as instâncias. Técnicas
de agrupamento e de regras de associação (HASTIE; TIBSHIRANI; FRIEDMAN, 2009)
são bem aplicadas sobre esse tipo de registros, mas considerando a natureza binária de
todos os atributos (se a criança tem sofrido ou não cada uma das vitimizações), regras de
associação são adequadas.
O aprendizado baseado em regras de associação tenta descobrir relações de inte-
resse entre os elementos de um conjunto de dados através de métricas específicas para
cada algoritmo (AGRAWAL; IMIELIŃSKI; SWAMI, 1993). O método foi desenvolvido
para encontrar relações nas transações de compras de produtos. Por exemplo, a relação
{𝑓𝑎𝑟𝑜𝑓𝑎, 𝑓𝑒𝑖𝑗ã𝑜} ⇒ {𝑎𝑟𝑟𝑜𝑧} diz que quando leva-se farofa e feijão juntos, é provável ter
arroz também (a presença do primeiro conjunto implica a presença do segundo).
Para gerar uma regra de associação precisa-se representar os dados através de
conjuntos, sendo necessário dois principais: o primeiro corresponde ao grupo de itens
𝐼 = {𝑖1, 𝑖2, ..., 𝑖𝑛}, com 𝑛 como o número total de elementos (variáveis); e o segundo
equivale ao de transações 𝑇 = {𝑡1, 𝑡2, ..., 𝑡𝑚}, com 𝑚 como o número total de instâncias
da amostra. Com isso, é possível definir de forma geral uma regra de associação como
𝑋 ⇒ 𝑌 , sendo 𝑋, 𝑌 ⊆ 𝐼. Além desses conjuntos, essa técnica possui dois elementos
fundamentais para operar, o suporte e a confiança. Para que seja válida, é necessário que
38 Capítulo 2. Fundamentação Teórica
essas duas métricas sejam maiores que o limiar que o usuário define (ZHANG; ZHANG,
2002).
• Suporte – Indica a frequência com que um grupo de elementos aparece no conjunto
de dados completo. O suporte de um conjunto 𝑋 pode ser calculado como:
𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋) = |{𝑋 ⊆ 𝑡; 𝑡 ∈ 𝑇}||𝑇 | ,
em que 𝑡 representa alguma transação de 𝑇 .
• Confiança – Considerando a regra 𝑋 ⇒ 𝑌 , pode-se interpretar ou entender a confi-
ança como a probabilidade com que o conjunto 𝑌 aparece quando se tem o conjunto
𝑋, sendo representada por:
𝑐𝑜𝑛𝑓𝑖𝑎𝑛ç𝑎(𝑋 ⇒ 𝑌 ) = 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋 ∪ 𝑌 )
𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋) .
Dependendo das caraterísticas dos dados e requisitos específicos do problema,
existe uma determinada técnica para gerar as regras de associação (KOTSIANTIS; KA-
NELLOPOULOS, 2006). No caso dessa pesquisa, utilizou-se o algoritmo Apriori, que
opera sobre dados categóricos binários. Para obter as regras de associação de um con-
junto de dados através do Apriori, o primeiro passo é encontrar as frequências com
que aparecem os diferentes conjuntos de itens (ZHANG; ZHANG, 2002). O Algoritmo
2 apresenta o pseudo-código dessa técnica, o qual requer como parâmetros de entrada
os conjuntos 𝐼 e 𝑇 previamente definidos, além do suporte mínimo de interesse 𝑚𝑖𝑛𝑠𝑢𝑝.
A variável 𝐴 corresponde ao grupo de conjuntos que serão avaliados em uma determi-
nada iteração. Por exemplo, se existe o conjunto inicial 𝐼 formado por {𝑖1, 𝑖2, 𝑖3}, então
na primeira iteração 𝐴 = {{𝑖1}, {𝑖2}, {𝑖3}} (linha 2) e na segunda e terceira iterações
𝐴 = {{𝑖1, 𝑖2}, {𝑖1, 𝑖3}, {𝑖2, 𝑖3}} e 𝐴 = {{𝑖1, 𝑖2, 𝑖3}}, respectivamente (linha 33). O conjunto
𝐶 encarrega-se de fazer a contagem das vezes que os elementos de 𝐴 aparecem nas tran-
sações (𝑡) de 𝑇 , isso entre as linhas 5 e 16. A validação dos elementos que cumprem com
o suporte mínimo é feita na linha 20 e são guardados na variável 𝑉 , para depois uni-los
com o conjunto final de saída 𝐹 . Entre as linhas 27 e 35 apenas se faz a validação de
que o conjunto 𝐴 não tenha elementos que se sabem que no futuro não cumprirão com o
suporte mínimo. Por exemplo, tem-se que {𝑖1} não atinge-os, então {𝑖1, 𝑖2} também não
irão satisfazê-los.
O segundo passo para obter as regras de associação é calcular a confiança de todas
as sentenças do tipo 𝑋 ⇒ 𝑌 (onde 𝑋 e 𝑌 podem ser qualquer elemento do conjunto 𝐹 )
que satisfazem o limiar estabelecido pelo usuário (AGRAWAL; IMIELIŃSKI; SWAMI,
1993), obtendo todas as regras de interesse baseadas no conjunto de dados inicial.
Diferente dos algoritmos supervisionados, os não supervisionados não têm métricas
gerais para a avaliação dos resultados, principalmente porque não se tem um valor final
2.2. Machine Learning 39
Algoritmo 2 Pseudo-código do algoritmo apriori de regras para associação (ZHANG;
ZHANG, 2002).
Input: 𝐼, 𝑇 , 𝑚𝑖𝑛𝑠𝑢𝑝 ◁ 𝐼: itens; 𝑇 : instancias; 𝑚𝑖𝑛𝑠𝑢𝑝: suporte mínimo.
1: 𝐹 ← {}; ◁ 𝐹 : conjuntos que cumprem com o suporte mínimo.
2: 𝐴← {{𝑖1}, {𝑖2}, ..., {𝑖𝑛}}; ◁ 𝐴: conjuntos que serão avaliados.
3: while 𝐴 ̸= {} do
4: 𝐶 ← {}; ◁ 𝐶: conjunto de elementos candidatos com suas frequências.
5: for all 𝑡 ∈ 𝑇 do
6: for all 𝑎 ∈ 𝐴 do
7: if 𝑎 ⊆ 𝑡 then
8: if 𝑎 ∈ 𝐶 then
9: 𝑐𝑎.𝑐𝑜𝑛𝑡𝑎𝑔𝑒𝑚← 𝑐𝑎.𝑐𝑜𝑛𝑡𝑎𝑔𝑒𝑚+ 1;
10: else
11: 𝐶 ← 𝐶 ∪ {𝑎};
12: 𝑐𝑎.𝑐𝑜𝑛𝑡𝑎𝑔𝑒𝑚← 1;
13: end if
14: end if
15: end for
16: end for
17: 𝐴← {};
18: 𝑉 ← {}; ◁ 𝑉 : Conjuntos dos quais será validado seu suporte.
19: 𝑡𝑜𝑡𝑎𝑙← 0; ◁ 𝑡𝑜𝑡𝑎𝑙: quantidade de conjuntos com suporte mínimo.
20: for all 𝑎 ∈ 𝐶 do
21: if 𝑐𝑎.𝑐𝑜𝑛𝑡𝑎𝑔𝑒𝑚/𝑇.𝑡𝑎𝑚𝑎𝑛ℎ𝑜 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝 then
22: 𝑉 ← 𝑉 ∪ 𝑐𝑎;
23: 𝑡𝑜𝑡𝑎𝑙← 𝑡𝑜𝑡𝑎𝑙 + 1;
24: end if
25: end for
26: if 𝑡𝑜𝑡𝑎𝑙 ̸= 0 then
27: 𝐹 ← 𝐹 ∪ 𝑉 ;
28: 𝑖← 1;
29: 𝑗 ← 2;
30: while 𝑖 < 𝑡𝑜𝑡𝑎𝑙 do
31: 𝑖← 𝑖+ 1;
32: while 𝑗 ≤ 𝑡𝑜𝑡𝑎𝑙 do
33: 𝑗 ← 𝑗 + 1;
34: 𝐴← 𝐴 ∪ {𝑉𝑖 ∪ 𝑉𝑗};
35: end while
36: end while
37: end if
38: end while
que obter ou predizer (RUSSELL; NORVIG, 2016). Contudo, existem diversos trabalhos
que propõem técnicas de validação para algoritmos não supervisionados, como o trabalho
feito por Halkidi et al. (2001) para modelos de agrupamento, ou por Ordoñez (2006) para
regras de associação.
40 Capítulo 2. Fundamentação Teórica
Especificamente nas regras de associação, o mesmo procedimento feito para consegui-
las é uma forma de validar sua qualidade, isso através do suporte e da confiança (ZHANG;
ZHANG, 2002). Na medida que essas duas métricas tenham valores próximos a 1, as regras
serão mais frequentes e precisas. Cabe mencionar que um 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋) elevado implica que
uma grande parte das instâncias totais estejam incluídas no conjunto de itens frequentes
𝑋, enquanto uma 𝑐𝑜𝑛𝑓𝑖𝑎𝑛ç𝑎(𝑋 ⇒ 𝑌 ) elevada resulta em uma alta probabilidade de ao
se ter 𝑋 também se terá 𝑌 . Existem também outras métricas que permitem avaliar a
qualidade das regras de associação, destacando neste trabalho os valores lift, conviction
(BRIN et al., 1997), e leverage (PIATETSKY-SHAPIRO, 1991).
• Lift – Taxa de vezes que estão presentes o antecedente e consequentes juntos (𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋∪
𝑌 )) assumindo que são elementos independentes (𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋) × 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑌 )). Sua
expressão matemática corresponde a:
𝑙𝑖𝑓𝑡(𝑋 ⇒ 𝑌 ) = 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋 ∪ 𝑌 )
𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋)× 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑌 ) .
Lift é um valor que vai no intervalo [0,∞[ ; quando é maior a 1 existe uma depen-
dência entre 𝑋 e 𝑌 , quando é igual a 1 são elementos independentes, e quando é
menor a 1 o antecedente e o consequente são mutuamente exclusivos (BRIN et al.,
1997).
• Conviction – Assumindo que 𝑋 e a ausência de 𝑌 são elementos independentes
(𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋) × 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(¬𝑌 )), corresponde ao quociente obtido entre esse valor e a
taxa de vezes que o antecedente não aparece junto ao consequente (𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋 ∪
¬𝑌 )). Sua expressão matemática corresponde a:
𝑐𝑜𝑛𝑣𝑖𝑐𝑡𝑖𝑜𝑛(𝑋 ⇒ 𝑌 ) = 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋)× 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(¬𝑌 )
𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋 ∪ ¬𝑌 ) =
1− 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑌 )
1− 𝑐𝑜𝑛𝑓𝑖𝑎𝑛ç𝑎(𝑋 ⇒ 𝑌 ) .
Conviction é um valor que vai no intervalo [0,∞[ ; quando é maior a 1 existe uma
dependência entre 𝑋 e 𝑌 , quando é igual a 1 são elementos independentes, e quando
é menor a 1 o antecedente e o consequente são mutuamente exclusivos (BRIN et al.,
1997).
• Leverage – Diferença entre a taxa de vezes que estão presentes o antecedente e
consequentes juntos (𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋 ∪ 𝑌 )) e o valor resultante ao considerar que são
elementos independentes (𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋) × 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑌 )). Sua expressão matemática
corresponde a:
𝑙𝑒𝑣𝑒𝑟𝑎𝑔𝑒(𝑋 ⇒ 𝑌 ) = 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋 ∪ 𝑌 )− 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑋)× 𝑠𝑢𝑝𝑜𝑟𝑡𝑒(𝑌 ).
Leverage é um valor que vai no intervalo [−1, 1] ; quando é maior a 0 existe uma de-
pendência entre 𝑋 e 𝑌 , quando é igual a 0 são elementos independentes, e quando é
menor a 0 o antecedente e o consequente são mutuamente exclusivos (PIATETSKY-
SHAPIRO, 1991).
41
3 Revisão Bibliográfica
Desde o final do século passado, ML tem sido usado para ajudar a entender melhor
o problema da violência infantil. Neste capítulo, diferentes trabalhos sobre esse assunto
serão expostos com o intuito de entender como lidam com esse fato, destacando alguns
elementos como: descrição da amostra, quais ferramentas foram utilizadas, a avaliação e
resultados dos modelos gerados, os fatores de risco selecionados, entre outras qualidades
importantes ao contexto deste estudo. Além disso, no final do capítulo situa-se a presente
pesquisa entre os estudos analisados.
3.1 Estudos Relacionados
Para encontrar trabalhos semelhantes ao proposto, utilizaram-se os motores de
busca bibliográfica Google Scholar1 e Scopus2, além da base bibliográfica SciELO3 (Sci-
entific Electronic Library Online). A pesquisa foi feita nas línguas: espanhol, inglês, e
português por igual; isso através de cadeias de strings formadas pelas palavras-chave:
child abuse, child maltreatment, predicting child abuse, e predicting child maltreatment
para referenciar a violência infantil; e para aludir o ML utilizaram-se: prediction, ma-
chine learning, artificial intelligence, neural network, desicion tree, regression, e apriori
algorithm. Assim, as cadeias criadas usando os operadores lógicos OR e AND foram:
1. (child abuse OR child maltreatment) AND (prediction OR machine learning OR
artificial intelligence OR neural network OR decision tree OR regression OR apriori
algorithm);
2. (prediction) AND (child abuse OR child maltreatment) AND (machine learning OR
artificial intelligence OR neural network OR decision tree OR regression OR apriori
algorithm);
3. (predicting child abuse OR predicting child maltreatment) AND (machine learning
OR artificial intelligence OR neural network OR decision tree OR regression OR
apriori algorithm); e
4. (child abuse OR child maltreatment) AND (neural network OR decision tree OR
apriori algorithm).
1 https://scholar.google.com
2 https://www.scopus.com/home.uri
3 https://www.scielo.org
42 Capítulo 3. Revisão Bibliográfica
Como resultado dessa pesquisa, obteve-se 19 trabalhos relacionados, todos abordando o
problema da violência infantil a partir de um enfoque estatístico ou computacional.
A análise desses estudos foi dividida em quatro grupos, os quais estão relaciona-
dos com as técnicas de ML utilizadas para analisar o problema da violência infantil. O
primeiro corresponde aos que usaram algum tipo de regressão; o segundo aos estudos
com algoritmos de classificação; o terceiro aos que misturaram diferentes tipos de técnicas
(principalmente estudos comparativos); e o quarto aos que utilizaram outras técnicas não
convencionais. Cada uma das seguintes subseções correspondem a uma dessas classifica-
ções, as que destacam as as principais características dos artigos estudados.
3.1.1 Técnicas de Regressão
O primeiro trabalho que tenta predizer a violência infantil por meio de uma análise
matemática foi desenvolvido por Altermeier et al. (1984), que abordou essa problemática
investigando mulheres grávidas (1.400 no total). Foi aplicada uma enquete com os seguin-
tes aspectos (atributos de entrada): saúde da criança, apoio de pessoas próximas, atitude
frente à gravidez e saúde própria (onde destaca consumo de drogas ou álcool). Para se-
lecionar os grupos de variáveis preditivas, foi usado um modelo de regressão hierárquico
(GELMAN; HILL, 2006), enquanto, para estabelecer se existiu violência ou não, foram
usados os reportes de abuso das mesmas mulheres para seus outros filhos, estabelecendo
que 273 casos foram de alto risco. O período de avaliação deles foi de 2 anos após a en-
trevista, onde somente 22% das famílias classificadas com alto risco tiveram reportes de
violência infantil, tendo muitos FP. Esse problema implicou que os pesquisadores fizeram
uma segunda entrevista com as mulheres composta por 20 perguntas (preditores mais im-
portantes) escolhidas por meio dos resultados da relação com o abuso, onde quase todas
tiveram um valor do coeficiente de correlação (𝑅) maior que 0,34. Desta forma, gerou-se
uma lista de questões que permitiram predizer a violência infantil, porém a maioria das
perguntas tinham uma relação intrínseca com o problema de pesquisa. Um exemplo disso
é a questão “tendência agressiva durante a entrevista”.
Algumas considerações que podem ser estabelecidas desse trabalho são: a análise
matemática foi somente estatística, não permitindo gerar modelos que realmente possam
predizer a violência; o fato de determinar se ouve ou não abuso através dos reportes, em
muitos casos pode não ser real pois nem sempre eles são denunciados (explicação dos
pesquisadores para os FP).
Outro caminho para avaliar a presença de violência infantil é realizar entrevistas
padronizadas, como fez Burrel et al. (1994). O estudo teve dois objetivos principais: o
primeiro deles visa determinar se existe relação entre o potencial abuso infantil com o
estresse parental, apoio social e recursos familiares; e o segundo busca entender se mo-
delos preditivos de violência de famílias com filhos com e sem necessidades especiais têm
3.1. Estudos Relacionados 43
diferenças. A pesquisa foi feita com 113 mães, 53 com filhos que apresentaram alguma
necessidade especial e 60 que não. A primeira parte do estudo baseou-se em aplicar 4 di-
ferentes entrevistas às mães: inventario do potencial abuso infantil (Child Abuse Potential
Inventory, CAPI), estresse parental, percepção dos recursos, e apoio social. Essas entre-
vistas buscaram algum padrão de correlação entre a CAPI e as demais enquetes através
de uma análise de regressão. Dessa forma, a maior correlação foi com o estresse parental
com um 𝑅 de aproximadamente 0, 53. Na segunda etapa realizou-se o mesmo estudo, po-
rém dividindo a amostra em dois grupos, um com as mães de crianças com necessidades
especiais e outro sem. O resultado não foi significativo, destacando somente a desigual-
dade de correlação dos grupos no escopo de estresse parental com uma diferença de 0,121,
sendo o valor mais alto o da amostra de mães com crianças com necessidades especiais.
Para avaliar os resultados, simplesmente foi feita uma análise qualitativa deles, validando
as duas hipóteses: estresse parental tem relação direta com a violência e crianças com
necessidades especiais são mais propensas a receber o abuso.
No geral, a pesquisa tem uma boa abordagem do problema ao propor utilizar
ferramentas que já existiam (entrevistas sociais) para relacionar a violência com outras
caraterísticas familiares, mas ainda assim não utiliza fatores de risco para predizer a
violência infantil. É por isso que estabelece-se que o estudo é orientado ao aspecto teórico
do problema, e não tenta uma resolução via métodos matemáticos.
Rodriguez e Green (1997) fizeram outra pesquisa com a mesma metodologia que
o estudo anterior. Assim, por meio de enquetes padronizadas relacionaram o estresse
parental e a expressão de raiva com a violência infantil potencial, utilizando regressão
hierárquica. Foram empregadas três ferramentas para esse estudo, a CAPI como variável
dependente (valor a ser predito), o Parenting Stress Index (PSI) e o State-Trait Angry
Expression Inventory (STAXI) como variáveis independentes. Dessa forma, tentou-se pre-
dizer o valor de CAPI através de PSI e STAXI, dividindo a pesquisa em dois estudos:
1. Voluntariamente 39 pais fizeram parte da investigação, na qual tiveram que respon-
der às três enquetes. Logo, foram obtidas as correlações de PSI e STAXI com CAPI,
sendo os valores de 𝑅 iguais a 0,67 e 0,69, respectivamente. Depois disso, ao modelo
gerado entre CAPI e PSI foi adicionada a variável STAXI criando outro com um 𝑅
de 0,83, estimando que o modelo de regressão hierárquica consegue ser um bom pre-
ditor da violência infantil potencial. Além disso, tentou-se encontrar alguma relação
entre elementos demográficos (sexo, idade, etnia, ingressos, etc.) com os resultados
das enquetes. Entretanto, o único resultado relevante foi a correlação negativa entre
a idade dos pais com a expressão de raiva deles (𝑅=-0,41);
2. Voluntariamente 84 pais responderam as enquetes, que receberam através das escolas
de seus filhos. Foi feita a mesma análise, obtendo valores de 𝑅 entre 0,53 e 0,44 para
44 Capítulo 3. Revisão Bibliográfica
CAPI e PSI e STAXI. Ao gerar o modelo hierárquico, o 𝑅 final foi de 0,62. Também
foi feita uma abordagem demográfica, obtendo a relação negativa entre o número
de filhos e a expressão de raiva (𝑅=-0,33).
Baseado nos resultados, não foi feita nenhuma validação além de considerar as
correlações entre as enquetes. Ademais, todos os resultados foram fundamentados nas
respostas do CAPI, pelo qual a pesquisa somente permanece na teoria e não consegue de-
mostrar que realmente houve violência a partir dos dados usados. Ainda vale destacar que,
apesar de os estudos serem distintos, fizeram uso de um mesmo procedimento, alterando
apenas a amostra. No primeiro, a maioria dos sujeitos tinham perfis econômicos bons,
o que estimou que não era um grupo representativo da população toda; e no segundo,
estabeleceu-se que os pais responderam as enquetes de forma defensiva, considerando que
os questionários chegaram através de seus filhos (fato que os pesquisadores usaram para
explicar a diminuição dos coeficientes de correlação entre os estudos). Por consequência,
pode-se dizer que os dois estudos tiveram um viés ao selecionar as amostras, não sendo
representativas da população.
DePanfilis e Zuravin (1999) também pesquisaram sobre o problema da violência
infantil com uma abordagem estatística, mas tentando identificar a recorrência do abuso,
estudo que utilizou uma população de 446 mães. Sobre os fatores de risco utilizados, foram
considerados os tópicos: colocação da criança (se foi afastada da sua família); informa-
ção da violência (tipo, severidade e prioridade que tem a criança no centro de proteção);
vulnerabilidade da criança (problemas mentais, de desenvolvimento infantil, e se houve a
presença de alguma criança menor de 6 anos na moradia); problemas pessoais do cuida-
dor (consumo de drogas ou álcool e deficit na resolução de problemas); Violência entre
Parceiros Íntimos (VPI) sobre a mãe; estresse familiar (quantidade de filhos, mãe muito
nova ao nascer o primeiro filho, e duração dos anos de criança); condições do lar (falta
de recursos econômicos, falta de moradia, moradia em estado ruim e falta de recursos em
atenção médica); deficit de ajuda social (famílias ou amigos, e sistemas de ajuda). Com
todas essas categorias, tinham-se 52 variáveis para analisar. Sobre a análise, a mesma foi
dividida em duas partes: (1) examinar as relações entre as variáveis usando uma função
de sobrevivência com o modelo de Cox (COX, 2018) e estimar a probabilidade de que um
sujeito consiga sobreviver em um tempo determinado (que não aconteça recorrência de
violência nele); e (2) selecionar variáveis que tenham relações relevantes entre elas durante
o tempo que dura o estudo de caso. O modelo final gerado foi o de riscos proporcionais de
Cox (COX, 1972) que, da mesma maneira que os de regressão múltipla (AIKEN; WEST;
RENO, 1991), permite analisar as relações entre variáveis dependentes com a indepen-
dente, mas também facilita relacioná-las com o tempo que tem decorrido os fatos. Por
exemplo, as variáveis que determinam a recorrência da violência em um período de 1 ano
talvez não são as mesmas que em um período de 1 mês. Logo, dessa análise apenas foram
3.1. Estudos Relacionados 45
considerados 10 fatores críticos: colocação, prioridade, tipo e severidade do abuso, fatores
da criança, fatores da mãe, VPI, estresse familiar, condições do lar e suporte social.
Posteriormente, gerou-se um modelo sem condicionamento entre as variáveis, que
teve como principal fatores a colocação, a VPI e o suporte social, sendo esses os fatores
que apresentam um maior risco para sobreviver sem a recorrência de violência. Com esse
resultado, foi criado outro modelo baseado na relação hipotética que têm as variáveis VPI e
suporte social, com o qual obteve-se 92% de probabilidade de que não aconteça recorrência
se esses fatores não estão presentes na família. Alguns pontos interessantes do artigo:
modelos de Cox são aplicáveis ao problema da predição da violência infantil, pensando
em quando uma criança sobrevive ao abuso (neste caso, há a recorrência dele); a VPI não
tinha sido considerado até esse estudo e há indícios de ser um fator crítico importante da
violência, além do suporte social que a família tem. Sobre o que pode ser melhorado, os
modelos foram criados com apenas uma medida de recorrência da violência (a confirmação
futura de um novo reporte de abuso), que na prática não permitem realmente predizer
quando novamente irá acontecer o abuso (pode ser que um novo reporte nunca chegue).
Um trabalho diferente aos anteriores foi apresentado por Begle et al. (2010), no
qual tentou-se validar de forma empírica os modelos teóricos de desenvolvimento ecológico
e de risco acumulado, que descrevem a violência infantil. O primeiro, define que existem
3 elementos fundamentais que caraterizam o abuso (ver Figura 3): o desenvolvimento psi-
cológico (developmental-psychological), contexto direto (immediate) e os recursos sociais
(broad). No segundo, se estabelece que o risco da violência aumenta (acumula-se) quando
o número de fatores de risco for maior. Sobre o conjunto de dados, foram entrevistadas
610 figuras parentais (pais, mães ou cuidadores) de crianças de 3 a 6 anos de idade. So-
bre os fatores de risco, foram usadas 22 variáveis que descrevem os elementos do modelo
ecológico, além de uma variável preditora da violência infantil potencial obtida através
do CAPI. Os fatores de risco estiveram relacionados com: caraterísticas da criança, dos
cuidadores, de seu relacionamento, além das caraterísticas do entorno e da família.
Para validar o modelo ecológico e o de risco acumulado, foram utilizados os mé-
todos do teste de qui-quadrado (MCHUGH, 2013) e regressão linear múltipla (MONT-
GOMERY; PECK; VINING, 2012), respectivamente. Para o primeiro, não houve ajuste
com os dados coletados, implicando que o modelo ecológico não pode se relacionar com
os valores empíricos. Sobre o segundo, após realizar a regressão linear, notou-se que há
uma relação já que apresentou 76% de precisão na classificação dos casos. Um ponto
importante desse trabalho é a mistura que foi feita entre modelos teóricos e empíricos,
ainda mais quando eles vem de áreas de estudo muito diferentes (neste caso a psicologia
e a estatística), conseguindo validações deles de outras maneiras. Porém, nesse estudo, os
dados coletados não foram representativos do problema, visto que a média do resultado do
teste CAPI foi muito baixa, o que implica que as famílias no geral não tinham problemas
46 Capítulo 3. Revisão Bibliográfica
Figura 3 – Modelo de desenvolvimento ecológico da violência infantil (BEGLE; DUMAS;
HANSON, 2010).
Fonte: Adaptado de Begle, Dumas e Hanson (2010).
de abuso infantil, não permitindo gerar uma predição certa da violência infantil potencial.
Dubowitz et al. (2011) tentaram analisar o problema da violência infantil através
de outra perspetiva. Realizaram um estudo longitudinal que avaliou a violência em um
período de 10 anos com 224 mães de famílias de baixa renda para identificar quais fatores
críticos podem produzir violências, para posteriormente predizê-los. Assim, foi feita uma
análise de sobrevivência através da regressão de Cox, onde o fato de “sobreviver” para as
famílias foi não ter reportes de violências nos centros de proteção de crianças. Os fatores
críticos foram 12 no início, os quais estão relacionados com as crianças, suas mães, suas
famílias e a comunidade onde moram.
A etapa de gerar os modelos teve duas partes, na primeira foi feita uma análise
bivariada entre todas as variáveis independentes com a dependente (reporte de violência
nos centros de proteção), obtendo-se um modelo inicial em que foram selecionados os
fatores com maior relação com esta última: desenvolvimento cognitivo da criança, nível
educacional da mãe, se a mãe apresenta depressão, número de filhos e consumo de drogas
da mãe; fazendo o mesmo processo de análise com esses fatores como segunda fase. Esse
3.1. Estudos Relacionados 47
estabeleceu que o uso de drogas é a variável com a maior relação ao reporte de abuso;
enquanto o nível educacional o de menor relação. Esse estudo permitiu detectar relações
entre fatores críticos e a violência infantil que antes não havia sido esclarecido comple-
tamente (como o nível de escolaridade dos pais), mas para obter algumas informações e
fazer toda essa análise foram necessárias entrevistas padronizadas, bem como para conhe-
cer o estado de depressão da mãe ou o suporte social da família, tornando difícil replicar
a pesquisa.
Considerando que o problema da violência infantil é global, no Japão também tem-
se desenvolvido pesquisas sobre esse tema. Horikawa et al. (2016) realizaram um estudo
que teve como objetivo criar um modelo multivariado que identifique as crianças com um
alto risco de sofrer a primeira recorrência de violência utilizando dados governamentais. O
conjunto de dados foi coletado entre os anos 1996 e 2011 com 716 registros, sendo necessá-
rio usar uma técnica de bootstrapping (KOHAVI et al., 1995) para acrescentar amostras.
Além disso, no começo tinha-se 26 variáveis, que podem ser agrupadas em: tipo de vio-
lência e frequência, caraterísticas da criança e do perpetrador, caraterísticas do entorno e
da família, entre outros elementos. Ao fazer um processo de feature extraction, restaram
apenas 6 variáveis: idade da criança, idade do agressor, histórico de violência na infância
do agressor, estabilidade financeira na moradia, presença de alguém que vigiasse a vítima
e se a informação do caso vem de alguma organização oficial. A variável dependente foi a
presença do reporte de violência após um ano do primeiro incidente registrado (binária).
Utilizou-se regressão logística multivariada para a modelagem, resultado que foi avaliado
com a curva ROC, obtendo uma AUC de 0,66. Posteriormente, categorizaram-se os casos
através do modelo nos níveis de risco baixo, médio e alto de sofrer recorrência de violência,
que permitiu determinar os passos a seguir nessa situação de abuso. Sobre as limitações
da pesquisa, pode-se dizer que a quantidade de fatores críticos usados foi limitada, não
variando-os entre análises nem aumentando o número deles. Ademais, considerando o in-
tervalo de anos dos dados, não foi levado em conta que os fatores de risco podem mudar
no tempo, o que tem uma implicação direta na validade do modelo final.
3.1.2 Técnicas de Classificação
O primeiro trabalho estudado sobre a predição da violência infantil através da
classificação de instâncias foi feito por Frank et al. (1992), onde tentaram determinar
diferenças em crianças hospitalizadas (entre as que sofrem ou não de violências). Além
disso, propuseram-se estabelecer a frequência da violência mediante dois caminhos: com
um reporte clínico que fazem os médicos e com um diagnóstico técnico feito com árvores
de decisão. A amostra no total foi de 749 crianças, das quais 114 apresentaram sintomas de
violência que foram classificados em três grupos: abuso físico, abuso sexual e negligência
física; sendo no total 12 diferentes sintomas (variáveis) usados para a análise. Sobre os
48 Capítulo 3. Revisão Bibliográfica
resultados, o reporte clínico determinou que 10 crianças foram violentadas e o diagnóstico
técnico 7, sendo somente 4 as que estiveram presentes nos dois grupos. No final, os médicos
definiram quais crianças estavam sendo abusadas e o procedimento de como trabalhar
com elas. Portanto, a análise feita com árvores de decisão não foi muito considerada pelos
especialistas, já que os resultados não eram parecidos aos deles. Essa pesquisa não teve
um resultado positivo no enfoque da modelagem matemática do problema. Acredita-se
que, semelhante ao estudo anterior (ALTEMEIER et al., 1984), não é um bom caminho
estabelecer que uma criança está sendo abusada com uma entrevista ou um diagnóstico
médico, já que os casos podem ser subjetivos ou podem não apresentar sintomas visíveis.
No trabalho realizado por Little e Nixon (1998) explorou-se a possibilidade da IA
contribuir aos serviços de risco em proteção infantil, sendo o problema definido “estimar
o nível de risco (baixo, médio ou alto) que tem as crianças que participam nos centros
de proteção”, e a hipótese “o uso de árvores de decisão melhora a estimativa do risco de
abuso que é feita por assistentes sociais”. Esta pesquisa foi realizada em conjunto com
um grupo de assistentes sociais que, antes de qualquer análise, tiveram que realizar três
tarefas. A primeira foi identificar quais são os fatores mais relevantes para determinar
o nível de risco, a segunda diz respeito a desenvolver uma escala que permita classificar
cada um dos fatores previamente encontrados e a terceira foi classificar cada um dos casos
utilizados para o estudo com a escala criada. Foram utilizados 20 estudos de caso com 8
diferentes fatores a avaliar (tipo de violência infantil, atitude dos cuidadores, capacidade
dos cuidadores, impacto no comportamento da criança, registros prévios de violência,
severidade da violência, vulnerabilidade da criança e grau de proximidade do agressor na
criança), além do classificador preditivo “nível de risco”. A Figura 4 apresenta o modelo
resultante que tem apenas 2 dos 8 fatores. Essa árvore fornece regras que permitem prever
ou refletir sobre o nível de risco que uma criança pode ter. Por exemplo, se “habilidade
do cuidador” e “atitudes do cuidador” forem negativas, o risco da criança ser agredida é
alto.
O primeiro elemento a notar sobre esse trabalho é que com um pequeno conjunto
de dados foi possível entregar um modelo que atenda ao objetivo de classificar o nível
de risco, além do fato de uma árvore de decisão garantir uma simplicidade em termos de
visualização e compreensão para qualquer pessoa que não seja especialista em conceitos de
IA. Porém, também pode ser considerado como um modelo ruim, principalmente porque
apresenta uma quantidade de dados pequena. Outro ponto a destacar é a dificuldade que
os assistentes sociais tiveram para definir a agressão com base nos níveis de risco dos
fatores, precisando transformar um conceito qualitativo em quantitativo.
O primeiro uso de redes neurais no problema da violência infantil foi feito por
Schwartz et al. (2004), tentando predizer quais crianças apresentam um “dano padrão”
(harm standard) com dados do Estudo Nacional de Incidência de Abuso e Negligência
3.1. Estudos Relacionados 49
Figura 4 – Árvore de decisão com 2 fatores de risco (LITTLE; RIXON, 1998).
Fonte: Adaptado de Little e Rixon (1998).
Infantil (National Incidence Study of Child Abuse and Neglect, NIS) dos Estados Uni-
dos, usando 1.767 registros. No início foram 30 variáveis as escolhidas. A partir do pré-
processamento de dados, principalmente da transformação de atributos categóricos em
binários, foram obtidos 141 variáveis no total. Os autores não especificam quais são os
fatores críticos usados, mas falam da variável preditora, um elemento binário que é re-
presentado por 0 quando não atinge os critérios de dano e 1 quando atinge. Somente foi
implementada uma rede neural do tipoMultiLayer Perceptron (MLP), que teve a seguinte
estrutura: 141 entradas, uma camada escondida com 71 neurônios e a camada de saída
com 1 neurônio. Essa última camada entrega um valor final entre 0 e 1, ou seja, a clas-
sificação propriamente dita: no intervalo [0,0;0.1] não há violência, entre ]0,1;0,9] não é
possível determiná-lo e entre ]0,9;1,0] há violência. O conjunto de treinamento fez uso de
65% dos dados totais. A precisão da rede sobre os dados de teste foi de 89,6% de acertos
com 64 casos classificados erroneamente, em que 48 foram considerados indeterminados.
No geral, a pesquisa foi muito simples (apenas um algoritmo com uma execução) e no
artigo não pode-se obter muitas informações sobre os dados usados, em especial dos fato-
res críticos. Os autores detalham que o ponto forte do trabalho foi ter empregado o NIS,
porém o mesmo não é replicável em todos os contextos ou para diferentes países.
No trabalho de Amrit et al. (2017), aborda-se o problema da predição da violência
50 Capítulo 3. Revisão Bibliográfica
infantil através da mineração de texto, o que implicou o uso de dados não estruturados
para realizar parte da análise, sendo este o seu problema de pesquisa. Assim, foi conside-
rada a hipótese de que “com um volume maior de dados, que não estão em um formato
estruturado, é possível obter melhores resultados na previsão do abuso infantil na aplica-
ção de técnicas de ML”. Eles usaram um conjunto de dados do departamento de saúde
da criança da Holanda, além de trabalhar com um grupo de profissionais dessa institui-
ção. Esta base de dados tem 195.188 consultas, com uma média 14,82 por criança, sendo
13.170 crianças classificadas como agredidas. Três algoritmos diferentes foram aplicados
e comparados: Naive Bayes (NB), Random Forest (RF) e SVM. Todos os algoritmos
são destinados à classificação de dados. Para os dois primeiros algoritmos foram usados
também as técnicas ANOVA e qui-quadrado para selecionar um conjunto de variáveis a
serem analisadas. Na validação dos resultados foi utilizada a técnica da AUC. Sobre os
dados usados, os estruturados correspondem a: caraterísticas da criança, relacionamento
familiar e presunções de violência. Em termos de dados não estruturados, foram consi-
deradas anotações médicas feitas por enfermeiros ou pediatras que registravam os dados
das crianças e da dinâmica familiar.
Depois de ajustar os três modelos, o algoritmo que obteve o melhor resultado foi o
SVM, com um valor de AUC de 0,906. Esse resultado foi ainda melhor utilizando dados
estruturados e não estruturados em conjunto, sendo a AUC de 0,914. Um destaque dessa
pesquisa foi a consideração de fatores como a quantidade de consultas que uma criança
pode ter e a extensão em palavras nos seus relatos, variáveis que poderiam prever melhor
se houve ou não uma violência.
Schwarts et al. (2017) tiveram um objetivo diferente, pensaram em melhorar a vali-
dação dos centros de proteção de crianças tanto na predição do risco como em determinar
qual serviço é o indicado para cada caso (ações judiciais, remover a criança da moradia,
incluir em algum programa, ou suporte familiar). O conjunto de dados foi formado por
78.394 casos com aproximadamente 150 variáveis relacionadas à violência. Os algoritmos
usados para gerar os modelos não são explicitados, somente afirma-se que foram utilizadas
técnicas de classificação (é possível ver no documento um par de árvores de decisão que
foram gerados e são usadas como exemplos); e a forma de validação foi através da curva
ROC. A análise foi dividida em 3 partes e em cada uma considerou-se uma pergunta de
pesquisa: (1) “qual é a probabilidade de que um reporte de violência infantil seja com-
provado durante o processo de investigação do caso?”, obtendo do modelo uma AUC de
0,87; (2) “qual é a probabilidade de que um caso não seja encaminhado ao serviço apro-
priado?”, sendo a AUC de 0,81; e (3) “qual serviço tem a maior probabilidade de impedir
que um caso novamente apresente violência infantil?”, para essa pergunta não utilizou-se
nenhuma técnica e estabeleceu-se que se os dois modelos anteriores forem implementados
em conjunto, as respostas em casos de violência infantil poderiam melhorar em até 30%.
3.1. Estudos Relacionados 51
No geral, o estudo apresenta bons resultados obtidos com os modelos de ML, além
de por o foco em determinar qual serviço é o indicado para cada caso (prescriptive analy-
sis), mas não detalha quais algoritmos foram utilizados ou como eles foram configurados,
ou quais variáveis consideraram-se para cada um.
3.1.3 Demais Técnicas
Vaithianathan et al. (2013) fizeram uma pesquisa em que não detalham informa-
ção sobre qual algoritmo usaram, somente mostram que foi implementado um modelo
preditivo de risco (Predictive Risk Model, PRM). Este trabalho teve como objetivo vali-
dar o desempenho desse mesmo modelo. Os dados usados foram obtidos dos centros de
proteção de crianças e, no total, tinha 103.397 registros com 57.986 crianças. Além disso, o
conjunto de dados era composto por 224 variáveis e usaram-se 132, as quais foram selecio-
nadas através de um procedimento de backward selection. Tais variáveis foram agrupadas
em 3 categorias: da criança, do cuidador principal e do seu casal. Sobre os algoritmos para
gerar os modelos, não é dito nada além de ter usado um PRM e que a técnica de validação
foi a curva ROC, usando 70% dos dados para treinamento e 30% para teste. O resultado
obtido foi de 0,76 de AUC, não estabelecendo se é um resultado bom ou ruim. Aliás,
são determinadas as probabilidades de que uma criança sofra violência para os grupos
com menor e maior risco, sendo 25 vezes mais para esse último grupo. Outro resultado
considerável é que o fator raça (ou grupo étnico) não contribui para o modelo final. Nesse
estudo é mostrada uma limitação muito importante, visto que os dados relacionados ao
contexto social não foram empregados nas análises.
Outro trabalho não convencional tentado aplicar uma técnica diferente com dados
que possam predizer a violência infantil foi o feito por Daley et al. (2016). Eles aplicaram
a Modelagem de Terreno de Risco (Risk Terrain Modeling, RTM), método que permite
determinar quais são os lugares com maior risco de acontecer algum fato que deseja-se
estudar em uma área estabelecida (CAPLAN; KENNEDY, 2011). Nesse caso, é o primeiro
estudo que tenta relacionar a probabilidade de que aconteça violência infantil em um lugar
específico, aplicando-o em uma cidade dos Estados Unidos. Os dados foram coletados de
diferentes centros públicos oficiais, com um total de 10 atributos. Por meio de um processo
de regressão foram escolhidos os 6 com maiores coeficientes (mais significativos): pobreza,
violência doméstica, agressões agravadas, fugitivos, assassinatos e delitos de drogas. Logo
após gerar o modelo, esse foi testado usando 5.391 novos casos de violência infantil nessa
mesma cidade, estabelecendo se estavam em uma zona de risco ou não, o que resultou em
uma precisão do 52% nas áreas de alto risco e 90% nas de menor risco, conforme mostrado
na Figura 5.
Pela natureza desse estudo, muitos fatores de risco comumente relacionados à
violência infantil ficaram fora da pesquisa, principalmente pelo fato de relacioná-los com
52 Capítulo 3. Revisão Bibliográfica
Figura 5 – Mapa da estimação do riscos de violência infantil: imagem da esquerda corres-
ponde à estimação para o ano de 2014 (baseada nos dados do ano 2013) e a imagem da
direita representa à estimação do ano de 2014 com os casos reais (pontos são levemente
distorcidos para manter a privacidade) (DALEY et al., 2016).
Fonte: Adaptado de Daley et al. (2016).
um ponto físico determinado da cidade. Além disso, para conseguir aplicar esse estudo
em outros lugares é necessário obter informação da localização de todas as variáveis que
possam predizer o abuso, fazendo com que não seja replicável em todos os contextos.
3.1.4 Análises Comparativas entre Distintos Modelos
Marshall e English (2000) propuseram dois objetivos: (1) explorar a utilidade das
redes neurais na análise de dados de ciências sociais com foco na avaliação de risco na
proteção infantil; e (2) comparar esses resultados com os obtidos por modelos de regressão.
Para realizar essa análise, foram utilizados os dados de um serviço de proteção da criança
dos Estados Unidos, que já possuía uma estrutura de dados que considerava os fatores de
risco. No total, esse conjunto possui 37 itens avaliados em uma escala de 0 até 5 pontos,
sumarizando para a pesquisa esses valores apenas em dois, entre 0 e 2 pontos e entre 3 e
5 pontos (valor binário). As variáveis utilizadas podem se agrupar em: caraterísticas da
criança e do cuidador, relação entre eles, severidade e cronicidade da violência infantil,
fatores econômicos e acesso do agressor à criança. Nesta investigação, foram utilizados
12.978 casos cadastrados nos centros de proteção de crianças, sendo que 21% (2.695)
possuem 3 ou mais pontos (alto risco). As técnicas usadas foram: regressão linear (SEBER;
LEE, 2012), regressão logística (HOSMER; LEMESHOW; STURDIVANT, 2013), e Rede
neural do tipo MLP (RUMELHART; HINTON; WILLIAMS, 1985).
O artigo conclui que a MLP supera ambas as regressões. Também é importante
ressaltar que a sensibilidade dos dados da MLP é maior. Portanto, com diferentes valores
3.1. Estudos Relacionados 53
de entrada haverá maior variação na saída, o que pode ser prejudicial para a previsão.
Mesmo obtendo estes resultados, precisa-se descartar que houveram problemas na deter-
minação da classificação de cada caso. Por exemplo, como saber quando o risco é baixo,
médio ou alto? Isso envolveu refletir sobre como abordar o problema. Na maioria dos
casos, trabalhou-se apenas com riscos baixos (entre 0 e 2 pontos) e altos (entre 3 e 5
pontos), limitando os possíveis resultados. Uma análise exaustiva foi feita com base na
MLP, modificando as características dos dados de entrada e estrutura do modelo para
obter conclusões diferentes, destacando a versatilidade deste tipo de técnica de predição.
Contudo, afirma-se que dependendo do problema, as estatísticas convencionais podem
obter os mesmos ou melhores resultados do que outras que derivam de IA.
A pesquisa realizada por Flaherty e Patterson (2003) visa desenvolver e treinar
uma rede neural bayesiana a partir de dados de violência infantil física por meio de
CV e comparar os resultados com um modelo alternativo obtido através do algoritmo
de regressão logística. As hipóteses foram: “um modelo de predição de rede neural será
significativamente melhor que um modelo de regressão logística para o mesmo conjunto
de variáveis” e “todas as variáveis do conjunto de dados permitirão predizer se houve
violência”. Este estudo foi realizado com os casos de agressão física em crianças de famílias
da força aérea dos Estados Unidos, sendo 5.612 instâncias no total, das quais 6,3% são
indicadas como violência física recorrente e o resto em uma ocasião. Além disso, 13 fatores
de risco presentes nos diferentes contextos que as crianças participam foram utilizados
para a análise, os quais podem ser agrupados em caraterísticas: da criança, dos pais e
agressor, do entorno e do tratamento. Para criar os modelos de regressão e rede neural
com quantidades equivalentes de resultados de saída para atos de violência recorrentes e
não recorrentes, uma amostragem aleatória de 492 registos foi feita, que corresponde a
70% do total de casos em que houve agressões mais de uma vez. Para validar a precisão
da classificação de ambos algoritmos foi utilizada a curva ROC.
Sobre os resultados, as áreas sob a curva ROC da rede neural e da regressão
logística foram de 0,644 e 0,650, respectivamente. Deve-se notar que muitas modificações
foram feitas na estrutura da rede neural, mas nenhuma obteve melhores resultados que a
regressão. As duas hipóteses propostas no início não poderiam ser validadas, pois apenas
4 fatores de risco são preditores de violência recorrente (raça da vítima, renda familiar,
fonte do encaminhamento inicial do caso e tempo que o caso permaneceu aberto após o
encaminhamento inicial) e o modelo da rede neural não obteve os melhores resultados.
Sledjeski et al. (2008) também fizeram uma análise comparativa entre modelos.
Neste caso, utilizaram regressão logística e Classification And Regression Tree (CART),
tendo como objetivo demostrar que esse último é um melhor preditor na recorrência de
violência. Para obter os dados, foram entrevistadas 244 famílias de um centro de proteção
de crianças nos Estados Unidos, destacando 24 atributos que estão relacionados com a
54 Capítulo 3. Revisão Bibliográfica
repetição da violência infantil, em que profissionais avaliaram cada um deles com um grau
de risco: nenhum, pouco, moderado ou alto. Os fatores de risco foram agrupados em: seve-
ridade da violência, caraterísticas da criança e do cuidador e influência da intervenção e do
entorno da criança. No estudo, primeiro foi feita uma análise bivariada (BABBIE, 2013)
de regressão logística tentando descobrir quais elementos eram os melhores preditores da
recorrência. Foram detectados 9 relevantes, sendo os 3 com maiores Odds Ratios (OR)
(RUDAS, 1998): histórico de violência, visibilidade da criança e relação pai-filho. Assim,
gerou-se um modelo multivariado de regressão logística, responsável por atingir 37% de
sensibilidade e 87% de especificidade. Posteriormente, foi feita a análise com a técnica
CART com todos os atributos, obtendo 88% e 36% de sensibilidade e especificidade, res-
pectivamente. Na sequência, realizou-se a mesma análise, mas apenas com os registros que
não eram casos provados como violência infantil (novas instâncias), tentando determinar
quais variáveis são mais significativas para esse conjunto de dados. Esses atributos foram:
plano ativo de tratamento do caso, histórico de violência e visibilidade da criança. Assim,
foi possível atingir uma sensibilidade de 87% e especificidade de 65%.
Comparado com a regressão logística, o algoritmo CART obteve uma melhor sen-
sibilidade sempre. Portanto, é possível estabelecer que a CART é um melhor preditor
nesse cenário. Alguns pontos fracos do trabalho que puderam repercutir nos resultados
são: (1) o conjunto de dados tinha poucos registros para fazer uma análise desse tipo; e
(2) a avaliação feita pelos profissionais no começo da pesquisa foi subjetiva (por exemplo,
um elemento talvez fosse classificado com risco moderado por alguém, mas outra pessoa
poderia classificar como alto).
Thurston e Miyamoto (2018) realizaram uma pesquisa de caso-controle (BORGAN
et al., 2018) tentando demostrar que árvores de decisão podem melhorar os resultados das
ferramentas que avaliam o risco de violência infantil, isso através de um trabalho feito com
crianças menores de 6 anos. A base de dados foi composta por 233 casos e 467 controle (700
registros no total). Somente foram considerados casos de violência graves, onde o resultado
possível é da criança ser hospitalizada ou ela morrer. O conjunto de variáveis total não
foi detalhado, mas sim os fatores de risco selecionados para gerar os modelos, escolhidos
através de análises univariada e bivariada, relacionando-os com a violência grave. Essas
variáveis foram: gênero da criança, número de crianças menores de 5 anos presentes na
família, idade da mãe, problemas de saúde dos cuidadores, se a criança recebe ajuda dos
serviços de proteção infantil, superlotação na moradia, violência doméstica prévia, prisão
de algum dos cuidadores por violência, se a criança tem seguro de saúde e porcentagem
de dias que a criança ficou em cuidados externos no período de interesse. Usou-se árvores
de decisão para gerar os modelos, podendo a variável de saída tomar os valores de caso
ou controle. Para a pesquisa considerou-se importante o nível de pobreza das famílias e
se elas apresentavam comprovações de violência anteriores, pelo que foi criado um modelo
para cada um desses elementos, além de detectar fatores de risco vinculados. O primeiro
3.1. Estudos Relacionados 55
resultado considerou a porcentagem de dias que a criança passou em cuidados externos
e se ela tinha seguro de saúde. Quando esse tempo foi maior que 2%, concluiu-se que
não existia relação entre pobreza e violência (OR de 0,72). Quando o tempo foi menor
que 2% e a criança não tinha o seguro de saúde, foi estabelecida a relação (OR de 1,97).
O segundo modelo (que relaciona comprovação de violência infantil com violência grave)
detectou os mesmos dois fatores de risco do primeiro, além de verificar que existe um
histórico prévio de violência infantil.
Assim, dois resultados relevantes puderam ser obtidos: (1) quando o tempo de
cuidado externo é maior que 2% não se estabelece a relação entre comprovação prévia de
violência infantil com violência grave (OR de 0,59); e (2) quando o tempo foi maior que
2% e existe histórico de violência infantil e a criança não apresenta seguro de saúde, ou
seja, há uma vinculação muito significativa entre a comprovação de violência infantil e
violência grave (OR de 2,97). Os dois modelos foram validados através da sensibilidade e
a especificidade, obtendo valores de 17%/90% e 71%/49%, respectivamente. Algumas das
relações dos fatores críticos encontradas são interessantes e não tinham sido estabelecidas
em pesquisas anteriores, como é o tempo que a criança passa em cuidados externos aos
da família e se tem seguro de saúde. Porém, o estudo não obteve resultados significativos.
A sensibilidade média dos modelos foi de 44% e a especificidade média de 70%.
Chouldechova et al. (2018) tentaram melhorar a ferramenta preditiva de um cen-
tro de proteção de crianças dos Estados Unidos que contava com um modelo de regressão
logística (HOSMER; LEMESHOW; STURDIVANT, 2013) que usava 71 variáveis diferen-
tes para predizer se uma notificação (recall) de violência infantil era de alto risco ou não.
Estimou-se que esse modelo estava superestimado por duas razões principais: (1) cons-
trução errada dos conjuntos de treinamento e de teste; e (2) fatores de risco escolhidos
sem considerar a relação deles com a violência infantil. Essa pesquisa utilizou o mesmo
conjunto de dados com o que foi feita a regressão logística anterior, composto por 46.503
registros e 800 variáveis. Os fatores de risco utilizados não são declarados no artigo mas
sim as categorias deles, sendo essas: demografia, bem-estar público, dados da prisão da
localidade e estado de saúde de todos os involucrados nas notificações. Foram gerados três
modelos diferentes para a predição: SVM, RF, e XGBoost (eXtreme Gradient Boosting)
(CHEN; GUESTRIN, 2016), validando-os através da AUC. A Tabela 2 apresenta os re-
sultados obtidos por essas técnicas, além da regressão logística feita anteriormente, onde
TP recall corresponde às notificações de alto risco verdadeiras (true positive recall) e FP
recall às notificações de alto risco falsas (false positive recall) classificadas pelos modelos.
Para as três colunas, os valores das técnicas aplicadas nesse estudo foram melhores que
os da regressão logística, sendo a melhor obtida por XGBoost. Porém, esse aumento não
é significativo, visto que uma sensibilidade de 0,61 não é considerada adequada para um
modelo de ML.
56 Capítulo 3. Revisão Bibliográfica
Tabela 2 – Desempenho dos algoritmos usados para predizer o risco de violência infantil
de uma notificação (CHOULDECHOVA et al., 2018).
Técnica AUC TP Recall FP Recall
Regressão Logística 0,70 0,49 0,21
SVM 0,77 0,57 0,20
Árvores de Decisão 0,77 0,58 0,20
XGBoost 0,80 0,61 0,19
Fonte: Chouldechova et al. (2018).
Os autores desse trabalho discutem dois assuntos muito importantes. O primeiro
é a possibilidade de somente usar técnicas de ML para a predição da violência infantil
quando um novo caso é recebido por algum centro de proteção de crianças (sem ajuda
de especialistas no tema), com o objetivo de melhorar a velocidade com que essas organi-
zações entregam respostas e fazem encaminhamentos. Sobre esse fato, os resultados das
pesquisas que envolvem violência infantil com ML não tem sido bastante precisas a ponto
de confiar unicamente nelas. O segundo assunto é o viés que podem ter os assistentes
que encarregam-se dos casos de violência infantil, nos quais a gravidade às vezes será de-
cidida somente pelo critério profissional dessa pessoa. Nessa pesquisa comprovou-se que
quando se avaliam crianças de diferentes etnias (especificamente cor de pele), existe uma
tendência a classificar com um maior risco os casos que envolvem famílias negras, sendo
que os demais fatores de risco para ambos grupos são os mesmos. Esse fato também é
estudado na pesquisa anterior (THURSTON; MIYAMOTO, 2018), em que determinou-se
que quando o nome do investigador que está levando o caso de violência infantil é conhe-
cido, a precisão do modelo aumenta, o que reflete uma falta de seriedade por parte dos
assistentes.
3.2 Resumo dos Aspectos Relevantes dos Trabalhos Relacionados
Após analisar todas as pesquisas relacionadas com a predição de violência infan-
til através de ML para projetar uma investigação completa, é necessário sumarizar as
principais características que definem um estudo dessa natureza. Esses elementos são:
objetivo, tamanho da amostra usada, principais fatores (variáveis) usados, técnicas para
gerar e validar os modelos, além de destacar os principais resultados obtidos nos trabalhos
estudados. Todas essas informações dos artigos são resumidas na Tabela 3 e na Tabela 4.
Além da informação anterior, podem-se destacar algumas estatísticas gerais con-
siderando todas as investigações revisadas, essas são:
• Considerando todos os trabalhos, a média de registros usados é de 24.955;
3.2. Resumo dos Aspectos Relevantes dos Trabalhos Relacionados 57
Tabela 3 – Resumo de artigos sobre trabalhos relacionados.
A
ut
or
es
O
bj
et
iv
o
do
Es
tu
do
Ta
m
an
ho
da
A
m
os
tr
a
C
at
eg
or
ia
s
do
s
Fa
to
re
s
da
V
io
lê
nc
ia
U
sa
do
s
Té
cn
.d
e
M
od
el
ag
em
e
Va
lid
aç
ão
R
es
ul
ta
do
s
G
er
ai
s
A
lte
rm
ei
er
et
al
.
(1
98
4)
Pr
ed
iz
er
a
vi
ol
ên
ci
a
em
fu
tu
ro
s
fil
ho
s
de
m
ul
he
re
s
gr
áv
id
as
.
1.
40
0
m
ul
he
re
s
gr
áv
id
as
.
Sa
úd
e
da
cr
ia
nç
a
e
da
m
ãe
,a
po
io
ex
-
te
rn
o,
at
itu
de
fre
nt
e
à
gr
av
id
ez
,e
co
n-
su
m
o
de
su
bs
tâ
nc
ia
s
(2
0
no
to
ta
l).
R
eg
re
ss
ão
hi
er
ár
-
qu
ic
a;
an
ál
ise
de
co
rr
el
aç
ão
.
Se
en
co
nt
ra
ra
m
al
gu
ns
fa
to
re
sd
e
ris
co
re
-
la
ci
on
ad
os
à
vi
ol
ên
ci
a,
m
as
ne
nh
um
co
m
um
va
lo
r
sig
ni
fic
at
iv
o.
Fr
an
k
et
al
.(
19
92
).
Pr
ed
iz
er
a
vi
ol
ên
ci
a
em
cr
ia
nç
as
ho
sp
ita
liz
ad
as
.
74
9
cr
ia
nç
as
,1
14
co
m
sin
to
m
as
de
vi
ol
ên
ci
a.
Si
nt
om
as
de
ab
us
o
fís
ic
o
(6
),
de
ab
us
o
se
xu
al
(4
),
e
ne
gl
ig
ên
ci
a
(2
).
Á
rv
or
e
de
de
ci
sã
o
e
es
tu
do
cl
ín
ic
o;
an
ál
ise
de
se
ns
ib
ili
da
de
.
A
pr
ec
isã
o
do
es
tu
do
cl
ín
ic
o
fo
i
m
el
ho
r,
im
pl
ic
an
do
qu
e
o
m
od
el
o
de
ár
vo
re
de
de
-
ci
sã
o
nã
o
fo
ss
e
co
ns
id
er
a
no
fin
al
.
Bu
rr
el
et
al
.(
19
94
).
(1
)
D
et
er
m
in
ar
re
la
çõ
es
en
tr
e
a
vi
ol
ên
ci
a
ee
st
re
ss
ep
ar
en
ta
l,
e(
2)
en
te
nd
er
se
a
vi
ol
ên
ci
a
éd
ife
re
nt
e
em
fa
m
íli
as
co
m
cr
ia
nç
as
co
m
ne
-
ce
ss
id
ad
es
es
pe
ci
ai
s.
11
3
m
ãe
s,
53
de
cr
ia
nç
as
co
m
ne
-
ce
ss
id
ad
es
es
pe
-
ci
ai
s.
En
qu
et
es
re
la
ci
on
ad
as
a:
vi
ol
ên
ci
a,
es
-
tr
es
se
pa
re
nt
al
,p
er
ce
pç
ão
do
sr
ec
ur
so
s,
e
ap
oi
o
so
ci
al
.
A
ná
lis
e
de
re
gr
es
sã
o;
an
ál
ise
de
co
rr
el
aç
ão
.
D
et
er
m
in
ou
-s
ea
re
la
çã
o
sig
ni
fic
at
iv
a
en
tr
e
o
es
tr
es
se
pa
re
nt
al
e
a
vi
ol
ên
ci
a,
m
as
nã
o
ho
uv
er
am
di
fe
re
nç
as
en
tr
e
os
do
is
gr
up
os
de
fa
m
íli
as
.
R
od
rig
ue
z
e
G
re
en
(1
99
7)
.
R
el
ac
io
na
ro
es
tr
es
se
pa
re
nt
al
ea
ex
pr
es
sã
o
de
ra
iv
a
co
m
a
vi
ol
ên
-
ci
a.
12
3
pa
is
(d
iv
i-
di
do
s
em
du
as
am
os
tr
as
).
En
qu
et
es
re
la
ci
on
ad
as
a:
vi
ol
ên
ci
a,
es
-
tr
es
se
pa
re
nt
al
,e
ex
pr
es
sã
o
de
ra
iv
a.
R
eg
re
ss
ão
hi
er
ár
-
qu
ic
a;
an
ál
ise
de
co
rr
el
aç
ão
.
M
od
el
o
re
la
ci
on
a
as
du
as
va
riá
ve
is
co
m
a
vi
ol
ên
ci
a
co
m
um
a
al
ta
co
rr
el
aç
ão
(R
>
0,
8)
,m
as
nã
o
pe
rm
ite
te
ra
ce
rt
ez
a
de
qu
e
ho
uv
e
ag
re
ss
ão
(r
es
ul
ta
do
s
da
C
A
PI
po
de
m
nã
o
se
r
ve
rd
ad
ei
ro
s)
.
Li
tt
le
e
N
ix
on
(1
99
8)
.
Pr
ed
iz
er
o
ní
ve
l
de
ris
co
da
vi
-
ol
ên
ci
a
da
s
cr
ia
nç
as
qu
e
re
sid
em
em
ce
nt
ro
s
de
pr
ot
eç
ão
.
20
cr
ia
nç
as
.
C
ar
at
er
íst
ic
as
da
vi
ol
ên
ci
a
re
ce
bi
do
,
do
s
cu
id
ad
or
es
,
e
do
im
pa
ct
o
na
cr
i-
an
ça
.
Á
rv
or
e
de
de
ci
sã
o;
nã
o
ho
uv
e
va
lid
aç
ão
do
m
od
el
o.
Á
rv
or
e
qu
e
pr
ed
iz
e
o
ní
ve
ld
o
ris
co
,m
as
fo
ig
er
ad
o
ap
en
as
co
m
20
re
gi
st
ro
s
e
nã
o
te
ve
va
lid
aç
ão
.
D
eP
an
fil
is
e
Zu
ra
vi
n
(1
99
9)
.
Pr
ed
iz
er
a
re
co
rr
ên
ci
a
da
vi
ol
ên
-
ci
a.
44
6
m
ãe
s.
C
ol
oc
aç
ão
da
cr
ia
nç
a,
in
fo
rm
aç
õe
s
da
vi
ol
ên
ci
a,
vu
ln
er
ab
ili
da
de
da
cr
ia
nç
a,
do
cu
id
ad
or
,e
st
re
ss
e
fa
m
ili
ar
,e
ca
ra
c-
te
rís
tic
as
da
m
or
ad
ia
(1
0
no
to
ta
l).
R
eg
re
ss
ão
de
C
ox
;
log
-li
ke
lih
oo
d
ra
tio
.
M
od
el
o
de
su
pe
rv
iv
ên
ci
a
co
m
va
riá
ve
is
ve
m
de
fin
id
as
(V
PI
e
su
po
rt
e
so
ci
al
).
M
ar
sh
al
l
e
En
gl
ish
(2
00
0)
.
Pr
ed
iz
er
o
ris
co
da
vi
ol
ên
ci
a
co
m
re
de
sn
eu
ra
is
e
co
m
pa
ra
re
ss
e
re
-
su
lta
do
s
co
m
re
gr
es
sõ
es
.
12
.9
78
re
gi
st
ro
s
de
ce
nt
ro
s
de
pr
ot
eç
ão
de
cr
ia
nç
as
.
C
ar
at
er
íst
ic
as
da
cr
ia
nç
a
ed
o
cu
id
ad
or
,
re
la
çã
o
en
tr
e
el
es
,s
ev
er
id
ad
e
e
cr
on
ic
i-
da
de
da
vi
ol
ên
ci
a,
e
fa
to
re
se
co
nô
m
ic
os
(3
7
no
to
ta
l).
R
eg
re
ss
ão
lin
ea
r,
re
-
gr
es
sã
o
lo
gí
st
ic
a,
e
M
LP
;a
ná
lis
e
de
se
n-
sib
ili
da
de
.
Pr
ec
isã
o
de
um
79
%
pa
ra
M
LP
,e
de
87
%
pa
ra
re
gr
es
sã
o
lo
gí
st
ic
a,
us
an
do
5
e
27
fa
-
to
re
s
de
ris
co
re
sp
et
iv
am
en
te
.
Sc
hw
ar
tz
et
al
.
(2
00
4)
.
Pr
ed
iz
er
qu
ai
s
cr
ia
nç
as
ap
re
se
n-
ta
m
“d
an
o
pa
dr
ão
”
da
vi
ol
ên
ci
a.
1.
76
7
re
gi
st
ro
s
de
es
tu
do
so
br
e
vi
ol
ên
ci
a.
N
ão
é
de
ta
lh
ad
o
o
co
nj
un
to
de
fa
to
re
s
cr
íti
co
s;
so
m
en
te
fa
la
-s
es
ob
re
a
va
riá
ve
l
bi
ná
ria
de
pe
nd
en
te
,1
se
at
in
ge
m
-s
e
os
cr
ité
rio
s
e
0
se
nã
o.
M
LP
;a
ná
lis
e
de
se
n-
sib
ili
da
de
.
R
ed
e
ne
ur
al
co
m
pr
ec
isã
o
de
qu
as
e
90
%
,
m
as
us
an
do
um
co
nj
un
to
de
da
do
s
qu
e
nã
o
po
de
se
r
ob
tid
o
em
ou
tr
os
co
nt
ex
to
s
(N
IS
).
Fl
ah
er
ty
e
Pa
tt
er
so
n
(2
00
3)
.
D
et
er
m
in
ar
se
re
de
s
ne
ur
ai
s
te
m
m
el
ho
re
s
re
su
lta
do
s
qu
e
re
gr
es
-
sã
o
lo
gí
st
ic
a
na
pr
ed
iç
ão
da
vi
-
ol
ên
ci
a.
5.
61
2
cr
ia
nç
as
.
C
ar
at
er
íst
ic
as
da
cr
ia
nç
a,
do
s
pa
is,
do
ag
re
ss
or
,d
o
en
to
rn
o,
e
do
tr
at
am
en
to
(1
3
no
to
ta
l).
R
ed
e
ne
ur
al
ba
ye
si-
an
a
e
re
gr
es
sã
o
lo
gí
s-
tic
a;
an
ál
ise
de
se
ns
i-
bi
lid
ad
e
e
A
U
C
.
R
.l
og
íst
ic
a
te
ve
m
el
ho
re
s
re
su
lta
do
s
qu
e
R
.n
eu
ra
is;
ap
en
as
4
fa
to
re
sf
or
am
sig
ni
fi-
ca
nt
es
(r
aç
a
da
cr
ia
nç
a,
re
nd
a
fa
m
ili
ar
,e
in
ic
io
e
te
m
po
tr
an
sc
or
rid
o
do
ca
so
).
Sl
ed
je
sk
ie
t
al
.(
20
08
).
D
et
er
m
in
ar
se
C
A
RT
te
m
m
el
ho
-
re
s
re
su
lta
do
s
na
pr
ed
iç
ão
da
re
-
co
rr
ên
ci
a
da
vi
ol
ên
ci
a
qu
er
eg
re
s-
sã
o
lo
gí
st
ic
a.
24
4
fa
m
íli
as
de
um
ce
nt
ro
s
de
pr
ot
eç
ão
de
cr
i-
an
ça
s.
Se
ve
rid
ad
e
da
vi
ol
ên
ci
a,
ca
ra
te
rís
tic
as
da
cr
ia
nç
a
ed
o
cu
id
ad
or
,e
in
flu
en
ci
a
da
in
te
rv
en
çã
o
da
vi
ol
ên
ci
a
e
do
en
to
rn
o
da
cr
ia
nç
a
(1
2
no
to
ta
l).
C
A
RT
e
re
gr
es
sã
o
lo
-
gí
st
ic
a;
an
ál
ise
de
se
n-
sib
ili
da
de
.
C
A
RT
ob
te
ve
m
el
ho
re
s
re
su
lta
do
s
em
to
-
da
s
as
an
ál
ise
s
fe
ita
s
co
m
um
al
ta
se
ns
i-
bi
lid
ad
e.
O
fa
to
r“
vi
sib
ili
da
de
da
cr
ia
nç
a”
fo
ib
em
re
la
ci
on
ad
o
à
vi
ol
ên
ci
a.
Fonte: Elaborado pelo autor.
58 Capítulo 3. Revisão Bibliográfica
Tabela 4 – Continuação de resumo de artigos sobre trabalhos relacionados.
A
ut
or
es
O
bj
et
iv
o
do
Es
tu
do
Ta
m
an
ho
da
A
m
os
tr
a
C
at
eg
or
ia
s
do
s
Fa
to
re
s
da
V
io
lê
nc
ia
U
sa
do
s
Té
cn
.d
e
M
od
el
ag
em
e
Va
lid
aç
ão
R
es
ul
ta
do
s
G
er
ai
s
Be
gl
e
et
al
.
(2
01
0)
.
Va
lid
ar
em
pi
ric
am
en
te
m
od
el
os
te
ór
ic
os
da
vi
ol
ên
ci
a.
61
0
cu
id
ad
or
es
.
C
ar
at
er
íst
ic
as
da
cr
ia
nç
a,
do
s
cu
id
ad
o-
re
s,
do
se
u
re
la
ci
on
am
en
to
,d
a
fa
m
íli
a,
e
do
en
to
rn
o.
R
eg
re
ss
ão
lin
ea
r;
va
-
lo
r
qu
i-q
ua
dr
ad
o
e
an
ál
ise
de
co
rr
el
aç
ão
.
So
m
en
te
o
m
od
el
o
de
ris
co
ac
um
ul
ad
o
te
ve
um
a
pr
ec
isã
o
al
ta
ao
co
m
pa
ra
rc
om
da
do
s.
D
ub
ow
itz
et
al
.(
20
11
).
Id
en
tifi
ca
r
fa
to
re
s
de
ris
co
em
fa
m
íli
as
de
ba
ix
a
re
nd
a
e
pr
ed
iz
er
a
vi
ol
ên
ci
a.
22
4
m
ãe
s.
C
ar
at
er
íst
ic
as
da
cr
ia
nç
as
,d
a
m
ãe
s,
da
fa
m
íli
a,
e
da
co
m
un
id
ad
e.
A
ná
lis
e
bi
va
ria
da
,r
e-
gr
es
sã
o
de
C
ox
;v
al
or
qu
i-q
ua
dr
ad
o.
C
ria
çã
o
de
m
od
el
o
de
su
pe
rv
iv
ên
ci
a
da
vi
-
ol
ên
ci
a
(p
er
ec
er
qu
an
do
há
),
e
id
en
tifi
ca
-
çã
o
de
fa
to
re
s
de
ris
co
im
po
rt
an
te
s.
Va
ith
ia
na
th
an
et
al
.(
20
13
).
Va
lid
ar
a
pe
rfo
rm
an
ce
de
um
m
od
el
o
pr
ed
iti
vo
de
ris
co
(P
R
M
).
10
3.
39
7
re
gi
s-
tr
os
,
57
.9
86
cr
ia
nç
as
.
C
ar
at
er
íst
ic
as
da
cr
ia
nç
a,
do
cu
id
ad
or
pr
in
ci
pa
l,
e
do
se
u
ca
sa
l.
PR
M
(n
ão
es
pe
ci
fi-
ca
do
);
cu
rv
a
RO
C
e
A
U
C
.
O
m
od
el
o
ob
te
ve
um
a
pr
ec
isã
o
de
76
%
,
m
as
nã
o
é
di
to
qu
al
fo
iu
sa
do
na
an
ál
ise
.
D
et
er
m
in
a-
se
qu
e
o
fa
to
r
“r
aç
a”
nã
o
es
tá
re
la
ci
on
ad
o
co
m
a
vi
ol
ên
ci
a.
H
or
ik
aw
a
et
al
.(
20
16
).
Pr
ed
iz
er
a
pr
im
ei
ra
re
co
r-
rê
nc
ia
de
vi
ol
ên
ci
a
co
m
da
-
do
s
go
ve
rn
am
en
ta
is.
71
6
ca
so
s
(u
so
u-
se
bo
ot
s-
tra
pp
in
g
pa
ra
ac
re
sc
en
ta
r
a
am
os
tr
a)
.
Id
ad
e
da
cr
ia
nç
a
e
do
ag
re
ss
or
,h
ist
ó-
ric
o
de
vi
ol
ên
ci
a
do
ag
re
ss
or
,
es
ta
bi
li-
da
de
fin
an
ce
ira
na
m
or
ad
ia
,
pr
es
en
ci
a
de
vi
gi
la
ss
e
à
vi
tim
a,
e
a
fo
nt
e
de
in
fo
r-
m
aç
ão
do
ca
so
.
R
eg
re
ss
ão
lo
gí
st
ic
a;
cu
rv
a
RO
C
e
A
U
C
.
D
es
em
pe
nh
o
do
m
od
el
o
nã
o
fo
ia
lto
(A
U
C
de
0,
66
),
al
ém
de
qu
e
po
uc
os
fa
to
re
s
de
ris
co
fo
ra
m
us
ad
os
e
nã
o
co
ns
id
er
ou
-s
e
o
fa
to
da
va
ria
çã
o
de
le
s
ao
pa
ss
ar
o
te
m
po
.
D
al
ey
et
al
.
(2
01
6)
.
D
et
er
m
in
ar
qu
ai
ss
ão
os
lu
-
ga
re
s
co
m
m
ai
or
ris
co
de
vi
ol
ên
ci
a
at
ra
vé
s
de
RT
M
.
N
ão
é
de
ta
-
lh
ad
o.
C
ar
at
er
íst
ic
as
de
um
a
lo
ca
lid
ad
e
es
-
pe
cí
fic
a:
po
br
ez
a,
vi
ol
ên
ci
a
do
m
és
tic
a,
ag
re
ss
õe
s
ag
ra
va
da
s,
fu
gi
tiv
os
,a
ss
as
si-
no
s
e
de
lit
os
de
dr
og
as
.
RT
M
;
an
al
iso
u-
se
a
pr
ec
isã
o
at
ra
vé
s
de
no
vo
s
ca
so
s.
G
er
ou
-s
e
um
m
od
el
o
qu
e
pe
rm
ite
vi
su
al
-
m
en
te
ve
r
qu
ai
s
pa
rt
es
de
um
a
lo
ca
lid
ad
e
ap
re
se
nt
am
m
ai
or
ris
co
de
vi
ol
ên
ci
a,
m
as
di
fic
ilm
en
te
po
de
se
r
re
pl
ic
ad
o
em
ou
tr
os
lu
ga
re
s
(fo
nt
e
de
da
do
s
ún
ic
a)
.
A
m
rit
et
al
.
(2
01
7)
.
Pr
ed
iç
ão
da
vi
ol
ên
ci
a
at
ra
-
vé
s
de
m
in
er
aç
ão
de
te
xt
o.
19
5.
18
8
co
ns
ul
-
ta
s,
13
.1
70
cr
i-
an
ça
s.
Es
tr
ut
ur
ad
os
:c
ar
at
er
íst
ic
as
da
cr
ia
nç
a,
re
la
ci
on
am
en
to
fa
m
ili
ar
,
e
pr
es
un
çõ
es
de
vi
ol
ên
ci
a.
N
ão
es
tr
ut
ur
ad
os
:
da
do
s
da
cr
ia
nç
a
e
da
di
nâ
m
ic
a
fa
m
ili
ar
.
N
B,
R
F,
e
SV
M
;
A
N
O
VA
ea
ná
lis
eq
ui
-
qu
ad
ra
do
,c
ur
va
RO
C
e
A
U
C
.
M
od
el
os
pe
rm
ite
m
o
us
o
de
da
do
se
st
ru
tu
-
ra
do
s
e
nã
o
es
tr
ut
ur
ad
os
,l
og
ra
nd
o
re
su
l-
ta
do
s
da
pr
ed
iç
ão
al
to
s
(A
U
C
>
0,
9
pa
ra
SV
M
).
Sc
hw
ar
ts
et
al
.(
20
17
).
M
el
ho
ra
r
a
va
lid
aç
ão
do
s
ce
nt
ro
s
de
pr
ot
eç
ão
,t
an
to
na
pr
ed
iç
ão
da
vi
ol
ên
ci
a
co
m
o
no
en
ca
m
in
ha
m
en
to
s
do
s
ca
so
s.
78
.3
94
ca
so
s.
M
ai
s
de
15
0
va
riá
ve
is,
nã
o
de
ta
lh
an
do
in
fo
rm
aç
ão
de
la
s
al
ém
do
no
m
e.
Á
rv
or
es
de
de
ci
sã
o;
cu
rv
a
RO
C
e
A
U
C
.
O
s
m
od
el
os
co
ns
eg
ue
m
bo
ns
re
su
lta
do
s,
m
as
nã
o
é
de
ta
lh
ad
o
qu
e
té
cn
ic
as
de
M
L
fo
ra
m
us
ad
as
e
as
co
nfi
gu
ra
çõ
es
de
la
s,
ne
m
qu
e
fa
to
re
sd
e
ris
co
ut
ili
zo
u
ca
da
um
.
T
hu
rs
to
n
e
M
iy
am
ot
o
(2
01
8)
.
D
em
os
tr
ar
qu
e
ár
vo
re
s
de
de
ci
sã
o
m
el
ho
ra
m
as
fe
r-
ra
m
en
ta
s
qu
e
av
al
ia
m
o
ris
co
de
vi
ol
ên
ci
a
en
tr
e-
ga
nd
o
m
ai
s
in
fo
rm
aç
ão
.
70
0
re
gi
st
ro
sd
e
ca
so
-c
on
tr
ol
e.
C
ar
at
er
íst
ic
as
da
cr
ia
nç
a,
do
s
cu
id
ad
o-
re
s,
se
ho
uv
e
vi
ol
ên
ci
a
pr
év
ia
no
gr
up
o
fa
m
ili
ar
,e
an
te
ce
de
nt
es
de
lit
ua
is
na
fa
-
m
íli
a.
A
ná
lis
e
m
ul
tiv
ar
ia
do
e
ár
vo
re
s
de
de
ci
sã
o;
an
ál
ise
de
se
ns
ib
ili
-
da
de
.
Pr
ec
isã
o
do
sm
od
el
os
nã
o
éa
lta
,n
ão
se
nd
o
ad
eq
ua
do
sp
ar
a
pr
ed
iz
er
a
vi
ol
ên
ci
a
gr
av
e.
Fa
to
re
s
de
ris
co
co
m
o
co
nt
ar
co
m
se
gu
ro
de
sa
úd
e
e
o
te
m
po
em
cu
id
ad
os
ex
te
rn
os
nã
o
tin
ha
m
sid
o
es
tu
da
do
s
an
te
s.
C
ho
ul
de
ch
ov
a
et
al
.(
20
18
).
M
el
ho
ra
r
fe
rr
am
en
ta
pr
e-
di
tiv
a
da
vi
ol
ên
ci
a
de
um
ce
nt
ro
s
de
pr
ot
eç
ão
de
cr
i-
an
ça
s.
46
.5
03
re
gi
s-
tr
os
.
C
ar
at
er
íst
ic
as
de
m
og
rá
fic
as
,b
em
-e
st
ar
pú
bl
ic
o,
da
do
s
da
pr
isã
o
da
lo
ca
lid
ad
e,
e
es
ta
do
de
sa
úd
e
de
to
do
s
os
in
vo
lu
-
cr
ad
os
na
s
no
tifi
ca
çõ
es
de
vi
ol
ên
ci
a.
SV
M
,
R
F,
e
XG
Bo
-
os
t;
cu
rv
a
RO
C
e
A
U
C
.
M
el
ho
ra
na
pr
ec
isã
o
em
co
m
pa
ra
çã
o
a
m
od
el
os
an
te
rio
re
s,
m
as
nã
o
sig
ni
fic
at
i-
va
m
en
te
.I
nt
er
es
sa
nt
e
de
sc
ob
er
ta
so
br
e
o
vi
és
do
st
ra
ba
lh
ad
or
es
ao
co
le
ta
ri
nf
or
m
a-
çã
o
do
s
ca
so
s
de
vi
ol
ên
ci
a.
Fonte: Elaborado pelo autor.
3.3. Posicionamento da Presente Pesquisa 59
• A quantidade de variáveis para gerar os modelos é muito desigual entre estudos,
portanto não é possível determinar um número padrão de fatores de risco e de
proteção;
• Sobre o assunto dos dados usados, 63% dos artigos utilizaram informações da cri-
ança, 58% do entorno, 53% da família, 37% dos cuidadores, 16% do perpetrador, e
11% do tratamento para a violência infantil;
• Sobre as técnicas implementadas, 53% dos trabalhos utilizaram algum tipo de re-
gressão, 37% alguma variação de árvore de decisão, 16% algum tipo de rede neural,
11% SVM, e 21% outras técnicas (PRM, RTM, NB, e XGBoost);
• Sobre as técnicas de validação, 58% das pesquisas usaram análise de sensibilidade
para validar os modelos, e 32% ainda adicionou o cálculo da AUC. Além disso, 21%
utilizou uma análise de correlação entre os fatores de risco e a violência infantil;
• Os desempenhos dos modelos variam entre 50% e 90%, portanto que não existe um
padrão de resultados esperados na predição da violência infantil através de ML.
3.3 Posicionamento da Presente Pesquisa
Da mesma forma que as outras pesquisas estudadas, esse trabalho tenta ajudar
na melhora da predição da violência infantil através de análises de dados com técnicas
computacionais. Porém, nessa investigação propõem-se três principais diferenças: (1) até
agora não existem registros de trabalhos feitos dessa problemática na América Latina
e o Caribe e, portanto, qualquer avanço em países dessa zona são estudos nunca antes
realizados; (2) o fato de aplicar técnicas descritivas (sobre dados não supervisionados)
também não tinha sido feito anteriormente; e (3) a aplicação de técnicas de ML sobre um
conjunto de dados relacionado ao fenômeno da polivitimização.
Como foi descrito na seção 1.4, esse trabalho tem base em dois conjuntos de dados
diferentes, um supervisionado e outro não supervisionado. O primeiro obteve-se através
de um centro de proteção de crianças e tem 9.771 instâncias com 30 atributos diferentes
relacionados com: a criança e a sua situação escolar, sua família, se tem vinculação com
alguma instituição de ajuda e a agressão sofrida (se a criança experimentou violência, o
tipo de violência, e quem é o principal agressor). O segundo conjunto corresponde aos
resultados da aplicação da primeira enquete sobre polivitimização em crianças e adoles-
centes no Chile, que foi obtido do portal de dados livres, Centro de Estudios y Análisis del
Delito4 (CEAD) do governo desse país. Esse segundo conjunto possui 19.684 registros com
avaliações de presença de 32 tipos diferentes de violência (vitimizações). Para cada uma
4 http://cead.spd.gov.cl
60 Capítulo 3. Revisão Bibliográfica
perguntou-se se tinha acontecido no último ano e na vida toda (64 atributos no total).
Ademais, foram coletados alguns dados da criança e do seu entorno.
Considerando a natureza dos dados, precisaram ser usadas diferentes técnicas para
poder trabalhar com ambos conjuntos. Para os registros supervisionados foi escolhido o
algoritmo C4.5 (QUINLAN, 1993) e para os não supervisionados o algoritmo Apriori
(AGRAWAL; IMIELIŃSKI; SWAMI, 1993). Os dois algoritmos foram selecionados com
base no fato de que entregam regras simples como modelo de predição e descrição, respec-
tivamente. Sobre os seguintes passos dessa pesquisa, no Capítulo 4 é definida a exploração
e pré-processamento dos dados, além das configurações usadas para os algoritmos e quais
foram os experimentos feitos, continuando no Capítulo 5 com a apresentação dos resulta-
dos e a sua respectiva análise.
61
4 Metodologia Proposta
Como foi visto nos capítulos anteriores, para desenvolver uma investigação de ML
precisa-se de um conjunto de dados com o qual gerar os modelos. Ademais, é necessário
um entendimento completo do problema de pesquisa e das variáveis disponíveis, o que
permite determinar da melhor forma quais tipos de análises são possíveis de realizar e
quais técnicas podem ser aplicadas.
Nesse capítulo será exposto o processo que permite obter os resultados dos modelos
preditivos da violência infantil, detalhando cada uma das etapas realizadas. A Figura 6
apresenta todas essas fases com os principais elementos de cada uma, as quais foram
aplicadas para os dois conjuntos de dados utilizados.
Figura 6 – Etapas e fluxo que compõem a metodologia utilizada.
Fonte: Elaborado pelo autor.
A primeira etapa consiste na obtenção dos dados necessários para realizar um
estudo desse tipo, sendo um modelo supervisionado e outro não supervisionado. Ademais,
precisou-se compreender completamente a estrutura e quais deveriam ser as análises feitas
para cada modelo. Entendendo qual seria a abordagem de trabalho sobre cada conjunto de
62 Capítulo 4. Metodologia Proposta
dados, foi necessário realizar a tarefa de pré-processamento para adequar os dados, sendo
baseada em: correção e transformação de dados, eliminação de registros, amostragem,
entre outras. Posteriormente, foi feita a seleção de atributos com a finalidade de escolher
apenas os atributos que poderiam ser relevantes para a análise. Essa etapa foi aplicada
somente para o conjunto supervisionado, o que explica o fluxo alternativo da etapa 2
da Figura 6. Em seguida, foram treinados os modelos para obter a maior quantidade
de resultados possíveis e poder compará-los, o que realizou-se na fase de validação dos
modelos. Por último, a metodologia conclui com a análise dos resultados.
A seguir, cada uma das seções desse capítulo corresponde a uma das fases de-
senvolvidas na investigação, detalhando os principais aspectos de cada uma. As etapas
3, 4 e 5 somente apresentam as configurações das técnicas de seleção, modelagem e de
validação respectivamente, deixando os resultados para o seguinte capítulo. É importante
mencionar também que a ferramenta utilizada para a geração e validação dos modelos
foi o Waikato Environment for Knowledge Analysis 3.8 (WEKA)1, principalmente por ter
disponível todos os algoritmos necessários para essa pesquisa.
4.1 Obtenção e Exploração dos Dados
Essa fase corresponde à obtenção dos dados necessários para o estudo, bem como
descobrir quais são as principais caraterísticas de cada conjunto de dados. Foram obtidas
duas coleções de dados diferentes: uma composta por registros armazenados por um centro
de proteção de crianças do Chile e outra correspondente às respostas de uma enquete sobre
polivitimização aplicada em crianças e adolescentes desse mesmo país. As duas subseções
seguintes apresentam o desenvolvimento dessa primeira etapa.
4.1.1 Centro de Proteção de Crianças
Um dos centros de proteção de crianças que existe no Chile, equivalente a um Or-
ganismo Colaborador Acreditado (OCA) do governo desse país (instituições encarregadas
do cuidado e tratamento de crianças e adolescentes que sofrem de violações de direitos
ou apresentam problemas delituais), considerou interessante esse projeto e se dispôs a
entregar uma parte dos registros sobre crianças que participaram dos programas que essa
organização realiza.
O conjunto de dados fornecido para a pesquisa é composto por 9.771 registros e
possui 30 variáveis diferentes, sendo essas:
1. Ano (numérica) – ano em que o caso foi atendido;
1 www.cs.waikato.ac.nz/ml/index.html
4.1. Obtenção e Exploração dos Dados 63
2. Zona (categórica) – setor do Chile ao qual pertence a criança (norte, centro ou sul);
3. Linha de Intervenção (categórico) – motivo pelo qual a criança participa na organi-
zação (educativo, justiça, proteção de direitos, ou tratamento de drogas);
4. Nome do projeto (categórico) – nome do projeto que participa a criança (mais de
90 projetos diferentes);
5. Idade (numérica) – quantidade de anos da criança;
6. Sexo (categórica) – sexo da criança (masculino ou feminino);
7. Nacionalidade (categórica) – país de origem da criança (7 diferentes países);
8. Região (categórica) – estado no qual mora a criança (11 diferentes estados);
9. Etnia (categórica) – grupo étnico ao qual pertence a criança (9 diferentes etnias);
10. Apresenta necessidades especiais (binária) – se a criança tem alguma necessidade
especial;
11. Zona na qual mora (categórica) – tipo de espaço no qual a criança mora (rural ou
urbano);
12. Superlotação (binária) – se existe superlotação na moradia da criança;
13. Situação socioeconômica (categórica) – estado de pobreza da criança (não pobreza,
pobreza ou pobreza extrema);
14. Tipo de família (categórica) – composição da família da criança (8 tipos diferentes);
15. Número de filhos (numérica) – quantidade de filhos que tem a criança;
16. Adulto responsável (categórica) – pessoa maior que é responsável pela criança (7
possíveis pessoas);
17. Número de programas de proteção nos quais tem participado (numérica) – quanti-
dade de programas de proteção infantil que a criança já participou;
18. Vinculação com redes comunitárias (binária) – se a criança teve ou tem alguma
vinculação com organizações comunitárias;
19. Vinculação com redes institucionais (binária) – se a criança teve ou tem alguma
vinculação com organizações institucionais;
20. Último ano aprovado (categórica) – último ano de escola aprovado pela criança (16
diferentes níveis);
64 Capítulo 4. Metodologia Proposta
21. Situação escolar atual (categórica) – estado dos estudos da criança no momento de
registrar ela na organização (6 possíveis estados);
22. Apresentou saída escolar (binária) – se a criança tem deixou os estudos em algum
momento;
23. Repetência (binária) – se a criança repetiu algum ano da escola;
24. Projeções educacionais (categórica) – pretensões sobre educação da criança para ela
mesma (7 diferentes projeções);
25. Socialização em rua (binária) – se a criança adquiriu hábitos sociais e culturais em
ambientes de rua;
26. Apresenta consumo de substâncias (binária) – se a criança consome algum tipo de
substância;
27. Tem cometido delitos (binária) – se a criança cometeu algum delito;
28. Sofreu violência (binária) – se a criança tem sofreu algum tipo de violência;
29. Tipo de violência (categórica) – tipos de violência que a criança pode ter sofrido
(15 tipos diferentes); e
30. Principal agressor (categórica) – agressor da violência na criança (8 possibilidades).
Para ter uma melhor noção conceitual dos fatores de violência e também para
poder compará-los com os dos estudos relacionados, os atributos do conjunto de dados
foram agrupados nas categorias mencionadas na revisão feita no Capítulo 3:
• Da criança – idade, sexo, nacionalidade, etnia, e apresenta necessidades especiais;
• Da família – zona, região, zona na que mora, superlotação, situação socioeconômica,
tipo de família, número de filhos e adulto responsável;
• Do entorno – ano, linha de intervenção, nome do projeto, número de programas de
proteção nos que tem participado, vinculação com redes comunitárias e vinculação
com redes institucionais;
• Escolares da criança – último ano aprovado, situação escolar atual, apresentou saída
escolar, repetência e projeções educacionais; e
• Violência que tem sofrido a criança – socialização (ou permanência) em rua, apre-
senta consumo de substâncias, tem cometido delitos, sofreu violência, tipo de vio-
lência e principal agressor.
4.1. Obtenção e Exploração dos Dados 65
Ao fazer uma exploração inicial dos dados, percebeu-se que todos os registros de
crianças menores de 13 anos têm o valor sim no atributo preditor sofreu violência. Desse
modo, decidiu-se dividir o conjunto de dados em dois: um com os casos entre 0 e 12 anos
e outro com as crianças de 13 ou mais anos. Portanto, para o primeiro subconjunto não
foi possível predizer se uma criança sofreu violência, porém sim o tipo de violência e o
principal agressor.
4.1.2 Questionário sobre Polivitimização
O segundo conjunto de dados corresponde à Primeira Enquete Nacional de Poli-
vitimização em Crianças e Adolescentes (SUBSECRETARÍA DE PREVENCIÓN DEL
DELITO, 2018) aplicada no Chile, que foi baseada no JVQ (FINKELHOR et al., 2005).
Este questionário Avalia 32 tipos de vitimizações de forma binária (se aconteceu ou não
esse tipo de violência), as quais foram categorizadas em 6 grupos.
• Crimes Comuns (CC) – Roubo sem uso da força (CC1), roubo com uso da força
(CC2), estragar algum elemento pessoal intencionalmente (CC3), ameaça ou per-
cepção de dano (CC4), ataque físico com objetos (CC5), ataque físico sem objetos
(CC6) e ameaça por alguma característica própria (CC7).
• Efetuadas pelos Cuidadores (Cuidadores) – Ofender-se por insulto de um adulto
próximo (Cuidadores1), ataque físico por um adulto próximo (Cuidadores2), sentir-
se mal por descuido de adultos com quem vive (Cuidadores3) e mantido afastado
ou escondido de seu pai ou mãe (Cuidadores4).
• Efetuadas pelos Pares (Pares) – Ataque físico de uma criança ou adolescente (Pa-
res1), ataque físico de um grupo de crianças ou adolescentes (Pares2), sentir-se mal
por insulto de um grupo de crianças ou adolescentes (Pares3), imposição para fazer
coisas que não se querem (Pares4) e ataque físico do cônjuge (Pares5).
• Sexuais – Práticas sexuais com pessoas maiores de 18 anos de idade com consenti-
mento (Sexuais1), ofender-se por bullying sexual não feito através da internet (Sexu-
ais2), forçado a olhar para partes íntimas pela força ou surpresa (Sexuais3), forçado
a fazer coisas de natureza sexual por uma criança ou adolescente (Sexuais4), tocado
ou tentativa de toque de partes íntimas por um adulto estranho (Sexuais5), tocado
ou tentativa de toque de partes íntimas por um adulto conhecido (Sexuais6) e tento
ou participação de relações sexuais sem o seu próprio consentimento (Sexuais7).
• Indiretas – Presenciar roubo em casa (Indiretas1), presenciar violência (Indiretas2),
presenciar discriminação (Indiretas3), presenciar ataque físico sem armas (Indire-
tas4), presenciar ataque físico com armas (Indiretas5), presenciar ataques físicos
66 Capítulo 4. Metodologia Proposta
entre seus próprios cuidadores (Indiretas6) e testemunhar agressões físicas dos pais
a irmãos (Indiretas7).
• Digitais – Cyberbulling (Digitais1) e assédio sexual na internet (Digitais2).
Para todas as vitimizações foi perguntado se aconteceu alguma vez na vida e du-
rante os últimos 12 meses (sim ou não para as duas temporalidades). Para essa última
questão também foi perguntado a quantidade de vezes, tendo como respostas: nunca, 1
vez, 2 ou 3 vezes, ao menos uma vez por mês, ao menos 1 vez por semana, ou todos os
dias. Além dos tipos de violência, o questionário avaliou o estado de autoestima e depres-
são através da Escala de Autoestima de Rosenberg (Rosenberg Self-Esteem Scale, RSES)
(ROSENBERG, 1965) e a Escala de Autoavaliação de Depressão de Birleson (Depression
Self-Rating Scale, DSRS) (BIRLESON, 1981) respectivamente, ambas adaptadas ao con-
texto do Chile. Também foram coletados alguns dados demográficos das crianças e das
suas famílias.
Sobre a amostra, foram no total 19.867 crianças de 699 escolas dos 2 últimos anos
do ensino fundamental e dos 3 primeiros do ensino médio, abarcando todo o território do
Chile. Browne et al. (2018) fizeram um estudo multivariado sobre esse conjunto de dados,
encontrando basicamente correlações entre os tipos de vitimizações e alguns aspectos
psicológicos das crianças, mas não foi feita nenhuma análise preditiva nem descritiva.
4.2 Pré-processamento de Dados
A segunda etapa da metodologia foi a realização de diferentes tarefas de pré-
processamento necessárias para aplicar os algoritmos selecionados sobre os conjuntos de
dados de forma adequada. Essa etapa foi realizada para ambas as coleções de dados,
porém houve maior trabalho no processamento dos registros do centro de proteção.
4.2.1 Conjunto de Dados Utilizado para Método Supervisionado
A princípio, buscou-se preencher os campos vazios (missing data) e corrigir algumas
inconsistências, isso utilizando a informação que entregou o centro de proteção, além de
simples suposições geradas a partir do mesmo conjunto de dados. Essas ações foram:
1. Nos registros com superlotação = sim, preencheu-se o valor de situação socioeconô-
mica = pobreza (38 elementos);
2. Registros em que a situação escolar atual = retirada da escola, preencheu-se a saída
escolar = sim (105 elementos);
4.2. Pré-processamento de Dados 67
3. Nos registros com apresentou saída escolar = sim, preencheu-se o valor de repetência
= sim (524 elementos);
4. Nos registros que em situação escolar atual = retirada da escola, preencheu-se o
valor de projeções educacionais = não (206 elementos);
5. Nos registros com valor de intervenção = tratamento de drogas, preencheu-se o valor
de apresenta consumo de substâncias = sim (56 elementos);
6. Nos registros com valor de intervenção = justiça juvenil, preencheu-se o valor de
cometido delitos = sim (114 elementos);
7. Nos registros com valor de intervenção = proteção de direitos, preencheu-se o valor
de sofreu violência = sim (272 elementos);
8. Nos registros com valor de tipo de violência ̸= vazio ou não, preencheu-se o valor
de sofreu violência = sim (23 elementos);
9. Nos registros com valor de sofreu violência = não, preencheu-se o valor de tipo de
violência = não (1.389 elementos);
10. Nos registros com valor de sofreu violência = não, preencheu-se o valor de principal
agressor = não (1.612 elementos).
Na sequência, foram realizadas algumas transformações no conjunto de dados,
principalmente modificações de tipos e agregação de valores nos atributos.
1. Na variável nacionalidade, somente 2,4% dos valores não corresponde a chileno.
Portanto, foi trocado o nome do atributo para chileno e transformou-se o atributo
em binário (sim se a criança é chilena e não se tem outra nacionalidade).
2. O mesmo procedimento foi feito com a variável etnia, em que somente tinha 7,4% de
valores com alguma categoria indígena. Assim, trocou-se o nome do atributo para
indígena e transformou-o em binário (sim se a criança é de alguma etnia indígena
e não se não é).
3. Os atributos vinculação com redes comunitárias e vinculação com redes institucio-
nais foram unificados em apenas um de natureza binária chamado vinculação com
redes (sim se a criança já participou de redes e não se nunca participou ou tem
participado), o que considerou-se fazer já que não tem relevância o fato de ser uma
rede comunitária ou institucional.
4. Criou-se um novo atributo do tipo de violência, porém com valores agregados. Fo-
ram consideradas as quatro categorias de violência infantil definidas no Capítulo 2:
68 Capítulo 4. Metodologia Proposta
violência física e psicológica, abuso sexual e negligência como possíveis valores; atri-
buindo cada um dos tipos de abuso originais do conjunto alguma dessas categorias
agrupadas.
Ademais, foram eliminados os atributos que não têm valor para a análise da pre-
dição da violência infantil através de ML. O primeiro foi o ano de ingresso, pois saber
quando a criança entrou no centro não entrega informações relevantes, além de que ape-
nas tinham-se três diferentes anos; o segundo é a linha de intervenção, pois não entrega
informação da violência explicitamente e informações sobre consumo de substâncias e
atos criminosos foram recuperadas na primeira etapa do pré-processamento; o terceiro
foi o nome do projeto, pois descreve principalmente a cidade onde se executa os dife-
rentes atendimentos às crianças; e a vinculação com redes comunitárias e institucionais
foram eliminadas depois de unificá-las no atributo vinculação com redes. Posteriormente
eliminaram-se instâncias com valores vazios. Foram descartados os registros sem valor em
tipo de violência (1.154 no total), pois não permitiriam fazer a categorização da violência.
Ademais, foram eliminadas todas as instâncias que tivessem vazios mais de 3 atributos,
sendo essas um total de 668. Também considerou-se que as variáveis idade e sexo não
podem ter elementos em branco, eliminando 9 instâncias.
Após esse pré-processamento, a quantidade de atributos e registros resultantes foi
de 27 e 7.940, respectivamente, o que corresponde ao 81,26% da amostra inicial. É impor-
tante mencionar que essa totalidade de instâncias varia em relação ao momento de fazer a
análise a depender do que se busca predizer. Por exemplo, quando se interessa determinar
o tipo de violência, são excluídas todas as instâncias que não apresentam violência, o que
diminui o tamanho da amostra. Outra consideração foi o desequilíbrio das quantidades
de valores das variáveis preditoras (o que em alguns casos é significativo), motivo que
implicou realizar a tarefas de amostragem, tanto oversampling como undersampling, para
balancear a quantidade de classes, sempre baseado na que tinha menos registros. Essa
última técnica aplicou-se através do método SMOTE (Synthetic Minority Over-sampling
TEchnique) (CHAWLA et al., 2002) incorporado na ferramenta WEKA. Os resultados
podem ser revisados na Tabela 5 da seção 5.1.
4.2.2 Conjuntos de Dados Utilizado para Método Não Supervisionado
Para esse conjunto de dados foram aplicadas duas tarefas de pré-processamento,
uma de eliminação de atributos e registros, e outra de agregação de valores.
Sobre a eliminação de dados, primeiro foram descartadas todas as variáveis que
não eram referentes às vitimizações, isso porque não têm o formato que permite aplicar
regras de associação sobre esses elementos, deixando 64 atributos no total (32 vitimiza-
ções avaliadas em vida e ano). Na sequência, eliminaram-se todos os registros que não
4.3. Seleção de Atributos 69
apresentavam alguma resposta sobre as vitimizações sofredas em vida e ano, restando no
total 14.700 instâncias.
A segunda tarefa foi criar duas agregações diferentes das vitimizações baseadas
nos tipos de violência, isso pelo grande número de atributos que se tinha. Primeiro, foram
consideradas as mesmas seis categorias que a enquete inicial define para classificar as
diferentes violências estabelecidas na subseção 4.1.2. A segunda agregação feita considerou
os tipos de violência gerais definidos no Capítulo 2: violência física e psicológica, abuso
sexual, e negligência. A rotulação feita dos atributos foi:
• Violência Física: CC2, CC5, CC6, CC7, Cuidadores2, Pares1, Pares2, e Pares5;
• Violência Psicológica: CC1, CC3, CC4, Cuidadores1, Pares3, Pares4, Sexuais2, In-
diretas6, Indiretas7, Digitais1, e Digitais2;
• Abuso Sexual: Sexuais1, Sexuais3, Sexuais4, Sexuais5, Sexuais6, e Sexuais7; e
• Negligência: Cuidadores3, Cuidadores4, Indiretas1, Indiretas2, Indiretas3, Indire-
tas4, e Indiretas5.
Assim, os novos conjuntos de dados têm 6 e 4 atributos respetivamente, sendo todos
valores binários que possibilitam a utilização do algoritmo Apriori, mantendo para todos
os conjuntos a mesma quantidade de registros (14.700).
4.3 Seleção de Atributos
Essa fase implica apenas em selecionar alguns atributos da coleção inicial para oti-
mizar tanto o procedimento de treinamento dos modelos, como os resultados dos mesmos.
Nesse caso, considerando a quantidade de atributos que conformavam ambos os conjuntos
do estudo, estimou-se fazer a etapa de seleção de atributos principalmente com a finali-
dade de melhorar o desempenho dos modelos e os resultados em geral. Porém, fazer esse
processo sobre as variáveis da coleção de polivitimização implicaria em dar uma maior
importância a alguns tipos de violência que outros, o que não permitiria uma análise
adequada. Portanto, a seleção de atributos apenas foi aplicada sobre o conjunto todo
do centro de proteção de crianças. Fizeram-se três tipos diferentes de seleção de variá-
veis, através de um método de filtro, outro wrapper, e um último baseado na informação
entregado pelo estado da arte.
• Método de Filtro – Utilizou-se o algoritmo de correlação de atributos do WEKA
(CorrelationAttributeEval), que determina a dependência de todas as variáveis com
o elemento que interessa ser predito, escolhendo as 5 mais relacionadas para fazer a
análise.
70 Capítulo 4. Metodologia Proposta
• MétodoWrapper – Foi usado o algoritmoWrapperSubsetEval do WEKA, escolhendo
o método J48 (equivalente ao C4.5) para obter os subconjuntos de dados. Ademais,
os atributos foram escolhidos através de um processo forward selection, que implica
que começou-se com um conjunto vazio de variáveis e em cada iteração do algoritmo
adicionou-se um elemento até que o desempenho de classificação do modelo não
melhorasse.
• Baseado no Estado da Arte – Consideraram-se a maioria das variáveis obtidas, não
utilizando apenas as que nunca foram mencionadas nos artigos que compõem o es-
tado da arte, que são: nacionalidade (chileno), zona, região, último ano aprovado e
projeções educacionais. Para esse caso sempre foram considerados os mesmos atri-
butos para gerar o modelo nas diferentes execuções realizadas do algoritmo C4.5.
É importante lembrar que se têm três atributos preditores nesse conjunto de dados
(se a criança sofreu violência, tipo de violência e principal agressor). Portanto, foram
aplicados os três tipos de seleção de atributo para cada uma dessas variáveis, ademais
de uma execução sem seleção de atributos como detalha a Figura 6. Consequentemente,
tiveram-se quatro saídas diferentes nessa parte do trabalho.
4.4 Geração de Modelos
Essa etapa corresponde ao treinamento dos modelos que permitem fazer as pre-
dições da violência infantil. A criação desses foi feita de maneira separada para cada um
dos conjuntos de dados. Ainda que ambos estejam vinculados ao mesmo problema, a con-
formação de um em relação ao outro é muito diferente, isso principalmente pelos tipos de
dados e abordagem que cada coleção tem (problema supervisionado e não supervisionado
respectivamente).
4.4.1 Algoritmo C4.5 – Classificação
Como foi discutido no Capítulo 2, para criar o modelo preditor do conjunto de
dados do centro de proteção utilizou-se o algoritmo C4.5, o que permite encontrar regras
que satisfazem os atributos para classificar um fenômeno em particular. Essa técnica na
ferramenta WEKA representa-se pelo módulo J48.
O algoritmo foi configurado de três formas diferentes para testar o seu desempenho:
com a configuração padrão do WEKA, limitando o tamanho da árvore resultante, e sem
limitá-lo. Os elementos considerados para as diferentes configurações são: a quantidade
mínima de instâncias por nó folha (minNumObj) e se a árvore é podada ou não (unpruned).
Essas configurações são sumarizadas na sequência:
4.5. Validação de Resultados 71
• Configuração Padrão – Não foram alterados os valores iniciais do algoritmo que a
ferramenta tem por defeto, sendo esses: dois elementos para minNumObj e com a
poda da árvore habilitada;
• Limitando o Tamanho da Árvore – Essa configuração foi aplicada para obter uma
árvore pequena e simples de interpretar, tentando manter o desempenho de uma
árvore maior. Os valores foram de 100 para minNumObj e com a poda habilitada;
• Sem Limitações no Tamanho da Árvore – Tentando melhorar o desempenho do
modelo, foi aplicada essa configuração (uma maior árvore terá um maior ajuste
sobre os dados), com minNumObj igual a 2 e sem a poda da árvore habilitada.
4.4.2 Algoritmo Apriori – Regras de Associação
Da mesma forma que para a análise supervisionada, para gerar as regras de as-
sociação utilizou-se a ferramenta WEKA 3.8, mas aplicando o algoritmo Apriori. Sobre
as execuções realizadas, todas foram feitas com a mesma configuração, com valores mí-
nimos para o suporte e a confiança de 0,05 e 0,75, respectivamente. Com isso, buscou-se
conseguir um número relativamente elevado de regras para cada uma das 6 execuções do
algoritmo (3 diferentes agrupações para os dados correspondentes às vitimizações vida e
ano), visto que um suporte baixo permite considerar regras das quais seus antecedentes
não têm muita presença no conjunto de dados total (nesse caso, regras com 5% de presença
ou mais são válidas) e uma confiança elevada permite validar a taxa de acompanhamento
do consequente (como mínimo terá que ter 75% de presença). No caso que esses valores
gerem uma quantidade excessiva de regras, sempre será possível selecionar apenas as que
apresentem melhores resultados nas métricas de avaliação.
4.5 Validação de Resultados
Nessa etapa da metodologia busca-se avaliar os modelos treinados anteriormente
com o objetivo de estabelecer se são ou não adequados para a tarefa de predição da violên-
cia infantil. Considerando o trabalho separado que foi feito para cada um dos conjuntos
de dados, a validação dos resultados também tem que ser feita em duas partes, princi-
palmente porque modelos de classificação e de regras de associação não são avaliados da
mesma forma.
4.5.1 Modelo de Classificação
Conforme exposto no Capítulo 2, existem variadas técnicas para validar modelos
gerados por técnicas supervisionadas, as que são aplicáveis ao algoritmo C4.5 de árvores de
decisão (ROKACH; MAIMON, 2008). Utilizou-se k-fold CV, o que permite criar diferentes
72 Capítulo 4. Metodologia Proposta
subconjuntos de treinamento e teste a partir da coleção inicial, para assim gerar uma
árvore para cada um e validar o desempenho da predição desses modelos (KOHAVI et
al., 1995). Para esta parte da análise usou-se um k de 10 (quantidade de subconjuntos).
Para avaliar o modelo resultante do processo de CV, consideraram-se as métricas:
predição, sensibilidade e especificidade. Todas elas foram geradas através dos valores TP,
FP, TN, e FN que classificou o modelo. A partir desses elementos, são calculadas as AUC
ROC e PR, permitindo determinar, de uma maneira mais objetiva, a qualidade do modelo.
Finalmente, estimou-se a MH das duas AUC para obter apenas um valor para medir a
qualidade dos modelos de classificação.
4.5.2 Modelo de Regras de Associação
No processo de avaliação de uma regra de associação podem ser consideradas as
duas métricas que permitem criá-las, o suporte e a confiança. Como foi discutido no
Capítulo 2, o suporte corresponde à taxa de presença do conjunto antecedente da regra
sobre todos os registros, procurando assim um valor elevado. Da mesma forma busca-se
uma confiança significativa, o que reflete em que o consequente estará presente baseado
no antecedente com uma alta probabilidade. Portanto, é esperado que ambos valores
sejam próximos a 1. Ademais de usar o suporte e a confiança para avaliar as regras,
utilizaram-se as métricas definidas na subseção 2.2.4.2: lift, leverage, e conviction. Por
meio delas buscou-se apenas manter as que através de uma avaliação matemática tiveram
desempenhos ótimos, e não conservar um grande número de regras de associação que
puderam não ser representativas do conjunto de dados.
73
5 Resultados e Discussões
Esse capítulo apresenta os resultados conseguidos para os diferentes ajustes descri-
tos na subseção 4.4.1 e na subseção 4.4.2 dos algoritmos C4.5 e Apriori respectivamente.
Para expor os resultados e a análise feita, as duas seções que seguem irão detalhar esses
aspectos para cada uma das coleções de dados utilizadas.
5.1 Centro de Proteção de Crianças
Como foi detalhado no capítulo anterior, consideraram-se diferentes elementos para
determinar as variações das execuções do algoritmo J48 do WEKA sobre os dados do
centro de proteção. A Figura 7 agrupa todos esses detalhando também o fluxo para
encontrar os diferentes inputs da ferramenta.
Figura 7 – Fluxograma da metodologia proposta à tarefa de classificação, o que dividi-se
em dois caminhos com conjuntos de dados diferentes.
Fonte: Elaborado pelo autor.
Cabe relembrar que a coleção inicial de dados foi dividida em duas, uma com os re-
74 Capítulo 5. Resultados e Discussões
gistros de crianças de 12 ou menos anos e outra com os maiores que essa idade. Para ambos
os subconjuntos foram feitas as tarefas de: escolher um atributo preditor, tendo a segunda
coleção um a mais (todas as crianças com 12 anos ou menos sim apresentavam violência);
amostragem de dados tentando balancear a quantidade de classes; selecionar as variáveis
relevantes baseado em diferentes considerações; e aplicar as diferentes configurações para
executar o software. Portanto, foram 48 execuções para o primeiro subconjunto e 72 para
o segundo (120 diferentes resultados no total). A Tabela 5 apresenta esses resultados, dos
quais são detalhados os valores obtidos para: a porcentagem de acertos (%), a MH das
AUC ROC e PR, e o tamanho da árvore em quantidade de nós (nós folha/nós totais). O
número no final da descrição de cada conjunto (na coluna atributo preditor) corresponde
à quantidade de classes desse mesmo, e o que aparece na coluna amostragem ao total de
registros resultantes depois de aplicar as técnicas de oversampling e undersampling.
Nota-se que o tamanho da maioria dos modelos é consideravelmente grande, por-
tanto apresentar todos em formato gráfico não é pertinente nesse documento. Porém, para
exemplificar os resultados a Figura 8 descreve uma árvore menor (11 nós no total, com
taxa de acertos de 81,3%, e MH de 0,79) na predição de presença de violência com a
configuração: sem amostragem, método de filtro na seleção de atributos e sem limites no
seu tamanho. Ademais, na seção A.1 do Apêndice A pode ser visto o menor modelo (em
formato de regra) obtido para cada um dos 5 atributos preditores analisados.
Para compreender como essa árvore faz a classificação de um caso, precisa-se seguir
o fluxo que tem. A primeira regra especifica se a criança teve socialização em rua ou não.
Caso o valor é sim, automaticamente o modelo classifica o registro como um possível caso
de apresentar vulneração com uma taxa de 91,5% (o primeiro número que aparece entre
parêntesis corresponde aos casos classificados corretamente e o segundo aos errados). Caso
contrário, precisa ser aplicada a próxima regra, se tem cometido delito ou não, e novamente
as respostas podem ser sim ou não. Se não tem cometido delito é classificado como sim
(90,0%). Para o fluxo da esquerda (tem cometido delitos = sim), avalia-se o número de
programas nos que participou a criança: se esse valor é maior a 0 a resposta do modelo
é positiva (77,0%), caso contrario precisa ser avaliado se a criança teve vinculação com
redes de apoio. Quando esse atributo toma o valor não, o caso é classificado negativamente
(76,9%), e se é sim vai ser avaliado o valor de superlotação. Quando a criança não possui
essa caraterística, o caso não apresenta violência (71,1%), e quando sua moradia sim
possui superlotação classifica-se com sim (67,1%).
Retomando os resultados apresentados na Tabela 5, dos cinco diferentes atributos
preditores que a compõem, os dois primeiros correspondem aos registros de crianças que
têm 12 ou menos anos (tipo de violência e principal agressor) e os três seguintes aos de
crianças de mais de 12 anos (presença de violência, tipo de violência e principal agressor).
Portanto, não é possível comparar os resultados obtidos entre esses atributos. Porém,
5.1. Centro de Proteção de Crianças 75
Tabela 5 – Resultados obtidos ao aplicar três configurações distintas do algoritmo J48 aos
diferentes conjuntos de dados, especificando o número de classes e registros de cada um e
destacando os melhores resultados para cada atributo preditor.
C
on
ju
nt
os
de
D
ad
os
C
on
fig
ur
aç
ão
e
M
ét
ric
as
de
Av
al
ia
çã
o
A
tr
ib
ut
o
Pr
ed
ito
r
A
m
os
tr
ag
em
Se
le
çã
o
de
A
tr
ib
ut
os
Pa
dr
ão
Ta
m
an
ho
da
Á
rv
or
e
Li
m
ita
do
Ta
m
an
ho
da
Á
rv
or
e
Ili
m
ita
do
%
M
H
N
ós
%
M
H
N
ós
%
M
H
N
ós
T
ip
o
de
V
i-
ol
ên
ci
a
co
m
R
eg
ist
ro
s
de
C
ria
nç
as
de
12
ou
m
en
os
an
os
(4
)
Se
m
A
m
os
-
tr
ag
em
(1
.3
75
)
Se
m
Se
le
çã
o
53
,9
8
0,
60
6
27
5/
36
9
45
,6
0
0,
51
2
16
/1
9
51
,4
9
0,
59
92
9/
11
43
M
ét
od
o
de
Fi
ltr
o
41
,6
7
0,
47
4
52
/7
7
39
,8
5
0,
43
5
8/
10
39
,8
5
0,
48
5
84
/1
28
M
ét
od
o
W
ra
pp
er
55
,1
3
0,
62
7
97
/1
48
46
,0
4
0,
51
6
16
/1
9
54
,8
4
0,
63
15
7/
23
9
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
44
,3
6
0,
50
4
17
4/
27
4
40
,2
2
0,
45
8
17
/2
1
42
,5
5
0,
5
42
6/
67
2
C
om
A
m
os
-
tr
ag
em
(1
.8
16
)
Se
m
Se
le
çã
o
59
,6
9
0,
66
9
43
0/
56
8
45
,3
7
0,
51
5
18
/2
4
61
,0
1
0,
66
4
88
7/
11
19
M
ét
od
o
de
Fi
ltr
o
43
,6
7
0,
52
2
38
/5
2
39
,5
9
0,
47
5
11
/1
5
44
,3
8
0,
53
1
88
/1
20
M
ét
od
o
W
ra
pp
er
60
,3
5
0,
66
3
34
3/
50
4
45
,3
7
0,
51
5
18
/2
4
60
,9
0
0,
67
6
64
7/
89
5
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
51
,6
0
0,
56
7
30
4/
47
2
42
,5
1
0,
48
1
17
/2
2
50
,8
3
0,
57
3
47
4/
73
3
Pr
in
ci
pa
l
A
gr
es
so
r
co
m
R
e-
gi
st
ro
s
de
C
ria
nç
as
de
12
ou
m
en
os
an
os
(6
)
Se
m
A
m
os
-
tr
ag
em
(1
.2
05
)
Se
m
Se
le
çã
o
38
,0
1
0,
44
35
6/
47
0
33
,3
6
0,
36
5
9/
10
36
,6
8
0,
42
9
81
6/
10
23
M
ét
od
o
de
Fi
ltr
o
37
,5
9
0,
42
5
54
/7
5
34
,1
1
0,
35
9
9/
10
38
,6
7
0,
43
7
77
/1
11
M
ét
od
o
W
ra
pp
er
41
,8
3
0,
48
3
11
8/
18
1
34
,1
1
0,
35
9
9/
10
40
,7
5
0,
49
3
18
1/
28
4
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
33
,7
8
0,
40
8
21
9/
35
9
34
,1
9
0,
36
4
15
/1
8
32
,1
2
0,
4
38
4/
62
9
C
om
A
m
os
-
tr
ag
em
(1
.1
88
)
Se
m
Se
le
çã
o
45
,4
5
0,
50
1
40
6/
53
6
33
,8
4
0,
38
9
17
/2
0
45
,3
7
0,
50
1
75
7/
95
8
M
ét
od
o
de
Fi
ltr
o
35
,6
1
0,
41
8
47
/6
1
33
,0
0
0,
35
3
10
/1
2
33
,7
5
0,
42
2
63
/8
7
M
ét
od
o
W
ra
pp
er
47
,3
1
0,
51
6
42
2/
54
2
33
,8
4
0,
38
9
17
/2
0
46
,5
5
0,
51
1
78
7/
97
8
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
39
,6
5
0,
44
6
21
5/
37
1
29
,5
5
0,
35
4
18
/2
3
38
,8
1
0,
43
8
31
6/
54
5
A
pr
es
en
ta
V
io
lê
nc
ia
co
m
R
e-
gi
st
ro
s
de
C
ria
nç
as
M
ai
or
es
de
12
an
os
(2
)
Se
m
A
m
os
-
tr
ag
em
(6
.4
42
)
Se
m
Se
le
çã
o
86
,5
2
0,
86
2
25
8/
34
8
84
,6
4
0,
85
6
30
/4
0
85
,2
2
0,
85
20
70
/2
48
4
M
ét
od
o
de
Fi
ltr
o
81
,4
6
0,
78
6
4/
7
81
,4
6
0,
78
6
4/
7
81
,2
9
0,
79
1
6/
11
M
ét
od
o
W
ra
pp
er
86
,7
6
0,
86
7
12
6/
17
1
84
,6
1
0,
85
5
26
/3
3
86
,2
0
0,
89
4
84
7/
11
04
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
82
,3
8
0,
82
6
15
4/
23
1
82
,0
9
0,
83
1
15
/2
5
80
,7
9
0,
82
13
05
/1
79
9
C
om
A
m
os
-
tr
ag
em
(6
.2
12
)
Se
m
Se
le
çã
o
86
,9
1
0,
89
2
29
4/
39
3
81
,0
7
0,
87
9
28
/3
8
85
,9
3
0,
88
3
20
74
/2
48
0
M
ét
od
o
de
Fi
ltr
o
79
,4
1
0,
80
9
10
/1
9
78
,0
6
0,
80
5
6/
11
79
,4
4
0,
81
1
16
/3
1
M
ét
od
o
W
ra
pp
er
86
,9
3
0,
89
4
26
3/
35
0
81
,2
3
0,
88
1
35
/4
6
86
,2
7
0,
88
2
18
75
/2
23
2
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
81
,7
3
0,
83
21
7/
32
9
79
,0
4
0,
82
6
17
/2
7
81
,0
9
0,
85
1
12
77
/1
81
1
T
ip
o
de
V
i-
ol
ên
ci
a
co
m
R
eg
ist
ro
s
de
C
ria
nç
as
M
ai
or
es
de
12
an
os
(4
)
Se
m
A
m
os
-
tr
ag
em
(4
.9
99
)
Se
m
Se
le
çã
o
74
,9
0
0,
63
20
5/
26
7
74
.5
4
0,
61
2
13
/1
6
69
,6
1
0,
66
24
37
/2
97
6
M
ét
od
o
de
Fi
ltr
o
73
,4
2
0,
60
1
7/
13
72
,9
4
0,
60
2
4/
7
73
,4
8
0,
63
2
20
/3
9
M
ét
od
o
W
ra
pp
er
74
,8
0
0,
60
7
38
/5
5
74
,2
2
0,
61
2
13
/1
6
71
,4
6
0,
63
9
84
1/
11
34
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
73
,2
0
0,
61
7
10
0/
15
3
73
,5
8
0,
60
2
4/
7
67
,5
5
0,
63
7
13
95
/2
01
4
C
om
A
m
os
-
tr
ag
em
(4
.0
08
)
Se
m
Se
le
çã
o
63
,2
2
0,
68
8
88
5/
11
64
51
,5
5
0,
60
8
59
/6
8
63
,3
0
0,
69
3
23
50
/2
87
9
M
ét
od
o
de
Fi
ltr
o
43
,7
6
0,
52
1
51
/1
01
42
,7
1
0,
47
2
9/
17
43
,9
6
0,
52
6
72
/1
43
M
ét
od
o
W
ra
pp
er
64
,2
2
0,
69
7
83
6/
11
21
51
,6
2
0,
60
9
61
/7
0
64
,2
5
0,
70
4
20
99
/2
62
0
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
60
,1
0
0,
66
63
0/
10
20
47
,4
3
0,
54
3
34
/4
1
60
,1
5
0,
66
6
11
79
/1
81
8
Pr
in
ci
pa
l
A
gr
es
so
r
co
m
R
e-
gi
st
ro
s
de
C
ria
nç
as
M
ai
or
es
de
12
an
os
(7
)
Se
m
A
m
os
-
tr
ag
em
(4
.6
40
)
Se
m
Se
le
çã
o
48
,0
6
0,
49
91
1/
11
54
47
,0
7
0,
41
8
6/
10
46
,5
9
0,
50
4
31
79
/3
90
5
M
ét
od
o
de
Fi
ltr
o
47
,0
7
0,
41
2
11
/2
1
46
,6
6
0,
41
0
4/
7
46
,4
9
0,
43
7
57
/1
13
M
ét
od
o
W
ra
pp
er
49
,1
4
0,
48
6
53
3/
68
8
46
,8
5
0,
41
3
6/
10
46
,7
5
0,
51
6
18
88
/2
51
5
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
46
,6
6
0,
48
5
53
0/
82
1
47
,0
3
0,
41
6/
10
44
,4
0
0,
48
9
16
47
/2
54
5
C
om
A
m
os
-
tr
ag
em
(4
.4
10
)
Se
m
Se
le
çã
o
63
,1
7
0,
67
9
12
54
/1
58
1
43
,6
7
0,
53
8
70
/8
4
63
,1
3
0,
69
24
81
/3
02
0
M
ét
od
o
de
Fi
ltr
o
29
,3
2
0,
36
4
25
/4
9
27
,8
5
0,
33
2
7/
13
29
,6
6
0,
36
7
26
/5
1
M
ét
od
o
W
ra
pp
er
63
,5
6
0,
68
8
14
20
/1
73
1
44
,1
3
0,
54
1
70
/8
4
63
,5
8
0,
69
4
27
45
/3
24
2
R
ev
isã
o
Bi
bl
io
gr
áfi
ca
57
,2
1
0,
63
9
75
6/
12
47
40
,9
8
0,
48
7
45
/6
2
57
,3
7
0,
64
7
12
03
/1
91
3
Fonte: Elaborado pelo autor.
76 Capítulo 5. Resultados e Discussões
Figura 8 – Árvore de decisão obtida ao aplicar o algoritmo J48 na predição de presença
de violência sobre o conjunto de dados de crianças maiores de 12 anos.
Fonte: Elaborado pelo autor.
pode-se contrastar os resultados conseguidos para cada um desses elementos. Assim, para
escolher os melhores considerou-se a MH das curvas mais elevadas para cada grupo de
execuções, as que corresponde a:
• Tipo de violência em crianças de 12 e menos anos: com amostragem, seleção de
atributos por método wrapper e sem limitar o tamanho da árvore;
• Principal agressor em crianças de 12 e menos anos: com amostragem, seleção de
atributos por método wrapper e valores padrão na execução do algoritmo;
• Presença de violência em crianças de mais de 12 anos: com amostragem, seleção de
atributos por método wrapper e valores padrão na execução do algoritmo;
• Tipo de violência em crianças de mais de 12 anos: com amostragem, seleção de
atributos por método wrapper e sem limitar o tamanho da árvore; e
5.1. Centro de Proteção de Crianças 77
• Principal agressor em crianças de mais de 12 anos: com amostragem, seleção de
atributos por método wrapper e sem limitar o tamanho da árvore.
Baseado nas execuções anteriores, e de forma geral, pode-se estabelecer que em todos os
casos o método de seleção de atributos com melhores resultados foi o wrapper. Relacionado
ao processo de amostragem, esse não foi o mais eficaz apenas na tarefa de predizer se as
crianças maiores a 12 anos apresentam violência ou não, execução que teve o melhor
resultado de todos os testes, chegando quase a um 90% de precisão na taxa de acertos e
0,9 de MH.
Acerca dos diferentes atributos preditores, foram obtidos resultados variados que
estão determinados principalmente pela quantidade de valores possíveis que têm cada
um. Por exemplo, quando se classificou crianças maiores de 12 anos apresentarem ou
não vulneração (apenas duas possibilidades), atingiu-se uma taxa de acertos de 86,2% e
com MH de aproximadamente 0,9, o que corresponde a um ótimo resultado. De forma
contrária, quando buscou-se classificar o principal agressor no conjunto de crianças de 12
ou menos anos (seis valores possíveis), a melhor execução apenas atingiu 47,3% de acertos
com MH de 0,52, resultando em um modelo pouco confiável.
Em relação às configurações utilizadas, a maioria das vezes (68% das situações)
os melhores resultados foram obtidos sem limitar o tamanho da árvore. Esse fenômeno
acontece principalmente pelo overfitting do modelo aos dados, o que não é recomendável
principalmente porque não é um padrão que pode ser aplicado em dados que não foram
utilizados no treinamento. Ademais, quando a quantidade de nós da árvore é numerosa,
tem-se o problema de que o modelo dificilmente pode ser lido por um humano caso a
quantidade de regras seja muito elevada, motivo pelo qual seria necessária uma ferramenta
computacional para realizar essa tarefa. Assim, ao limitar o tamanho da árvore através do
mínimo de elementos nos nós folha e também pela poda da árvore, encontraram-se ainda
modelos menores e com desempenhos acetáveis. Esse comportamento pôde ser observado
no caso de predizer a presença de violência sem amostragem e usando o método de filtro,
o qual atingiu mais de um 81% de acertos (e MH de 0,786) com uma árvore de apenas
7 nós no total (o melhor resultado para essa categoria tem 1.104 nós). Portanto, não é
possível estabelecer que sempre um modelo com muitas (ou poucas) regras é o melhor,
sempre dependerá do contexto do problema.
Considerando os diferentes tipos de seleção de atributos realizadas, em 76,7% das
execuções o método wrapper obteve os melhores resultados. Essa técnica empregou o
mesmo algoritmo J48 para encontrar os subconjuntos, sempre começando com o conjunto
vazio de atributos, e para cada uma das variantes das coleções de dados entregou diferentes
variáveis para gerar as árvores. Portanto, não é possível definir apenas um grupo de
elementos fixo para o problema da violência infantil. Sobre as outras formas de seleção
78 Capítulo 5. Resultados e Discussões
atributos: o método de filtro nunca foi o melhor, contudo é uma boa técnica quando se
quer listar os elementos que se tem em base na sua relação com o valor preditor; e com
a informação obtida na revisão bibliográfica, também não conseguiu-se nenhum melhor
resultado, o que indica que o contexto define quais são os variáveis mais relevantes e não o
problema como tal. Assim, foi possível estabelecer que os métodos de seleção de atributos
wrapper são uma alternativa factível para a redução da dimensionalidade de um conjunto
de dados nessa problemática.
A amostragem de dados para balancear os conjuntos foi realizada para todos os
atributos preditores. Na maioria dos casos conseguiram-se modelos com melhores de-
sempenhos que quando não foi feito o balanceamento. Ademais, trabalhar com coleções
balanceadas permite ter uma maior confiança, visto que o classificador não terá um viés
sobre algum valor da variável preditora. Por exemplo, quando utilizou-se o atributo pre-
ditor principal agressor para crianças maiores de 12 anos, os modelos gerados com os
conjuntos que não tiveram amostragem nunca superaram os 50% de acertos, porém obti-
veram AUC ROC de no mínimo 0,55, efeito explicado com a presença de um dos valores
predominantes na variável preditora (nesse caso os valores mãe e pai).
Considerando novamente os melhores resultados para cada um dos 5 diferente
elementos preditos, estabelece-se que o modelo para determinar se uma criança maior a
12 anos está sofrendo de violência ou não é o único com um desempenho ótimo. Nesse
caso, a MH varia aproximadamente entre 0,80 e 0,90, concluindo-se com esses valores
que: o modelo faz uma discriminação correta entre as classificações possíveis (AUC ROC
elevado), possui uma precisão e sensibilidade elevadas, e não possui overfitting ao momento
de realizar a predição. Sobre os outros resultados, quando tentou-se determinar o tipo de
violência (para as duas segmentações) e o principal agressor em crianças de 12 ou mais
anos foram semelhantes. Para esses casos obtive-se a AUC ROC sempre maior a 0,8
(sendo um resultado desejado) mas a AUC PR com um valor baixo (aproximadamente
de 0,6), determinando que o modelo não é um modelo adequado. Ademais, as taxas de
classificações corretas são próximas 60%, o que não faz ao modelo confiável na tarefa de
predizer esses 3 casos. Por último, para o resultado na predição do principal agressor em
crianças de 12 ou menos anos, todas as métricas são deficientes, portanto não é um modelo
confiável em nenhum caso. Isso pode ser explicado principalmente pela grande quantidade
de valores que esse atributo pode tomar, sendo 6 no conjunto de crianças de 12 ou menos
anos e 7 para o de 13 ou mais, dificultando a aprendizagem dos modelos ao ter tantas
saídas possíveis.
5.2. Questionário sobre Polivitimização 79
5.2 Questionário sobre Polivitimização
Para o segundo conjunto de dados foram feitas variadas agregações dos tipos de
vitimizações, tentando encontrar regras que tenham ótimos desempenhos e sejam de utili-
dade na abordagem do problema da violência infantil. Assim, a Figura 9 descreve o fluxo
seguido para os dois sub-conjuntos de dados (vitimizações vida e ano).
Figura 9 – Considerações e trabalhos feitos previa aplicação do algoritmo Apriori sobre
os conjuntos de dados não supervisionados.
Fonte: Elaborado pelo autor.
Como foi descrito na subseção 4.2.2 e apresenta-se na Figura 9, fizeram-se duas
agregações diferentes de dados, uma para os tipos (agrupações) de vitimizações definidas
na subseção 4.1.2 e outra para as quatro principais categorias de violência (psicológica,
física, abuso sexual, e negligência), além de conservar os atributos sem modificações. Con-
siderando a natureza do algoritmo, nesse caso não foram aplicadas diferentes configurações
(valores fixos); utilizou-se um valor baixo para o suporte tentando obter uma quantidade
significante de regras e uma confiança elevada para filtrar as que têm uma presença do
consequente sobre o antecedente não considerável, sendo esses valor 0,05 e 0,75 respe-
tivamente. Assim, foram feitas 6 execuções diferentes do algoritmo Apriori, das quais o
número de regras obtido em cada uma apresenta-se na Tabela 6. A diferença nas quanti-
dades de regras explicam-se principalmente pelo número de atributos que tem o conjunto
e se é considerável a presença de valores positivos (sofreu algum tipo de violência ou viti-
mização) sobre a amostra total, o que aumenta as combinações de elementos para gerar
novas regras. Em base dessa premissa, é esperado que o conjunto de vitimizações vida
sem agregação tenha uma grande quantidade de regras entendendo que são 32 atributos
e a historia de vida toda da criança onde poderia ter sofrido alguma vitimização; ou que
na vitimização ano quando a agregação é por tipo de violência tenha apenas 14 regras,
80 Capítulo 5. Resultados e Discussões
considerando que são 4 atributos diferentes e somente 1 ano de historia para avaliar a
presença de violência.
Tabela 6 – Quantidade total de regras conseguidas nas diferentes execuções do algoritmo
Apriori sobre os conjuntos de dados não supervisionados, utilizando um suporte de 0,05
e confiança de 0,75.
Conjunto de Dados Agregação dos AtributosSem Agregação Tipo de Vitimização Tipo de Violência
Vitimizações Vida 6963 182 29
Vitimizações Ano 21 56 14
Fonte: Elaborado pelo autor.
Para avaliar os resultados, observaram-se os valores lift, conviction, e leverage, isso
para cada uma das regras geradas. Pelo fato de que não existem valores padrão para essas
métricas na avaliação, e o grande número de regras obtidas em alguns casos, é que apenas
consideraram-se apresentar as que têm um valor maior à média em cada métrica para
todas as execuções, resultando as quantidades apresentadas na Tabela 7. Comparando
com a Tabela 6, é importante a diminuição de regras por conjunto, o que é esperando
depois de ter aplicado esse filtro. Contudo, é relevante destacar que ainda cada execução
tem pelo menos uma regra válida, as que têm ótimos valores para as métricas de avaliação.
Tabela 7 – Quantidade total de regras conseguidas com o algoritmo Apriori onde os seus
valores das métricas lift, conviction, e leverage são maiores às medias de cada uma das
execuções.
Conjunto de Dados Agregação dos AtributosSem Agregação Tipo de Vitimização Tipo de Violência
Vitimizações Vida 704 3 1
Vitimizações Ano 7 3 1
Fonte: Elaborado pelo autor.
As regras conseguidas após aplicar esse filtro estão descritas na Tabela 8, deta-
lhando a qual conjunto de dados corresponde e os respetivos valores obtidos para as métri-
cas de avaliação. Para o conjunto de vitimizações vida sem agregação, apenas incluíram-se
as primeiras 20 regras ordenadas de forma descendente por seus valores de confiança; um
número maior da regras de todas as execuções apresentam-se na seção A.2 do Apêndice A.
Antes de discutir sobre as regras obtidas, é importante avaliá-las através das di-
ferentes métricas. Como já foi estabelecido, os valores utilizados como mínimo para o
suporte e a confiança foram de 0,05 e 0,75 respetivamente, o que não limita que poderiam
ser mais altos. Sobre o suporte, considera-se que a maioria das regras apresentadas na
Tabela 8 são baixos no geral; aumenta quando se tem algum tipo de agregação mas ainda
continua não sendo um número elevado (a exceção do tipo de violência para a vitimiza-
5.2. Questionário sobre Polivitimização 81
Tabela 8 – Regras de associação geradas com o algoritmo Apriori para cada um dos dife-
rentes conjuntos de dados diferenciados por vitimizações em vida e ano e qual é agregação
dos atributos que apresenta detalhando o suporte e a confiança, ademais das métricas uti-
lizadas para avaliá-las.
C
on
ju
nt
o
de
D
ad
os
T
ip
o
de
A
gr
eg
aç
ão
R
eg
ra
de
A
ss
oc
ia
çã
o
Va
lo
re
s
da
s
M
ét
ric
as
A
nt
ec
ed
en
te
C
on
se
qu
en
te
Su
po
rt
e
C
on
fia
nç
a
Li
ft
Le
ve
ra
ge
Co
nv
ic
tio
n
V
iti
m
iz
aç
õe
s
V
id
a
Se
m
A
gr
eg
aç
ão
In
di
re
ta
s4
,P
ar
es
1,
C
C
3,
C
ui
da
do
re
s1
,C
ui
da
do
re
s2
C
C
6
0,
06
0,
96
1,
81
0,
03
10
,7
4
In
di
re
ta
s4
,P
ar
es
1,
C
ui
da
do
re
s1
,C
C
4,
C
ui
da
do
re
s2
C
C
6
0,
06
0,
96
1,
81
0,
03
10
,5
5
In
di
re
ta
s2
,I
nd
ire
ta
s3
,I
nd
ire
ta
s4
,P
ar
es
1,
C
ui
da
-
do
re
s1
,C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
81
0,
03
10
,2
0
In
di
re
ta
s2
,I
nd
ire
ta
s4
,P
ar
es
1,
C
ui
da
do
re
s1
,C
ui
da
do
re
s2
C
C
6
0,
07
0,
95
1,
80
0,
03
9,
97
In
di
re
ta
s2
,I
nd
ire
ta
s4
,P
ar
es
1,
C
C
4,
C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
80
0,
03
9,
51
In
di
re
ta
s2
,P
ar
es
1,
C
C
3,
C
ui
da
do
re
s1
,C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
80
0,
03
9,
51
In
di
re
ta
s2
,
In
di
re
ta
s3
,
In
di
re
ta
s4
,
Pa
re
s1
,
C
C
3,
C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
80
0,
03
9,
44
In
di
re
ta
s2
,I
nd
ire
ta
s4
,P
ar
es
1,
C
C
3,
C
ui
da
do
re
s2
C
C
6
0,
07
0,
95
1,
80
0,
03
9,
42
In
di
re
ta
s3
,I
nd
ire
ta
s4
,P
ar
es
1,
C
ui
da
do
re
s1
,C
ui
da
do
re
s2
C
C
6
0,
07
0,
95
1,
80
0,
03
9,
34
In
di
re
ta
s3
,I
nd
ire
ta
s4
,P
ar
es
1,
C
C
3,
C
ui
da
do
re
s2
C
C
6
0,
07
0,
95
1,
80
0,
03
9,
32
In
di
re
ta
s4
,P
ar
es
1,
C
C
4,
C
ui
da
do
re
s2
C
C
6
0,
08
0,
95
1,
80
0,
03
9,
18
In
di
re
ta
s3
,I
nd
ire
ta
s4
,P
ar
es
1,
C
C
4,
C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
80
0,
03
9,
14
In
di
re
ta
s4
,P
ar
es
1,
C
ui
da
do
re
s1
,C
ui
da
do
re
s2
C
C
6
0,
09
0,
95
1,
79
0,
04
9,
01
In
di
re
ta
s4
,P
ar
es
1,
C
C
3,
C
ui
da
do
re
s2
C
C
6
0,
09
0,
95
1,
79
0,
04
8,
99
In
di
re
ta
s4
,P
ar
es
1,
C
C
1,
C
ui
da
do
re
s2
C
C
6
0,
08
0,
95
1,
79
0,
03
8,
82
In
di
re
ta
s2
,P
ar
es
1,
C
ui
da
do
re
s1
,C
C
4,
C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
79
0,
03
8,
67
In
di
re
ta
s2
,I
nd
ire
ta
s4
,P
ar
es
1,
C
C
1,
C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
79
0,
03
8,
67
In
di
re
ta
s3
,I
nd
ire
ta
s4
,P
ar
es
1,
C
C
1,
C
ui
da
do
re
s2
C
C
6
0,
06
0,
95
1,
79
0,
03
8,
67
In
di
re
ta
s2
,I
nd
ire
ta
s3
,P
ar
es
1,
C
C
4,
C
ui
da
do
re
s2
C
C
6
0,
07
0,
95
1,
79
0,
03
8,
41
In
di
re
ta
s4
,P
ar
es
1,
C
C
3,
C
ui
da
do
re
s1
,C
C
4
C
C
6
0,
07
0,
94
1,
79
0,
03
8,
38
T
ip
o
de
V
iti
m
iz
aç
ão
In
di
re
ta
s,
C
C
,C
ui
da
do
re
s,
D
ig
ita
is
Pa
re
s
0,
21
0,
90
1,
48
0,
06
4,
04
C
C
,D
ig
ita
is,
Se
xu
ai
s
In
di
re
ta
s,
Pa
re
s
0,
14
0,
89
1,
59
0,
05
4,
11
C
ui
da
do
re
s,
D
ig
ita
is,
Se
xu
ai
s
In
di
re
ta
s,
C
C
,P
ar
es
0,
12
0,
89
1,
70
0,
05
4,
31
T
ip
o
de
V
io
lê
nc
ia
V
F,
A
S
N
eg
lig
en
ci
a,
V
P
0,
25
0,
93
1,
31
0,
05
4,
32
V
iti
m
iz
aç
ão
A
no
Se
m
A
gr
eg
aç
ão
In
di
re
ta
s2
,I
nd
ire
ta
s3
,P
ar
es
1
C
C
6
0,
06
0,
85
2,
99
0,
03
4,
69
In
di
re
ta
s4
,P
ar
es
1
C
C
6
0,
08
0,
84
2,
97
0,
04
4,
54
In
di
re
ta
s3
,P
ar
es
1
C
C
6
0,
09
0,
82
2,
89
0,
05
4,
00
In
di
re
ta
s2
,P
ar
es
1
C
C
6
0,
09
0,
82
2,
87
0,
05
3,
89
In
di
re
ta
s3
,I
nd
ire
ta
s5
In
di
re
ta
s4
0,
07
0,
81
2,
63
0,
03
3,
66
C
ui
da
do
re
s1
,P
ar
es
1
C
C
6
0,
07
0,
81
2,
86
0,
03
3,
78
Pa
re
s1
C
C
6
0,
15
0,
78
2,
75
0,
07
3,
26
T
ip
o
de
V
iti
m
iz
aç
ão
In
di
re
ta
s,
Pa
re
s,
D
ig
ita
is
C
C
0,
10
0,
90
1,
77
0,
04
4,
91
In
di
re
ta
s,
C
ui
da
do
re
s,
Pa
re
s
C
C
0,
14
0,
89
1,
75
0,
05
4,
42
Pa
re
s,
D
ig
ita
is
C
C
0,
11
0,
89
1,
75
0,
04
4,
40
T
ip
o
de
V
io
lê
nc
ia
V
F,
A
S
N
eg
lig
en
ci
a,
V
P
0,
12
0,
84
1,
80
0,
05
3,
33
Fonte: Elaborado pelo autor.
82 Capítulo 5. Resultados e Discussões
ção vida, regra que tem um suporte de 3.675 registros). Porém, as confianças das regras
possuem valores adequados, estabelecendo que têm uma presença relevante na amostra.
Para os registros de vitimizações vida a maioria têm um 0,93, o que implica que mais de
90% dos registros satisfazem a regra para um conjunto determinado pelo suporte. Apesar
de que para as vitimizações ano esses valores diminuem, ainda são consideráveis; a maior
parte cumpre com ter uma porcentagem de presença de mais de 80% sobre os registros
totais conformados pelo correspondente suporte.
Sobre as três métricas de avaliação, pode-se destacar inicialmente que todas as
regras satisfazem os valores mínimos para considerar que existe uma dependência entre o
antecedente e o consequente; lift e conviction sempre são maiores a 1, e leverage sempre
maior a 0. lift e leverage são métricas semelhantes, ambas comparam a presença do an-
tecedente e o consequentes quando aparecem juntos e separados; o primeiro a través de
uma taxa e o segundo com uma diferença (fato pelo qual os valores são próximos ao valor
0). Isso reafirma a existência da relação de dependência entre antecedente e consequente.
Conviction permite associar o antecedente com a ausência do consequente com a respec-
tiva direcionalidade que a regra possui (𝑋 ⇒ 𝑌 ), o que não fazem as outras métricas;
para todas as regras descritas na Tabela 8 os valores novamente descrevem uma relação
de dependência.
A respeito das regras encontradas, é simples de perceber que são bastante seme-
lhantes umas às outras, o que explica-se principalmente pela predominância de alguns
atributos sobre o resto. Por exemplo, para os dois conjuntos de vitimizações, a maioria
das regras nos conjuntos sem agregação possuem como consequente o elemento CC6 (ata-
ques físicos sem objetos), o que poderia ser entendido como uma vitimização muito mais
frequente que o resto. Nos antecedentes das mesmas sim se tem mais vitimizações, mas
ainda continua sendo um conjunto pequeno de elementos considerando os 32 atributos
possíveis. Além disso, não tem-se nenhum atributo das categorias de vitimizações digitais
e sexuais nas duas partes que compõem as regras. Sobre os tipos de vitimização, pode-se
dizer que para as vitimizações vida as três regras sim são diversas nas suas formas, não
assim com as geradas para as vitimizações ano, onde o consequente sempre é o mesmo.
Para a agregação por tipo de violência, ambas regras são iguais (o que valida a sua quali-
dade), o que novamente pode ser explicado pela quantidade de atributos que tem-se para
os dois conjuntos; com apenas 4 variáveis agregadas é esperado que a taxa de valores
positivos aumente e as regras possíveis totais diminuam em número, sendo mais provável
que alguma possa-se repetir. Esse último fato também valida as semelhanças dos dois
conjuntos de dados (vida e ano) além da temporalidade que têm.
Em relação as mesmas regras apresentadas na Tabela 8 e avaliando a utilidade
que possam ter, talvez não sejam resultados que entreguem informação valiosa para um
profissional que trabalha com crianças violentadas ou em contextos semelhante, conside-
5.2. Questionário sobre Polivitimização 83
rando a complexidade que têm na sua forma e as poucas variações de umas com outras.
Tendo como exemplo disso, poderia ser excessivamente difícil e pouco relevante detetar
todas as regras que não tiveram agregações no conjunto de vitimizações ano para apenas
concluir que estão relacionadas com um ataque físico sem objeto (CC6). O anterior obriga
a avaliar o tipo de resultado obtido com profissionais da área, além de definir se existem
regras que a priori poderiam ser mais relevantes que outras, assim ter como objetivo ava-
liar esse tipo de sentenças que podem ser mais uteis na hora de estudar algum caso de
violência infantil.

85
6 Conclusões
Esse último capítulo inclui as conclusões de todo o trabalho realizado, mencionando
os aspectos descobertos que são relevantes ao estudo, além de quais são as atividades que
devem ser realizadas em trabalhos futuros.
6.1 Trabalho Realizado
O principal objetivo desse estudo foi contribuir em um acercamento para dar solu-
ção a uma problemática social através da ciência da computação, especificamente detectar
padrões que descrevem a violência infantil a partir de técnicas de ML. Isso poderia ajudar
consideravelmente os trabalhadores que vinculam-se com as crianças que experimentam
essas situações de sofrimento, permitindo a eles tomar melhores decisões na abordagem
desses casos.
Como foi apresentado no Capítulo 1, a violência infantil é uma problemática que
está no mundo todo e que não discrimina por cultura, etnia, situação econômica ou qual-
quer caraterística social. São muitas as pesquisas desenvolvidas que contribuem ao enten-
dimento ou possível solução desse problema, mas até agora não se têm diretrizes padrão
para abordá-lo, o que implica que não existe consenso em determinar quais são os prin-
cipais fatores que acrescentam (ou diminuem) a presença de violência infantil. Por outro
lado, ML representa um conjunto de ferramentas computacionais que têm variados usos,
sendo esses principalmente a descrição e predição (ou classificação) de algum fenômeno
através de grandes quantidades de dados. Isso pode ser aplicado em qualquer área do
conhecimento, e como foi exposto neste documento, também já fora usado para predizer
a violência infantil anteriormente.
No Capítulo 3 foram revisados diferentes artigos baseados em técnicas estatísticas
ou que fazem uso de ML para abordar o problema da predição da violência infantil,
possuindo a maioria caraterísticas importantes a destacar. Variados algoritmos foram
utilizados obtendo diferentes valores de precisão ao testá-los. Consequentemente, não é
possível estabelecer apenas uma técnica a utilizar para esse problema. Ademais, todos os
conjuntos de dados são distintos, implicando que cada uma das pesquisas estudadas foi
aplicada em um contexto social e cultural diferente. Portanto, a tarefa de padronização
do problema da violência infantil é muito mais difícil de se concretizar.
A metodologia utilizada nesse trabalho possui etapas que comumente são em-
pregadas em projetos de ML, sendo essas: entendimento do problema e obtenção dos
dados, pré-processamento dos dados, treinamento e validação dos modelos e análises dos
86 Capítulo 6. Conclusões
resultados. Nesse caso, a que apresentou a maior dificuldade foi a obtenção dos dados
supervisionados, isso por três motivos principais: (1) não existe um número grande de
organizações que trabalhem com crianças no contexto de violência; (2) essas poucas insti-
tuições normalmente não geram nem armazenam constantemente registros padronizados
dos casos que assistem; e (3) o fato de conceder dados de crianças para algum ente externo
à organização às vezes pode ser um impedimento legal para realizar uma pesquisa desse
tipo e, por conseguinte, nem sempre têm a disposição de entregar os dados coletados.
Contudo, é importante destacar que existem iniciativas que permitem a qualquer pessoa
ter um fácil acesso a conjuntos de dados semelhantes, como a que fez a entidade de pre-
venção do crime do governo do Chile ao aplicar uma enquete sobre polivitimização em
crianças desse país, aportando uma coleção de registros não supervisionada.
Sobre a análise dos dados supervisionados, o algoritmo C4.5 aplicado nesse tra-
balho obteve variados resultados, os quais são refletidos através dos atributos a serem
preditos. Quando utilizou-se a variável se a criança sofreu violência ou não (unicamente
as maiores a 12 anos), todas as configurações empregadas conseguiram elevados desem-
penhos, chegando a predizer corretamente mais do 86% dos casos. Para os modelos da
classificação do tipo de violência, para as crianças de 13 ou mais anos os resultados foram
acetáveis, chegando a obter uma taxa de acertos próxima de 75%, enquanto para as cri-
anças menores de 13 anos, os desempenhos dos modelos diminuíram, chegando a ter no
máximo 60% de acertos, o que não corresponde a um modelo confiável. Sobre a predição
do principal agressor, também conseguiram-se resultados pouco confiáveis, entre 64% e
47% de acertos para crianças de 13 ou mais anos e menores a 13 anos, respectivamente.
Considerando os dados não supervisionados e o algoritmo Apriori utilizados, para
cada uma das execuções encontraram-se regras ou padrões que, tendo em conta os cri-
térios sobre as métricas de avaliação usadas, são válidas computacionalmente. Porém, as
execuções do algoritmo feitas sobre dados agregados (por vitimização ou tipo de violên-
cia) não tiveram muita variedade de elementos no antecedente e consequente das regras,
isso principalmente pelo número pequeno de atributos que compõem esses conjuntos de
dados. Quando não foi feita nenhuma agregação de atributos, o número de regras válidas
foi o maior. Ainda assim, os valores que as compõem na maioria das vezes são os mesmos
(indiretas 2, 3 e 4, Cuidadores1, Pares1, entre as mais frequentes). É por isso que os re-
sultados encontrados nessa parte da pesquisa, além da validação computacional, precisam
ser avaliados por profissionais que conheçam do contexto da violência infantil.
Cabe mencionar que a hipótese estabelecida no início dessa pesquisa foi pautada
no seguinte questionamento: modelos baseados em regras gerados por meio de técnicas
de ML com dados de instituições chilenas que trabalham com crianças abusadas podem
entregar padrões que permitam estimar em que casos algum ato de violência infantil está
acontecendo ou irá acontecer? Assim, notou-se que para o conjunto de dados supervisio-
6.2. Trabalhos Futuros 87
nado, foram descobertos padrões que permitem estimar quando uma criança está sofrendo
de violência e o seu tipo. Esse resultado é complementar àqueles obtidos com os regis-
tros não supervisionados, que permitem relacionar diferentes tipos (ou agrupamentos) de
violência infantil.
Sobre os objetivos do trabalho, tanto o principal como os secundários foram atin-
gidos. Por meio de métricas de validação conseguiram-se avaliar os modelos preditivos
e regras criadas a partir dos dados de forma positiva, concluindo que podem ser utili-
zados em análises de casos de violência e detectaram os principais atributos que estão
relacionados ao problema da violência infantil no contexto do Chile.
Considera-se importante realizar pesquisas desse tipo, onde são abordados pro-
blemas que realmente são significativos à sociedade a partir de uma perspectiva não
convencional; nesse caso, por meio do uso de técnicas de ML.
6.2 Trabalhos Futuros
Após concluir a pesquisa ainda existem diferentes tarefas que não foram realizadas,
pois não estavam definidas no escopo do projeto. Neste sentido, destacam-se dois traba-
lhos de grande importância. O primeiro está relacionado a avaliar os resultados obtidos
não simplesmente a partir de uma perspectiva computacional, mas por uma visão dos
indivíduos que trabalham diretamente com crianças que sofrem violência. Além de uma
métrica para avaliar o desempenho de um modelo, a experiência dessas pessoas pode de-
terminar se uma regra é válida ou não, ou se realmente os resultados entregam informação
relevante no entendimento do problema. A segunda tarefa é o desenvolvimento de alguma
ferramenta que permita utilizar os modelos gerados, com uma interface simples que possa
ser usada facilmente por qualquer pessoa que trabalhe no contexto de violência infantil
e que necessite de apoio para estudar esse tipo de casos. Isso propiciaria fazer uso de
técnicas de ML que não necessariamente entreguem regras como resultado, possibilitando
obter modelos com melhores desempenhos na tarefa de predizer a violência infantil.

89
APÊNDICE A – Resultados
Nessa seção do apêndice são apresentados os modelos obtidos ao gerar diferentes
execuções dos algoritmos J48 e Apriori da ferramenta WEKA 3.8.
A.1 J48
A cerca das árvores conseguidas com os dados supervisionados, a seguir expõem-
se as descritas na seção 5.1 como as de menor tamanho para cada um dos 5 atributos
preditores, utilizando a configuração padrão da ferramenta. Os valores finais que apa-
recem em cada um dos nós folha correspondem aos registros classificados corretamento
(esquerda) e os errôneos (direita). Ademais, a barra vertical (|) define o nível da árvore
ao que corresponde o atributo de cada linha.
• Modelo 1 – Tipo de violência em crianças de 12 ou menos anos, com configuração:
amostragem sobre os dados, e seleção de atributos por método de filtro. Valores das
métricas de validação: porcentagem de acertos = 43,67%, AUC ROC = 0,696, AUC
PR = 0,418, e MH = 0,522; com 52 nós no total.
SEXO = MASCULINO
| ZONA = NORTE
| | SITUAÇÃO ESCOLAR ATUAL = CURSANDO SIST. ESC. FORMAL: VIOLÊNCIA FÍSICA (544.55/339.63)
| | SITUAÇÃO ESCOLAR ATUAL = SEM ATIVIDADE ESCOLAR: NEGLIGÊNCIA (19.38/4.17)
| | SITUAÇÃO ESCOLAR ATUAL = CURSANDO SISTEMA ESCOLAR PARA ADULTOS: VIOLÊNCIA FÍSICA (0.0)
| | SITUAÇÃO ESCOLAR ATUAL = VALIDAÇÃO DE ESTUDOS: VIOLÊNCIA FÍSICA (0.0)
| | SITUAÇÃO ESCOLAR ATUAL = CURSANDO SIST. ESC. FECHADO: NEGLIGÊNCIA (4.08/0.04)
| | SITUAÇÃO ESCOLAR ATUAL = ESCOLARIZADA: VIOLÊNCIA FÍSICA (0.0)
| ZONA = SUL
| | REPETÊNCIA = NÃO: VIOLÊNCIA PSICOLÓGICA (260.82/147.77)
| | REPETÊNCIA = SIM: NEGLIGÊNCIA (41.18/11.09)
| ZONA = CENTRO
| | ADULTO RESPONSÁVEL = MÃE
| | | REPETÊNCIA = NÃO: VIOLÊNCIA FÍSICA (32.0/18.0)
| | | REPETÊNCIA = SIM: NEGLIGÊNCIA (9.0/2.0)
| | ADULTO RESPONSÁVEL = AVÓ: NEGLIGÊNCIA (5.0/2.0)
| | ADULTO RESPONSÁVEL = MÃE E PAI: VIOLÊNCIA FÍSICA (2.0)
| | ADULTO RESPONSÁVEL = PAI: VIOLÊNCIA FÍSICA (14.0/1.0)
| | ADULTO RESPONSÁVEL = OUTRO FAMILIAR: NEGLIGÊNCIA (3.0/1.0)
| | ADULTO RESPONSÁVEL = OUTRO NÃO FAMILIAR: VIOLÊNCIA FÍSICA (0.0)
| | ADULTO RESPONSÁVEL = NÃO TEM REFERENTE: VIOLÊNCIA FÍSICA (0.0)
SEXO = FEMININO
| ADULTO RESPONSÁVEL = MÃE
| | ZONA = NORTE: ABUSO SEXUAL (367.41/180.41)
90 APÊNDICE A. Resultados
| | ZONA = SUL
| | | REPETÊNCIA = NÃO: ABUSO SEXUAL (176.82/115.59)
| | | REPETÊNCIA = SIM: NEGLIGÊNCIA (10.87/3.58)
| | ZONA = CENTRO
| | | SITUAÇÃO ESCOLAR ATUAL = CURSANDO SISTEMA ESCOLAR FORMAL: ABUSO SEXUAL (33.34/18.67)
| | | SITUAÇÃO ESCOLAR ATUAL = SEM ATIVIDADE ESCOLAR: NEGLIGÊNCIA (2.0)
| | | SITUAÇÃO ESCOLAR ATUAL = CURSANDO SISTEMA ESCOLAR PARA ADULTOS: ABUSO SEXUAL (0.0)
| | | SITUAÇÃO ESCOLAR ATUAL = VALIDAÇÃO DE ESTUDOS: NEGLIGÊNCIA (1.67)
| | | SITUAÇÃO ESCOLAR ATUAL = CURSANDO SIST. ESCOLAR FECHADO: ABUSO SEXUAL (0.0)
| | | SITUAÇÃO ESCOLAR ATUAL = ESCOLARIZADA: ABUSO SEXUAL (0.0)
| ADULTO RESPONSÁVEL = AVÓ
| | ZONA = NORTE: NEGLIGÊNCIA (79.87/37.94)
| | ZONA = SUL: VIOLÊNCIA PSICOLÓGICA (36.53/17.53)
| | ZONA = CENTRO: VIOLÊNCIA FÍSICA (1.4/0.4)
| ADULTO RESPONSÁVEL = MÃE E PAI
| | ZONA = NORTE: ABUSO SEXUAL (24.88/13.88)
| | ZONA = SUL: NEGLIGÊNCIA (28.25/12.25)
| | ZONA = CENTRO: ABUSO SEXUAL (2.19/1.13)
| ADULTO RESPONSÁVEL = PAI
| | ZONA = NORTE
| | | REPETÊNCIA = NÃO: VIOLÊNCIA FÍSICA (33.72/12.45)
| | | REPETÊNCIA = SIM: ABUSO SEXUAL (2.06/1.06)
| | ZONA = SUL: NEGLIGÊNCIA (10.22/5.22)
| | ZONA = CENTRO: VIOLÊNCIA FÍSICA (3.17/0.17)
| ADULTO RESPONSÁVEL = OUTRO FAMILIAR: NEGLIGÊNCIA (39.95/15.59)
| ADULTO RESPONSÁVEL = OUTRO NÃO FAMILIAR: NEGLIGÊNCIA (25.61/13.38)
| ADULTO RESPONSÁVEL = NÃO TEM REFERENTE: ABUSO SEXUAL (1.02/0.02)
• Modelo 2 – Principal agressor em crianças de 12 ou menos anos, com configuração:
amostragem sobre os dados, e seleção de atributos por método de filtro. Valores das
métricas de validação: porcentagem de acertos = 35,61%, AUC ROC = 0,669, AUC
PR = 0,304, e MH = 0,418; com 61 nós no total.
REGIÃO = ATACAMA (III): PAI (2.0/1.0)
REGIÃO = ANTOFAGASTA (II)
| ADULTO RESPONSÁVEL = PAI: MÃE (43.76/23.21)
| ADULTO RESPONSÁVEL = MÃE
| | SEXO = MASCULINO: PAI (168.44/130.44)
| | SEXO = FEMININO: PADRASTO (284.46/190.74)
| ADULTO RESPONSÁVEL = MÃE E PAI: MÃE E PAI (26.46/16.46)
| ADULTO RESPONSÁVEL = AVÓ: MÃE (75.31/53.36)
| ADULTO RESPONSÁVEL = OUTRO NÃO FAMILIAR: PADRASTO (14.25/10.23)
| ADULTO RESPONSÁVEL = OUTRO FAMILIAR
| | SEXO = MASCULINO: MÃE E PAI (12.06/6.06)
| | SEXO = FEMININO: OUTRO FAMILIAR (6.26/3.2)
| ADULTO RESPONSÁVEL = NÃO TEM REFERENTE: PADRASTO (0.0)
REGIÃO = LOS RIOS (XIV)
| ADULTO RESPONSÁVEL = PAI: OUTRO NÃO FAMILIAR (8.1/5.0)
| ADULTO RESPONSÁVEL = MÃE: OUTRO NÃO FAMILIAR (118.39/48.0)
| ADULTO RESPONSÁVEL = MÃE E PAI
| | ZONA NA QUAL MORA = RURAL: MÃE E PAI (3.0)
| | ZONA NA QUAL MORA = URBANA: OUTRO NÃO FAMILIAR (10.15/6.0)
| ADULTO RESPONSÁVEL = AVÓ
| | ZONA NA QUAL MORA = RURAL: MÃE E PAI (11.0/4.0)
A.1. J48 91
| | ZONA NA QUAL MORA = URBANA
| | | SEXO = MASCULINO: MÃE (5.0/3.0)
| | | SEXO = FEMININO: OUTRO NÃO FAMILIAR (11.32/4.0)
| ADULTO RESPONSÁVEL = OUTRO NÃO FAMILIAR: OUTRO FAMILIAR (3.04/1.04)
| ADULTO RESPONSÁVEL = OUTRO FAMILIAR: OUTRO NÃO FAMILIAR (0.0)
| ADULTO RESPONSÁVEL = NÃO TEM REFERENTE: OUTRO NÃO FAMILIAR (0.0)
REGIÃO = ARAUCANÍA (IX)
| ADULTO RESPONSÁVEL = PAI: MÃE (17.0/8.0)
| ADULTO RESPONSÁVEL = MÃE: MÃE E PAI (113.0/69.0)
| ADULTO RESPONSÁVEL = MÃE E PAI: MÃE E PAI (32.0/6.0)
| ADULTO RESPONSÁVEL = AVÓ
| | ZONA NA QUAL MORA = RURAL: OUTRO FAMILIAR (7.0/2.0)
| | ZONA NA QUAL MORA = URBANA: MÃE (10.0/5.0)
| ADULTO RESPONSÁVEL = OUTRO NÃO FAMILIAR: MÃE E PAI (0.0)
| ADULTO RESPONSÁVEL = OUTRO FAMILIAR: MÃE (1.0)
| ADULTO RESPONSÁVEL = NÃO TEM REFERENTE: MÃE E PAI (0.0)
REGIÃO = METROPOLITANA (XIII)
| ADULTO RESPONSÁVEL = PAI: MÃE (3.04/1.04)
| ADULTO RESPONSÁVEL = MÃE: OUTRO FAMILIAR (62.81/43.81)
| ADULTO RESPONSÁVEL = MÃE E PAI: MÃE E PAI (3.04/1.04)
| ADULTO RESPONSÁVEL = AVÓ: MÃE E PAI (5.06/3.06)
| ADULTO RESPONSÁVEL = OUTRO NÃO FAMILIAR: OUTRO FAMILIAR (0.0)
| ADULTO RESPONSÁVEL = OUTRO FAMILIAR: MÃE E PAI (4.05/2.05)
| ADULTO RESPONSÁVEL = NÃO TEM REFERENTE: OUTRO FAMILIAR (0.0)
REGIÃO = TARAPACÁ (I)
| SEXO = MASCULINO: MÃE (32.0/21.0)
| SEXO = FEMININO: OUTRO FAMILIAR (40.0/28.0)
REGIÃO = BIOBIO (VIII)
| ADULTO RESPONSÁVEL = PAI
| | ZONA NA QUAL MORA = RURAL: MÃE E PAI (2.0)
| | ZONA NA QUAL MORA = URBANA: PAI (4.0/2.0)
| ADULTO RESPONSÁVEL = MÃE: MÃE (32.0/11.0)
| ADULTO RESPONSÁVEL = MÃE E PAI: MÃE E PAI (3.0)
| ADULTO RESPONSÁVEL = AVÓ: MÃE E PAI (8.0/3.0)
| ADULTO RESPONSÁVEL = OUTRO NÃO FAMILIAR: MÃE E PAI (1.0)
| ADULTO RESPONSÁVEL = OUTRO FAMILIAR: MÃE (1.0)
| ADULTO RESPONSÁVEL = NÃO TEM REFERENTE: MÃE (1.0)
REGIÃO = VALPARAÍSO (V): MÃE E PAI (1.0)
REGIÃO = O’HIGGINS (VI): PAI (2.0/1.0)
• Modelo 3 – Presença de violência em crianças de mais de 12 anos, com configuração:
sem amostragem sobre os dados, e seleção de atributos por método de filtro. Valores
das métricas de validação: porcentagem de acertos = 81,46%, AUC ROC = 0,774,
AUC PR = 0,798, e MH = 0,786; com 7 nós no total.
SOCIALIZAÇÃO EM RUA = NÃO
| TEM COMETIDO DELITOS = NÃO: SIM (900.92/99.97)
| TEM COMETIDO DELITOS = SIM
| | NUMERO DE PROGRAMAS DE PROTEÇÃO NOS QUAIS TEM PARTICIPADO <= 0: NÃO (1397.35/540.72)
| | NUMERO DE PROGRAMAS DE PROTEÇÃO NOS QUAIS TEM PARTICIPADO > 0: SIM (989.46/295.96)
SOCIALIZAÇÃO EM RUA = SIM: SIM (3254.28/300.45)
• Modelo 4 – Tipo de violência em crianças de mais de 12 anos, com configuração:
sem amostragem sobre os dados, e seleção de atributos por método de filtro. Valores
92 APÊNDICE A. Resultados
das métricas de validação: porcentagem de acertos = 73,42%, AUC ROC = 0,604,
AUC PR = 0,598, e MH = 0,601; com 13 nós no total.
SEXO = FEMININO
| APRESENTA CONSUMO DE SUBSTÂNCIAS = NÃO
| | TEM COMETIDO DELITOS = NÃO
| | | APRESENTOU SAÍDA ESCOLAR = NÃO: ABUSO SEXUAL (345.14/169.67)
| | | APRESENTOU SAÍDA ESCOLAR = SIM
| | | | IDADE <= 13: ABUSO SEXUAL (2.7/1.35)
| | | | IDADE > 13
| | | | | IDADE <= 16: NEGLIGÊNCIA (55.64/21.95)
| | | | | IDADE > 16: ABUSO SEXUAL (15.04/7.29)
| | TEM COMETIDO DELITOS = SIM: NEGLIGÊNCIA (50.84/17.63)
| APRESENTA CONSUMO DE SUBSTÂNCIAS = SIM: NEGLIGÊNCIA (708.62/239.82)
SEXO = MASCULINO: NEGLIGÊNCIA (3811.0/858.0)
• Modelo 5 – Principal agressor em crianças de mais de 12 anos, com configuração:
sem amostragem sobre os dados, e seleção de atributos por método de filtro. Valores
das métricas de validação: porcentagem de acertos = 47,07%, AUC ROC = 0,552,
AUC PR = 0,329, e MH = 0,412; com 21 nós no total.
APRESENTA CONSUMO DE SUBSTÂNCIAS = NÃO
| TEM COMETIDO DELITOS = NÃO
| | SEXO = FEMININO
| | | APRESENTOU SAÍDA ESCOLAR = NÃO: OUTRO NÃO FAMILIAR (322.87/238.52)
| | | APRESENTOU SAÍDA ESCOLAR = SIM
| | | | IDADE <= 13: OUTRO FAMILIAR (2.71/1.53)
| | | | IDADE > 13
| | | | | IDADE <= 15
| | | | | | IDADE <= 14: MÃE (14.47/8.15)
| | | | | | IDADE > 14: MÃE E PAI (16.8/8.8)
| | | | | IDADE > 15: MÃE (35.86/23.0)
| | SEXO = MASCULINO
| | | APRESENTOU SAÍDA ESCOLAR = NÃO
| | | | IDADE <= 15: MÃE (87.65/60.33)
| | | | IDADE > 15: PAI (26.6/14.8)
| | | APRESENTOU SAÍDA ESCOLAR = SIM
| | | | IDADE <= 13: OUTRO NÃO FAMILIAR (2.38/0.38)
| | | | IDADE > 13: MÃE E PAI (30.94/12.97)
| TEM COMETIDO DELITOS = SIM: MÃE E PAI (137.0/65.96)
APRESENTA CONSUMO DE SUBSTÂNCIAS = SIM: MÃE E PAI (3962.72/1983.91)
A.2 Apriori
As regras obtidas através do algoritmo Apriori para cada uma das 6 execuções
(todas com suporte de 0,05 e confiança de 0,75 como valores mínimos) são apresentadas
a seguir no mesmo formato que são entregadas pela ferramenta WEKA 3.8, o que está
conformado por: elementos que compõem o antecedente entre parêntesis ([ ]) seguidos
da quantidade, símbolos ==>, elementos que conformam o consequente entre parêntesis
A.2. Apriori 93
([ ]) seguidos da quantidade, confiança (conf), lift, leverage (lev), e conviction (conv).
Considerando que alguns conjuntos de dados proporcionaram muitas regras, limitou-se a
quantidade a apresentar nesse documento a 25 por execução, ordenadas em forma ascen-
dente sobre os valores da confiança.
• Regras para conjunto de dados das vitimizações em vida sem agregação de atributos
(25 regras de um total de 6.963).
1. [Indiretas2, Indiretas4, Pares1, CC3, Cuidadores1, Cuidadores2]: 792 ==> [CC6]: 761
<conf:(0.96)> lift:(1.82) lev:(0.02) conv:(11.66)
2. [Indiretas4, Pares1, CC1, Cuidadores1, Cuidadores2]: 845 ==> [CC6]: 811
<conf:(0.96)> lift:(1.81) lev:(0.02) conv:(11.38)
3. [Indiretas3, Indiretas4, Pares1, CC3, Cuidadores1, Cuidadores2]: 789 ==> [CC6]: 757
<conf:(0.96)> lift:(1.81) lev:(0.02) conv:(11.26)
4. [Indiretas4, Pares1, CC3, Cuidadores1, Cuidadores2]: 935 ==> [CC6]: 895
<conf:(0.96)> lift:(1.81) lev:(0.03) conv:(10.74)
5. [Indiretas4, Pares1, Cuidadores1, CC4, Cuidadores2]: 873 ==> [CC6]: 835
<conf:(0.96)> lift:(1.81) lev:(0.03) conv:(10.55)
6. [Indiretas2, Indiretas3, Indiretas4, Pares1, Cuidador1, Cuidador2]: 909 ==> [CC6]: 868
<conf:(0.95)> lift:(1.81) lev:(0.03) conv:(10.2)
7. [Indiretas4, Pares1, CC1, CC3, Cuidadores2]: 833 ==> [CC6]: 795
<conf:(0.95)> lift:(1.8) lev:(0.02) conv:(10.06)
8. [Indiretas2, Indiretas4, Pares1, Cuidadores1, Cuidadores2]: 1079 ==> [CC6]: 1029
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.97)
9. [Indiretas4, Pares1, CC3, CC4, Cuidadores2]: 815 ==> [CC6]: 777
<conf:(0.95)> lift:(1.8) lev:(0.02) conv:(9.85)
10. [Indiretas4, Pares1, Cuidadores1, Pares3, Cuidadores2]: 834 ==> [CC6]: 794
<conf:(0.95)> lift:(1.8) lev:(0.02) conv:(9.58)
11. [Indiretas2, Indiretas4, Pares1, CC4, Cuidadores2]: 949 ==> [CC6]: 903
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.51)
12. [Indiretas2, Pares1, CC3, Cuidadores1, Cuidadores2]: 949 ==> [CC6]: 903
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.51)
13. [Indiretas2, Indiretas3, Indiretas4, Pares1, CC3, Cuidadores2]: 902 ==> [CC6]: 858
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.44)
14. [Indiretas2, Indiretas4, Pares1, CC3, Cuidadores2]: 1060 ==> [CC6]: 1008
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.42)
15. [Indiretas2, Indiretas3, Indiretas4, Pares1, CC4, Cuidadores2]: 811 ==> [CC6]: 771
<conf:(0.95)> lift:(1.8) lev:(0.02) conv:(9.32)
16. [Indiretas3, Indiretas4, Pares1, Cuidadores1, Cuidadores2]: 1071 ==> [CC6]: 1018
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.34)
17. [Indiretas3, Indiretas4, Pares1, CC3, Cuidadores2]: 1048 ==> [CC6]: 996
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.32)
18. [Indiretas2, Pares1, CC1, Cuidadores1, Cuidadores2]: 839 ==> [CC6]: 797
<conf:(0.95)> lift:(1.8) lev:(0.02) conv:(9.19)
19. [Indiretas4, Pares1, CC4, Cuidadores2]: 1111 ==> [CC6]: 1055
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.18)
20. [Indiretas3, Indiretas4, Pares1, CC4, Cuidadores2]: 931 ==> [CC6]: 884
<conf:(0.95)> lift:(1.8) lev:(0.03) conv:(9.14)
21. [Indiretas2, Indiretas3, Pares1, CC3, Cuidadores1, Cuidadores2]: 807 ==> [CC6]: 766
<conf:(0.95)> lift:(1.79) lev:(0.02) conv:(9.05)
22. [Indiretas2, Pares1, CC1, CC4, Cuidadores2]: 784 ==> [CC6]: 744
<conf:(0.95)> lift:(1.79) lev:(0.02) conv:(9.01)
23. [Indiretas2, Pares1, CC1, CC3, Cuidadores2]: 818 ==> [CC6]: 776
<conf:(0.95)> lift:(1.79) lev:(0.02) conv:(8.96)
94 APÊNDICE A. Resultados
24. [Indiretas4, Pares1, Cuidadores1, Cuidadores2]: 1301 ==> [CC6]: 1234
<conf:(0.95)> lift:(1.79) lev:(0.04) conv:(9.01)
25. [Indiretas4, Pares1, CC3, Cuidadores2]: 1259 ==> [CC6]: 1194
<conf:(0.95)> lift:(1.79) lev:(0.04) conv:(8.99)
• Regras para conjunto de dados das vitimizações em vida utilizando o tipo de viti-
mização para a agregação de atributos (25 regras de um total de 182).
1. [CC, Pares, Cuidadores, Digitais, Sexuais]: 1653 ==> [Indiretas]: 1627
<conf:(0.98)> lift:(1.19) lev:(0.02) conv:(10.6)
2. [CC, Cuidadores, Digitais, Sexuais]: 1775 ==> [Indiretas]: 1746
<conf:(0.98)> lift:(1.19) lev:(0.02) conv:(10.25)
3. [Pares, Cuidadores, Digitais, Sexuais]: 1689 ==> [Indiretas]: 1658
<conf:(0.98)> lift:(1.19) lev:(0.02) conv:(9.14)
4. [Cuidadores, Digitais, Sexuais]: 1828 ==> [Indiretas]: 1794
<conf:(0.98)> lift:(1.19) lev:(0.02) conv:(9.05)
5. [Indiretas, Pares, Cuidadores, Digitais, Sexuais]: 1658 ==> [CC]: 1627
<conf:(0.98)> lift:(1.28) lev:(0.02) conv:(11.99)
6. [CC, Pares, Digitais, Sexuais]: 1943 ==> [Indiretas]: 1904
<conf:(0.98)> lift:(1.19) lev:(0.02) conv:(8.41)
7. [CC, Pares, Cuidadores, Digitais]: 2881 ==> [Indiretas]: 2823
<conf:(0.98)> lift:(1.19) lev:(0.03) conv:(8.46)
8. [CC, Digitais, Sexuais]: 2129 ==> [Indiretas]: 2084
<conf:(0.98)> lift:(1.18) lev:(0.02) conv:(8.02)
9. [Pares, Cuidadores, Digitais, Sexuais]: 1689 ==> [CC]: 1653
<conf:(0.98)> lift:(1.27) lev:(0.02) conv:(10.56)
10. [Indiretas, Pares, Cuidadores, Sexuais]: 2377 ==> [CC]: 2324
<conf:(0.98)> lift:(1.27) lev:(0.03) conv:(10.19)
11. [CC, Cuidadores, Digitais]: 3194 ==> [Indiretas]: 3122
<conf:(0.98)> lift:(1.18) lev:(0.03) conv:(7.58)
12. [Pares, Cuidadores, Digitais]: 2979 ==> [Indiretas]: 2911
<conf:(0.98)> lift:(1.18) lev:(0.03) conv:(7.48)
13. [Pares, Digitais, Sexuais]: 2004 ==> [Indiretas]: 1958
<conf:(0.98)> lift:(1.18) lev:(0.02) conv:(7.38)
14. [Digitais, Sexuais]: 2229 ==> [Indiretas]: 2175
<conf:(0.98)> lift:(1.18) lev:(0.02) conv:(7.02)
15. [CC, Pares, Cuidadores, Sexuais]: 2385 ==> [Indiretas]: 2324
<conf:(0.97)> lift:(1.18) lev:(0.02) conv:(6.66)
16. [Cuidadores, Digitais]: 3362 ==> [Indiretas]: 3274
<conf:(0.97)> lift:(1.18) lev:(0.03) conv:(6.54)
17. [Pares, Cuidadores, Sexuais]: 2450 ==> [CC]: 2385
<conf:(0.97)> lift:(1.27) lev:(0.03) conv:(8.59)
18. [Indiretas, Cuidadores, Digitais, Sexuais]: 1794 ==> [CC]: 1746
<conf:(0.97)> lift:(1.27) lev:(0.02) conv:(8.47)
19. [Indiretas, Pares, Digitais, Sexuais]: 1958 ==> [CC]: 1904
<conf:(0.97)> lift:(1.27) lev:(0.03) conv:(8.24)
20. [CC, Pares, Digitais]: 3694 ==> [Indiretas]: 3590
<conf:(0.97)> lift:(1.18) lev:(0.04) conv:(6.09)
21. [Cuidadores, Digitais, Sexuais]: 1828 ==> [CC]: 1775
<conf:(0.97)> lift:(1.26) lev:(0.03) conv:(7.83)
22. [Pares, Cuidadores, Sexuais]: 2450 ==> [Indiretas]: 2377
<conf:(0.97)> lift:(1.17) lev:(0.02) conv:(5.73)
23. [Indiretas, Pares, Cuidadores, Digitais]: 2911 ==> [CC]: 2823
<conf:(0.97)> lift:(1.26) lev:(0.04) conv:(7.57)
24. [Pares, Digitais, Sexuais]: 2004 ==> [CC]: 1943
A.2. Apriori 95
<conf:(0.97)> lift:(1.26) lev:(0.03) conv:(7.48)
25. [CC, Cuidadores, Sexuais]: 2673 ==> [Indiretas]: 2588
<conf:(0.97)> lift:(1.17) lev:(0.03) conv:(5.38)
• Regras para conjunto de dados das vitimizações em vida utilizando o tipo de vio-
lência para a agregação de atributos (25 regras de um total de 29).
1. [Negligência, Violência Física, Abuso Sexual]: 3494 ==> [Violência Psicológica]: 3387
<conf:(0.97)> lift:(1.22) lev:(0.04) conv:(6.68)
2. [Violência Física, Abuso Sexual]: 3629 ==> [Violência Psicológica]: 3509
<conf:(0.97)> lift:(1.22) lev:(0.04) conv:(6.19)
3. [Violência Psicológica, Violência Física, Abuso Sexual]: 3509 ==> [Negligência]: 3387
<conf:(0.97)> lift:(1.17) lev:(0.03) conv:(4.93)
4. [Violência Física, Abuso Sexual]: 3629 ==> [Negligência]: 3494
<conf:(0.96)> lift:(1.16) lev:(0.03) conv:(4.61)
5. [Violência Psicológica, Abuso Sexual]: 3966 ==> [Negligência]: 3792
<conf:(0.96)> lift:(1.16) lev:(0.03) conv:(3.92)
6. [Negligência, Abuso Sexual]: 4002 ==> [Violência Psicológica]: 3792
<conf:(0.95)> lift:(1.19) lev:(0.04) conv:(3.92)
7. [Abuso Sexual]: 4227 ==> [Negligência]: 4002
<conf:(0.95)> lift:(1.14) lev:(0.03) conv:(3.23)
8. [Abuso Sexual]: 4227 ==> [Violência Psicológica]: 3966
<conf:(0.94)> lift:(1.18) lev:(0.04) conv:(3.33)
9. [Violência Física, Abuso Sexual]: 3629 ==> [Negligência, Violência Psicológica]: 3387
<conf:(0.93)> lift:(1.31) lev:(0.05) conv:(4.32)
10. [Negligência, Violência Física]: 9286 ==> [Violência Psicológica]: 8591
<conf:(0.93)> lift:(1.17) lev:(0.08) conv:(2.76)
11. [Violência Psicológica, Violência Física]: 9288 ==> [Negligência]: 8591
<conf:(0.92)> lift:(1.12) lev:(0.06) conv:(2.3)
12. [Violência Física]: 10193 ==> [Violência Psicológica]: 9288
<conf:(0.91)> lift:(1.15) lev:(0.08) conv:(2.32)
13. [Violência Física]: 10193 ==> [Negligência]: 9286
<conf:(0.91)> lift:(1.1) lev:(0.06) conv:(1.94)
14. [Abuso Sexual]: 4227 ==> [Negligência, Violência Psicológica]: 3792
<conf:(0.9)> lift:(1.26) lev:(0.05) conv:(2.8)
15. [Violência Psicológica]: 11664 ==> [Negligência]: 10449
<conf:(0.9)> lift:(1.08) lev:(0.05) conv:(1.66)
16. [Negligência, Violência Psicológica, Abuso Sexual]: 3792 ==> [Violência Física]: 3387
<conf:(0.89)> lift:(1.29) lev:(0.05) conv:(2.86)
17. [Violência Psicológica, Abuso Sexual]: 3966 ==> [Violência Física]: 3509
<conf:(0.88)> lift:(1.28) lev:(0.05) conv:(2.65)
18. [Negligência, Abuso Sexual]: 4002 ==> [Violência Física]: 3494
<conf:(0.87)> lift:(1.26) lev:(0.05) conv:(2.41)
19. [Negligência]: 12159 ==> [Violência Psicológica]: 10449
<conf:(0.86)> lift:(1.08) lev:(0.05) conv:(1.47)
20. [Abuso Sexual]: 4227 ==> [Violência Física]: 3629
<conf:(0.86)> lift:(1.24) lev:(0.05) conv:(2.16)
21. [Violência Psicológica, Abuso Sexual]: 3966 ==> [Negligência, Violência Física]: 3387
<conf:(0.85)> lift:(1.35) lev:(0.06) conv:(2.52)
22. [Negligência, Abuso Sexual]: 4002 ==> [Violência Psicológica, Violência Física]: 3387
<conf:(0.85)> lift:(1.34) lev:(0.06) conv:(2.39)
23. [Violência Física]: 10193 ==> [Negligência, Violência Psicológica]: 8591
<conf:(0.84)> lift:(1.19) lev:(0.09) conv:(1.84)
24. [Abuso Sexual]: 4227 ==> [Violência Psicológica, Violência Física]: 3509
<conf:(0.83)> lift:(1.31) lev:(0.06) conv:(2.16)
96 APÊNDICE A. Resultados
25. [Abuso Sexual]: 4227 ==> [Negligência, Violência Física]: 3494
<conf:(0.83)> lift:(1.31) lev:(0.06) conv:(2.12)
• Regras para conjunto de dados das vitimizações no último ano sem agregação de
atributos.
1. [Indiretas3, Indiretas5]: 973 ==> [Indiretas2]: 847
<conf:(0.87)> lift:(2) lev:(0.03) conv:(4.33)
2. [Indiretas4, Indiretas5]: 1095 ==> [Indiretas2]: 938
<conf:(0.86)> lift:(1.97) lev:(0.03) conv:(3.92)
3. [Indiretas2, Indiretas3, Pares1]: 884 ==> [CC6]: 750
<conf:(0.85)> lift:(2.99) lev:(0.03) conv:(4.69)
4. [Indiretas4, Pares1]: 1134 ==> [CC6]: 956
<conf:(0.84)> lift:(2.97) lev:(0.04) conv:(4.54)
5. [Indiretas3, Pares1]: 1284 ==> [CC6]: 1055
<conf:(0.82)> lift:(2.89) lev:(0.05) conv:(4)
6. [Indiretas5]: 1484 ==> [Indiretas2]: 1216
<conf:(0.82)> lift:(1.89) lev:(0.04) conv:(3.12)
7. [Indiretas2, Pares1]: 1305 ==> [CC6]: 1066
<conf:(0.82)> lift:(2.87) lev:(0.05) conv:(3.89)
8. [Indiretas3, Indiretas5]: 973 ==> [Indiretas4]: 790
<conf:(0.81)> lift:(2.63) lev:(0.03) conv:(3.66)
9. [Cuidadores1, Pares1]: 957 ==> [CC6]: 777
<conf:(0.81)> lift:(2.86) lev:(0.03) conv:(3.78)
10. [Indiretas4, Digitais1]: 1061 ==> [Indiretas3]: 834
<conf:(0.79)> lift:(1.87) lev:(0.03) conv:(2.69)
11. [Pares1]: 2184 ==> [CC6]: 1705
<conf:(0.78)> lift:(2.75) lev:(0.07) conv:(3.26)
12. [Indiretas3, Indiretas4, Cuidadores1]: 1337 ==> [Indiretas2]: 1041
<conf:(0.78)> lift:(1.79) lev:(0.03) conv:(2.55)
13. [Indiretas2, Indiretas4, Cuidadores1]: 1340 ==> [Indiretas3]: 1041
<conf:(0.78)> lift:(1.84) lev:(0.03) conv:(2.58)
14. [Indiretas2, Indiretas5]: 1216 ==> [Indiretas4]: 938
<conf:(0.77)> lift:(2.5) lev:(0.04) conv:(3.01)
15. [Indiretas4, CC4]: 1080 ==> [Indiretas2]: 832
<conf:(0.77)> lift:(1.77) lev:(0.02) conv:(2.45)
16. [Indiretas4, CC6, Cuidadores1]: 1007 ==> [Indiretas3]: 768
<conf:(0.76)> lift:(1.81) lev:(0.02) conv:(2.43)
17. [Indiretas4, CC6, Cuidadores1]: 1007 ==> [Indiretas2]: 767
<conf:(0.76)> lift:(1.75) lev:(0.02) conv:(2.36)
18. [Indiretas3, Indiretas4, CC6]: 1451 ==> [Indiretas2]: 1104
<conf:(0.76)> lift:(1.75) lev:(0.03) conv:(2.36)
19. [Indiretas4, CC3]: 1211 ==> [Indiretas3]: 918
<conf:(0.76)> lift:(1.8) lev:(0.03) conv:(2.38)
20. [Indiretas2, Indiretas4, CC6]: 1461 ==> [Indiretas3]: 1104
<conf:(0.76)> lift:(1.79) lev:(0.03) conv:(2.36)
21. [Indiretas4, Digitais1]: 1061 ==> [Indiretas2]: 800
<conf:(0.75)> lift:(1.73) lev:(0.02) conv:(2.29)
• Regras para conjunto de dados das vitimizações no último ano utilizando o tipo de
vitimização para a agregação de atributos (25 regras de um total de 56).
1. [Cuidadores, Digitais, Sexuais]: 805 ==> [Indiretas]: 768
<conf:(0.95)> lift:(1.42) lev:(0.02) conv:(6.91)
A.2. Apriori 97
2. [CC, Cuidadores, Pares, Sexuais]: 799 ==> [Indiretas]: 757
<conf:(0.95)> lift:(1.41) lev:(0.01) conv:(6.06)
3. [Cuidadores, Pares, Sexuais]: 862 ==> [Indiretas]: 813
<conf:(0.94)> lift:(1.4) lev:(0.02) conv:(5.62)
4. [CC, Digitais, Sexuais]: 966 ==> [Indiretas]: 911
<conf:(0.94)> lift:(1.4) lev:(0.02) conv:(5.63)
5. [CC, Cuidadores, Pares, Digitais]: 1007 ==> [Indiretas]: 947
<conf:(0.94)> lift:(1.4) lev:(0.02) conv:(5.38)
6. [Digitais, Sexuais]: 1152 ==> [Indiretas]: 1077
<conf:(0.93)> lift:(1.39) lev:(0.02) conv:(4.94)
7. [CC, Cuidadores, Digitais]: 1473 ==> [Indiretas]: 1377
<conf:(0.93)> lift:(1.39) lev:(0.03) conv:(4.95)
8. [Cuidadores, Pares, Digitais]: 1092 ==> [Indiretas]: 1018
<conf:(0.93)> lift:(1.38) lev:(0.02) conv:(4.75)
9. [Indiretas, Cuidadores, Pares, Sexuais]: 813 ==> [CC]: 757
<conf:(0.93)> lift:(1.83) lev:(0.02) conv:(7)
10. [Indiretas, Cuidadores, Pares, Digitais]: 1018 ==> [CC]: 947
<conf:(0.93)> lift:(1.83) lev:(0.03) conv:(6.94)
11. [CC, Pares, Sexuais]: 1099 ==> [Indiretas]: 1019
<conf:(0.93)> lift:(1.38) lev:(0.02) conv:(4.42)
12. [Cuidadores, Pares, Sexuais]: 862 ==> [CC]: 799
<conf:(0.93)> lift:(1.82) lev:(0.02) conv:(6.61)
13. [Cuidadores, Digitais]: 1757 ==> [Indiretas]: 1627
<conf:(0.93)> lift:(1.37) lev:(0.03) conv:(4.37)
14. [CC, Cuidadores, Sexuais]: 1169 ==> [Indiretas]: 1081
<conf:(0.92)> lift:(1.37) lev:(0.02) conv:(4.28)
15. [Cuidadores, Pares, Digitais]: 1092 ==> [CC]: 1007
<conf:(0.92)> lift:(1.81) lev:(0.03) conv:(6.23)
16. [Pares, Sexuais]: 1218 ==> [Indiretas]: 1121
<conf:(0.92)> lift:(1.37) lev:(0.02) conv:(4.05)
17. [CC, Pares, Digitais]: 1441 ==> [Indiretas]: 1326
<conf:(0.92)> lift:(1.37) lev:(0.02) conv:(4.05)
18. [Cuidadores, Sexuais]: 1393 ==> [Indiretas]: 1274
<conf:(0.91)> lift:(1.36) lev:(0.02) conv:(3.79)
19. [Indiretas, Pares, Sexuais]: 1121 ==> [CC]: 1019
<conf:(0.91)> lift:(1.78) lev:(0.03) conv:(5.34)
20. [CC, Digitais]: 2292 ==> [Indiretas]: 2082
<conf:(0.91)> lift:(1.35) lev:(0.04) conv:(3.54)
21. [Pares, Digitais]: 1621 ==> [Indiretas]: 1472
<conf:(0.91)> lift:(1.35) lev:(0.03) conv:(3.52)
22. [CC, Sexuais]: 1808 ==> [Indiretas]: 1641
<conf:(0.91)> lift:(1.35) lev:(0.03) conv:(3.51)
23. [CC, Cuidadores, Pares]: 2029 ==> [Indiretas]: 1834
<conf:(0.9)> lift:(1.34) lev:(0.03) conv:(3.38)
24. [Pares, Sexuais]: 1218 ==> [CC]: 1099
<conf:(0.9)> lift:(1.77) lev:(0.03) conv:(4.98)
25. [Indiretas, Pares, Digitais]: 1472 ==> [CC]: 1326
<conf:(0.9)> lift:(1.77) lev:(0.04) conv:(4.91)
• Regras para conjunto de dados das vitimizações no último ano utilizando o tipo de
violência para a agregação de atributos.
1. [Violência Psicológica, Violência Física, Abuso Sexual]: 1646 ==> [Negligência]: 1516
<conf:(0.92)> lift:(1.35) lev:(0.03) conv:(4.02)
2. [Negligência, Violência Física, Abuso Sexual]: 1649 ==> [Violência Psicológica]: 1516
98 APÊNDICE A. Resultados
<conf:(0.92)> lift:(1.61) lev:(0.04) conv:(5.26)
3. [Violência Física, Abuso Sexual]: 1805 ==> [Negligência]: 1649
<conf:(0.91)> lift:(1.34) lev:(0.03) conv:(3.68)
4. [Violência Física, Abuso Sexual]: 1805 ==> [Violência Psicológica]: 1646
<conf:(0.91)> lift:(1.59) lev:(0.04) conv:(4.82)
5. [Violência Psicológica, Abuso Sexual]: 2360 ==> [Negligência]: 2133
<conf:(0.9)> lift:(1.33) lev:(0.04) conv:(3.32)
6. [Abuso Sexual]: 2908 ==> [Negligência]: 2560
<conf:(0.88)> lift:(1.3) lev:(0.04) conv:(2.67)
7. [Violência Psicológica, Violência Física]: 4991 ==> [Negligência]: 4300
<conf:(0.86)> lift:(1.27) lev:(0.06) conv:(2.31)
8. [Negligência, Violência Física]: 5074 ==> [Violência Psicológica]: 4300
<conf:(0.85)> lift:(1.48) lev:(0.09) conv:(2.8)
9. [Violência Física, Abuso Sexual]: 1805 ==> [Negligência, Violência Psicológica]: 1516
<conf:(0.84)> lift:(1.8) lev:(0.05) conv:(3.33)
10. [Negligência, Abuso Sexual]: 2560 ==> [Violência Psicológica]: 2133
<conf:(0.83)> lift:(1.46) lev:(0.05) conv:(2.56)
11. [Violência Física]: 6111 ==> [Negligência]: 5074
<conf:(0.83)> lift:(1.22) lev:(0.06) conv:(1.89)
12. [Violência Física]: 6111 ==> [Violência Psicológica]: 4991
<conf:(0.82)> lift:(1.43) lev:(0.1) conv:(2.33)
13. [Violência Psicológica]: 8415 ==> [Negligência]: 6842
<conf:(0.81)> lift:(1.2) lev:(0.08) conv:(1.71)
14. [Abuso Sexual]: 2908 ==> [Violência Psicológica]: 2360
<conf:(0.81)> lift:(1.42) lev:(0.05) conv:(2.26)
99
Referências
AFIFI, T. O.; MACMILLAN, H. L. Resilience following child maltreatment: A review of
protective factors. The Canadian Journal of Psychiatry, SAGE Publications Sage CA:
Los Angeles, CA, v. 56, n. 5, p. 266–272, 2011. Citado na página 25.
AGRAWAL, R.; IMIELIŃSKI, T.; SWAMI, A. Mining association rules between sets
of items in large databases. In: ACM. Acm sigmod record. [S.l.], 1993. v. 22, n. 2, p.
207–216. Citado 5 vezes nas páginas 20, 28, 37, 38 e 60.
AGRAWAL, R.; SRIKANT, R. et al. Fast algorithms for mining association rules. In:
Proc. 20th int. conf. very large data bases, VLDB. [S.l.: s.n.], 1994. v. 1215, p. 487–499.
Citado na página 28.
AIKEN, L. S.; WEST, S. G.; RENO, R. R. Multiple regression: Testing and interpreting
interactions. [S.l.]: Sage, 1991. Citado na página 44.
ALLISON, P. D. Missing data. [S.l.]: Sage publications, 2001. Citado na página 29.
ALPAYDIN, E. Introduction to machine learning. [S.l.]: MIT press, 2009. Citado na
página 27.
ALTEMEIER, W. A. et al. Prediction of child abuse: A prospective study of feasibility.
Child Abuse & Neglect, Elsevier, v. 8, n. 4, p. 393–400, 1984. Citado 3 vezes nas páginas
42, 48 e 57.
ALTMAN, D. G.; BLAND, J. M. Diagnostic tests. 1: Sensitivity and specificity. BMJ:
British Medical Journal, BMJ Publishing Group, v. 308, n. 6943, p. 1552, 1994. Citado
na página 35.
ALVES, L. et al. Crime prediction through urban metrics and statistical learning.
Physica A, p. 435–443, 2018. Citado na página 19.
AMRIT, C. et al. Identifying child abuse through text mining and machine learning.
Expert systems with applications, Elsevier, v. 88, p. 402–418, 2017. Citado 2 vezes nas
páginas 49 e 58.
B. THORNBERRY T., S. C. K. In the wake of childhood maltreatment. 1997. Citado
na página 24.
BABBIE, E. R. The basics of social research. [S.l.]: Cengage Learning, 2013. Citado na
página 54.
BAIR, E. Semi-supervised clustering methods. Wiley Interdisciplinary Reviews:
Computational Statistics, Wiley Online Library, v. 5, n. 5, p. 349–361, 2013. Citado na
página 28.
BEGLE, A. M.; DUMAS, J. E.; HANSON, R. F. Predicting child abuse potential:
An empirical investigation of two theoretical frameworks. Journal of Clinical Child &
Adolescent Psychology, Taylor & Francis, v. 39, n. 2, p. 208–219, 2010. Citado 4 vezes
nas páginas 9, 45, 46 e 58.
100 Referências
BELLMAN, R. Dynamic programming. [S.l.]: Courier Corporation, 2013. Citado na
página 30.
BENESTY, J. et al. Pearson correlation coefficient. In: Noise reduction in speech
processing. [S.l.]: Springer, 2009. p. 1–4. Citado na página 30.
BIRLESON, P. The validity of depressive disorder in childhood and the development of
a self-rating scale: a research report. Journal of Child Psychology and Psychiatry, Wiley
Online Library, v. 22, n. 1, p. 73–88, 1981. Citado na página 66.
BISHOP, C. M. Pattern Recognition and Machine Learning. [S.l.]: Springer, 2006.
Citado na página 26.
BLATTBERG, R. C.; KIM, B.-D.; NESLIN, S. A. Evaluation of statistical models. In:
Database Marketing. [S.l.]: Springer, 2008. p. 309–310. Citado na página 34.
BOGOMOLOV, A. et al. Once upon a crime: Towards crime prediction from
demographics and mobile data. 16th International Conference on Multimodal Interaction,
p. 427–434, 2014. Citado na página 19.
BORGAN, Ø. et al. Handbook of Statistical Methods for Case-Control Studies. [S.l.]:
CRC Press, 2018. Citado na página 54.
BOYD, K.; ENG, K. H.; PAGE, C. D. Area under the precision-recall curve: point
estimates and confidence intervals. In: SPRINGER. Joint European conference on
machine learning and knowledge discovery in databases. [S.l.], 2013. p. 451–466. Citado
na página 36.
BREIMAN, L. Classification and regression trees. [S.l.]: Routledge, 2017. Citado na
página 33.
BRIN, S. et al. Dynamic itemset counting and implication rules for market basket data.
Acm Sigmod Record, ACM, v. 26, n. 2, p. 255–264, 1997. Citado na página 40.
BROWNE, M. et al. Informe Final Análisis Multivariable de Estudio Polivictimización.
[S.l.], 2018. Citado na página 66.
BURRELL, B.; THOMPSON, B.; SEXTON, D. Predicting child abuse potential across
family types. Child abuse & neglect, Elsevier, v. 18, n. 12, p. 1039–1049, 1994. Citado 2
vezes nas páginas 42 e 57.
BUTCHART, A.; HARVEY, A. Prevención del maltrato infantil: qué hacer, y cómo
obtener evidencias. [S.l.], 2009. Citado na página 25.
CAPLAN, J. M.; KENNEDY, L. W. Risk terrain modeling compendium. Rutgers Center
on Public Security, Newark, 2011. Citado na página 51.
CHANDRASHEKAR, G.; SAHIN, F. A survey on feature selection methods. Computers
& Electrical Engineering, Elsevier, v. 40, n. 1, p. 16–28, 2014. Citado 2 vezes nas
páginas 30 e 31.
CHAPELLE, O.; SCHOLKOPF, B.; ZIEN, A. Semi-supervised learning (chapelle, o. et
al., eds.; 2006)[book reviews]. IEEE Transactions on Neural Networks, IEEE, v. 20, n. 3,
p. 542–542, 2009. Citado na página 28.
Referências 101
CHAWLA, N. V. et al. Smote: synthetic minority over-sampling technique. Journal of
artificial intelligence research, v. 16, p. 321–357, 2002. Citado na página 68.
CHEN, T.; GUESTRIN, C. Xgboost: A scalable tree boosting system. In: ACM.
Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and
data mining. [S.l.], 2016. p. 785–794. Citado na página 55.
CHILD WELFARE INFORMATION GATEWAY. Understanding the Effects of
Maltreatment on Early Brain Development. [S.l.], 2001. Citado na página 24.
CHILD WELFARE INFORMATION GATEWAY. Risk and Protective Factors for Child
Abuse and Neglect. [S.l.], 2004. 2–3 p. Citado na página 25.
CHILD WELFARE INFORMATION GATEWAY. Long-Term Consequences of Child
Abuse and Neglect. [S.l.], 2013. 3–7 p. Citado na página 24.
CHILD WELFARE INFORMATION GATEWAY. Protective Factors Approaches in
Child Welfare. [S.l.], 2014. 1 p. Citado na página 25.
CHOULDECHOVA, A. et al. A case study of algorithm-assisted decision making in child
maltreatment hotline screening decisions. In: Conference on Fairness, Accountability and
Transparency. [S.l.: s.n.], 2018. p. 134–148. Citado 4 vezes nas páginas 11, 55, 56 e 58.
COELHO, L. P.; RICHERT, W. Building machine learning systems with Python. [S.l.]:
Packt Publishing Ltd, 2015. Citado na página 31.
COLMAN, R. A.; WIDOM, C. S. Childhood abuse and neglect and adult intimate
relationships: A prospective study. Child abuse & neglect, Elsevier, v. 28, n. 11, p.
1133–1151, 2004. Citado na página 24.
COOK, A. et al. Complex trauma in children and adolescents. Psychiatric annals,
SLACK Incorporated, v. 35, n. 5, p. 390–398, 2005. Citado na página 26.
COX, D. R. Regression models and life-tables. Journal of the Royal Statistical Society:
Series B (Methodological), Wiley Online Library, v. 34, n. 2, p. 187–202, 1972. Citado
na página 44.
COX, D. R. Analysis of survival data. [S.l.]: Routledge, 2018. Citado na página 44.
CRECECONTIGO. El Maltrato Infantil. 2015. Citado na página 24.
DALEY, D. et al. Risk terrain modeling predicts child maltreatment. Child abuse &
neglect, Elsevier, v. 62, p. 29–38, 2016. Citado 4 vezes nas páginas 9, 51, 52 e 58.
DAVIS, J.; GOADRICH, M. The relationship between precision-recall and roc curves.
In: ACM. Proceedings of the 23rd international conference on Machine learning. [S.l.],
2006. p. 233–240. Citado na página 36.
DEPANFILIS, D.; ZURAVIN, S. J. Predicting child maltreatment recurrences during
treatment. Child Abuse & Neglect, Elsevier, v. 23, n. 8, p. 729–743, 1999. Citado 2 vezes
nas páginas 44 e 57.
DETOURS, V. et al. Integration and cross-validation of high-throughput gene expression
data: comparing heterogeneous data sets. FEBS letters, Wiley Online Library, v. 546,
n. 1, p. 98–102, 2003. Citado na página 29.
102 Referências
DONG, M. et al. The interrelatedness of multiple forms of childhood abuse, neglect, and
household dysfunction. Child abuse & neglect, Elsevier, v. 28, n. 7, p. 771–784, 2004.
Citado na página 26.
DUBOWITZ, H. et al. Identifying children at high risk for a child maltreatment report.
Child abuse & neglect, Elsevier, v. 35, n. 2, p. 96–104, 2011. Citado 2 vezes nas páginas
46 e 58.
DURLAK, J. A. Common risk and protective factors in successful prevention programs.
American journal of orthopsychiatry, Wiley Online Library, v. 68, n. 4, p. 512–520, 1998.
Citado na página 25.
FARREN, D. Factores asociados al maltrato infantil en adolescentes escolares de
la comuna de recoleta. IV Congreso Nacional de Investigación sobre Violencia y
Delincuencia, p. 169–193, 2007. Citado na página 18.
FAWCETT, T. An introduction to roc analysis. Pattern recognition letters, Elsevier,
v. 27, n. 8, p. 861–874, 2006. Citado na página 36.
FELITTI, V. J. et al. Relationship of childhood abuse and household dysfunction to
many of the leading causes of death in adults: The adverse childhood experiences (ace)
study. American journal of preventive medicine, Elsevier, v. 14, n. 4, p. 245–258, 1998.
Citado na página 24.
FINKELHOR, D. et al. The juvenile victimization questionnaire: reliability, validity, and
national norms. Child abuse & neglect, Elsevier, v. 29, n. 4, p. 383–412, 2005. Citado 2
vezes nas páginas 26 e 65.
FINKELHOR, D.; ORMROD, R. K.; TURNER, H. A. Poly-victimization: A neglected
component in child victimization. Child abuse & neglect, Elsevier, v. 31, n. 1, p. 7–26,
2007. Citado 2 vezes nas páginas 25 e 26.
FINKELHOR, D. et al. Polyvictimization: Children’s exposure to multiple types of
violence, crime, and abuse. National survey of children’s exposure to violence, United
States Department of Justice, 2011. Citado na página 26.
FLAHERTY, C. W.; PATTERSON, D. A. Predicting child physical abuse recurrence:
comparison of a neural network to logistic regression. Journal of Technology in Human
Services, Taylor & Francis, v. 21, n. 4, p. 93–111, 2003. Citado 2 vezes nas páginas 53
e 57.
FRANK, R. et al. Frequency of child abuse seen in a pediatric surgery unit. Pediatric
surgery international, Springer, v. 7, n. 6, p. 454–458, 1992. Citado 2 vezes nas páginas
47 e 57.
GAN, G.; MA, C.; WU, J. Data clustering: theory, algorithms, and applications. [S.l.]:
Siam, 2007. Citado na página 27.
GARCÍA, S.; LUENGO, J.; HERRERA, F. Data preprocessing in data mining. [S.l.]:
Springer, 2015. Citado na página 29.
GAYATHRI, K. et al. Hierarchical activity recognition or dementia care using markov
logic network. Personal and Ubiquitous Computing, p. 271–285, 2015. Citado na página
19.
Referências 103
GELMAN, A.; HILL, J. Data analysis using regression and multilevel/hierarchical
models. [S.l.]: Cambridge university press, 2006. Citado na página 42.
GOES, A.; STEINER, M. Proposta de metedologia para a criação de etiquetas de
classificação - estudo de caso: Desempenho escolar. Gestão e Produção, p. 177–191, 2016.
Citado na página 19.
GÓMEZ, L. Menores Víctimas y Testigos de Violencia Familiar. Tese (Doutorado) —
Facultad de Derecho, Universidad Zaragoza, 2011. Citado na página 18.
GUYON, I.; ELISSEEFF, A. An introduction to variable and feature selection. Journal
of machine learning research, v. 3, n. Mar, p. 1157–1182, 2003. Citado na página 31.
GUYON, I. et al. Feature extraction: foundations and applications. [S.l.]: Springer, 2008.
Citado na página 30.
HALKIDI, M.; BATISTAKIS, Y.; VAZIRGIANNIS, M. On clustering validation
techniques. Journal of intelligent information systems, Springer, v. 17, n. 2-3, p. 107–145,
2001. Citado na página 39.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. Unsupervised learning. In: The elements
of statistical learning. [S.l.]: Springer, 2009. p. 485–585. Citado 2 vezes nas páginas 27
e 37.
HAWKINS, D. M. The problem of overfitting. Journal of chemical information and
computer sciences, ACS Publications, v. 44, n. 1, p. 1–12, 2004. Citado na página 30.
HE, H.; GARCIA, E. A. Learning from imbalanced data. IEEE Transactions on
Knowledge & Data Engineering, Ieee, n. 9, p. 1263–1284, 2008. Citado na página 29.
HORIKAWA, H. et al. Development of a prediction model for child maltreatment
recurrence in japan: A historical cohort study using data from a child guidance center.
Child abuse & neglect, Elsevier, v. 59, p. 55–65, 2016. Citado 2 vezes nas páginas 47
e 58.
HOSMER, D. W.; LEMESHOW, S.; STURDIVANT, R. X. Applied logistic regression.
[S.l.]: John Wiley & Sons, 2013. Citado 2 vezes nas páginas 52 e 55.
JAKSCH, T.; ORTNER, R.; AUER, P. Near-optimal regret bounds for reinforcement
learning. Journal of Machine Learning Research, v. 11, n. Apr, p. 1563–1600, 2010.
Citado na página 28.
JAMES, G. et al. An introduction to statistical learning. [S.l.]: Springer, 2013. Citado
na página 32.
KASS, G. V. An exploratory technique for investigating large quantities of categorical
data. Journal of the Royal Statistical Society: Series C (Applied Statistics), Wiley Online
Library, v. 29, n. 2, p. 119–127, 1980. Citado na página 33.
KIM, W. et al. A taxonomy of dirty data. Data mining and knowledge discovery,
Springer, v. 7, n. 1, p. 81–99, 2003. Citado na página 29.
KOHAVI, R. et al. A study of cross-validation and bootstrap for accuracy estimation
and model selection. In: MONTREAL, CANADA. Ijcai. [S.l.], 1995. v. 14, n. 2, p.
1137–1145. Citado 3 vezes nas páginas 34, 47 e 72.
104 Referências
KOHONEN, T. The self-organizing map. Proceedings of the IEEE, IEEE, v. 78, n. 9, p.
1464–1480, 1990. Citado na página 28.
KOTSIANTIS, S.; KANELLOPOULOS, D. Association rules mining: A recent overview.
GESTS International Transactions on Computer Science and Engineering, v. 32, n. 1, p.
71–82, 2006. Citado na página 38.
LECANNELIER, F. El trauma oculto en la infancia. Guía científicamente informada
para padres, educadores y profesionales. [S.l.]: Penguin Random House Grupo Editorial,
2018. Citado na página 24.
LEE, J. A.; VERLEYSEN, M. Nonlinear dimensionality reduction. [S.l.]: Springer
Science & Business Media, 2007. Citado na página 30.
LIN, T. Y. Attribute transformations for data mining i: Theoretical explorations.
International journal of intelligent systems, Wiley Online Library, v. 17, n. 2, p. 213–222,
2002. Citado na página 29.
LINDSAY, M. et al. Neural predictors of initialiting alcohol use during adolescence. The
American Journal of Psychiatry, p. 172–185, 2017. Citado na página 19.
LITTLE, J.; RIXON, A. Computer learning and risk assessment in child protection.
Child Abuse Review: Journal of the British Association for the Study and Prevention of
Child Abuse and Neglect, Wiley Online Library, v. 7, n. 3, p. 165–177, 1998. Citado 4
vezes nas páginas 9, 48, 49 e 57.
LIU, F. et al. Dual teaching: A practical semi-supervised wrapper method. arXiv preprint
arXiv:1611.03981, 2016. Citado na página 28.
LIU, H.; MOTODA, H. Feature selection for knowledge discovery and data mining. [S.l.]:
Springer Science & Business Media, 2012. Citado na página 31.
MAGLOGIANNIS ILIAS, G. Emerging artificial intelligence applications in computer
engineering: real word ai systems with applications in ehealth, hci, information retrieval
and pervasive technologies. [S.l.]: Ios Press, 2007. Citado na página 26.
MALDONADO, S.; WEBER, R. Modelos de selección de atributos para support vector
machines. Revista Ingeniería de Sistemas, v. 26, p. 49–70, 2012. Citado na página 31.
MARQUARDT, D. W.; SNEE, R. D. Ridge regression in practice. The American
Statistician, Taylor & Francis Group, v. 29, n. 1, p. 3–20, 1975. Citado na página 31.
MARSHALL, D. B.; ENGLISH, D. J. Neural network modeling of risk assessment in
child protective services. Psychological Methods, American Psychological Association,
v. 5, n. 1, p. 102, 2000. Citado 2 vezes nas páginas 52 e 57.
MASTEN, A. S.; GARMEZY, N. Risk, vulnerability, and protective factors in
developmental psychopathology. In: Advances in clinical child psychology. [S.l.]: Springer,
1985. p. 39–40. Citado na página 25.
MCDONALD, T.; MARKS, J. A review of risk factors assessed in child protective
services. Social Service Review, University of Chicago Press, v. 65, n. 1, p. 112–132, 1991.
Citado na página 25.
Referências 105
MCHUGH, M. L. The chi-square test of independence. Biochemia medica: Biochemia
medica, Medicinska naklada, v. 23, n. 2, p. 143–149, 2013. Citado 2 vezes nas páginas
30 e 45.
MILNER, J. Características sociales y psicológicas de los maltratadores físicos del niño.
II Congreso Estatal sobre Infancia Maltratada, 1993. Citado na página 18.
MOHD, P. et al. A neural network students’ performance prediction model (nnsppm).
IEEE International Conference on Smart Instrumentation, Measurement and
Applications (ICSIMA), 2013. Citado na página 19.
MOND, B.; PECARIĆ, J. A mixed arithmetic-mean-harmonic-mean matrix inequality.
Linear algebra and its applications, Elsevier, v. 237, p. 449–454, 1996. Citado na página
36.
MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear regression
analysis. [S.l.]: John Wiley & Sons, 2012. Citado na página 45.
NISBET, R.; ELDER, J.; MINER, G. Handbook of statistical analysis and data mining
applications. [S.l.]: Academic Press, 2009. Citado na página 28.
OLVERA-LÓPEZ, J. A. et al. A review of instance selection methods. Artificial
Intelligence Review, Springer, v. 34, n. 2, p. 133–143, 2010. Citado na página 31.
ORDONEZ, C. Association rule discovery with the train and test approach for heart
disease prediction. IEEE Transactions on Information Technology in Biomedicine, IEEE,
v. 10, n. 2, p. 334–343, 2006. Citado na página 39.
PAMPEL, F. C. Logistic regression: A primer. [S.l.]: Sage, 2000. Citado na página 27.
PIATETSKY-SHAPIRO, G. Discovery, analysis, and presentation of strong rules.
Knowledge discovery in databases, Menlo Park, CA: AAI/MIT, p. 229–238, 1991. Citado
na página 40.
PYLE, D. Data preparation for data mining. [S.l.]: morgan kaufmann, 1999. Citado na
página 29.
QUINLAN, J. R. Discovering rules by induction from large collections of examples.
Expert systems in the micro electronics age, Edinburgh University Press, 1979. Citado
na página 33.
QUINLAN, J. R. Induction of decision trees. Machine learning, Springer, v. 1, n. 1, p.
81–106, 1986. Citado na página 33.
QUINLAN, J. R. C4. 5: programs for machine learning. [S.l.]: Morgan Kaufmann, 1993.
Citado 3 vezes nas páginas 33, 34 e 60.
RODRIGUEZ, C. M.; GREEN, A. J. Parenting stress and anger expression as predictors
of child abuse potential. Child Abuse & Neglect, Pergamon, v. 21, n. 4, p. 367–377, 1997.
Citado 2 vezes nas páginas 43 e 57.
ROJAS, R. Neural networks: a systematic introduction. [S.l.]: Springer Science &
Business Media, 2013. Citado na página 27.
106 Referências
ROKACH, L.; MAIMON, O. Z. Data mining with decision trees: theory and applications.
[S.l.]: World scientific, 2008. Citado 4 vezes nas páginas 20, 27, 32 e 71.
ROSENBERG, M. Society and the adolescent self-image. [S.l.]: Princeton university
press, 1965. Citado na página 66.
RUDAS, T. Odds ratios in the analysis of contingency tables. [S.l.]: Sage, 1998. Citado
na página 54.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning internal
representations by error propagation. [S.l.], 1985. Citado na página 52.
RUSSELL, J. Predictive analytics and child protection: Constraints and opportunities.
Child Abuse and Neglect, p. 182–189, 2015. Citado na página 19.
RUSSELL, S. J.; NORVIG, P. Artificial intelligence: a modern approach. [S.l.]: Malaysia;
Pearson Education Limited, 2016. Citado 2 vezes nas páginas 27 e 39.
RUTHERFORD, A. Introducing ANOVA and ANCOVA: a GLM approach. [S.l.]: Sage,
2001. Citado na página 30.
SCHWARTZ, D. R.; KAUFMAN, A. B.; SCHWARTZ, I. M. Computational intelligence
techniques for risk assessment and decision support. Children and Youth Services Review,
Elsevier, v. 26, n. 11, p. 1081–1095, 2004. Citado 2 vezes nas páginas 48 e 57.
SCHWARTZ, I. M. et al. Predictive and prescriptive analytics, machine learning and
child welfare risk assessment: The broward county experience. Children and Youth
Services Review, Elsevier, v. 81, p. 309–320, 2017. Citado 2 vezes nas páginas 50 e 58.
SEBER, G. A.; LEE, A. J. Linear regression analysis. [S.l.]: John Wiley & Sons, 2012.
Citado na página 52.
SENAME. SENAME por tus Derechos, Maltrato Infantil y Adolescente. 2016. Citado
na página 23.
SHANNON, C. E. A mathematical theory of communication. Bell system technical
journal, Wiley Online Library, v. 27, n. 3, p. 379–423, 1948. Citado na página 33.
SHAVLIK, J. et al. Readings in machine learning. [S.l.]: Morgan Kaufmann, 1990.
Citado na página 27.
SILVERMAN, A. B.; REINHERZ, H. Z.; GIACONIA, R. M. The long-term sequelae
of child and adolescent abuse: A longitudinal community study. Child abuse & neglect,
Elsevier, v. 20, n. 8, p. 709–723, 1996. Citado na página 24.
SLEDJESKI, E. M. et al. The use of risk assessment to predict recurrent maltreatment:
A classification and regression tree analysis (cart). Prevention science, Springer, v. 9,
n. 1, p. 28–37, 2008. Citado 2 vezes nas páginas 53 e 57.
SØGAARD, A. Semi-supervised learning and domain adaptation in natural language
processing. Synthesis Lectures on Human Language Technologies, Morgan & Claypool
Publishers, v. 6, n. 2, p. 1–103, 2013. Citado na página 28.
Referências 107
STITH, S. M. et al. Risk factors in child maltreatment: A meta-analytic review of the
literature. Aggression and violent behavior, Elsevier, v. 14, n. 1, p. 13–29, 2009. Citado
na página 25.
SUBSECRETARÍA DE PREVENCIÓN DEL DELITO. Primera Encuesta Nacional
de Polivictimizaciónen Niñas, Niños y Adolescentes. [S.l.], 2018. Citado 2 vezes nas
páginas 20 e 65.
SUTTON, R. S.; BARTO, A. G. Introduction to reinforcement learning. [S.l.]: MIT press
Cambridge, 1998. Citado na página 29.
THURSTON, H.; MIYAMOTO, S. The use of model based recursive partitioning as an
analytic tool in child welfare. Child abuse & neglect, Elsevier, v. 79, p. 293–301, 2018.
Citado 3 vezes nas páginas 54, 56 e 58.
TIBSHIRANI, R. Regression shrinkage and selection via the lasso. Journal of the Royal
Statistical Society: Series B (Methodological), Wiley Online Library, v. 58, n. 1, p.
267–288, 1996. Citado na página 31.
UNICEF. Maltrato Infantil en Chile. [S.l.], 2005. 2–3 p. Citado na página 23.
UNICEF. Convención sobre los Derechos del Niño. 2014. Citado na página 17.
UNICEF. Una Situación Habitual. [S.l.], 2017. 3–6 p. Citado na página 17.
VAITHIANATHAN, R. et al. Children in the public benefit system at risk of
maltreatment: Identification via predictive modeling. American journal of preventive
medicine, Elsevier, v. 45, n. 3, p. 354–359, 2013. Citado 2 vezes nas páginas 51 e 58.
VAN DER KOLK, B. A. Developmental trauma disorder: Toward a rational diagnosis
for children with complex trauma histories. Psychiatric annals, SLACK Incorporated,
v. 35, n. 5, p. 401–408, 2005. Citado na página 25.
WANG, L. Support vector machines: theory and applications. [S.l.]: Springer Science &
Business Media, 2005. Citado na página 27.
WITTEN, I. H. et al. Data Mining: Practical Machine Learning Tools and Techniques.
[S.l.]: Morgan Kaufmann, 2016. 7–8 p. Citado 2 vezes nas páginas 19 e 26.
WU, J. Advances in K-means clustering: a data mining thinking. [S.l.]: Springer Science
& Business Media, 2012. Citado na página 28.
YAP, B. W. et al. An application of oversampling, undersampling, bagging and boosting
in handling imbalanced datasets. In: SPRINGER. Proceedings of the First International
Conference on Advanced Data and Information Engineering (DaEng-2013). [S.l.], 2014.
p. 13–22. Citado na página 29.
ZHANG, C.; ZHANG, S. Association rule mining: models and algorithms. [S.l.]:
Springer-Verlag, 2002. Citado 3 vezes nas páginas 38, 39 e 40.
ZOU, H.; HASTIE, T. Regularization and variable selection via the elastic net. Journal
of the royal statistical society: series B (statistical methodology), Wiley Online Library,
v. 67, n. 2, p. 301–320, 2005. Citado na página 31.