dc.contributor.author | Discola Junior, Sérgio Luisir | |
dc.date.accessioned | 2019-08-08T16:54:26Z | |
dc.date.available | 2019-08-08T16:54:26Z | |
dc.date.issued | 2019-06-21 | |
dc.identifier.citation | DISCOLA JUNIOR, Sérgio Luisir. Enhancing solar flare forecasting: a multi-class and multi-label classification approach to handle imbalanced time series. 2019. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11645. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/11645 | |
dc.description.abstract | Solar flares are huge releases of energy from the Sun. They are categorized in five levels
according to their potential damage to Earth (A, B, C, M, and X) and may produce strong
impacts to communication systems, threatening human activities dependent on satellites
and GPS. Therefore, predicting it in advance may reduce their negative impacts. However,
solar flare forecasting has significant challenges: (a) the sequence of data influences the
phenomena and should be tracked; (b) the features and intervals that cause and influence the
phenomena are not defined; (c) the forecasting should be performed in an affordable time;
(d) the data is highly imbalanced, (e) adjacent classes are sometimes difficult to distinguish,
(f) the majority approaches perform binary forecasting (aggregating solar flare classes),
instead of multi-class, as actually required. This work proposed a method that tackles these
challenges simultaneously, being different from previous works, which tend to handle a
challenge per time.
First, we aimed to forecast the X-ray levels expected for the next few days. We proposed
the SeMiner method that allows the labels prediction given past observations. SeMiner
processes X-ray time series into sequences employing the new Series-to-Sequence (SS) al-
gorithm through a sliding window approach configured by a domain specialist. This method
allows to consider the sequence of instances in the mining process, handling challenge (a).
Next, feature selection is employed in order to determine which interval of data in the time
series, most influences the forecasting process, handling challenge (b). Then, the processed
sequences are submitted to a traditional classifier to generate a model that predicts future
X-ray levels. SeMiner reached 73% of accuracy for a 2-day forecast, 71% and 79%, respec-
tively for True Positive and True Negative Rates.
Second, we parallelized SS to increase its performance, in order to tackle issue (c), by
implementing it in CUDA platform. This implementation allowed a speedup of 4.36 in
its time processing due to the distribution of the processing among the GPUs (Graphics
Processing Unit).
Third, we improved SeMiner to tackle the remaining challenges by developing a new method
called Ensemble of classifiers for imbalanced datasets (ECID). For each solar flare class,
ECID employs a stratified random sampling for training binary-class base inducers, strength-
ening their sensitivity to a given class in a very imbalanced scenario, which tackled issue
(d).
Using a modified bootstrap approach, an aggregation method combines the inducers results, enabling a multi-class and multi-label forecasting and thus, handling the issue of adjacent
classes (challenge (e)). The results showed that ECID is well-suited for forecasting solar
flares, achieving a maximum mean of True Positive Rate (TPR) of 91% and a Precision of
97%, in a time horizon of one day. | eng |
dc.description.sponsorship | Não recebi financiamento | por |
dc.language.iso | eng | eng |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights.uri | Acesso aberto | por |
dc.subject | Explosão solar | por |
dc.subject | Previsão | por |
dc.subject | Séries temporais | por |
dc.subject | Mineração de dados | por |
dc.subject | Classificação em séries temporais | por |
dc.subject | Seleção de caracterı́sticas | por |
dc.subject | Conjunto de dados desbalanceados | por |
dc.subject | Solar flare | eng |
dc.subject | Forecasting | eng |
dc.subject | Time series | eng |
dc.subject | Data mining | eng |
dc.subject | Classifiers | eng |
dc.subject | Time series classification | eng |
dc.subject | Feature selection | eng |
dc.subject | Imbalanced dataset | eng |
dc.title | Enhancing solar flare forecasting: a multi-class and multi-label classification approach to handle imbalanced time series | eng |
dc.title.alternative | Aprimorando a previsão de explosões solares: uma abordagem de classificação multi-classe e multi-label para lidar com séries temporais desbalanceadas | por |
dc.type | Tese | por |
dc.contributor.advisor1 | Fernandes, Marcio Merino | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7278634019537967 | por |
dc.description.resumo | Explosões solares são enormes liberações de energia do Sol. Elas são classificadas em cinco níveis (A, B, C, M e X) de acordo com seus possíveis danos à Terra e podem produzir grandes impactos nos sistemas de comunicação, ameaçando atividades humanas dependentes de satélites e GPS. Portanto, prevê-las antecipadamente pode reduzir tais impactos. A previsão de explosões solares apresentam desafios significativos: (a) a sequência de dados deve ser rastreada devido à sua influência no fenômeno; (b) as características solares que influenciam neste fenômeno não estão totalmente estabelecidos; (c) a previsão deve ser realizada em tempo razoável; (d) os dados são altamente desbalanceados, (e) as classes adjacentes às vezes são difíceis de distinguir, (f) a maioria das abordagens realizam previsão binária (agregando classes de explosões solar), ao invés de prover uma previsão multi-classe. Este trabalho de doutorado propôs um método que aborda esses desafios simultaneamente, diferentemente de trabalhos anteriores, que tendem a lidar com um desafio por vez. Para tanto, inicialmente, nós objetivamos prever explosões solares para um horizonte de poucos dias. Foi proposto o método SeMiner, o qual permite a previsão de explosões, dados valores observados passados. O método SeMiner processa séries temporais de Raios-X em sequencias empregando o algoritmo "Series-to-Sequence" (SS) através de uma abordagem de janela deslizante configurada pelo especialista do domínio. Este método considera uma sequência de instâncias no processo de mineração, lidando com o desafio (a). Após isso, a seleção de características é aplicada a fim de determinar o intervalo de dados na série temporal, que mais influencia o processo de previsão. Isto tratou o desafio (b). Então, as sequências processadas são submetidas a classificadores tradicionais para gerar um modelo que prevê níveis de Raios-X futuros. O SeMiner alcançou 73% de acurácia para uma previsão de 1 dia, 71% e 79%, respectivamente para TPR e TNR. Um segundo passo foi desenvolvido através da paralelização do algoritmo SS, o qual melhorou o seu desempenho. Este desenvolvimento lidou com a questão (c), implementando esta otimização através da plataforma CUDA. Esta implementação permitiu um "speedup" de 4.36 no seu tempo de processamento devido à distribuição do processamento entre as GPUs ("Unidades Gráficas de Processamento"). O terceiro passo foi composto pela melhoria do método SeMiner. Este passo lidou com os desafios restantes através do desenvolvimento de um novo método chamado ECID ("Ensemble of classifiers for imbalanced datasets"). Para cada classe de explosão solar, o ECID aplica uma amostragem aleatória estratificada para treinar classificadores base binários, fortalecendo sua sensitividade para uma dada classe em um cenário desbalanceado. Esta etapa tratou a questão (d). Através de uma abordagem de "Bootstrap" modificada, o ECID usa um método de agregação que combina os resultados dos classificadores base, possibilitando uma previsão multi-classe e multi-label. Desta forma, o desafio (e) foi trabalhado. Os resultados mostraram que o ECID é bem adequado para previsão de explosões solares, alcançando um TPR médio de 91% e uma precisão média de 97% em um horizonte de previsão de um dia. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.ufscar.embargo | Online | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/2273792806455594 | por |