Classificação de retornos utilizando dados de alta frequência no mercado de bitcoins

Emílio, João Mateus Arcolini

dc.contributor.author	Emílio, João Mateus Arcolini
dc.date.accessioned	2020-05-22T23:55:19Z
dc.date.available	2020-05-22T23:55:19Z
dc.date.issued	2020-03-10
dc.identifier.citation	EMÍLIO, João Mateus Arcolini. Classificação de retornos utilizando dados de alta frequência no mercado de bitcoins. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12796.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/12796
dc.description.abstract	In the cryptocurrency market, Bitcoin stands out as the most accepted traded in the world. However, due to its high volatility, the prediction of price behaviors, in special, the trend classification, becomes a challenge and valuable to investors. In this sense, in recent years, some studies have been proposed based on machine learning techniques to classify reliable trading signals from the Bitcoin return series. Thus, the present work explores Bitcoin's trend behaviors, seeking to classify its returns using high-frequency data from limit order book in terms of US dollar (BTCUSD) and euro (BTCEUR). The proposed methodology seeks to accurately predict returns, creating opportunities that better support trading strategies. Therefore, from the Bitcoin historical series, technical indicators (commonly used in financial markets), market variables and the own series of returns for different time intervals were extracted. It is worth mentioning that the data have a frequency of at most one second for each update of the entire order book, thus characterizing the high-frequency. Subsequently, these data are submitted to the inputs of trend classifiers based on Artificial Neural Networks and XGBoost, which were trained and validated in three months of trading, from January to March 2019, composing approximately 5 million market updates for each currency base. In a first analysis, the behaviors of the models for each base currency were observed, it is possible to note that the market for BTCUSD proves to be more efficient related to BTCEUR. Consequently, the machine learning models obtained more reliable and stable results over time for BTCUSD. Based on this initial result, sought to validate the predictive models for different training and validation configurations. In this second analysis, it was noted that the trend classification is more accurate for short intervals (between 1 and 3 minutes) in both base currencies, which is justified due to the high volatility in Bitcoin prices in short intervals. In a third analysis, it was observed that as we increased the number of training days for classifiers, in some cases, was noted a gradual loss in classification (between 1% and 2%). Still, in a fourth analysis, one-vs.-rest was applied to each trend behavior, there is a considerable performance increase in the classification in relation to the base case (between 1% and 7%)	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Aprendizado de máquina	por
dc.subject	Microestrutura de mercado	por
dc.subject	Negociação algorítmica	por
dc.subject	Alta frequência	por
dc.subject	Machine Learning	eng
dc.subject	High-frequency	eng
dc.subject	Market microstructure	eng
dc.subject	Algorithmic trading	eng
dc.subject	Bitcoin	eng
dc.title	Classificação de retornos utilizando dados de alta frequência no mercado de bitcoins	por
dc.title.alternative	Bitcoin return classification using high-frequency data	eng
dc.type	Dissertação	por
dc.contributor.advisor1	Fernandes, Ricardo Augusto Souza
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0880243208789454	por
dc.description.resumo	No mercado de criptomoedas, o Bitcoin destaca-se como a mais aceita e negociada no mundo. Entretanto, devido à sua alta volatilidade, a predição de comportamentos de preços, em especial a classificação de tendência, torna-se um desafio e é de grande interesse aos investidores. Neste sentido, nos últimos anos, alguns estudos foram propostos com base em técnicas de aprendizado de máquina com a intenção de classificar sinais viáveis de negociação a partir da série de retornos do Bitcoin. Assim, o presente trabalho explora comportamentos de tendência do Bitcoin, buscando classificar seu retorno por meio de dados de alta frequência referentes às ordens do livro de ofertas em termos de dólar americano (BTCUSD) e euro (BTCEUR). A metodologia proposta busca predizer retornos com precisão, criando oportunidades que deem melhor suporte às estratégias de negociação. Para tanto, a partir das séries históricas do Bitcoin, foram extraídos indicadores técnicos (comumente empregados em mercados financeiros), variáveis de mercado e a própria série de retornos para diferentes intervalos temporais. Cabe mencionar que os dados possuem uma frequência de no máximo um segundo para cada atualização de todo livro de ofertas, caracterizando assim a alta frequência. Na sequência, estes dados são submetidos às entradas de classificadores de tendência baseados em Redes Neurais Artificiais e XGBoost, os quais foram treinados e validados em três meses de negociação, de Janeiro a Março de 2019, compondo aproximadamente 5 milhões de atualizações do mercado para cada moeda base. Em uma primeira análise foram observados os comportamentos dos modelos para cada moeda base, sendo possível notar que o mercado para BTCUSD se demonstra mais eficiente em relação à BTCEUR. Consequentemente, os modelos de aprendizado de máquina obtiveram resultados mais confiáveis e estáveis ao longo do tempo para BTCUSD. Partindo desse resultado inicial, buscou-se validar os modelos preditivos para distintas configurações de treinamento e validação. Nesta segunda análise, notou-se que a classificação das tendências mostra-se mais precisa para intervalos curtos (entre 1 e 3 minutos) em ambas as moedas base, o que é justificável devido a alta volatilidade nos preços do Bitcoin em curtos intervalos de tempo. Em uma terceira análise, observou-se que à medida que a quantidade de dias no conjunto de treinamento é incrementada, em alguns casos, nota-se uma perda gradativa de desempenho na classificação (entre 1% e 2%). Ainda, em uma quarta análise, aplicou-se one-vs.-rest para cada comportamento de tendência, verifica-se um aumento de desempenho considerável na classificação em relação ao caso base (entre 1% e %7)	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/5077328227235621	por