Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo

Borges, Fernando

Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo

dc.contributor.advisor1	Ramos, Thiago
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/1634196230063965
dc.contributor.author	Borges, Fernando
dc.contributor.authorlattes	https://lattes.cnpq.br/3130182835247681
dc.date.accessioned	2025-08-04T14:18:28Z
dc.date.issued	2025-07-01
dc.description.abstract	With recent advances in machine learning, image classification has become essential in various fields of science. In linguistics, tasks such as deciphering, transcribing, and preserving ancient documents are benefited from the application of deep learning models. The study of cursive Japanese characters, for example, involves a type of writing that differs significantly from its modern version, to the extent that only a small portion of Japanese speakers can understand it fluently. Furthermore, due to the way the Japanese syllabary has evolved throughout history, the application of deep learning methods is appropriate for the task of classifying these ancient Japanese writings, given that there are dozens of variants for each character. Thus, this work aimed to develop a classification model capable of predicting cursive Japanese characters in ancient scripts. To achieve this, four traditional classification methods - logistic regression, k-nearest neighbors, support vector machines and boosting - were adjusted, as well as three architectures of a deep learning method - convolutional neural networks - using datasets related to handwritten cursive characters. As a final result, the model that achieved the best performance was a convolutional neural network, with an accuracy of 92.9% in classifying the 49 classes that make up the hiragana syllabary. In addition, a U-Net model was developed to extract characters from new pages of handwritten texts. However, when applying the trained classifier to real data, the accuracy dropped to 69.1%, highlighting the challenges associated with the variability of writing styles and the presence of noise in scanned images.	eng
dc.description.resumo	Com os recentes avanços na área de aprendizado de máquina, a classificação de imagens se tornou essencial em diversos ramos da ciência. Na linguística, as tarefas de decifração, transcrição e preservação de documentos antigos estão sendo beneficiadas pela aplicação de modelos de aprendizado profundo. O estudo de caracteres japoneses cursivos, por exemplo, envolve um tipo de escrita que se distingue muito de sua versão moderna, de tal forma que apenas uma pequena parte dos falantes da língua japonesa é capaz de compreendê-la fluentemente. Além disso, devido à forma como o silabário japonês evoluiu ao longo de sua história, a aplicação de métodos de aprendizado profundo é apropriada para a tarefa de classificação dessas escrituras japonesas antigas, tendo em vista que existem dezenas de variantes para cada caractere. Assim, este trabalho teve como objetivo desenvolver um modelo de classificação que fosse capaz de predizer caracteres japoneses cursivos em escrituras antigas. Para isso, foram ajustados quatro métodos tradicionais de classificação - regressão logística, k-nearest neighbors, support vector machines e boosting - e três arquiteturas de um método de aprendizado profundo - redes neurais convolucionais - em conjuntos de dados relacionados a caracteres cursivos manuscritos. Como resultado final, o modelo que obteve os melhores resultados foi uma rede neural convolucional, com acurácia de 92.9% na classificação das 49 classes que compõem o silabário hiragana. Além disso, foi desenvolvido um modelo U-Net capaz de extrair caracteres de novas páginas de textos manuscritos. No entanto, ao aplicar o classificador ajustado em dados reais, a acurácia caiu para 69.1%, o que evidencia os desafios associados à variabilidade dos estilos de escrita e à presença de ruído em imagens digitalizadas.	por
dc.description.sponsorship	Não recebi financiamento
dc.identifier.citation	BORGES, Fernando. Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22504.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/22504
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.course	Estatística - Es
dc.publisher.initials	UFSCar
dc.rights	Attribution 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/
dc.subject	Aprendizado profundo	por
dc.subject	Classificação	por
dc.subject	Japonês	por
dc.subject	Redes neurais	por
dc.subject	Segmentação de imagens	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
dc.title	Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo	por
dc.title.alternative	Cursive japanese characters classification using deep learning models	eng
dc.type	TCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TCC_Fernando_Borges.pdf
Tamanho:: 24.58 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

TCC