Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo

dc.contributor.advisor1Ramos, Thiago
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1634196230063965
dc.contributor.authorBorges, Fernando
dc.contributor.authorlatteshttp://lattes.cnpq.br/3130182835247681
dc.date.accessioned2025-08-04T14:18:28Z
dc.date.issued2025-07-01
dc.description.abstractWith recent advances in machine learning, image classification has become essential in various fields of science. In linguistics, tasks such as deciphering, transcribing, and preserving ancient documents are benefited from the application of deep learning models. The study of cursive Japanese characters, for example, involves a type of writing that differs significantly from its modern version, to the extent that only a small portion of Japanese speakers can understand it fluently. Furthermore, due to the way the Japanese syllabary has evolved throughout history, the application of deep learning methods is appropriate for the task of classifying these ancient Japanese writings, given that there are dozens of variants for each character. Thus, this work aimed to develop a classification model capable of predicting cursive Japanese characters in ancient scripts. To achieve this, four traditional classification methods - logistic regression, k-nearest neighbors, support vector machines and boosting - were adjusted, as well as three architectures of a deep learning method - convolutional neural networks - using datasets related to handwritten cursive characters. As a final result, the model that achieved the best performance was a convolutional neural network, with an accuracy of 92.9% in classifying the 49 classes that make up the hiragana syllabary. In addition, a U-Net model was developed to extract characters from new pages of handwritten texts. However, when applying the trained classifier to real data, the accuracy dropped to 69.1%, highlighting the challenges associated with the variability of writing styles and the presence of noise in scanned images.eng
dc.description.resumoCom os recentes avanços na área de aprendizado de máquina, a classificação de imagens se tornou essencial em diversos ramos da ciência. Na linguística, as tarefas de decifração, transcrição e preservação de documentos antigos estão sendo beneficiadas pela aplicação de modelos de aprendizado profundo. O estudo de caracteres japoneses cursivos, por exemplo, envolve um tipo de escrita que se distingue muito de sua versão moderna, de tal forma que apenas uma pequena parte dos falantes da língua japonesa é capaz de compreendê-la fluentemente. Além disso, devido à forma como o silabário japonês evoluiu ao longo de sua história, a aplicação de métodos de aprendizado profundo é apropriada para a tarefa de classificação dessas escrituras japonesas antigas, tendo em vista que existem dezenas de variantes para cada caractere. Assim, este trabalho teve como objetivo desenvolver um modelo de classificação que fosse capaz de predizer caracteres japoneses cursivos em escrituras antigas. Para isso, foram ajustados quatro métodos tradicionais de classificação - regressão logística, k-nearest neighbors, support vector machines e boosting - e três arquiteturas de um método de aprendizado profundo - redes neurais convolucionais - em conjuntos de dados relacionados a caracteres cursivos manuscritos. Como resultado final, o modelo que obteve os melhores resultados foi uma rede neural convolucional, com acurácia de 92.9% na classificação das 49 classes que compõem o silabário hiragana. Além disso, foi desenvolvido um modelo U-Net capaz de extrair caracteres de novas páginas de textos manuscritos. No entanto, ao aplicar o classificador ajustado em dados reais, a acurácia caiu para 69.1%, o que evidencia os desafios associados à variabilidade dos estilos de escrita e à presença de ruído em imagens digitalizadas.por
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationBORGES, Fernando. Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22504.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/22504
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseEstatística - Es
dc.publisher.initialsUFSCar
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectAprendizado profundopor
dc.subjectClassificaçãopor
dc.subjectJaponêspor
dc.subjectRedes neuraispor
dc.subjectSegmentação de imagenspor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
dc.titleClassificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundopor
dc.title.alternativeCursive japanese characters classification using deep learning modelseng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC_Fernando_Borges.pdf
Tamanho:
24.58 MB
Formato:
Adobe Portable Document Format

Coleções