Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo
| dc.contributor.advisor1 | Ramos, Thiago | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/1634196230063965 | |
| dc.contributor.author | Borges, Fernando | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/3130182835247681 | |
| dc.date.accessioned | 2025-08-04T14:18:28Z | |
| dc.date.issued | 2025-07-01 | |
| dc.description.abstract | With recent advances in machine learning, image classification has become essential in various fields of science. In linguistics, tasks such as deciphering, transcribing, and preserving ancient documents are benefited from the application of deep learning models. The study of cursive Japanese characters, for example, involves a type of writing that differs significantly from its modern version, to the extent that only a small portion of Japanese speakers can understand it fluently. Furthermore, due to the way the Japanese syllabary has evolved throughout history, the application of deep learning methods is appropriate for the task of classifying these ancient Japanese writings, given that there are dozens of variants for each character. Thus, this work aimed to develop a classification model capable of predicting cursive Japanese characters in ancient scripts. To achieve this, four traditional classification methods - logistic regression, k-nearest neighbors, support vector machines and boosting - were adjusted, as well as three architectures of a deep learning method - convolutional neural networks - using datasets related to handwritten cursive characters. As a final result, the model that achieved the best performance was a convolutional neural network, with an accuracy of 92.9% in classifying the 49 classes that make up the hiragana syllabary. In addition, a U-Net model was developed to extract characters from new pages of handwritten texts. However, when applying the trained classifier to real data, the accuracy dropped to 69.1%, highlighting the challenges associated with the variability of writing styles and the presence of noise in scanned images. | eng |
| dc.description.resumo | Com os recentes avanços na área de aprendizado de máquina, a classificação de imagens se tornou essencial em diversos ramos da ciência. Na linguística, as tarefas de decifração, transcrição e preservação de documentos antigos estão sendo beneficiadas pela aplicação de modelos de aprendizado profundo. O estudo de caracteres japoneses cursivos, por exemplo, envolve um tipo de escrita que se distingue muito de sua versão moderna, de tal forma que apenas uma pequena parte dos falantes da língua japonesa é capaz de compreendê-la fluentemente. Além disso, devido à forma como o silabário japonês evoluiu ao longo de sua história, a aplicação de métodos de aprendizado profundo é apropriada para a tarefa de classificação dessas escrituras japonesas antigas, tendo em vista que existem dezenas de variantes para cada caractere. Assim, este trabalho teve como objetivo desenvolver um modelo de classificação que fosse capaz de predizer caracteres japoneses cursivos em escrituras antigas. Para isso, foram ajustados quatro métodos tradicionais de classificação - regressão logística, k-nearest neighbors, support vector machines e boosting - e três arquiteturas de um método de aprendizado profundo - redes neurais convolucionais - em conjuntos de dados relacionados a caracteres cursivos manuscritos. Como resultado final, o modelo que obteve os melhores resultados foi uma rede neural convolucional, com acurácia de 92.9% na classificação das 49 classes que compõem o silabário hiragana. Além disso, foi desenvolvido um modelo U-Net capaz de extrair caracteres de novas páginas de textos manuscritos. No entanto, ao aplicar o classificador ajustado em dados reais, a acurácia caiu para 69.1%, o que evidencia os desafios associados à variabilidade dos estilos de escrita e à presença de ruído em imagens digitalizadas. | por |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | BORGES, Fernando. Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22504. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/22504 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.course | Estatística - Es | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.subject | Aprendizado profundo | por |
| dc.subject | Classificação | por |
| dc.subject | Japonês | por |
| dc.subject | Redes neurais | por |
| dc.subject | Segmentação de imagens | por |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS | |
| dc.title | Classificação de caracteres japoneses cursivos utilizando modelos de aprendizado profundo | por |
| dc.title.alternative | Cursive japanese characters classification using deep learning models | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TCC_Fernando_Borges.pdf
- Tamanho:
- 24.58 MB
- Formato:
- Adobe Portable Document Format