dc.contributor.author | Souza, Wesley Willy Oliveira de | |
dc.date.accessioned | 2021-06-11T09:07:18Z | |
dc.date.available | 2021-06-11T09:07:18Z | |
dc.date.issued | 2021-01-08 | |
dc.identifier.citation | SOUZA, Wesley Willy Oliveira de. Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14366. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/14366 | |
dc.description.abstract | In recent years, ontologies have been used in information systems to index large corpora of documents or collections of facts and directly support user interaction with the system through functionalities such as navigation and searches. Both structure and content of ontologies must come with these changes, over time, without losing coherence. Expansion of ontologies is primarily an organizational process and there must be rules for the processes of updating, inserting and exclusion from the ontology. After learning millions of facts extracted from the web, NELL (Never-ending Language Learning), the first never-ending machine learning system described in the literature that continuously extracts facts (reading the web) to increase its knowledge base and learn to read better than the previous day, began to learn beyond the knowledge extracted and to infer new beliefs that it had not yet read before, becoming able to expand its initial ontology through some contributions. In this way, the present thesis proposes a sequential modular computational model that allows the expansion of the ontology of the NELL knowledge base, identifying and classifying subcategories of the categories already known by the NELL ontology. The proposed component receives as inputs question texts in English from the Yahoo Answers forum, a set of English Wikipedia articles, the NELL knowledge base and a set of seed examples. From this, preprocessing tasks were done to extract labelled and unlabeled examples, which were classified by a machine learning algorithm that define the new candidates to subcategories. A second module performs a validation procedure based on conditional probability. The results showed that the component, in addition to achieve adequate performances in terms of subcategories learning, maintains a relatively low rate of false positives. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência artificial | por |
dc.subject | Aprendizado de máquina | por |
dc.subject | Aprendizado sem fim | por |
dc.subject | Expansão de ontologia | por |
dc.subject | Artificial intelligence | eng |
dc.subject | Machine Learning | eng |
dc.subject | Never-ending Language Learning | eng |
dc.subject | Ontology evolution | eng |
dc.title | Aprendizado de subcategorias para Never-ending Language Learning: uma abordagem baseada em perguntas e respostas | por |
dc.title.alternative | Subcategory Learning for Never-ending Language Learning: a question-and-answer-based approach | eng |
dc.type | Tese | por |
dc.contributor.advisor1 | Fernandes, Ricardo Augusto Souza | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0880243208789454 | por |
dc.description.resumo | Nos últimos anos, ontologias são utilizadas em sistemas de informação para indexar grandes corpora de documentos ou coleções de fatos, bem como apoiar diretamente na interação do usuário com o sistema através de funcionalidades como navegação e consultas. Assim, nota-se que tanto a estrutura quanto o conteúdo das ontologias devem acompanhar essas mudanças, temporalmente, sem perder coerência. A expansão de ontologias é a princípio um processo organizacional portanto, deve haver regras para a realização dos processos de atualizações, inserções e remoções da ontologia. Após aprender milhões de fatos extraídos da web, a NELL (Never-ending Language Learning), o primeiro sistema de aprendizado de máquina sem fim descrito na literatura que ininterruptamente extrai fatos (lendo a web) para aumentar sua base de conhecimento e aprender a ler melhor que o dia anterior, passou a adquirir além do conhecimento extraído e a inferir em novas crenças que ainda não havia lido anteriormente, tornando-se capaz de expandir sua ontologia inicial através de várias contribuições. Ainda assim, notou-se uma limitação no conhecimento da NELL, quanto a aprender novas subcategorias a partir das categorias já conhecidas em sua base de conhecimento. Neste sentido, a presente tese tem o objetivo de propor um componente modular sequencial que possibilite a expansão da ontologia da base de conhecimento da NELL, identificando e classificando subcategorias das categorias já conhecidas pela ontologia da NELL. O componente proposto recebe como entrada textos de perguntas em inglês do fórum de perguntas e respostas Yahoo Answers, um conjunto de artigos da Wikipédia em inglês, a base de conhecimento da NELL e um conjunto de exemplos sementes. Com isso, foram realizadas tarefas de pré-processamento dos dados com o intuito de extrair exemplos rotulados e não rotulados, os quais foram classificados por um algoritmo de aprendizado de máquina para definir exemplos candidatos a subcategorias. Um segundo módulo realiza um procedimento de validação baseado em probabilidade condicional. Os resultados mostraram que o componente, além de alcançar desempenhos adequados em termos do aprendizado de subcategorias, manteve uma taxa de falsos positivos relativamente baixa. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | por |
dc.description.sponsorshipId | CAPES: Código de Financiamento 001 | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/8311856533532872 | por |