Leitura da web em português em ambiente de aprendizado sem-fim

Duarte, Maísa Cristina

dc.contributor.author	Duarte, Maísa Cristina
dc.date.accessioned	2017-01-16T16:47:46Z
dc.date.available	2017-01-16T16:47:46Z
dc.date.issued	2016-01-04
dc.identifier.citation	DUARTE, Maísa Cristina. Leitura da web em português em ambiente de aprendizado sem-fim. 2016. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2016. Disponível em: https://repositorio.ufscar.br/handle/ufscar/8414.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/8414
dc.description.abstract	NELL is a computer system that has the goal of learn to learn 24 hours per day, continuously and learn more an better than the last day, to perform the knowledge base (KB). NELL is running since January 12 of 2010. Furthermore, NELL goals is have hight precision to be able to continue the learning. NELL is developed in macro-reading context, because this NELL needs very much redundancy to run. The first step to run NELL is to have an big (all-pairs-data). An all-pairs-data is a preprocessed base using Natural Language Processing (NLP), that base has all sufficient statistics about a corpus of web pages. The proposal of this project was to create a instance of NELL (currently in English) in Portuguese. For this, the first goal was the developing an all-pairs-data in Portuguese. The second step was to create a new version of Portuguese NELL. And finally, the third goal was to develop a coreference resolution hybrid method focused in features semantics and morphologics. This method is not dependent of a specific language, it is can be applied for another languages with the same alphabet of Portuguese language. The NELL in Portuguese was developed, but the all-pairs-data is not big enough. Because it Portuguese NELL is not running for ever, like the English version. Even so, this project present the steps about how to develop a NELL in other language and some ideas about how to improve the all-pairs-data. By the way, this project present a coreference resolution hybrid method with good results to NELL.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Semi-Supervised Learning	eng
dc.subject	Never-Ending Learning	eng
dc.subject	NELL	eng
dc.subject	Coupling	eng
dc.subject	Correference Resolution	eng
dc.subject	Read The Web in Portuguese	eng
dc.subject	Aprendizado de máquina semissupevisionado	por
dc.subject	Aprendizado sem-fim	por
dc.subject	Acoplamento	por
dc.subject	Resolução de correferência	por
dc.title	Leitura da web em português em ambiente de aprendizado sem-fim	por
dc.type	Tese	por
dc.contributor.advisor1	Hruschka Júnior, Estevam Rafael
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2097340857065853	por
dc.description.resumo	A NELL é um sistema de computador que possui o objetivo de executar 24 horas por dia, 7 dias por semana, sem parar. A versão atual da NELL foi iniciada em 12 de Janeiro de 2010 e continua ativa. Seu objetivo é aprender cada vez mais fatos da web para popular sua base de conhecimento (Knowlegde Base - KB). Além de aprender cada vez mais, a NELL também objetiva alcançar alta confiança no aprendizado para garantir a continuidade do aprendizado. A NELL foi desenvolvida e atua no contexto da macroleitura, no qual é necessária uma grande quantidade e redundância de dados. Para que o sistema possa aprender, o primeiro passo é criar uma base preprocessada (all-pairs-data) a partir do uso de técnicas linguísticas. O all-pairs-data deve possuir todas as estatísticas suficientes para a execução da NELL e também deve ser de um tamanho suficientemente grande para que o aprendizado possa ocorrer. Neste projeto, foi proposta a criação de uma nova instância da NELL em português. Inicialmente foi proposta a criação de um all-pairs-data e, em seguida, a criação de uma abordagem híbrida para a resolução de correferências independente de língua por base em características semânticas e morfológicas. A proposta híbrida objetivou aperfeiçoar o processo atual de tratamento de correferências na NELL, melhorando assim a confiabilidade no aprendizado. Todas as propostas foram desenvolvidas e a NELL em português obteve bons resultados. Tais resultados evidenciam que a leitura da web em português poderá se tornar um sistema de aprendizado sem-fim. Para que isso ocorra são também apresentadas as futuras abordagens e propostas. Além disso, este projeto apresenta a metodologia de criação da instância da NELL em português, uma proposta de resolução de correferência que explora atributos linguisticos,bem como a ontologia da NELL, além de apontar trabalhos futuros, nos quais inclui-se processos de adição de outras línguas na NELL, principalmente para aquelas que possuem poucas páginas web disponíveis para o aprendizado.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/7878297791371477	por

Files in this item

Name:: TeseMCD.pdf
Size:: 1.491Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record