Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em português

Leite, Daniel Saraiva

dc.contributor.author	Leite, Daniel Saraiva
dc.date.accessioned	2016-06-02T19:05:48Z
dc.date.available	2011-04-07
dc.date.available	2016-06-02T19:05:48Z
dc.date.issued	2010-12-21
dc.identifier.citation	LEITE, Daniel Saraiva. Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em português. 2010. 231 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2010.	por
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/459
dc.description.abstract	Automatic text summarization has been of great interest in Natural Language Processing due to the need of processing a huge amount of information in short time, which is usually delivered through distinct media. Thus, large-scale methods are of utmost importance for synthesizing and making access to information simpler. They aim at preserving relevant content of the sources with little or no human intervention. Building upon the extractive summarizer SuPor and focusing on texts in Portuguese, this MsC work aimed at exploring varied features for automatic summarization. Computational methods especially driven towards textual statistics, graphs and machine learning have been explored. A meaningful extension of the SuPor system has resulted from applying such methods and new summarization models have thus been delineated. These are based either on each of the three methodologies in isolation, or are hybrid. In this dissertation, they are generically named after the original SuPor as SuPor-2. All of them have been assessed by comparing them with each other or with other, well-known, automatic summarizers for texts in Portuguese. The intrinsic evaluation tasks have been carried out entirely automatically, aiming at the informativeness of the outputs, i.e., the automatic extracts. They have also been compared with other well-known automatic summarizers for Portuguese. SuPor-2 results show a meaningful improvement of some SuPor-2 variations. The most promising models may thus be made available in the future, for generic use. They may also be embedded as tools for varied Natural Language Processing purposes. They may even be useful for other related tasks, such as linguistic studies. Portability to other languages is possible by replacing the resources that are language-dependent, namely, lexicons, part-of-speech taggers and stop words lists. Models that are supervised have been so far trained on news corpora. In spite of that, training for other genres may be carried out by interested users using the very same interfaces supplied by the systems.	eng
dc.format	application/pdf	por
dc.language	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Acesso Aberto	por
dc.subject	Processamento da linguagem natural (Computação)	por
dc.subject	Sumarização automática	por
dc.subject	Inteligência artificial	por
dc.subject	Extractive automatic summarization	eng
dc.subject	Graph-based automatic summarization	eng
dc.subject	Automatic summarization based upon statistics	eng
dc.subject	Machine learning approach for automatic summarization	eng
dc.subject	Hybrid methods for automatic summarization	eng
dc.subject	Automatic summarization	eng
dc.subject	Natural language processing	eng
dc.subject	Artificial intelligence	eng
dc.title	Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em português	por
dc.type	Dissertação	por
dc.contributor.advisor1	Rino, Lúcia Helena Machado
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0315640846525832	por
dc.description.resumo	A tarefa de Sumarização Automática de textos tem sido de grande importância dentro da área de Processamento de Linguagem Natural devido à necessidade de se processar gigantescos volumes de informação disponibilizados nos diversos meios de comunicação. Assim, mecanismos em larga escala para sintetizar e facilitar o acesso a essas informações são de extrema importância. Esses mecanismos visam à preservação do conteúdo mais relevante e com pouca ou nenhuma intervenção humana. Partindo do sumarizador extrativo SuPor e contemplando o Português, este trabalho de mestrado visou explorar variadas características de sumarização pela utilização de métodos computacionais baseados em estatísticas textuais, grafos e aprendizado de máquina. Esta exploração consistiu de uma extensão significativa do SuPor, pela definição de novos modelos baseados nessas três abordagens de forma individual ou híbrida. Por serem originários desse sistema, manteve-se a relação com seu nome, o que resultou na denominação genérica SuPor-2. Os diversos modelos propostos foram, então, comparados entre si em diversos experimentos, avaliando-se intrínseca e automaticamente a informatividade dos extratos produzidos. Foram realizadas também comparações com outros sistemas conhecidos para o Português. Os resultados obtidos evidenciam uma melhora expressiva de algumas variações do SuPor-2 em relação aos demais sumarizadores extrativos existentes para o Português. Os sistemas que se evidenciaram superiores podem ser disponibilizados no futuro para utilização geral por usuários comuns ou ainda para utilização como ferramentas em outras tarefas do Processamento de Língua Natural ou em áreas relacionadas. A portabilidade para outras línguas é possível com a substituição dos recursos dependentes de língua, como léxico, etiquetadores morfossintáticos e stoplist Os modelos supervisionados foram treinados com textos jornalísticos até o momento. O treino para outros gêneros pode ser feito pelos usuários interessados através dos próprios sistemas desenvolvidos	por
dc.publisher.country	BR	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.contributor.authorlattes	http://lattes.cnpq.br/4602931087864561	por

Files in this item

Name:: 3512.pdf
Size:: 1.809Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record

Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em português

Files in this item

This item appears in the following Collection(s)

Related items

Investigação de estratégias de sumarização humana multidocumento ﻿

Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language) ﻿

Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento ﻿

Investigação de estratégias de sumarização humana multidocumento

Investigação de estratégias de seleção de conteúdo baseadas na UNL (Universal Networking Language)

Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento