Show simple item record

dc.contributor.authorLuca, Rejeane Cassia de
dc.date.accessioned2019-03-28T17:44:54Z
dc.date.available2019-03-28T17:44:54Z
dc.date.issued2019-02-28
dc.identifier.citationLUCA, Rejeane Cassia de. Aplicação de conhecimento léxico-conceitual na Sumarização Automática Multidocumento. 2019. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11163.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/11163
dc.description.abstractAutomatic Multi-document Summarization (MDS) aims at creating automatically a single summary from a collection of texts on the same topic in order to provide an alternative way to deal with the massive amount of information on the web. Since such summary is often an extract (i.e., a summary composed of unchanged excerpts extracted from the source texts that convey the main idea of the collection), it is required the selection of the most important sentences of the collection. For sentence selection, there are superficial (linguistic or statistical), deep linguistic, and hybrid methods. Despite being less robust and more expensive, the deep methods produce extracts that are not only more informative but also have higher linguistic quality. Considering the promising results of lexical-conceptual methods in incipient MDS or in multilingual MDS surveys, we investigated 4 methods in monolingual MDS for Portuguese, which is based on the frequency the lexical concepts in the cluster for content selection. We selected CSTNews, a reference multi-document corpus in Portuguese, whose verbs and 10% of the most frequent nouns are annotated with their correspondent synsets from Princeton WordNet. Specifically, we selected 5 clusters from the 50 in CSTNews, and extended the conceptual annotation to all nouns. Then, we applied 4 methods to the 5 clusters (i) LCFSummN, based on simple frequency of nominal concepts in the cluster, (ii) based on simple frequency of nominal and verbal concepts in the cluster, (iii) based on weighted-average for nominal concepts, and (iv) based on weighted-average frequency for nominal and verbal concepts. We intrinsically evaluated the extracts generated by each method regarding linguistic quality and informativeness. When compared to a deep state-of-art MDS method for Portuguese, the results of our investigation show the good performances of the lexical-conceptual methods.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rights.uriAcesso abertopor
dc.subjectSumarização Automática Multidocumentopor
dc.subjectConhecimento léxico-conceitualpor
dc.subjectProcessamento Automático de Linguas Naturaispor
dc.titleAplicação de conhecimento léxico-conceitual na Sumarização Automática Multidocumentopor
dc.typeDissertaçãopor
dc.contributor.advisor1Di Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455por
dc.description.resumoNa Sumarização Automática Multidocumento (SAM), produz-se automaticamente um único sumário (resumo) a partir de uma coleção de textos de diferentes fontes que versam sobre um mesmo tópico, com o objetivo de facilitar o acesso à informação. Tais sumários são comumente extratos informativos (isto é, sumários compostos por trechos inalterados dos textos-fonte que veiculam a ideia principal da coleção), o que requer a seleção das sentenças mais importantes. Para tanto, pode-se empregar conhecimento linguístico superficial (ou estatística), conhecimento profundo ou híbrido. Os métodos profundos, apesar de mais caros e menos robustos, produzem extratos mais informativos e com mais qualidade linguística. Tendo em vista os resultados promissores do uso de conhecimento profundo do tipo léxico-conceitual em pesquisas incipientes sobre a SAM ou na SAM multilíngue, investigaram-se 4 métodos distintos na SAM monolíngue para o português, os quais se baseiam primordialmente na frequência de ocorrência de conceitos lexicais na coleção para a seleção de conteúdo. Para tanto, selecionou-se o CSTNews, corpus multidocumento de referência para o português que possui todos os verbos e 10% dos nomes mais frequentes anotados com os conceitos (synsets) da WordNet de Princeton. Para a aplicação dos métodos léxico-conceituais, selecionaram-se 5 coleções do total de 50 do CTSNews, cuja anotação dos nomes foi completada. A partir das 5 coleções com nomes e verbos anotados em nível conceitual, testaram-se os 4 métodos: (i) LCFSummN, baseado na frequência de ocorrência dos nomes na coleção, (ii) LCFSummN-V, baseado na combinação da frequência dos nomes e verbos, (iii) LCFSummN-pond, baseado na média ponderada da frequência dos nomes e (iv) LCFSummN-V-pond, baseado na média ponderada da frequência dos nomes e verbos. Os extratos gerados foram avaliados intrinsecamente quanto à qualidade linguística e informatividade. Quando comparados a um método profundo do estado-da-arte em SAM monolíngue para o português, os resultados do trabalho evidenciam que os métodos léxico-conceituais apresentam bom desempenho.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGLpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICApor
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/1599276853975000por


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record