Show simple item record

dc.contributor.authorCamargo, Yasmin Vizeu
dc.date.accessioned2020-04-23T11:45:37Z
dc.date.available2020-04-23T11:45:37Z
dc.date.issued2020-03-19
dc.identifier.citationCAMARGO, Yasmin Vizeu. Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12445.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/12445
dc.description.abstractMultilingual Multi-document Summarization consists in automatically producing, from a collection of texts on the same topic and in different languages, a summary in one of the source languages. Thus, this task deals with the problems of Multi-document Summarization, such as the identification of relevant content and the treatment of redundancy, and with the multiplicity of source languages. For the production of multilingual summaries in Portuguese, CFUL is the method with the best performance. CFUL is extractive and thus it punctuates the source sentences in their original languages based on the simple frequency of their nominal concepts in the collection and it selects the best-ranked ones in Portuguese for the summary, avoiding redundancy based on word overlapping between them. In this work, the CFULHiper extractive method is proposed. It also selects content based on the simple frequency of the nominal concepts, but it additionally takes into account a differentiated score for the superordinate concepts that are in hierarchical relations with others in the collection. The method assumes that superordinate concepts convey generic information, which is relevant to compose informative summaries. Moreover, CFULHiper avoids redundancy based on concept overlapping, capturing sentence similarity in a more intelligent manner. To develop CFULHiper, we have selected the CM2News corpus, which consists of 20 bilingual collections (Portuguese and English) of news, whose nouns of the source texts were annotated with concepts from WordNet of Princeton. The corpus was extended with the inclusion of 10 new collections, resulting at the second version of CM2News. The CM2News 2.0 corpus was submitted to an automatic pre-processing. For each collection, we have performed: (ii) identification of the conceptual hierarquical relations across the source-texts, and (iii) calculation of the simple and cumulative frequencies of the nominal concepts. To calculate the accumulated frequency of a hyperonym x, the simple frequency of x is added to the simple frequency of its hyponyms. Then, we automatically applied CFULHiper to each collection of the corpus, producing 30 summaries in Portuguese with 70% compression. We have evaluated the linguistic quality (gramaticality, non-redundancy, referential clarity, focus and estructure/coherence) and the informativeness (ROUGE) of all summaires generated by CFULHiper. The informativeness of the CFULHiper extracts is slightly better, which indicates that more generic information is relevant for composing multilingual extracts. The conceptual overlap, however, had no impact on the treatment of redundancy. Since sentences selected exclusively from a single source-text no longer have much redundancy between themselves, and multi-document clusters tend to have few cases of synonymy and polysemy, the application of a lexical or conceptual overlap measure basically generates the same results for similarity identification.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectSumarização multidocumento multilínguepor
dc.subjectConhecimento léxico-conceitualpor
dc.subjectSeleção de conteúdopor
dc.subjectRedundânciapor
dc.subjectRelação hierárquicapor
dc.subjectMultilingual multi-document summarizationeng
dc.subjectLexical-conceptual knowledgeeng
dc.subjectContent selectioneng
dc.subjectRedundancyeng
dc.subjectHierarquical relationeng
dc.titleSumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitualpor
dc.title.alternativeMultilingual multi-document summarization: content selection and redundancy treatment based on lexical-conceptual knowledgeeng
dc.typeDissertaçãopor
dc.contributor.advisor1Di Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455por
dc.description.resumoAs aplicações de Sumarização Automática Multidocumento Multilíngue (SAMM) geram, a partir de uma coleção de textos em diferentes línguas, um sumário em uma das línguas-fonte. Assim, a SAMM lida com os problemas da Sumarização Automática Multidocumento (SAM), como a identificação de conteúdo relevante e o tratamento da redundância, além das múltiples línguas-fonte. Para a produção de sumários multilíngues em português, o método CFUL é o de melhor desempenho. Sendo extrativo, ele basicamente pontua as sentenças dos texto-fonte em suas línguas originais com base na frequência simples de seus conceitos nominais na coleção e seleciona as mais bem ranqueadas em português para o sumário, evitando a redundância entre tais sentençcas com base na verificação da sobreposição de palavras entre elas. Neste trabalho, propôs-se o método extrativo CFULHiper. Nele, a seleção de conteúdo também é feita com base na frequência dos conceitos nominais da coleção, mas considerando adicionalmente uma pontuação diferenciada para os conceitos superordenados que se encontram em relação hierárquica a outros na coleção, sob a hipótese de que eles veiculam informações mais genéricas e, portanto, relevantes para sumários informativos. Ademais, o CFULHiper objetiva evitar a redundância com base na sobreposição de conceitos, buscando capturar mais adequadamente a similaridade de conteúdo entre as sentenças selecionadas. Para desenvolver o CFULHiper, selecionou-se o corpus CM2News, que é composto por 20 coleções bilíngues (português e inglês) de notícias, cujos nomes dos textos-fonte foram anotados com conceitos extraídos da WordNet de Princeton. Tal corpus foi estendido pela inclusão de 10 novas coleções, o que resultou na versão 2.0 do CM2News. O CM2News 2.0 foi submetido a um pré-processamento automático no qual, para cada coleção, realizou-se: (i) identificação das relações conceituais hierárquicas em cada uma das 30 coleções e (ii) cálculo da frequência simples e da acumulada dos conceitos em cada uma das 30 coleções. Para calcular a frequência acumulada de um hiperônimo x, a frequência simples de x é somada à frequência simples de seus hipônimos. Na sequência, aplicou-se automaticamente o CFULHiper a cada coleção do corpus, produzindo sumários em português com 70% de compressão. Os 30 sumários gerados pelo método foram avaliados manualmente quanto à qualidade linguística (DUC’05), segundo sua gramaticalidade, não-redundância, clareza referencial, foco temático e estrutura/coerência, e à informatividade, automaticamente, via ROUGE. Os extratos gerados pelo CFULHiper apresentaram resultados ligeiramente melhores na avaliação de informatividade, quando comparado a outros métodos, indicando que informações mais genéricas são, de fato, relevantes para compor extratos multilíngues. A sobreposição conceitual, no entanto, não teve impacto no tratamento da redundância porque sentenças selecionadas exclusivamente de um único texto-fonte já não apresentam muita redundância entre si e também porque as coleções multidocumento tendem a apresentar baixa sinonímia e polissemia e, assim, aplicar uma medida de sobreposição lexical ou conceitual não gera diferença na identificação da similaridade entre as sentenças.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGLpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICApor
dc.description.sponsorshipIdCAPES: código de financiamento - 001por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/5847705951379776por


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil