Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual

Camargo, Yasmin Vizeu

dc.contributor.author	Camargo, Yasmin Vizeu
dc.date.accessioned	2020-04-23T11:45:37Z
dc.date.available	2020-04-23T11:45:37Z
dc.date.issued	2020-03-19
dc.identifier.citation	CAMARGO, Yasmin Vizeu. Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12445.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/12445
dc.description.abstract	Multilingual Multi-document Summarization consists in automatically producing, from a collection of texts on the same topic and in different languages, a summary in one of the source languages. Thus, this task deals with the problems of Multi-document Summarization, such as the identification of relevant content and the treatment of redundancy, and with the multiplicity of source languages. For the production of multilingual summaries in Portuguese, CFUL is the method with the best performance. CFUL is extractive and thus it punctuates the source sentences in their original languages based on the simple frequency of their nominal concepts in the collection and it selects the best-ranked ones in Portuguese for the summary, avoiding redundancy based on word overlapping between them. In this work, the CFULHiper extractive method is proposed. It also selects content based on the simple frequency of the nominal concepts, but it additionally takes into account a differentiated score for the superordinate concepts that are in hierarchical relations with others in the collection. The method assumes that superordinate concepts convey generic information, which is relevant to compose informative summaries. Moreover, CFULHiper avoids redundancy based on concept overlapping, capturing sentence similarity in a more intelligent manner. To develop CFULHiper, we have selected the CM2News corpus, which consists of 20 bilingual collections (Portuguese and English) of news, whose nouns of the source texts were annotated with concepts from WordNet of Princeton. The corpus was extended with the inclusion of 10 new collections, resulting at the second version of CM2News. The CM2News 2.0 corpus was submitted to an automatic pre-processing. For each collection, we have performed: (ii) identification of the conceptual hierarquical relations across the source-texts, and (iii) calculation of the simple and cumulative frequencies of the nominal concepts. To calculate the accumulated frequency of a hyperonym x, the simple frequency of x is added to the simple frequency of its hyponyms. Then, we automatically applied CFULHiper to each collection of the corpus, producing 30 summaries in Portuguese with 70% compression. We have evaluated the linguistic quality (gramaticality, non-redundancy, referential clarity, focus and estructure/coherence) and the informativeness (ROUGE) of all summaires generated by CFULHiper. The informativeness of the CFULHiper extracts is slightly better, which indicates that more generic information is relevant for composing multilingual extracts. The conceptual overlap, however, had no impact on the treatment of redundancy. Since sentences selected exclusively from a single source-text no longer have much redundancy between themselves, and multi-document clusters tend to have few cases of synonymy and polysemy, the application of a lexical or conceptual overlap measure basically generates the same results for similarity identification.	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Sumarização multidocumento multilíngue	por
dc.subject	Conhecimento léxico-conceitual	por
dc.subject	Seleção de conteúdo	por
dc.subject	Redundância	por
dc.subject	Relação hierárquica	por
dc.subject	Multilingual multi-document summarization	eng
dc.subject	Lexical-conceptual knowledge	eng
dc.subject	Content selection	eng
dc.subject	Redundancy	eng
dc.subject	Hierarquical relation	eng
dc.title	Sumarização automática multidocumento multilíngue: seleção de conteúdo e tratamento da redundância com base em conhecimento léxico-conceitual	por
dc.title.alternative	Multilingual multi-document summarization: content selection and redundancy treatment based on lexical-conceptual knowledge	eng
dc.type	Dissertação	por
dc.contributor.advisor1	Di Felippo, Ariani
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8648412103197455	por
dc.description.resumo	As aplicações de Sumarização Automática Multidocumento Multilíngue (SAMM) geram, a partir de uma coleção de textos em diferentes línguas, um sumário em uma das línguas-fonte. Assim, a SAMM lida com os problemas da Sumarização Automática Multidocumento (SAM), como a identificação de conteúdo relevante e o tratamento da redundância, além das múltiples línguas-fonte. Para a produção de sumários multilíngues em português, o método CFUL é o de melhor desempenho. Sendo extrativo, ele basicamente pontua as sentenças dos texto-fonte em suas línguas originais com base na frequência simples de seus conceitos nominais na coleção e seleciona as mais bem ranqueadas em português para o sumário, evitando a redundância entre tais sentençcas com base na verificação da sobreposição de palavras entre elas. Neste trabalho, propôs-se o método extrativo CFULHiper. Nele, a seleção de conteúdo também é feita com base na frequência dos conceitos nominais da coleção, mas considerando adicionalmente uma pontuação diferenciada para os conceitos superordenados que se encontram em relação hierárquica a outros na coleção, sob a hipótese de que eles veiculam informações mais genéricas e, portanto, relevantes para sumários informativos. Ademais, o CFULHiper objetiva evitar a redundância com base na sobreposição de conceitos, buscando capturar mais adequadamente a similaridade de conteúdo entre as sentenças selecionadas. Para desenvolver o CFULHiper, selecionou-se o corpus CM2News, que é composto por 20 coleções bilíngues (português e inglês) de notícias, cujos nomes dos textos-fonte foram anotados com conceitos extraídos da WordNet de Princeton. Tal corpus foi estendido pela inclusão de 10 novas coleções, o que resultou na versão 2.0 do CM2News. O CM2News 2.0 foi submetido a um pré-processamento automático no qual, para cada coleção, realizou-se: (i) identificação das relações conceituais hierárquicas em cada uma das 30 coleções e (ii) cálculo da frequência simples e da acumulada dos conceitos em cada uma das 30 coleções. Para calcular a frequência acumulada de um hiperônimo x, a frequência simples de x é somada à frequência simples de seus hipônimos. Na sequência, aplicou-se automaticamente o CFULHiper a cada coleção do corpus, produzindo sumários em português com 70% de compressão. Os 30 sumários gerados pelo método foram avaliados manualmente quanto à qualidade linguística (DUC’05), segundo sua gramaticalidade, não-redundância, clareza referencial, foco temático e estrutura/coerência, e à informatividade, automaticamente, via ROUGE. Os extratos gerados pelo CFULHiper apresentaram resultados ligeiramente melhores na avaliação de informatividade, quando comparado a outros métodos, indicando que informações mais genéricas são, de fato, relevantes para compor extratos multilíngues. A sobreposição conceitual, no entanto, não teve impacto no tratamento da redundância porque sentenças selecionadas exclusivamente de um único texto-fonte já não apresentam muita redundância entre si e também porque as coleções multidocumento tendem a apresentar baixa sinonímia e polissemia e, assim, aplicar uma medida de sobreposição lexical ou conceitual não gera diferença na identificação da similaridade entre as sentenças.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Linguística - PPGL	por
dc.subject.cnpq	LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA	por
dc.description.sponsorshipId	CAPES: código de financiamento - 001	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/5847705951379776	por