Show simple item record

dc.contributor.authorNascimento, Darlan Xavier
dc.date.accessioned2020-04-28T11:24:48Z
dc.date.available2020-04-28T11:24:48Z
dc.date.issued2020-03-12
dc.identifier.citationNASCIMENTO, Darlan Xavier. Explorando a avaliação de sumários automáticos multidocumento multilíngues. 2020. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12642.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/12642
dc.description.abstractMultilingual Multi-Document Automatic Summarization (MMDS) is a computational task through which a summary is produced in a target language from a collection of at least two news stories which address the same subject, one in the user’s language and the other(s) in foreign language(s). The scientific literature shows that not many researches approach methods which generate summaries in Portuguese. Based on the CF and CFUL summarization methods, the present thesis describes the development of a study whose goal was to refine the summary quality evaluation, by varying (i) the native language of the producers of the reference summaries, that is, summaries written by human subjects after reading the corresponding source texts and which are necessary for the automatic calculation of informativeness, and (ii) the compression rate (desired summary size). Furthermore, this thesis outlines the enlargement of the corpus used for the investigation of these methods through the addition of texts in German (the original corpus included content in Portuguese and English) and the production of four extracts for each of the twenty clusters. The results show that the reference summaries are slightly impacted by their writer’s native language, even though additional factors might be taken into account, such as the size of each source text and the content compatibility. Regarding the summarization methods, this study found that extracts with a lower compression rate performed better when it came to the automatic evaluation of informativeness and worse in the assessment of linguistic quality.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectSumarização automáticapor
dc.subjectLinguística computacionalpor
dc.subjectAvaliação de sumáriospor
dc.subjectAutomatic summarizationeng
dc.subjectComputational linguisticseng
dc.subjectSummary evaluationeng
dc.titleExplorando a avaliação de sumários automáticos multidocumento multilínguespor
dc.title.alternativeExploring the evaluation of multilingual multi-document automatic summarieseng
dc.typeDissertaçãopor
dc.contributor.advisor1Di Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455por
dc.description.resumoA Sumarização Automática Multidocumento Multilíngue (SAMM) é uma aplicação computacional por meio da qual se produz um sumário em uma língua de interesse a partir de uma coleção de pelo menos dois textos de conteúdo equivalente e redigidos em idiomas diferentes. Verificou-se, na literatura científica, que poucas pesquisas se concentraram em métodos que geram sumários em português. Tendo como base os métodos CF e CFUL, esta dissertação apresenta o desenvolvimento de um estudo no qual se pretendeu refinar a avaliação da qualidade dos sumários produzidos, variando (i) a língua materna dos produtores dos sumários de referência, isto é, sumários escritos por humanos a partir da leitura dos textos-fonte correspondentes e que são necessários ao cálculo automático da informatividade, e (ii) a taxa de compressão (tamanho desejado do sumário). Além disso, ampliou-se o corpus utilizado nos estudos originais desses métodos (que continha material em português e inglês) por meio da inclusão de textos em língua alemã e produziram-se quatro extratos para cada uma das vinte coleções do corpus. Os resultados mostram que os sumários de referência apresentam leve interferência da língua materna de quem os redigiu, embora outros fatores possam ser considerados, como a extensão de cada texto-fonte e a compatibilidade de conteúdo. Com relação aos métodos investigados, identificou-se que os extratos com menor taxa de compressão tiveram melhor desempenho na avaliação automática da informatividade, mas pior desempenho em termos de qualidade linguística.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGLpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICApor
dc.description.sponsorshipIdCAPES: código de financiamento - 001por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/2532304328121248por


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil