Show simple item record

dc.contributor.authorSouza, Jackson Wilke da Cruz
dc.date.accessioned2020-04-28T11:44:13Z
dc.date.available2020-04-28T11:44:13Z
dc.date.issued2019-02-27
dc.identifier.citationSOUZA, Jackson Wilke da Cruz. Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento. 2019. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12643.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/12643
dc.description.abstractIn the context of the dissemination of digital information, CISCO, an agency of web security, projects that 3.3 Zettabytes of information will be circulated on the Web in 2021. In this context, sub-areas of Automatic Natural Languages Processing (NLP) develop linguistic-computational solutions to dynamize the short time the user has in front of the demand of information in circulation on web. One of these sub-areas is Automatic Multi-document Summarization (AMS), which aims to create automatic summaries from collections of source texts that deal with the same subject. In order to make possible the selection of contents to automatic summaries and to improve this technique, some studies are based in linguistic descriptions of multi-document phenomena. One of these phenomena is complementarity, which occurs when, in a sentence pair (S1, S2), S2 elaborates some information presents in S1. The theoretical model Cross-Document Structure Theory (CST) translates the complementarity into three semantic relations: Historical Background and Follow-up (temporal) and Elaboration (timeless). Some studies in this area indicate that (superficial) linguistic temporal attributes are relevant to automatically identify such CST relations, obtaining automatic classifiers with 75% accuracy. Thus, under the hypothesis that deep linguistic information could generate more efficient classifiers, we propose a refined set of attributes that characterize the complementarity. After the manual analysis of the pairs of sentences annotated with the CST relations of complementarity of CSTNews corpus, we built a typology of 32 signs, organized in seven categories, namely: anaphora, textual structure, morphology, syntax, semantics, pragmatics. Using symbolic algorithms of Machine Learning, it was possible to construct and train new classifiers, whose accuracy surpassed the state-of-the-art. Thus, we contribute with (i) Descriptive Linguistics, as a typology organized in signs that present systematically the evidences and characteristics of complementarity in sentences pairs of journalistic texts, and with (ii) NLP, as it produced a more refined and specific description for the automatic identification of complementarity and consequently the selection of content to the automatic multi-document summaries.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectDescrição linguísticapor
dc.subjectComplementaridadepor
dc.subjectFenômenos multidocumentopor
dc.subjectSumarização automática multidocumentopor
dc.subjectProcessamento automático de línguas naturaispor
dc.subjectLanguage descriptioneng
dc.subjectComplementarityeng
dc.subjectMulti-document phenomenaeng
dc.subjectAutomatic multi-document summarizationeng
dc.subjectAutomatic natural language processingeng
dc.subjectText analysiseng
dc.titleAprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumentopor
dc.title.alternativeDeepening the linguistic-computational characterization of complementarity in a multi-document journalistic corpuseng
dc.typeTesepor
dc.contributor.advisor1Di Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455por
dc.description.resumoNo contexto de disseminação da informação digital, projeta-se que 3.3 Zettabytes de informação estarão em circulação na Web em 2021. Neste contexto, subáreas do Processamento Automático de Línguas Naturais (PLN) desenvolvem soluções linguístico-computacionais para dinamizar o pouco tempo que o usuário tem frente à demanda de informações, como a Sumarização Automática Multidocumento (SAM), em que se visa criar sumários automáticos a partir de coleções de textos-fonte que versam sobre um mesmo assunto. Com o objetivo de viabilizar a SAM e o aperfeiçoamento da seleção de conteúdo dos sumários, algumas pesquisas da área realizaram descrições linguísticas de fenômenos multidocumentos. Um desses fenômenos é a Complementaridade, a qual ocorre quando, em um par de sentença (S1,S2), S2 elabora alguma informação apresentada por S1. O modelo teórico Cross-Document Structure Theory (CST) traduz essa complementaridade em três relações semânticas: Historical Background e Follow-up (temporal) e Elaboration (atemporal). Sabe-se que atributos linguísticos que denotam informações temporais são relevantes para identificar automaticamente tais relações CST, obtendo classificadores automáticos com 75% de precisão. Assim, sob a hipótese de que informações linguísticas profundas pudessem gerar classificadores mais eficientes, propôs-se um conjunto mais refinado de atributos que caracterizam o fenômeno em questão. Após a análise manual dos pares de sentenças anotados com as relações CST de complementaridade do corpus CSTNews, chegou-se a uma tipologia de 32 sinalizadores, organizados em anáfora, estrutura textual, morfologia, sintaxe, semântica, pragmática. Com o auxílio de algoritmos simbólicos de Aprendizado de Máquina, foi possível construir e treinar novos classificadores, cuja precisão superou o estado-da-arte. Assim, contribui-se com (i) a Linguística Descritiva, já que sistematicamente apresenta-se um conjunto de sinalizadores, organizados tipologicamente, que evidenciam e caracterizam a complementaridade em pares de sentenças de textos jornalísticos e com o (ii) PLN, pois produziu-se uma descrição mais refinada e específica para a identificação automática da Complementaridade e, consequentemente, o aprimoramento de seleção de conteúdo para os sumários automáticos.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGLpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICApor
dc.description.sponsorshipIdCAPES: código de financiamento - 001por
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/0019187301069627por


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil