Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento

Souza, Jackson Wilke da Cruz

dc.contributor.author	Souza, Jackson Wilke da Cruz
dc.date.accessioned	2020-04-28T11:44:13Z
dc.date.available	2020-04-28T11:44:13Z
dc.date.issued	2019-02-27
dc.identifier.citation	SOUZA, Jackson Wilke da Cruz. Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento. 2019. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12643.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/12643
dc.description.abstract	In the context of the dissemination of digital information, CISCO, an agency of web security, projects that 3.3 Zettabytes of information will be circulated on the Web in 2021. In this context, sub-areas of Automatic Natural Languages Processing (NLP) develop linguistic-computational solutions to dynamize the short time the user has in front of the demand of information in circulation on web. One of these sub-areas is Automatic Multi-document Summarization (AMS), which aims to create automatic summaries from collections of source texts that deal with the same subject. In order to make possible the selection of contents to automatic summaries and to improve this technique, some studies are based in linguistic descriptions of multi-document phenomena. One of these phenomena is complementarity, which occurs when, in a sentence pair (S1, S2), S2 elaborates some information presents in S1. The theoretical model Cross-Document Structure Theory (CST) translates the complementarity into three semantic relations: Historical Background and Follow-up (temporal) and Elaboration (timeless). Some studies in this area indicate that (superficial) linguistic temporal attributes are relevant to automatically identify such CST relations, obtaining automatic classifiers with 75% accuracy. Thus, under the hypothesis that deep linguistic information could generate more efficient classifiers, we propose a refined set of attributes that characterize the complementarity. After the manual analysis of the pairs of sentences annotated with the CST relations of complementarity of CSTNews corpus, we built a typology of 32 signs, organized in seven categories, namely: anaphora, textual structure, morphology, syntax, semantics, pragmatics. Using symbolic algorithms of Machine Learning, it was possible to construct and train new classifiers, whose accuracy surpassed the state-of-the-art. Thus, we contribute with (i) Descriptive Linguistics, as a typology organized in signs that present systematically the evidences and characteristics of complementarity in sentences pairs of journalistic texts, and with (ii) NLP, as it produced a more refined and specific description for the automatic identification of complementarity and consequently the selection of content to the automatic multi-document summaries.	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Descrição linguística	por
dc.subject	Complementaridade	por
dc.subject	Fenômenos multidocumento	por
dc.subject	Sumarização automática multidocumento	por
dc.subject	Processamento automático de línguas naturais	por
dc.subject	Language description	eng
dc.subject	Complementarity	eng
dc.subject	Multi-document phenomena	eng
dc.subject	Automatic multi-document summarization	eng
dc.subject	Automatic natural language processing	eng
dc.subject	Text analysis	eng
dc.title	Aprofundamento da caracterização linguístico-computacional da complementaridade em um corpus jornalístico multidocumento	por
dc.title.alternative	Deepening the linguistic-computational characterization of complementarity in a multi-document journalistic corpus	eng
dc.type	Tese	por
dc.contributor.advisor1	Di Felippo, Ariani
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8648412103197455	por
dc.description.resumo	No contexto de disseminação da informação digital, projeta-se que 3.3 Zettabytes de informação estarão em circulação na Web em 2021. Neste contexto, subáreas do Processamento Automático de Línguas Naturais (PLN) desenvolvem soluções linguístico-computacionais para dinamizar o pouco tempo que o usuário tem frente à demanda de informações, como a Sumarização Automática Multidocumento (SAM), em que se visa criar sumários automáticos a partir de coleções de textos-fonte que versam sobre um mesmo assunto. Com o objetivo de viabilizar a SAM e o aperfeiçoamento da seleção de conteúdo dos sumários, algumas pesquisas da área realizaram descrições linguísticas de fenômenos multidocumentos. Um desses fenômenos é a Complementaridade, a qual ocorre quando, em um par de sentença (S1,S2), S2 elabora alguma informação apresentada por S1. O modelo teórico Cross-Document Structure Theory (CST) traduz essa complementaridade em três relações semânticas: Historical Background e Follow-up (temporal) e Elaboration (atemporal). Sabe-se que atributos linguísticos que denotam informações temporais são relevantes para identificar automaticamente tais relações CST, obtendo classificadores automáticos com 75% de precisão. Assim, sob a hipótese de que informações linguísticas profundas pudessem gerar classificadores mais eficientes, propôs-se um conjunto mais refinado de atributos que caracterizam o fenômeno em questão. Após a análise manual dos pares de sentenças anotados com as relações CST de complementaridade do corpus CSTNews, chegou-se a uma tipologia de 32 sinalizadores, organizados em anáfora, estrutura textual, morfologia, sintaxe, semântica, pragmática. Com o auxílio de algoritmos simbólicos de Aprendizado de Máquina, foi possível construir e treinar novos classificadores, cuja precisão superou o estado-da-arte. Assim, contribui-se com (i) a Linguística Descritiva, já que sistematicamente apresenta-se um conjunto de sinalizadores, organizados tipologicamente, que evidenciam e caracterizam a complementaridade em pares de sentenças de textos jornalísticos e com o (ii) PLN, pois produziu-se uma descrição mais refinada e específica para a identificação automática da Complementaridade e, consequentemente, o aprimoramento de seleção de conteúdo para os sumários automáticos.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Linguística - PPGL	por
dc.subject.cnpq	LINGUISTICA, LETRAS E ARTES::LINGUISTICA	por
dc.description.sponsorshipId	CAPES: código de financiamento - 001	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/0019187301069627	por