Recuperação de informação em atas de reunião utilizando segmentação textual e extração de tópicos

Francisco, Ovídio José

dc.contributor.author	Francisco, Ovídio José
dc.date.accessioned	2018-09-13T13:23:22Z
dc.date.available	2018-09-13T13:23:22Z
dc.date.issued	2018-08-07
dc.identifier.citation	FRANCISCO, Ovídio José. Recuperação de informação em atas de reunião utilizando segmentação textual e extração de tópicos. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/ufscar/10456.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/10456
dc.description.abstract	In a context where the most informations stored by the organizations is in the text format, the development of computer tools for knowledge discovery aimed to organization and information retrieval is a task that holds attention and relevance. The extraction topic models are often employed in this task. This models are able to establish relations between documents and found latents patterns in sets of them. However, there is an additional challenge for documents composed by multiples subjects. For texts with subject shifts, it is necessary, in fist, found the chunks of texts that address a single subject. So, the text segmentation techniques are used to break a text in segments with a relatively independent issue. The combination of the text segmentation and topic extraction algorithms, can be used to make an structure that helps to understanding textual data, which are inherently non structured. The creation of an topic organized structure, that incorporates latent information concerning the corpus, favors Information Retrievals techniques. This approach allows query expansion space, besides the original set of terms of each segment, and the identification most relevant pieces of text. This work presents an methodology to connect the Text Segmentation techniques to the Topic extraction models, in order to generates an derivative structure from a non structured corpus, which concentrates the original texts plus the latent informations and organized by semantic likeness. The research for this thesis investigates the text segmentation techniques and the Topic extraction models to develop an Information Retrieval system for meeting minutes. We develops an system to give to the user the most relevant segments to the query. The segmentos presented are clustered by this topics, that also enables exploratory searches to the data base, through browsing by groups of semantically related segments. Furthermore, less relevant segments are omitted, allowing results focused on the researched subject. Five techniques of text segmentation and three Topic extraction models from the literature was evaluated. Based on the set of meeting minutes analysed, we create an manually annotated corpus with informations on the thematic composition of the meeting minutes and about the issue shifts. The annotated corpus served as reference to objective evaluation of the text segmentation techniques. We also evaluate the results obtained with the Topic extraction models. This results were analysed by related to the meeting minutes context. The results points the employed techniques and the methodology presented gives satisfactory answers. However, more data can be necessary to leads new experiments in order to improve the used techniques. The system implementation and the tools used in the work, as well the results obtained in the evaluations, plus the annotated corpus are the principal contributions of this work, in order to support next works.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Recuperação de Informação	por
dc.subject	Segmentação Textual	por
dc.subject	Extração de Tópicos	por
dc.subject	Atas de Reunião	por
dc.subject	Information retrieval	eng
dc.subject	Text segmentation	eng
dc.subject	Topic extraction	eng
dc.subject	Meeting minutes	eng
dc.subject	Mineração de dados (Computação)	por
dc.subject	Data mining	eng
dc.title	Recuperação de informação em atas de reunião utilizando segmentação textual e extração de tópicos	por
dc.title.alternative	Information retrieval in meeting minutes using text segmentation and topic extraction	eng
dc.type	Dissertação	por
dc.contributor.advisor1	Faceli, Katti
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4451540730749377	por
dc.contributor.advisor-co1	Rossi, Rafael Geraldeli
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/3459897790282753	por
dc.description.resumo	Em um contexto em que a grande parte das informações armazenadas pelas organizações está em formato textual, o desenvolvimento de ferramentas computacionais para extração de conhecimento voltadas a organização e recuperação de informação tem se mostrado relevante e recebido atenção. Os modelos de extração de tópicos são recorrentemente empregados nessa tarefa. Esses modelos são capazes de estabelecer relações e encontrar padrões latentes (ocultos) em coleções de documentos textuais. No entanto, há um desafio adicional em documentos constituídos por múltiplos assuntos. Para textos onde há transição de assuntos faz-se necessário, em primeiro lugar, encontrar porções de texto que tratam de um único assunto. Para isso, as técnicas de segmentação textual são utilizada para dividir um texto em segmentos com um assunto relativamente independente. O uso combinado de algoritmos de segmentação textual e extração de tópicos pode então ser aplicado para criar uma estrutura que ajuda a entender os dados textuais, os quais são inerentemente não estruturados. A criação de uma estrutura organizada em tópicos, que incorpora informações latentes sobre o corpus favorece as técnicas de recuperação de informação. Essa abordagem permite a extensão do espaço de busca a qual incorpora outros elementos além do conjunto de termos originais de cada segmento, o que favorece a identificação de trechos mais relevantes à consulta. Neste trabalho, é apresentada uma metodologia para conectar as técnicas de segmentação textual aos modelos de extração de tópicos a fim de gerar uma estrutura derivada de um corpus não estruturado. Essa estrutura envolve os textos originais acrescidos de informações latentes e organizadas por sua semelhança semântica. Assim, a pesquisa deste trabalho de mestrado investigou técnicas de segmentação textual e extração de tópicos para o desenvolvimento de um sistema de recuperação de informação em um conjunto de documentos multi-temáticos, mais especificamente em uma coleção de atas de reunião. A ideia desse sistema é entregar os segmentos mais relevantes à consulta do usuário. Os segmentos exibidos são agrupados por tópicos. Isso também possibilita consultas exploratórias à base de dados, por meio da navegação por grupos de segmentos relacionados semanticamente. Além disso, trechos pouco relevantes são omitidos, permitindo resultados concentrados no assunto pesquisado. Para o desenvolvimento do sistema, foram avaliados cinco técnicas de segmentação textual e três modelos de extração de tópicos da literatura. Com base no conjunto de atas estudado, criou-se um corpus anotado manualmente com informações sobre a composição temática das atas e as transições entre os assuntos. O corpus anotado serviu como referência para avaliação objetiva das técnicas de segmentação textual. Avaliou-se ainda, os resultados obtidos com os modelos de extração tópicos junto a profissionais ligados ao contexto de atas de reunião. Os resultados sugerem que as técnicas utilizadas e a metodologia apresentada entregam respostas satisfatórias. Contudo, mais dados podem ser necessários para execução de novos experimentos a fim de aprimorar os sistema desenvolvido. A implementação dosistema e das ferramentas utilizadas, o corpus anotado, bem como os resultados obtidos nas avaliações são as principais contribuições deste trabalho.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC-So	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus Sorocaba	por
dc.contributor.authorlattes	http://lattes.cnpq.br/6601215787925926	por

Files in this item

Name:: Ovidio_José_Franisco_revisada.pdf
Size:: 2.856Mb
Format:: PDF
Description:: Dissertação de mestrado revisada

View/Open

Name:: Carta_Encaminhamento_Ovidio_Jo ...
Size:: 359.5Kb
Format:: PDF
Description:: Carta de Encaminhamento

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record