dc.contributor.author | Francisco, Ovídio José | |
dc.date.accessioned | 2018-09-13T13:23:22Z | |
dc.date.available | 2018-09-13T13:23:22Z | |
dc.date.issued | 2018-08-07 | |
dc.identifier.citation | FRANCISCO, Ovídio José. Recuperação de informação em atas de reunião utilizando segmentação textual e extração de tópicos. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/ufscar/10456. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/10456 | |
dc.description.abstract | In a context where the most informations stored by the organizations is in the text format,
the development of computer tools for knowledge discovery aimed to organization and
information retrieval is a task that holds attention and relevance. The extraction topic
models are often employed in this task. This models are able to establish relations between
documents and found latents patterns in sets of them. However, there is an additional
challenge for documents composed by multiples subjects. For texts with subject shifts, it
is necessary, in fist, found the chunks of texts that address a single subject. So, the text
segmentation techniques are used to break a text in segments with a relatively independent
issue. The combination of the text segmentation and topic extraction algorithms, can be
used to make an structure that helps to understanding textual data, which are inherently
non structured. The creation of an topic organized structure, that incorporates latent
information concerning the corpus, favors Information Retrievals techniques. This approach
allows query expansion space, besides the original set of terms of each segment, and the
identification most relevant pieces of text. This work presents an methodology to connect
the Text Segmentation techniques to the Topic extraction models, in order to generates an
derivative structure from a non structured corpus, which concentrates the original texts
plus the latent informations and organized by semantic likeness. The research for this thesis
investigates the text segmentation techniques and the Topic extraction models to develop
an Information Retrieval system for meeting minutes. We develops an system to give to
the user the most relevant segments to the query. The segmentos presented are clustered
by this topics, that also enables exploratory searches to the data base, through browsing by
groups of semantically related segments. Furthermore, less relevant segments are omitted,
allowing results focused on the researched subject. Five techniques of text segmentation
and three Topic extraction models from the literature was evaluated. Based on the set of
meeting minutes analysed, we create an manually annotated corpus with informations on
the thematic composition of the meeting minutes and about the issue shifts. The annotated
corpus served as reference to objective evaluation of the text segmentation techniques. We
also evaluate the results obtained with the Topic extraction models. This results were
analysed by related to the meeting minutes context. The results points the employed
techniques and the methodology presented gives satisfactory answers. However, more data
can be necessary to leads new experiments in order to improve the used techniques. The
system implementation and the tools used in the work, as well the results obtained in
the evaluations, plus the annotated corpus are the principal contributions of this work, in
order to support next works. | eng |
dc.description.sponsorship | Não recebi financiamento | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights.uri | Acesso aberto | por |
dc.subject | Recuperação de Informação | por |
dc.subject | Segmentação Textual | por |
dc.subject | Extração de Tópicos | por |
dc.subject | Atas de Reunião | por |
dc.subject | Information retrieval | eng |
dc.subject | Text segmentation | eng |
dc.subject | Topic extraction | eng |
dc.subject | Meeting minutes | eng |
dc.subject | Mineração de dados (Computação) | por |
dc.subject | Data mining | eng |
dc.title | Recuperação de informação em atas de reunião utilizando segmentação textual e extração de tópicos | por |
dc.title.alternative | Information retrieval in meeting minutes using text segmentation and topic extraction | eng |
dc.type | Dissertação | por |
dc.contributor.advisor1 | Faceli, Katti | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/4451540730749377 | por |
dc.contributor.advisor-co1 | Rossi, Rafael Geraldeli | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/3459897790282753 | por |
dc.description.resumo | Em um contexto em que a grande parte das informações armazenadas pelas organizações
está em formato textual, o desenvolvimento de ferramentas computacionais para extração
de conhecimento voltadas a organização e recuperação de informação tem se mostrado
relevante e recebido atenção. Os modelos de extração de tópicos são recorrentemente
empregados nessa tarefa. Esses modelos são capazes de estabelecer relações e encontrar
padrões latentes (ocultos) em coleções de documentos textuais. No entanto, há um desafio
adicional em documentos constituídos por múltiplos assuntos. Para textos onde há transição
de assuntos faz-se necessário, em primeiro lugar, encontrar porções de texto que tratam
de um único assunto. Para isso, as técnicas de segmentação textual são utilizada para
dividir um texto em segmentos com um assunto relativamente independente. O uso
combinado de algoritmos de segmentação textual e extração de tópicos pode então ser
aplicado para criar uma estrutura que ajuda a entender os dados textuais, os quais são
inerentemente não estruturados. A criação de uma estrutura organizada em tópicos, que
incorpora informações latentes sobre o corpus favorece as técnicas de recuperação de
informação. Essa abordagem permite a extensão do espaço de busca a qual incorpora
outros elementos além do conjunto de termos originais de cada segmento, o que favorece a
identificação de trechos mais relevantes à consulta. Neste trabalho, é apresentada uma
metodologia para conectar as técnicas de segmentação textual aos modelos de extração
de tópicos a fim de gerar uma estrutura derivada de um corpus não estruturado. Essa
estrutura envolve os textos originais acrescidos de informações latentes e organizadas
por sua semelhança semântica. Assim, a pesquisa deste trabalho de mestrado investigou
técnicas de segmentação textual e extração de tópicos para o desenvolvimento de um
sistema de recuperação de informação em um conjunto de documentos multi-temáticos,
mais especificamente em uma coleção de atas de reunião. A ideia desse sistema é entregar
os segmentos mais relevantes à consulta do usuário. Os segmentos exibidos são agrupados
por tópicos. Isso também possibilita consultas exploratórias à base de dados, por meio
da navegação por grupos de segmentos relacionados semanticamente. Além disso, trechos
pouco relevantes são omitidos, permitindo resultados concentrados no assunto pesquisado.
Para o desenvolvimento do sistema, foram avaliados cinco técnicas de segmentação textual
e três modelos de extração de tópicos da literatura. Com base no conjunto de atas estudado,
criou-se um corpus anotado manualmente com informações sobre a composição temática
das atas e as transições entre os assuntos. O corpus anotado serviu como referência para
avaliação objetiva das técnicas de segmentação textual. Avaliou-se ainda, os resultados
obtidos com os modelos de extração tópicos junto a profissionais ligados ao contexto de atas
de reunião. Os resultados sugerem que as técnicas utilizadas e a metodologia apresentada
entregam respostas satisfatórias. Contudo, mais dados podem ser necessários para execução
de novos experimentos a fim de aprimorar os sistema desenvolvido. A implementação dosistema e das ferramentas utilizadas, o corpus anotado, bem como os resultados obtidos
nas avaliações são as principais contribuições deste trabalho. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC-So | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO | por |
dc.ufscar.embargo | Online | por |
dc.publisher.address | Câmpus Sorocaba | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/6601215787925926 | por |