Show simple item record

dc.creatorFrancisco, Ovídio José
dc.date.accessioned2018-09-13T13:23:22Z
dc.date.available2018-09-13T13:23:22Z
dc.date.issued2018-08-07
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/10456
dc.description.abstractIn a context where the most informations stored by the organizations is in the text format, the development of computer tools for knowledge discovery aimed to organization and information retrieval is a task that holds attention and relevance. The extraction topic models are often employed in this task. This models are able to establish relations between documents and found latents patterns in sets of them. However, there is an additional challenge for documents composed by multiples subjects. For texts with subject shifts, it is necessary, in fist, found the chunks of texts that address a single subject. So, the text segmentation techniques are used to break a text in segments with a relatively independent issue. The combination of the text segmentation and topic extraction algorithms, can be used to make an structure that helps to understanding textual data, which are inherently non structured. The creation of an topic organized structure, that incorporates latent information concerning the corpus, favors Information Retrievals techniques. This approach allows query expansion space, besides the original set of terms of each segment, and the identification most relevant pieces of text. This work presents an methodology to connect the Text Segmentation techniques to the Topic extraction models, in order to generates an derivative structure from a non structured corpus, which concentrates the original texts plus the latent informations and organized by semantic likeness. The research for this thesis investigates the text segmentation techniques and the Topic extraction models to develop an Information Retrieval system for meeting minutes. We develops an system to give to the user the most relevant segments to the query. The segmentos presented are clustered by this topics, that also enables exploratory searches to the data base, through browsing by groups of semantically related segments. Furthermore, less relevant segments are omitted, allowing results focused on the researched subject. Five techniques of text segmentation and three Topic extraction models from the literature was evaluated. Based on the set of meeting minutes analysed, we create an manually annotated corpus with informations on the thematic composition of the meeting minutes and about the issue shifts. The annotated corpus served as reference to objective evaluation of the text segmentation techniques. We also evaluate the results obtained with the Topic extraction models. This results were analysed by related to the meeting minutes context. The results points the employed techniques and the methodology presented gives satisfactory answers. However, more data can be necessary to leads new experiments in order to improve the used techniques. The system implementation and the tools used in the work, as well the results obtained in the evaluations, plus the annotated corpus are the principal contributions of this work, in order to support next works.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rights.uriAcesso abertopor
dc.subjectRecuperação de Informaçãopor
dc.subjectSegmentação Textualpor
dc.subjectExtração de Tópicospor
dc.subjectAtas de Reuniãopor
dc.subjectInformation retrievaleng
dc.subjectText segmentationeng
dc.subjectTopic extractioneng
dc.subjectMeeting minuteseng
dc.subjectMineração de dados (Computação)por
dc.subjectData miningeng
dc.titleRecuperação de informação em atas de reunião utilizando segmentação textual e extração de tópicospor
dc.title.alternativeInformation retrieval in meeting minutes using text segmentation and topic extractioneng
dc.typeDissertaçãopor
dc.contributor.advisor1Faceli, Katti
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4451540730749377por
dc.contributor.advisor-co1Rossi, Rafael Geraldeli
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/3459897790282753por
dc.creator.Latteshttp://lattes.cnpq.br/6601215787925926por
dc.description.resumoEm um contexto em que a grande parte das informações armazenadas pelas organizações está em formato textual, o desenvolvimento de ferramentas computacionais para extração de conhecimento voltadas a organização e recuperação de informação tem se mostrado relevante e recebido atenção. Os modelos de extração de tópicos são recorrentemente empregados nessa tarefa. Esses modelos são capazes de estabelecer relações e encontrar padrões latentes (ocultos) em coleções de documentos textuais. No entanto, há um desafio adicional em documentos constituídos por múltiplos assuntos. Para textos onde há transição de assuntos faz-se necessário, em primeiro lugar, encontrar porções de texto que tratam de um único assunto. Para isso, as técnicas de segmentação textual são utilizada para dividir um texto em segmentos com um assunto relativamente independente. O uso combinado de algoritmos de segmentação textual e extração de tópicos pode então ser aplicado para criar uma estrutura que ajuda a entender os dados textuais, os quais são inerentemente não estruturados. A criação de uma estrutura organizada em tópicos, que incorpora informações latentes sobre o corpus favorece as técnicas de recuperação de informação. Essa abordagem permite a extensão do espaço de busca a qual incorpora outros elementos além do conjunto de termos originais de cada segmento, o que favorece a identificação de trechos mais relevantes à consulta. Neste trabalho, é apresentada uma metodologia para conectar as técnicas de segmentação textual aos modelos de extração de tópicos a fim de gerar uma estrutura derivada de um corpus não estruturado. Essa estrutura envolve os textos originais acrescidos de informações latentes e organizadas por sua semelhança semântica. Assim, a pesquisa deste trabalho de mestrado investigou técnicas de segmentação textual e extração de tópicos para o desenvolvimento de um sistema de recuperação de informação em um conjunto de documentos multi-temáticos, mais especificamente em uma coleção de atas de reunião. A ideia desse sistema é entregar os segmentos mais relevantes à consulta do usuário. Os segmentos exibidos são agrupados por tópicos. Isso também possibilita consultas exploratórias à base de dados, por meio da navegação por grupos de segmentos relacionados semanticamente. Além disso, trechos pouco relevantes são omitidos, permitindo resultados concentrados no assunto pesquisado. Para o desenvolvimento do sistema, foram avaliados cinco técnicas de segmentação textual e três modelos de extração de tópicos da literatura. Com base no conjunto de atas estudado, criou-se um corpus anotado manualmente com informações sobre a composição temática das atas e as transições entre os assuntos. O corpus anotado serviu como referência para avaliação objetiva das técnicas de segmentação textual. Avaliou-se ainda, os resultados obtidos com os modelos de extração tópicos junto a profissionais ligados ao contexto de atas de reunião. Os resultados sugerem que as técnicas utilizadas e a metodologia apresentada entregam respostas satisfatórias. Contudo, mais dados podem ser necessários para execução de novos experimentos a fim de aprimorar os sistema desenvolvido. A implementação dosistema e das ferramentas utilizadas, o corpus anotado, bem como os resultados obtidos nas avaliações são as principais contribuições deste trabalho.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (Campus SOROCABA)por
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpor
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus Sorocabapor


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record