SOM4SImD : um método semântico baseado em ontologia para detectar similaridade entre documentos

dc.contributor.advisor1Santos, Marilde Terezinha Prado
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9826026025118073por
dc.contributor.authorArruda, Claudineia Gonçalves de
dc.contributor.authorlatteshttp://lattes.cnpq.br/4679260513752472por
dc.date.accessioned2017-08-09T14:17:28Z
dc.date.available2017-08-09T14:17:28Z
dc.date.issued2017-02-13
dc.description.abstractIn several research areas, interviews are a means of obtaining data widely used by researchers. These interviews are arranged, in most cases, in several documents and have an informal language, because they are conversations between several people at the same time. Analyzing such documents is an arduous and time-consuming task, bringing fatigue and difficulties to a correct analysis. One solution for analyzing this type of interview is to group documents according to the similarity between them, so that experts can analyze documents of similar subjects more quickly. In this way, this work presents the method SOM4SImD, created to detect the semantic similarity between the documents composed by interviews with an informal language written in Brazilian Portuguese. In order to create this method, an ontology of the same document domain was used, which allowed the use of the formal terms of the ontology, along with its synonyms and variants, to perform the semantic annotation in the documents and to calculate the similarity between the interview pairs. Through the created method, a SimIGroup approach was developed that assists the researchers in the qualitative analysis of the documents, using Coding technique. The results show that the SOM4SImD method and the SimIGroup approach reduce the difficulties and fatigue in the analysis of the documents made by the annotators, helping to increase the number of documents analyzed. In addition, the SOM4SImD method was more advantageous in obtaining similarity between documents than the others found in the literature, reaching significant values for the performance measures, with 0.96 accuracy, 0.93 of recall and 0.94 of F-Mensure.eng
dc.description.resumoEm diversas áreas de pesquisas, as entrevistas são um meio de obtenção de dados muito utilizadas por pesquisadores. Essas entrevistas são dispostas, na maioria das vezes, em diversos documentos e têm uma linguagem informal, por se tratar de conversas entre várias pessoas ao mesmo tempo. Analisar tais documentos é uma tarefa árdua e demorada, trazendo cansaço e dificuldades para uma análise correta. Uma solução para análise desse tipo de entrevistas é agrupar os documentos de acordo com a similaridade que existem entre eles, pois assim os especialistas conseguem analisar os documentos de assuntos parecidos de forma mais rápida. Desta forma, este trabalho apresenta o método SOM4SImD, criado para detectar a similaridade semântica entre os documentos compostos por entrevistas com uma linguagem informal escritas no português brasileiro. Para criar este método, foi utilizado uma ontologia de mesmo domínio dos documentos, que permitiu o uso dos termos formais da ontologia, juntamente com seus sinônimos e variantes para realizar a anotação semântica nos documentos e para realizar o cálculo da similaridade entre os pares de entrevistas. Através do método criado, foi desenvolvida uma abordagem SimIGroup que auxilia os pesquisadores na análise qualitativa dos documentos, utilizando a técnica Coding. Os resultados mostram que o método SOM4SImD e a abordagem SimIGroup diminuem as dificuldades e cansaço na análise dos documentos realizadas pelos anotadores, auxiliando no aumento da quantidade de documentos analisados. Além disso, o método SOM4SImD se mostrou mais vantajoso na obtenção de similaridade entre documentos do que os demais encontrados na literatura, alcançando valores significantes para as medidas de desempenho, com 0,96 de precisão, 0,93 de revocação e 0,94 de F-Mensure.por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.identifier.citationARRUDA, Claudineia Gonçalves de. SOM4SImD : um método semântico baseado em ontologia para detectar similaridade entre documentos. 2017. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2017. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/8961.por
dc.identifier.urihttps://repositorio.ufscar.br/handle/20.500.14289/8961
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.publisher.addressCampus São Carlospor
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.rights.uriAcesso abertopor
dc.subjectMétodopor
dc.subjectSimilaridade semânticapor
dc.subjectDocumentospor
dc.subjectOntologiapor
dc.subjectAbordagempor
dc.subjectAnálise de documentospor
dc.subjectAnálise qualitativapor
dc.subjectMethodeng
dc.subjectSemantic similarityeng
dc.subjectDocumentseng
dc.subjectOntologyeng
dc.subjectApproacheng
dc.subjectDocument analysiseng
dc.subjectQualitative analysiseng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.titleSOM4SImD : um método semântico baseado em ontologia para detectar similaridade entre documentospor
dc.typeDissertaçãopor
dc.ufscar.embargoOnlinepor

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
DissCGA.pdf
Tamanho:
1.31 MB
Formato:
Adobe Portable Document Format
Descrição:

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.91 KB
Formato:
Item-specific license agreed upon to submission
Descrição: