MIDB: um modelo de integração de dados biológicos

Perlin, Caroline Beatriz

dc.contributor.author	Perlin, Caroline Beatriz
dc.date.accessioned	2016-06-02T19:05:56Z
dc.date.available	2012-05-31
dc.date.available	2016-06-02T19:05:56Z
dc.date.issued	2012-02-29
dc.identifier.citation	PERLIN, Caroline Beatriz. MIDB : um modelo de integração de dados biológicos. 2012. 105 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.	por
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/497
dc.description.abstract	In bioinformatics, there is a huge volume of data related to biomolecules and to nucleotide and amino acid sequences that reside (in almost their totality) in several Biological Data Bases (BDBs). For a specific sequence, there are some informational classifications: genomic data, evolution-data, structural data, and others. Some BDBs store just one or some of these classifications. Those BDBs are hosted in different sites and servers, with several data base management systems with different data models. Besides, instances and schema might have semantic heterogeneity. In such scenario, the objective of this project is to propose a biological data integration model, that adopts new schema integration and instance integration techniques. The proposed integration model has a special mechanism of schema integration and another mechanism that performs the instance integration (with support of a dictionary) allowing conflict resolution in the attribute values; and a Clustering Algorithm is used in order to cluster similar entities. Besides, a domain specialist participates managing those clusters. The proposed model was validated through a study case focusing on schema and instance integration about nucleotide sequence data from organisms of Actinomyces gender, captured from four different data sources. The result is that about 97.91% of the attributes were correctly categorized in the schema integration, and the instance integration was able to identify that about 50% of the clusters created need support from a specialist, avoiding errors on the instance resolution. Besides, some contributions are presented, as the Attributes Categorization, the Clustering Algorithm, the distance functions proposed and the proposed model itself.	eng
dc.format	application/pdf	por
dc.language	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Acesso Aberto	por
dc.subject	Banco de dados	por
dc.subject	Bioinformática	por
dc.subject	Modelo de integração de dados	por
dc.subject	Integração de esquemas	por
dc.subject	Integração de instâncias	por
dc.subject	Integração de Dados Biológicos	por
dc.subject	Bioinformatics	eng
dc.subject	Biological Databases	eng
dc.subject	Biological Database Integration	eng
dc.subject	Data Integration Model	eng
dc.subject	Schema Integration	eng
dc.subject	Instance Integration	eng
dc.title	MIDB: um modelo de integração de dados biológicos	por
dc.type	Dissertação	por
dc.contributor.advisor1	Ciferri, Ricardo Rodrigues
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8382221522817502	por
dc.description.resumo	Na bioinformática, existe um imenso volume de dados sendo produzidos, os quais estão relacionados a sequências de nucleotídeos e aminoácidos que se encontram, em quase a sua totalidade, armazenados em Bancos de Dados Biológicos (BDBs). Para uma determinada sequência existem algumas classificações de informação: dados genômicos, dados evolutivos, dados estruturais, dentre outros. Existem BDBs que armazenam somente uma ou algumas dessas classificações. Tais BDBs estão hospedados em diferentes sites e servidores, com sistemas gerenciadores de banco de dados distintos e com uso de diferentes modelos de dados, além de terem instâncias e esquemas com heterogeneidade semântica. Dentro desse contexto, o objetivo deste projeto de mestrado é propor um Modelo de Integração de Dados Biológicos, com novas técnicas de integração de esquemas e integração de instâncias. O modelo de integração proposto possui um mecanismo especial de integração de esquemas, e outro mecanismo que realiza a integração de instâncias de dados (com um dicionário acoplado) permitindo resolução de conflitos nos valores dos atributos; e um Algoritmo de Clusterização é utilizado, com o objetivo de realizar o agrupamento de entidades similares. Além disso, o especialista de domínio participa do gerenciamento desses agrupamentos. Esse modelo foi validado por meio de um estudo de caso com ênfase na integração de esquemas e integração de instâncias com dados de sequências de nucleotídeos de genes de organismos do gênero Actinomyces, provenientes de quatro diferentes fontes de dados. Como resultado, obteve-se que aproximadamente 97,91% dos atributos foram categorizados corretamente na integração de esquemas e a integração de instâncias conseguiu identificar que aproximadamente 50% dos clusters gerados precisam de tratamento do especialista, evitando erros de resolução de entidades. Além disso, algumas contribuições são apresentadas, como por exemplo a Categorização de Atributos, o Algoritmo de Clusterização, as funções de distância propostas e o modelo MIDB em si.	por
dc.publisher.country	BR	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.contributor.authorlattes	http://lattes.cnpq.br/4988340588959213	por

Files in this item

Name:: 4370.pdf
Size:: 1.038Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record

MIDB: um modelo de integração de dados biológicos

Files in this item

This item appears in the following Collection(s)

Related items

GromaXy: uma ferramenta para integração do Galaxy com o GROMACS ﻿

Contribuições do DFMEA na integração entre desenvolvimento de produtos e engenharia da qualidade: casos em empresas de grande porte ﻿

Currículo e integração curricular em um curso de graduação em medicina: concepções manifestadas pelos docentes que o vivenciam ﻿

GromaXy: uma ferramenta para integração do Galaxy com o GROMACS

Contribuições do DFMEA na integração entre desenvolvimento de produtos e engenharia da qualidade: casos em empresas de grande porte

Currículo e integração curricular em um curso de graduação em medicina: concepções manifestadas pelos docentes que o vivenciam