Universidade Federal de São Carlos Centro de Ciências Biológicas e da Saúde Programa de Pós Graduação em Genética Evolutiva e Biologia Molecular Dissertação de Mestrado Anotação genômica e caracterização de locos microssatélites em sequências expressas do genoma do camarão marinho Litopenaeus vannamei Mestranda: Camilla Alves Santos Orientador (a): Prof. Dra. Patrícia Domingues de Freitas São Carlos 2011 Universidade Federal de São Carlos Centro de Ciências Biológicas e da Saúde Programa de Pós Graduação em Genética Evolutiva e Biologia Molecular Dissertação de Mestrado Anotação genômica e caracterização de locos microssatélites em sequências expressas do genoma do camarão marinho Litopenaeus vannamei Mestranda: Camilla Alves Santos Orientador (a): Prof. Dra. Patrícia Domingues de Freitas São Carlos 2011 Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Genética Evolutiva e Biologia Molecular do Centro de Ciências Biológicas e da Saúde da Universidade Federal de São Carlos, como parte dos requisitos para obtenção do título de mestre em Genética Evolutiva e Biologia Molecular Ficha catalográfica elaborada pelo DePT da Biblioteca Comunitária da UFSCar S237ag Santos, Camilla Alves. Anotação genômica e caracterização de locos microssatélites em sequências expressas do genoma do camarão marinho Litopenaeus vannamei / Camilla Alves Santos. -- São Carlos : UFSCar, 2011. 134 f. Dissertação (Mestrado) -- Universidade Federal de São Carlos, 2011. 1. Genoma. 2. Sequenciamento. 3. Enzimas. 4. Xenobiotica - metabolismo. I. Título. CDD: 575.10724 (20a) “O pessimista reclama do vento, o otimista espera que ele mude, o realista ajusta as velas.” (Provérbio chinês) “Aprender é a única coisa de que a mente nunca se cansa, nunca tem medo e nunca se arrepende.” (Leonardo da Vinci) Agradecimentos Agradeço primeiramente a Deus por tornar possível a realização deste trabalho. À minha família, que apesar da distância sempre estiveram próximos de mim me ajudando de todas as maneiras possíveis. Agradeço por todo investimento e confiança depositados em mim. À minha orientadora, Patrícia, por toda paciência e ensinamentos a mim dedicados. Trabalhar com você tem sido um grande prazer, principalmente pela relação de amizade que temos. Ao Prof. Dr. Pedro Galetti por fornecer meios para que este trabalho pudesse ser realizado. Aos amigos, poucos, mas verdadeiros. Agradeço pelas conversas, passeios, apoio, idéias que contribuíram com este trabalho e tudo mais que me confortam aqui longe de casa. Vocês são uma segunda família para mim. Ao pessoal do Laboratório de Genômica e Expressão da Unicamp (LGE) por todo o auxílio durante a anotação das sequências. Mesmo sem conhecê-los, a participação deles neste trabalho foi de fundamental importância. À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pelo apoio financeiro prestado nestes dois anos de mestrado. A todos que não foram citados aqui, mas que de alguma forma contribuíram para este trabalho. Muito obrigada! SUMÁRIO Resumo 1 Abstract 3 1. Introdução 5 1.1 A espécie Litopenaeus vannamei 5 1.2 A carcinicultura 7 1.3. Os marcadores microssatélites 10 1.4 As reações de amplificação heteróloga 12 1.5 O Projeto ShEST 13 1.6 Anotação genômica 14 2. Objetivos 19 3. Justificativa 20 4. Metodologia 21 4.1 Obtenção das Amostras 21 4.2 Validação dos locos SSRs-ESTs 22 4.3 Anotação genômica 24 4.4 Estabelecimento das vias metabólicas 26 5. Resultados e Discussão 27 5.1 Capítulo 1 27 5.1.1 Reações de PCR utilizando o primer M13 27 5.1.2 Análises estatísticas 31 5.1.3 Transferabilidade dos locos heterólogos 33 5.2 Capítulo 2 39 5.2.1 Anotação genômica das marcas ESTs e SSR-ESTs 38 5.2.2 Estabelecimento das vias metabólicas 48 6. Conclusões 65 7. Referências 67 8.1 Anexos – Tabelas 72 8.2 Anexos – Figuras 122 Lista de Figuras e Tabelas Figura 1: O camarão Litopenaeus vannamei Página 6 Figura 2: Amplificação do loco Contig 1309 para alguns dos indivíduos testados. Fragmentos de 150 a 250pb. Página 28 Figura 3: Amplificação do loco Contig 2075 para algumas amostras. Fragmentos de 200pb. Página 30 Figura 4: Amplificação do loco Contig 2533 em oito dos vários indivíduos testados. Fragmentos de 150pb. Página 30 Figura 5: Amplificação de sete indivíduos testados dentre dezenas para o loco Contig 871. Fragmentos de 100 a 200pb. Página 31 Figura 6: Amplificação do loco Contig 2087 para algumas das amostras testadas. Fragmentos de 200 pb. Página 31 Figura 7: Distribuição das proteínas encontradas em 260 ESTs Página 41 Figura 8: Distribuição dos componentes celulares encontrados Página 41 Figura 9: Distribuição das funções moleculares encontradas Página 42 Figura 10: Distribuição dos processos biológicos encontrados Página 42 Figura 11: Distribuição das 260 ESTs nas principais bibliotecas genômicas utilizadas Página 43 Figura 12: Distribuição das seis classes enzimáticas nos locos analisadas Página 44 Figura 13: Distribuição dos componentes celulares encontrados das enzimas Página 45 Figura 14: Distribuição das funções moleculares das enzimas Página 46 Figura 15: Distribuição dos processos biológicos das enzimas Página 46 Figura 16: Distribuição dos organismos homólogos em 480 locos anotados Página 47 Figura 17: Glicólise Página 122 Figura 18: Ciclo do ácido cítrico (Krebs) Página 123 Figura 19: Via das pentoses Página 124 Figura 20: Metabolismo de frutose e manose Página 124 Figura 21: Metabolismo de amino e nucleotídeos glicanos Página 125 Figura 22: Metabolismo de purina Página 126 Figura 23: Metabolismo de pirimidina Página 126 Figura 24: Metabolismo de triptofano Página 125 Figura 25: Metabolismo de glutationa Página 128 Figura 26: Metabolismo de metano Página 129 Figura 27: Metabolismo de xenobióticos pelo citocromo P450 Página 130 Figura 28: Metabolismo de drogas pelo citocromo P450 Página 131 Figura 29: Fosforilação oxidativa Página 132 Figura 30: Biossíntese de alcalóides derivados de ornitina, lisina e nicotinato Página 133 Figura 31: Esquematização de um conjunto de networks enzimáticas, destacando a integração entre as vias. Cada cor representa vias responsáveis pelo metabolismo de determinado substrato Página 134 Tabela 1: Ciclo padrão nos testes de touchdown de temperatura e nas validações no termociclador MJ Research com o primer M13. Página 23 Tabela 2: Detalhamento sobre os 32 locos SSRs-ESTs utilizados. Seqüências forward e reverse, motif, temperatura de anelling e padrão de amplificação obtido. Página 29 Tabela 3: Detalhamento sobre os locos polimórficos: motif, número de alelos (Na), heterozigozidade esperada (He), heterozigozidade observada (Ho), valores de Polymorphism Information Content (PIC) e os respectivos produtos protéicos dos locos. Página 33 Tabela 4: Resultado das reações de amplificação heteróloga. Espécies e locos utilizados além dos tamanhos dos fragmentos obtidos (pb). Página 34 Tabela 5: Detalhamento dos nove locos SSR-ESTs polimórficos e suas respectivas informações do banco de dados do Gene Ontology Página 48 Tabela 6: Relação das 35 enzimas envolvidas nas principais vias metabólicas elucidadas. Destaque para o EC number, função molecular, processo biológico e respectiva rota participante. Página 72 Tabela 7: Listagem dos contigs anotados. Maior detalhamento sobre o produto gênico, TC number, componente celular, função molecular, processo biológico, símbolo do gene, função, domínio e organismo homólogo. Página 74 Tabela 8: Detalhes sobre os locos ESTs enzimáticos como o produto protéico, EC number, componente celular, função molecular, processo biológico, símbolo do gene, função, domínio e organismo homólogo. Página 95 Tabela 9: Detalhes sobre os locos SSR-ESTs enzimáticos como o produto protéico, EC number, componente celular, função molecular, processo biológico, símbolo do gene, função, domínio e organismo homólogo. Página 111 1 RESUMO Litopenaeus vannamei é conhecido como camarão branco do Pacífico e é a principal espécie de peneídeo comercializada no mundo. Sua distribuição geográfica compreende a costa do Oceano Pacífico, indo desde o México até o Peru. Devido a sua relevante importância econômica, esta espécie passou a ser cultivada, adaptando-se bem às condições de cativeiro, tendo sido introduzida em diversos países, incluindo o Brasil. Entretanto, apesar de toda preocupação em manejar adequadamente as populações de cultivo, muitos países não têm tido renovação de seus estoques reprodutores ou plantéis, devido ao risco de introdução de patógenos exógenos, o que tem aumentado o grau de endogamia desses estoques e diminuição dos níveis de diversidade genética. Para monitorar esta perda de variabilidade genética, marcadores microssatélites ou SSRs (Simple Sequence Repeats), oriundos de regiões arbitrárias e expressas do genoma desta espécie, vêm sendo utilizados. No caso específico de SSRs presentes em regiões expressas do genoma (ESTs, Expressed Sequence Tags) ou SSRs-ESTs, além destes permitirem acessar a variabilidade genética das populações, as ESTs desprovidas de SSRs podem estar relacionadas a genes de interesse, podendo auxiliar o desenvolvimento de programas de melhoramento genético baseados na Seleção Assistida por Marcadores (MAS). Além disso, locos SSRs-ESTs podem apresentar uma excelente taxa de transferabilidade em espécies taxonomicamente relacionadas, uma vez que se encontram em regiões mais conservadas do genoma. Dentro deste contexto, este trabalho teve como objetivos (i) a validação populacional de locos SSRs-ESTs, isolados via dataming no banco de dados de ESTs de L. vannamei (www.shrimp.ufscar.br); (ii) a anotação genômica de marcas ESTs e locos SSRs-ESTs (iii) e a determinação dos EC numbers (códigos enzimáticos), visando, respectivamente, (i) a caracterização de marcadores polimórficos, (ii) a descrição de genes e seus respectivos produtos protéicos e (iii) o estabelecimento de informações para descrever as possíveis vias metabólicas para o grupo de peneídeos. Para tanto foram testados 32 locos SSRs-ESTs em reações de PCR. Após estabelecimento do melhor perfil de reação e posterior genotipagem dos locos, nove SSRs-ESTs mostraram-se polimórficos, com número de alelos variando de 4 a 20, níveis de heterozigozidade observada de 0,32 a 0,86 e valores médios de PIC (Polymorphism Information Content) de 0,78. Nenhum loco apresentou-se em desequilíbrio de ligação. Entretanto, após correção de Bonferroni, constatou-se que um deles apresentou déficit significativo de heterozigotos. Os nove locos polimórficos para L. vannamei apresentaram amplificação satisfatória em pelo menos uma das sete espécies nativas testadas: as marinhas Xiphopenaeus kroyeri, 2 Farfantepenaeus brasiliensis, Farfantepenaeus paulensis, Rimapenaeus constrictus e Litopenaeus schmitti e as de água doce Macrobrachium amazonicum e Macrobrachium jeskii podendo se constituir em marcas úteis para os estudos genéticos também dessas espécies. A anotação genômica realizada via acesso à página de anotação do Projeto ShEST (Projeto Genoma EST de Litopenaeus vannamei) demonstrou que apenas três dos nove locos polimórficos têm o seu gene e produto protéico já descritos. Os demais locos não apresentaram blasts positivos com nenhuma outra base de dados genômicos disponíveis para pesquisa. No caso das sequências anotadas, o produto gênico pôde ser elucidado para 99% destas, sendo possível estabelecer 209 EC numbers, destacando-se enzimas responsáveis pela degradação de xenobióticos, imunidade, produção de energia, reprodução, estresse oxidativo, dentre outras. Estes códigos enzimáticos foram utilizados para determinação de algumas vias metabólicas presentes no grupo dos peneídeos, contribuindo assim para a construção de uma ampla base de dados do genoma deste importante grupo animal, podendo ser utilizada em estudos de conservação, programas de melhoramento genético e em análises de expressão gênica, como PCR em tempo real e microarrays. Palavras-chave: microssatélites, ESTs, peneídeos, EC numbers, vias metabólicas 3 ABSTRACT Litopenaeus vannamei is known as Pacific white shrimp and is the main species marketed worldwide. Its geographical distribution includes the Pacific coast, ranging from Mexico to Peru. Due to its outstanding economic importance, this species has been farmed and showing great adapting levels to captivity, having been introduced in several countries, including Brazil. However, despite all the concern to properly manage the farming populations, many countries have not had a renewal of their breeding herds because of the risk of introduction of exogenous pathogens, which has increased the degree of inbreeding of these stocks and decreased levels of genetic diversity. To monitor this loss, microsatellite markers or SSRs (Simple Sequence Repeats), from genome arbitrary and expressed regions have been used. In the specific case of SSRs present in expressed regions of the genome (ESTs, Expressed Sequence Tags) or SSRs-ESTs, they allow the access to the genetic variability of populations, and the ESTs markers devoid of SSRs may be related to genes of interest, subsidizing the development of breeding programs based on Marker Assisted Selection (MAS). Moreover, EST-SSRs loci may show an excellent rate of transferability in taxonomically related species, since they are in more conserved regions of the genome. Within this context, this study aimed (i) the validation population of EST-SSR loci isolated through dataming from L. vannamei ESTs database (www.shrimp.ufscar.br), (ii) the genomic annotation of ESTs and EST-SSRs markers (iii) the determination of EC numbers (Enzyme Codes), aiming respectively, (i) the characterization of polymorphic markers (ii) the description of genes and their protein products and (iii) the establishment of information to describe the possible pathways for the penaeid group. Therefore, we tested 32 EST-SSRs loci in PCR reactions. After establishing the best pattern of reaction and subsequent loci genotyping, nine SSRs-ESTs were polymorphic, with allele number ranging from two to 20, levels of observed heterozygosity from 0.32 to 0.86 and average PIC (Polymorphism Information Content) of 0.78. No pair of loci presented in linkage disequilibrium. However, after Bonferroni correction, we found that one of these showed a significant deficit of heterozygotes. The nine polymorphic loci from L.vannamei showed satisfactory amplification in at least one of the seven native species tested: the marine ones Xiphopenaeus kroyeri, Farfantepenaeus brasiliensis, Farfantepenaeus paulensis, Rimapenaeus constrictus and Litopenaeus schmitti and the freshwater ones Macrobrachium amazonicum and Macrobrachium jeskii, being useful also for genetic studies of these species. The genome annotation performed by access in ShEST website (Litopenaeus vannamei EST Genome Project) showed that only three of nine loci 4 have the gene and its protein product described. The other loci showed no matches with any other genomic database available for research. In this work, gene product could be elucidated for 99% of ESTs, being possible to establish 209 EC numbers, highlighting enzymes responsible for xenobiotics metabolism, immunity, energy production, reproduction, oxidative stress, among others. These codes were used for construction of some metabolic pathways present in the penaeid group, contributing for building a wide database of the genome of this important animal group. These data may be applied in genetic improvement programs as well as gene expression studies, such as real- time PCR and microarrays. Keywords: microsatellites, ESTs, penaeid, EC numbers, metabolic pathways 5 1. Introdução 1.1 A espécie Litopenaeus vannamei Os camarões peneídeos são globalmente distribuídos em águas rasas e profundas e ocupam diferentes nichos nas cadeias alimentares. Neste grupo estão incluídas espécies de enorme valor comercial, sendo estas responsáveis por um terço de toda pesca mundial de crustáceos anual (Ma et al., 2009). O camarão branco do Pacífico, conhecido como Litopenaeus vannamei representa a principal espécie de camarão mundialmente comercializada. Seu habitat natural vai desde a costa oriental do oceano Pacífico nas proximidades do México até o Peru. No entanto, a degradação dos mares tornou impossível suprir a demanda mundial através apenas da pesca extrativista de camarões (Perez-Henriquez et al., 2009). Dessa forma, esta espécie foi introduzida em cativeiro em diversos países, incluindo o Brasil, no qual apresentou uma excelente adaptabilidade (Tamayo, 2006). A espécie Litopenaeus vannamei (Figura 1) está classificada taxonomicamente da seguinte forma: Filo Arthopoda Sub-filo Crustacea Classe Malacostraca Ordem Decapoda Família Penaeidae Gênero Litopenaeus Espécie Litopenaeus vannamei (Boone, 1932) 6 Figura 1: O camarão Litopenaeus vannamei Os peneídeos apresentam o corpo alongado, segmentado e dividido em três regiões distintas: a cabeça, o tórax e o abdômen, sendo que a cabeça e o tórax estão fundidos na região anterior do corpo e recebem o nome de cefalotórax. Os cinco últimos pares de apêndices do cefalotórax são os responsáveis pela denominação da ordem Decapoda. Já os últimos apêndices do abdômen são utilizados para nadar e recebem o nome de pleiópodos (Barbieri & Ostrensky, 2001). Esta espécie quando em seu ambiente natural realiza o acasalamento e a desova em mar aberto, em regiões de grande profundidade. Os ovos são colocados durante o período noturno e a fecundação é externa, caracterizando um grupo de camarões na qual as fêmeas possuem o télico aberto. Cerca de 12 horas após a fecundação, os náuplios eclodem e utilizam apenas o seu vitelo para sua nutrição. Estas larvas são facilmente atraídas pela luz à superfície do mar, onde se localiza uma grande quantidade de alimento que será importante para a próxima fase larval denominada protozoéa. Após esse estágio, estas se transformam em mísis, fase na qual todo o tórax já é coberto pela carapaça. Posteriormente, surge a pós-larva, fase em que já se encontram todos os apêndices presentes em um camarão adulto. Na natureza, ovos e larvas desta espécie são planctônicos e o animal juvenil é bentônico e vive nas regiões costeiras. Quando adultos, migram para mar aberto para iniciar o ciclo de reprodução que ocorre quando o camarão atinge cerca de 35 gramas, próximo aos 10 meses de vida (Barbieri & Ostrensky, 2001). 7 A principal diferença dentre os decápodas está na forma em como ocorre a fecundação, se em télico aberto ou fechado. O télico é a estrutura reprodutiva externa das fêmeas e a sua morfologia determina o quanto eficiente será a reprodução. Quando a espécie possui télico fechado, a fecundação apenas pode ocorrer logo após a muda que é a época em que o exoesqueleto ainda não está completamente formado. Quando se trata de um télico aberto, o acasalamento acontece pouco antes da muda (Maggioni et al., 2001). Estudos taxonômicos costumavam utilizar o tipo de abertura de télico como critério de classificação para o grupo dos peneídeos. Hoje já se sabe que este critério está em desuso devido ao fato destas características não serem suficientemente esclarecedoras para distinguir as diversas espécies desta família (Baldwin et al., 1998). 1.2. A carcinicultura Em meados dos anos 80, a atividade de cultivo de crustáceos (carcinicultura), mas especificamente de camarões marinhos, atingiu um crescimento exponencial, se tornando uma das atividades mais rentáveis na história moderna da aqüicultura (Tu et al., 2010). O sucesso de cultivo da espécie L. vannamei em particular, se deveu ao fato desta suportar altas densidades populacionais, diversos níveis de salinidade e baixas concentrações de oxigênio, além de ser de fácil reprodução em cativeiro (Freitas et al., 2007a). Um excelente exemplo que demonstra esta expansão no cultivo de L. vannamei é a produção no México, que alcançou cerca de 100.000 toneladas entre os anos de 2006 e 2009 (Perez-Henriquez et. al, 2009). No Brasil, o ápice do cultivo desta espécie se deu em 2003 quando o país atingiu as maiores taxas de produtividade mundial, produzindo cerca de 90.000 toneladas/ano. Apesar de sucessivas quedas na produção de camarão em 2004, esta permaneceu estável de 2005 a 2009, com um 8 aumento significativo em 2010, alcançando 80.000 toneladas/ano de camarões produzidos no Brasil. As exportações brasileiras de camarão vem decrescendo ao longo dos anos, sendo uma justificativa plausível para isso o fato de quase a totalidade (98% no ano de 2010) do camarão cultivado no Brasil ser destinado ao mercado interno, o que reforça a idéia da necessidade de mais investimentos nesse setor a fim de suprir a demanda dos próximos anos. Outro fator responsável pela queda nas exportações deve-se ainda a existência de patógenos na carcinicultura brasileira e a insegurança por parte dos países importadores referente aos aspectos sanitários (ABCC, 2010). No cativeiro, o cultivo de peneídeos é composto basicamente por três etapas: a fase de engorda em que os animais são armazenados em tanques de três a quatro meses ou até que atinjam 16 gramas, sendo alimentados exclusivamente com ração; a fase intermediária cujo principal objetivo é o crescimento do camarão, devendo-se diminuir a densidade de camarões/m2 para tal fim, até que atinjam cerca de 25 gramas após três meses; e a fase final que é caracterizada pela última etapa de crescimento dos melhores reprodutores, com a densidade dos estoques ainda menor e os animais permanecendo nesta fase até atingirem cerca de 35 gramas e alcançarem a maturidade sexual. Dessa forma, os melhores reprodutores são escolhidos baseando-se nas antenas (devem estar intactas), nas ampolas espermáticas dos machos, no hepatopâncreas e na musculatura abdominal que deve apresentar-se translúcida (Barbieri & Ostrensky, 2001). A diminuição da densidade dos plantéis é realizada apenas em cultivos extensivos ou semi- intensivos, embora os tipos de cultivo para L. vannamei possam atingir até a categoria de super- intensivo. Neste método, cerca de 300 a 450 camarões juvenis com 0,5 a 2 gramas juvenis por m2 são estocados em estufas, sem haver troca de água, apenas a reposição da porção que evapora. As taxas de sobrevivência nesta fase podem chegar a 91%, caracterizando a grande flexibilidade desta espécie nas condições de cativeiro (FAO, 2011). 9 O cultivo intensivo é caracterizado por altas densidades populacionais, estocando de 25 -40 camarões/m2 em tanques pequenos e relativamente fundos (2000 a 5000 m2 e profundidade de 1,2 a 1,5 m), com troca de água e oxigenação da mesma por bombas e utilização de rações artificiais (Tu et al., 2008). Embora a espécie apresente uma excelente adaptabilidade, o gradiente de temperatura ideal para L. vannamei é em torno de 20 a 30˚C, uma vez que desvios deste intervalo confortável tornam a fisiologia do camarão mais sensível, como por exemplo, sob temperaturas menores que 20˚C e baixas salinidades a sobrevivência do animal torna-se inviável (Zhang et al., 2009). Outra questão diz respeito à utilização de drogas e produtos químicos aplicados nos tanques durante o cultivo, como antibióticos, pesticidas, desinfetantes que além de exigirem um maior gasto energético do animal para metabolizar esses compostos ainda podem ser nocivos ao seu crescimento (Tu et al., 2010). Hoje já se que tais fatores afetam o mecanismo de imunidade dos crustáceos, tornando-os mais susceptíveis aos patógenos (Hu et al., 2008). Praticamente todos esses compostos são metabolizados pelo complexo do citocromo P450 (CYP) das células basicamente do hepatopâncreas dos decápodas, uma vez que este órgão análogo aos rins e fígado dos vertebrados é o responsável pela desintoxicação desse grupo (Rewitz et al., 2006; Baldwin et al., 2009). O complexo do CYP é o principal agente no metabolismo de xenobióticos lipofílicos como drogas, pesticidas e hidrocarbonetos policíclicos aromáticos em geral, além da produção de hormônios esteróides, moléculas sinalizadoras e feromônios. A palavra xenobiótico deriva-se do grego xenos que significa estranho, tratando-se de compostos externos que normalmente não são produzidos ou encontrados em determinado organismo, como pesticidas. As enzimas deste complexo catalisam uma variedade de reações como hidroxilações e oxidações, sendo caracterizadas pela sua atividade principal de monooxigenases, incorporando um átomo de 10 dioxigênio (O2) aos substratos. Estas enzimas podem estar presentes nas mitocôndrias (classe I) ou na membrana do retículo endoplasmático (classe II) (Rewitz et al., 2006). Outro aspecto relevante relativo às técnicas de manejo utilizadas em cativeiro é a preocupação constante para evitar a perda de variabilidade genética dos plantéis, decorrente do cruzamento entre estoques reprodutores mantidos em sua maioria sem a introdução regular de novos indivíduos selvagens (Freitas et al., 2007b; Wang et al., 2005). Para monitorar os níveis de diversidade genética dos plantéis e das populações comerciais, muitos estudos vêm utilizando diversos tipos de marcadores moleculares (Freitas et al., 2002, Freitas et al., 2007a; Freitas et al., 2007b), os quais em alguns casos, também estão sendo empregados com sucesso em programas de mapeamento e cruzamentos controlados de camarões peneídeos (Liu et al., 2004). 1.3 Os marcadores microssatélites e as ESTs (Expressed Sequence Tags) As sequências microssatélites ou SSRs (Simple Sequence Repeats) consistem em sequências de um a seis pares de bases que se repetem em tandem no genoma de uma espécie (Thiel et al., 2003). São co-dominantes e encontram-se amplamente distribuídas no genoma de eucariotos, possuindo o mais elevado PIC (Polymorphism Information Content) dentre os marcadores moleculares conhecidos. O PIC avalia quanto um marcador molecular pode detectar polimorfismo em uma população e sabe-se que quanto maior o número de alelos e mais equivalente for a distribuição das freqüências desses alelos, maior será o PIC (Liu et al., 2004). Locos microssatélites são muito utilizados também em estudos populacionais que visam detectar efeitos recentes de deriva e gargalo, devido a sua rápida taxa de evolução, a qual varia de 10-6 a 10-2 por loco/ geração (Christiakov et al., 2006). 11 Estes polimorfismos são decorrentes principalmente de deslizes da DNA polimerase (slippage) durante a replicação do DNA, o que pode acarretar a adição ou subtração de repetições encontradas para os motifs dos microssatélites (Li et al., 2008). SSRs podem estar tanto em regiões arbitrárias do genoma quanto em regiões expressas ou ESTs (Expressed Sequence Tags). Nestes casos são conhecidos como SSR-EST, mostrando-se extremamente eficientes para identificação de polimorfismos gênicos e estudos de metabolismo, genômica comparada, mapeamento genéticos e identificação de QTLs (Quantitative Trait Loci), auxiliando o desenvolvimento de programas de seleção assistida por marcadores ou MAS (Marked Assisted Selection) (Liu et al., 2004; Perez et al., 2005; Cristiakov et al., 2006). A identificação de SSRs em regiões transcritas pode se dar através do processo de “mineração” de dados (datamining) em bancos de ESTs disponíveis para análise. O desenvolvimento de diversos Projetos Genoma tem possibilitado a caracterização de SSRs-ESTs para diferentes espécies, através da análise in silico de bancos de dados, que são submetidos à pesquisa, utilizando-se diferentes recursos de bioinformática (Kantety et al., 2002). Um exemplo disso é o Projeto Genoma do camarão marinho L. vannamei (ShEST), que teve como objetivo seqüenciar ESTs do genoma desta espécie, para que estas servissem de base para a identificação de um conjunto expressivo de marcadores moleculares e genes de interesse que pudessem auxiliar estudos genéticos neste grupo animal (http://www.shrimp.ufscar.br). Esta base de dados do Projeto ShEST tem servido para estudos de caracterização de SSRs-ESTs, de diferentes genes existentes e suas respectivas funções. O processo de anotação e validação desses locos tem demonstrado que esta estratégia pode fornecer uma quantidade significativa de locos microssatélites potencialmente úteis para estudos do genoma da espécie em questão e de outras espécies relacionadas (Freitas et al., 2007a). 12 1.4 As reações de amplificação heteróloga A amplificação de locos SSRs-ESTs heterólogos tem se tornado cada vez mais comum nos estudos genético-populacionais, uma vez que marcas caracterizadas para uma determinada espécie possuem grande potencial de uso em espécies taxonomicamente próximas (Wang et al., 2005). Em camarões peneídeos, por exemplo, altas taxas de transferabilidade foram observadas para locos SSR-EST desenvolvidos para L. vannamei. Perez et al. (2005), observaram que cerca de 69% dos locos microssatélites descritos para esta espécie amplificaram em Litopenaeus stylirostris e 21% na espécie Rimapenaeus birdy, sendo evidenciada maior eficiência para a primeira espécie, provavelmente por esta pertencer ao mesmo gênero. Outro exemplo descrito por Wang et al. (2005) mostraram que cinco de nove locos desenvolvidos para Fenneropenaeus chinensis amplificaram em espécies relacionadas de camarão. Esta boa eficiência de reações heterólogas para microssatélites de sequências expressas deve-se ao fato das regiões flanqueadoras aos locos SSRs serem mais conservadas por estarem sob maior pressão de seleção, uma vez que em geral representaram um papel importante na viabilidade do organismo (Bouck et al., 2007). Tal característica faz com que a descrição de locos microssatélites seja simplificada em espécies que possuem uma base de ESTs para pesquisa, uma vez que não é necessária a construção de bibliotecas genômicas de uma espécie alvo para esta finalidade (Freitas et al.,2007b). Análises in silico realizadas em conjuntos de ESTs disponíveis na base de dados do NCBI (National Center for Biotechnology Information) de diferentes grupos taxonômicos, como crocodilos e esponjas, demonstram que locos SSRs de genes nucleares e mitocondriais podem ser encontrados com relativa abundância, sendo possível estabelecer pares de primers flanqueadores para muitos deles (Freitas, comunicação pessoal). 13 A idéia relatada acima também é valida para estudos que se baseiam no estabelecimento de relações confiáveis de ortologia entre as espécies. Partindo do princípio de que cópias do mesmo gene são encontradas em espécies distintas, podendo apresentar igual ou semelhante função, locos SSRs-ESTs e/ou ESTs podem ter sua função elucidada através da anotação genômica, servindo como base para estudos em espécies relacionadas. O conhecimento de dados gênicos, a filogenia molecular e a ortologia se tornaram componentes essenciais para os estudos de larga escala de genomas, incluindo análises de expressão gênica, vias metabólicas e construção de árvores (Kuzniar et. al, 2008). 1.5. Projeto ShEST O Projeto Genoma do camarão marinho L. vannamei (ShEST), com núcleo na Universidade Federal de São Carlos (UFSCar) foi concluído no início de 2006 e teve como objetivo seqüenciar regiões expressas (Expressed Sequence Tags) do genoma de L. vannamei, para que estas servissem como base para inúmeros estudos, incluindo a identificação de um conjunto expressivo de marcadores moleculares e de genes de interesse que pudessem auxiliar os estudos genéticos neste importante grupo animal. Desde então, análises in silico, realizadas no banco EST do Projeto ShEST vêm sendo realizados, levantando informações úteis para estudos da espécie cultivada L. vannamei e para inúmeras outras espécies de peneídeos nativas à costa brasileira. Dentre estes estudos podemos destacar a caracterização de marcas SSRs, SNPs e de diferentes genes existentes, suas proteínas regulatórias e suas funções (http://www.shrimp.ufscar.br). Dentro deste projeto, centenas de marcas SSR foram identificadas através de análise de mineração de dados (datamining), utilizando-se diferentes recursos de bioinformática (Freitas, dados não publicados). O processo de anotação e validação dessas seqüências tem demonstrado 14 que esta estratégia pode fornecer uma quantidade significativa de locos microssatélites e SNPs potencialmente úteis para inúmeros estudos do genoma da espécie em questão e de outras espécies relacionadas (Freitas et al., submetido à publicação). Além disso, o processo de anotação genômica e a identificação de genes e seus respectivos produtos protéicos, somado ao estabelecimento das prováveis vias metabólicas, podem também fornecer informações valiosas para a melhor compreensão da funcionabilidade do organismo e manutenção deste importante grupo animal, contribuindo não somente com o desenvolvimento de ferramentas que subsidiem os estudos genéticos aplicados à aqüicultura de espécies comercialmente exploradas, mas também com estudos conservacionistas de espécies nativas de peneídeos sobreexplotadas (http://www.shrimp.ufscar.br; Galetti, comunicação pessoal). 1.6. A anotação genômica No caso específico da anotação genômica, esta consiste na elucidação do produto protéico de um gene e ocorre em três etapas principais: (i) a de nucleotídeos, que inclui a realização de blasts (Basic Local Alignment Search Tool) entre a sequência de nucleotídeos estudada e aquelas presentes nos bancos de dados (BD); (ii) a de proteínas que procura similaridade entre as sequências analisadas e as de outras espécies possuidoras de proteínas semelhantes já descritas e também disponíveis para pesquisa; e (iii) a anotação funcional que tem o objetivo maior de relacionar a proteína ao seu papel biológico, tendo como principal fonte sequências cuja função já se encontra bem conhecida em outras espécies (Stein, 2001; Louis et al., 2001). O processo de anotação pode ser divido em quatro dimensões que são caracterizadas brevemente a seguir: identificação de genes e análise de proteínas com função elucidada ou não (primeira); especificação dos componentes celulares e suas interações, sendo que o delineamento 15 das interações químicas e físicas com a célula possibilita a construção de redes enzimáticas ou networks (segunda); elucidação de conhecimentos sobre arranjos cromossômicos, componentes e ciclos celulares (terceira) e finalmente a dimensão que se foca em estudar as mudanças ocorridas nas sequências do genoma durante a adaptação evolutiva (quatro) (Reed et al., 2006). Aqui é dada maior ênfase às primeira e segunda dimensões. Na anotação de uma dimensão apenas é determinada a função de determinado gene com o auxilio de diversas ferramentas de bioinformática, como as de procura por sequências homólogas tipo BLAST e FASTA. Essa anotação é o primeiro passo para a reconstrução de um genoma, uma vez que fornece diversas enzimas e proteínas de transporte importantes. Já na anotação de duas dimensões são adicionadas informações como componentes celulares e suas interações, como por exemplo, a construção de uma network metabólica que une dados genéticos e bioquímicos com o objetivo central de definir as principais transformações químicas que acontecem na célula (Reed et al, 2006). Diversos bancos de dados disponibilizam informações bioquímicas sobre as proteínas, em especial as enzimas, como o ExPASy Proteomics Server (expasy.org), o KEGG (Kyoto Encyclopedia of Genes and Genomes – http://www.genome.jp/kegg/) e o BRENDA (www.brenda-enzymes.info), fornecendo mais detalhes sobre as atividades enzimáticas. Algumas informações são mais confiáveis do que outras, fornecendo diferentes dados das reações bioquímicas, sendo que as baseadas nas atividades enzimáticas tendem a apresentar maior confiança em relação àquelas baseadas somente em similaridade de sequências (Reed et al., 2006). Dentre as informações importantes obtidas através da anotação de proteínas em BDs como o SwissProt (http://expasy.org/sprot/) estão os códigos enzimáticos das enzimas também conhecidos como EC numbers (Enzyme Commission). Estes apresentam um papel essencial na representação computacional das reações enzimáticas em uma network, representando basicamente uma 16 classificação hierárquica de reações. Os três primeiros dígitos de cada EC number representam o tipo de reação química realizada pela enzima (oxiredutase, liase, etc.) com mais algumas possíveis moléculas que possam vir a interagir, como co-fatores. O quarto dígito corresponde a um substrato específico ou a um número de série (Barrett et al., 1992 apud Yamanishi et al., 2009). Hoje já se sabe que as similaridades nas sequências não são suficientes para se inferir sobre a similaridade também na estrutura e função de uma proteína ou enzima (Yamanishi et al., 2009), sendo assim, os valores de score e e-value mostram-se indicadores mais confiáveis de níveis de similaridades estruturais do que o valor de identidade alcançado pela comparação de sequências par a par (Rost, 2002). Os valores de score são caracterizados pela porcentagem de similaridade entre a sequência estudada (query) e aquelas presentes nos BD online (subject). Logo quanto maior este número mais confiável é o valor de identidade, sendo que esta pode ser definida como o valor em porcentagem do número de acertos (matchs) em relação ao tamanho total do alinhamento (identidade). Já o e- value é tido como a chance de que o alinhamento gerado tenha sido ao acaso, ou seja, sem significado biológico algum. Desta forma, valores de e-value tendendo a zero são os mais confiáveis (Manual de Anotação, http://www.lge.ibi.unicamp.br/manuais/manual_anota_cp.htm). Nota-se que mesmo entre blasts que apresentaram valores de e-value muito baixos, é improvável que os quatro dígitos dos EC numbers das enzimas coincidam devido à grande especificidade destas (Rost, 2002). Dessa forma, embora as sequências descritas possam corresponder à mesma enzima, estas não possuem EC numbers idênticos, uma vez que o último dígito difere entre ambas. Este último algarismo corresponde a particularidades da natureza enzimática, como, por exemplo, um substrato específico. Assim, tem-se a mesma enzima com EC numbers, especificidades e até mesmo estruturas distintas. 17 Em muitos BD públicos online os EC numbers são normalmente utilizados como identificadores de enzimas nos mapas de vias metabólicas, o que torna possível relacionar estas às reações químicas nas networks (Kanehida et al., 2008 apud Yamanishi et al., 2009). O primeiro dígito do EC number caracteriza o tipo de atividade enzimática desempenhada, seguindo a seguinte classificação: oxidoredutases (1.-.-.-), transferases (2.-.-.-), hidrolases (3.-.-.-), liases (4.-.-.-), isomerases (5.-.-.-) e ligases (6.-.-.-). O segundo dígito especifica o substrato, o grupo transferido e o tipo de ligação. Os terceiros e quartos dígitos correspondem a maiores detalhes sobre especificidades (Rost, 2002; Banco de Dados de Estruturas de Enzimas EC-PDB (http://www.ebi.ac.uk/thornton-srv/databases/enzymes/). No entanto, apesar da relevante importância dos códigos enzimáticos, enzimas importantes e constituintes de diversas vias não possuem um EC estabelecido devido ao princípio de que apenas enzimas com a existência de atividade catalítica confirmada podem receber EC numbers (Yamanishi et al., 2009; Rost, 2002). Quando se considera duas enzimas com EC numbers idênticos, a sequência destas é muito mais similar do que suas estruturas, uma vez que se sabe que enzimas com estruturas semelhantes geralmente diferem em detalhes de suas funções. Um exemplo disso é o fato de que podem ocorrer discrepâncias na especificidade, substrato e/ou co-fator de enzimas com EC numbers idênticos (Aloy et al., 2001; Reed, 2006; Claudel-Renard et al., 2003). Outro dado importante a ser extraído dos BD é o domínio das proteínas, ou seja, a qual família estas pertencem ou apresentam função semelhante. Essa inferência é baseada na idéia de que genes com sequências semelhantes possuem produtos protéicos também semelhantes decorrentes do princípio de ancestralidade e da hipótese destas linhagens terem divergido ao longo do tempo evolutivo, resultando em especiação e duplicações gênicas (Claudel-Renard et al., 2003). Porém, com o seqüenciamento de genomas completos e o conhecimento de sequências de um número cada vez maior de espécies, notou-se que o repertório de famílias protéicas é maior do 18 que imaginado anteriormente e este varia significativamente entre os organismos como resultado de diferentes taxas e modos de evolução. Com isso, baseando-se nas similaridades e diferenças das funções protéicas pode-se realizar a inferência sobre proteínas desconhecidas anteriormente (Aloy et al., 2001; Nahum et al., 2009). Um dos principais BD utilizados atualmente tem sido o KEGG que se caracteriza por unir informações genômicas às de ordem funcional. As informações genômicas são estocadas em uma base de dados de genes (GENES) que é um catálogo sobre todos os genomas parciais e completamente sequenciados até o momento. Já as informações sobre as funções destes genes estão em um banco de dados de vias metabólicas (PATHWAY) que contem as representações gráficas de processos celulares, tais como metabolismo. A união destes dois conjuntos é vista pela forma de networks protéicas ou enzimáticas que possuem EC numbers conectando-os. Quando os genes são identificados, estes são rearranjados de acordo com a similaridade das sequências, os EC numbers são determinados e as vias metabólicas são construídas com o auxílio de ferramentas computacionais, correlacionando genes e enzimas. Para isso, os softwares se baseiam nas relações de ortologia e na maior conservação das sequências enzimáticas, devido à grande pressão de seleção a qual estão submetidas por serem de suma importância para a sobrevivência do indivíduo (Kanehisa & Goto, 2000). As proteínas cuja função é a de transporte são caracterizadas por possuírem um TC number (Transport Commission). Este é utilizado para classificar estas proteínas de acordo com suas funções e é constituído de cinco dígitos correspondentes a (i) classe transportadora, como transmembrana ou transporte ativo dentre outros (primeiro dígito); (ii) subclasse de transporte como a energia utilizada no transporte (segundo dígito); (iii) família transportadora (terceiro dígito); (iv) subfamília transportadora (quarto dígito) e (v) o transporte por si só com sua respectiva polaridade, especificidade e mecanismo de ação (quinto dígito). Algarismos nove como últimos 19 dígitos de EC e TC numbers significam que há alguma informação não disponível ou incompleta (Saier & Barabote, 2006). Apesar dos avanços nos estudos de anotação genômica, ainda hoje não está claro se existe alguma relação entre organismos com proteínas semelhantes possuírem capacidades metabólicas semelhantes. Dessa forma, esta relação torna-se possível apenas levando-se em conta as condições filogenéticas que podem auxiliar a conectar a informação genômica à diversidade fenotípica, realçando as características metabólicas dos organismos. Anotações genômicas baseadas em árvores filogenéticas tornam-se mais confiáveis na identificação da função dos clusters protéicos, representando a conservação da função da proteína, co-fator e substrato, por exemplo. Essas abordagens garantem maior confiabilidade aos resultados, embora melhorias nesta área ainda sejam necessárias (Nahum et al., 2009). 2. Objetivos Diante da introdução exposta anteriormente, o presente trabalho teve como objetivos: 2.1. Realizar a validação populacional de locos SSRs-ESTs na espécie exótica Litopenaeus vannamei e avaliar o potencial de uso dessas marcas nas espécies nativas marinhas Xiphopenaeus kroyeri, Farfantepenaeus brasiliensis, Litopenaeus schmitti, Farfantepenaeus paulensis e Rimapenaeus constrictus, disponibilizando um maior número de marcadores microssatélites eficientes para os estudos genético-populacionais destas espécies. 2.2. Realizar a anotação genômica em locos SSR-ESTs e ESTs, a partir de pesquisa eletrônica realizada em diferentes bancos de dados, disponíveis na página de anotação do Projeto Genoma EST de Litopenaeus vannamei. 20 2.3 Estabelecer os códigos de identificação das enzimas (EC numbers), através da utilização das informações obtidas decorrentes do processo de anotação genômica para determinação de algumas das possíveis vias metabólicas presentes no grupo dos camarões 3. Justificativas O Projeto Genoma do camarão marinho L. vannamei (ShEST), com núcleo na Universidade Federal de São Carlos, teve como objetivo seqüenciar regiões expressas do DNA ou ESTs que sirvam como base para a identificação de marcadores moleculares e caracterização dos diversos genes e proteínas presentes no grupo dos camarões. Cerca de 45 mil sequências expressas foram disponibilizadas para análise, sendo que um estudo prévio de datamining caracterizou centenas de locos SSRs-ESTs utilizando diferentes ferramentas computacionais (Freitas et al., dados não publicados). A etapa posterior de anotação e validação populacional destes locos é extremamente importante para a descrição do potencial de uso dessas marcas para estudos que visem à identificação de genes de interesse e o estudo de polimorfismos em espécies de camarões cultivados, mas também caracterizando a estrutura genética de populações naturais de peneídeos. Além disso, o processo de anotação genômica de marcas ESTs que não contenham SSRs em sua composição pode auxiliar ambas as abordagens acima mencionadas, contribuindo efetivamente para descrição de importantes genes e vias metabólicas presentes no grupo dos camarões. 21 4. Metodologia 4.1. Obtenção das Amostras As amostras de DNA utilizadas neste trabalho foram obtidas do Banco de DNA do Laboratório de Biodiversidade Molecular e Conservação do Departamento de Genética e Evolução da Universidade Federal de São Carlos (São Carlos, SP). Foram utilizadas 30 amostras de camarões L. vannamei, pertencentes a diversas populações cativas de diferentes centros de cultivo do país paa cada loco analisado. Três amostras de cada uma das espécies nativas (Xiphopenaeus kroyeri, Farfantepenaeus brasiliensis, Litopenaeus schmitti, Farfantepenaeus paulensis, Rimapenaeus constrictus, Macrobrachium amazonicum e Macrobrachium jelskii) também foram utilizadas para avaliação da taxa de transferabilidade de locos SSR-EST entre espécies relacionadas. A quantificação das amostras foi realizada em gel de agarose 0,8%, imerso em tampão TBE (1x) (Tris-Base, Ácido Bórico, EDTA), juntamente com brometo de etídeo (0,5μg/ml), sob uma condição de corrida de 1 hora a 100 volts. Como parâmetro da quantificação, foi utilizado o marcador de peso molecular Low DNA Mass Ladder (Invitrogen) que evidencia bandas de 200, 120, 80, 40, 20 e 10ng de DNA. Após a corrida, o gel de agarose contendo o DNA impregnado de brometo de etídeo foi levado ao Transluminador e sob luz ultravioleta a intensidade das bandas do marcador e do DNA em questão foi comparada, determinando-se assim a concentração do mesmo. Seguida à quantificação, alíquotas de 50ng foram confeccionadas e estocadas a -20°C para serem utilizadas nas reações de PCR para validação populacional das SSRs-ESTs. 22 4.2. Validação dos locos SSRs-ESTs Os marcadores SSR-ESTs utilizados no presente trabalho foram obtidos da biblioteca genômica de cDNA de L. vannamei, construídas a partir de amostras de hepatopâncreas, músculo, pedúnculo ocular, larvas e ovos. Os fragmentos clonados foram seqüenciados, clusterizados e analisados através da utilização de um pipeline especificamente desenvolvido para descrição de SSRs-ESTs (Freitas, comunicação pessoal). Desta forma, os vetores foram removidos, os microssatélites identificados e os respectivos primers desenhados, tornando possível a validação dos ESTs contendo os marcadores SSRs. Para tal, as amostras de DNA de 50ng foram utilizadas em reações de PCR de touchdown de temperatura, para determinar inicialmente o intervalo de temperatura para a amplificação dos locos, sendo realizadas alterações no ciclo da reação e nas concentrações dos reagentes quando necessário. Os pares de primers utilizados para amplificação dos 32 locos SSRs-ESTs aqui testados foram obtidos do BD de SSRs-ESTs (acesso restrito) do Projeto ShEST (http://www.shrimp.ufscar.br). Para as reações de PCR foram utilizados 1,25mM de dNTPs, 1x Taq Buffer, 50ng de DNA, MgCl2 (1,5 ou 2mM), Taq Polimerase (1U ou 2U) e 2 pmoles do primer contendo a cauda M13 (TGT AAA ACG ACG GCC AGT) em sua extremidade 5’, 8 pmoles do primer sem a cauda e 8 pmoles do primer M13 em um volume final de 10μl de reação. Para determinar o padrão de amplificação ideal foram realizados testes de touchdown de temperatura (48 a 56˚C) em ciclos que se constituíram das fases de desnaturação, anelamento e extensão de acordo com a tabela 1. 23 Tabela 1: Ciclo padrão nos testes de touchdown de temperatura e nas validações no termociclador MJ Research com o primer M13. Steps Ciclo da Reação Step 1 5 minutos à 95oC Step 2 3 ciclos de Step 3 30 Segundos à 94oC Step 4 45 segundos a cada TM média (48 a 56°C) Step 5 45 Segundos à 72oC (...) (...) Step30 20 ciclos de Step31 30 Segundos à 94oC Step32 45 segundos à TM do primer M13 (53°C) Step33 45 Segundos à 72oC Step34 15 minutos a 72°C Step35 24h a 4°C Os locos que amplificaram foram novamente submetidos a reações de PCR utilizando o oligonucleotídeo (primer forward ou reverse) que continha em sua extremidade 5’ a sequência de 18 pares de bases complementar a sequência universal M13, o oligonucleotídeo sem a cauda e o primer M13, agora marcado com um fluoróforo (FAM, NED, HEX ou TET Applied Biosystems Inc.), seguindo protocolo descrito por Schuelke (2000). A visualização dos fragmentos gerados pelas reações de PCR nos testes de validação populacional utilizando-se o primer M13 foi realizada em gel de agarose 2% nas mesmas condições de corrida já descritas. Para se estimar o tamanho aproximado dos fragmentos observados, foi utilizado o marcador de peso molecular 1kb Plus da Invitrogen que evidencia bandas de 100 a 1200 pb com o intervalo de 100 pb entre elas. Os locos supostamente polimórficos foram submetidos à genotipagem em seqüenciador MegaBACE 1000 DNA Analysis System de 96 capilares (Amersham Biosciences) e analisados no software Fragment Profiler versão 1.2 de mesmo fabricante. As análises estatísticas para os locos que confirmaram o polimorfismo foram realizadas utilizando-se o software Genepop, versão 4.0, disponível na website http://wbiomed.curtin.edu.au/genepop. Foram determinadas as freqüências alélicas e genotípicas, 24 além do número de heterozigotos e homozigotos esperados e observados. Os níveis de heterozigozidade foram determinados através da relação entre número de heterozigotos e o número total de indivíduos. A existência de equilíbrio de Hardy-Weinberg (EHW) foi calculada através do Teste Exato (Raymond & Rousset, 1995) e a presença de desequilíbrio de ligação também foi estimada com o auxilio da correção seqüencial de Bonferroni (Rice, 1989), realizada para avaliar a significância dos resultados encontrados. As análises estatísticas para evidenciar stutters e/ou a presença de alelos nulos foram realizadas com o auxílio do algoritmo Brookfield do software Micro-Checker (Oosterhout et al., 2004), versão 2.2.3, disponível na website http://www.microchecker.hull.ac.uk/DownloadMC.jsp. O PIC (Polymorphism Information Content) dos locos polimórficos foi calculado baseando-se na equação de Thiel et al. (2003), na qual k é o número total de alelos detectados para o respectivo loco microssatélite e Pi é a freqüência encontrada para os alelos. 4.3. Anotação Genômica A anotação genômica foi realizada na página de anotação do Projeto ShEST, desenvolvida pelo Laboratório de Genômica e Expressão da Unicamp (http://www.lge.ibi.unicamp.br/camarao). Todas as sequências a serem anotadas foram disponibilizadas em formato FASTA e submetidas automaticamente a blasts que compararam nucleotídeos contra banco de dados de nucleotídeos (blast N) e blasts que compararam as seis fases de leitura da sequência de nucleotídeos (query) contra BD de proteínas (blast X). 25 Na determinação do produto gênico foram levados em consideração valores de e-value menores que 10-5 e altos valores de score de todos os blasts automáticos, além de símbolo e função gênicos, frame de leitura, dentre outros. Com estes valores estabelecidos, acessou-se o BD do CD- SEARCH (http://www.expasy.ch/sprot/) com a finalidade de se obter o domínio do gene, baseando- se nos melhores valores de e-value e score. O próximo passo foi acessar o BD do Swissprot (http://www.expasy.ch/sprot/), BD de proteínas curado, que apresenta alto nível de anotação, mínimo de redundância e alto grau de integração com outros BD (Manual de Anotação, http://www.lge.ibi.unicamp.br/manuais/manual_anota_cp.htm). Informações relativas aos produtos derivados dos consensos desse blast e dos realizados anteriormente nos BD dos blasts X assim como EC numbers (enzimas), TC number (proteínas de transporte), função, símbolo do gene e organismo homólogo foram anotadas nesta etapa. Através do Swissprot foi acessado o BD GO (Gene Ontology, http://www.geneontology.org/), no qual foram obtidas informações como componente celular, função molecular e processo biológico. Ao final, os resultados dos blasts N, X, Swissprot e CD-SEARCH foram comparados entre si, a fim de verificar a compatibilidade dos dados obtidos, antes de elucidar o produto gênico e finalizar a anotação genômica. Quando os dados não foram suficientemente esclarecedores, blasts em outros BD, como NCBI-gen (www.ncbi.nlm.nih.gov) e KEGG (Kyoto Encyclopedia of Genes and Genomes - http://www.genome.jp/kegg/pathway.html), foram realizados. Em casos em que não foi possível certificar-se sobre o produto codificado pelo gene, este foi definido como proteína expressa, a qual provavelmente corresponde a um produto protéico de um gene ainda não descrito e/ou sem função conhecida. 26 4.4. Estabelecimento das vias metabólicas Após a etapa de anotação e determinação dos EC numbers de cada produto gênico enzimático, todas as enzimas que possuíram códigos confiáveis, foram submetidas à análise nos bancos de dados BOCD (BioCyc Open Chemical Database, http://biocyc.org/open-compounds.shtml) e KEGG. Esta análise foi realizada com o auxílio do software de visualização rápida de rotas metabólicas PAICE versão 2.80, disponível em ambiente WEB sob licença pública GPL v3 no sítio http://sourceforge.net/projects/paice/. Através dos códigos de identificação enzimáticos obtidos no processo de anotação genômica o software PAICE realizou blasts no BD do KEGG e identificou as respectivas vias metabólicas aos quais estes EC numbers pertencem. Assim, diversas rotas apareceram repetidas vezes no processo de busca, toda vez que possuíam EC numbers em comum. Ao final da análise, no entanto, o número de vias metabólicas únicas foi fornecido e as representações gráficas dessas vias juntamente com os seus códigos enzimáticos explicitados foram geradas. Para disponibilização das imagens gráficas obtidas foi utilizada uma tabela de input, contendo informações relativas à EC numbers e dados controle de experimentos baseados em valores de expressão gênica descritos para outros organismos (disponível pelo software), uma vez que no presente trabalho, dados experimentais de expressão gênica não foram produzidos. O output dos dados gerou imagens das vias com EC numbers diferenciados por cores, como por exemplo, verde para indução e vermelho para supressão de um gene em uma determinada via. Apenas as vias relevantes e/ou representadas por um mínimo de EC numbers ressaltados com cores foram selecionados. As respectivas enzimas foram classificadas de acordo com o primeiro dígito de seu EC number (variável de 1 a 6), baseando-se no BD de Estrutura de Enzimas (Enzyme Structures 27 Database) ou EC→PDB disponível em WEB com acesso em http://www.ebi.ac.uk/thornton- srv/databases/enzymes/. Nesta análise, foram obtidas informações relativas à função, substrato enzimático, reação catalisada, entre outras. 5. Resultados e Discussão 5.1. Capitulo 1 5. 1. 1. Reações de PCR utilizando o primer M13 Amostras de DNA pertencentes a 100 indivíduos de diferentes populações cativas de Litopenaeus vannamei foram quantificadas e utilizadas nos testes de validação populacional. Inicialmente, para verificar o padrão de amplificação dos locos SSRs-ESTs selecionados, foram realizados testes de touchdown de temperatura utilizando amostras de DNA de L. vannamei a 50ng. Do total de 32 locos testados nas reações de PCR (Tabela 2), 10 locos (CL272 NM Contig1, CL315 NM Contig1, Contig 2061, Contig 1309, Contig 2075, Contig 2114, Contig 2533, Contig 871, Contig 2087 e CL320 Contig1) amplificaram apresentando fragmentos de 100 a 300pb, 13 locos (CL1 SH Contig7, CL1 SH Contig 33, CL12 SH Contig 2, Contig 188, Contig 498(b), Contig 81, Contig 162, Contig 182, Contig 1227, Contig 1539, CL 378 Contig1, CL1 Contig 35 e CL1 Contig 24) não amplificaram em nenhuma das temperaturas testadas e nove locos (CL12 SH Contig 3, CL5 RP Contig 1, CL30 RP Contig 1, Contig 67, Contig 1812, Contig 585, CL304 Contig 1, CL1 Contig 13 e CL12 Contig 2) mostraram amplificação em tamanhos divergentes do esperado ou presença de bandas espúrias, sendo eliminados das análises posteriores. Somente os 10 locos que apresentaram padrão de amplificação satisfatório foram submetidos a novas reações de PCR em maior número amostral (20 - 30 indivíduos) para a determinação do grau de polimorfismo. 28 Após as novas reações de PCR com o primer M13 marcado com fluoróforo (FAM, HEX, NED ou TET) para validação populacional e genotipagem dos locos constatou-se que nove destes são polimórficos. São eles: CL272 NM Contig1, CL315 NM Contig1, Contig 2061, Contig 1309, Contig 2075, Contig 2533, Contig 871, Contig 2087 e CL320 Contig1. O loco Contig 2114 foi classificado como monomórfico após genotipagem. O loco CL272 NM Contig1 (AG)6 obteve amplificação em 18 indivíduos com fragmentos variando de 100 a 174 pb. O marcador CL315 NM Contig1 (AAG)5 apresentou bom padrão de amplificação para 25 indivíduos, com tamanho dos fragmentos obtidos variando de 96 a 186 pb. Já Contig 2061 (CT)17 amplificou em 21 indivíduos com alelos variando de 244 a 260 pb e o Contig 1309 (AC)8...(AC)6 em 25 amostras, com tamanho de alelos de 155 a 271 pb (Figura 2). Figura 2: Amplificação do loco Contig 1309 em dez dos 25 indivíduos testados. Fragmentos variam de 150 a 250pb. 300pb 200pb 100pb 1 2 3 4 5 6 7 8 9 10 29 Tabela 2: Detalhamento sobre os 32 locos SSRs-ESTs utilizados. Seqüências forward e reverse, motif, temperatura de anelling e padrão de amplificação obtido. Loci Primers (5’-3’) Motif T (˚C) Padrão de amplificação CL1 SH Contig 7 F: CATGTTCACTTACCTACTGG R: CCTGATTGAAGAACAGAAG (CAG)6 - Ausente CL1 SH Contig 33 F: CTTCTCTGGCTTCTTCTC (CCA)5 - Ausente R: GTTGTATCTGAACTTGAAGG CL272 NM Contig1 F: TCACCTATTCACTCTCAAAC (AC)6 51/53 Presente R:AGTGAGTGAGTTAGTGTGTTG CL12 SH Contig2 F:CTCATTATGTCCTTCTTGTC (TG)6 - Ausente R: TAGAGGAGAGGTGTCTACTG CL12 SH Contig3 F: CATTATGTCCTTCTTGTCC (TG)6 49-54 Bandas expúrias R: ATCATTCAGTGGTCACTTC CL5 RP Contig1 F: CACACACACATACACATCC (AG)15..(ACAA)11..(AC)7 49-54 Bandas expúrias R: CCATGTTCACTTACCTACTG CL30 RP Contig1 F: AGTAGCAGTAAGGTTAGTTAGC (CAG)23..(AGC)11 49-54 Bandas expúrias R: CTTACCTCTACGCTCAGAC CL315 NM Contig1 F:CAACACTAAAGGAACACACAC (AAG)5 49-54 Presente R: CGTTTCTTGTTTTCTCTGTG Contig2061 F: TAGTGTTCACAGATTCCG (CT)17 Presente R: GAAGTATCAAACAGAACAGC Contig 188 F: TGTTGTCCTTACTGATGG (TGA)5..(GAT)6.. (GAT)5.. (GAC)7 - Ausente R: ATCATCCTCATCATCCTC Contig 498 (b) F: GGAACCTGTCATCTGAAC (TA)6 - Ausente R: CTCTCTCATCGATTTTGTC Contig1309 F: TCTGCATCTATATTCACACC (AC)8...(AC)6 49-54 Presente R: AGTGAGTGAGTCTGTTTGTG Contig2075 F: AGAACTGAACTTTGACCTTG (TTC)5 49-54 Presente R: CATACAATTCCAAGACCG Contig81 F: AGAATAGAAGGTTCTCGAAG (TC)12..(TC)6 - Ausente R: ATAGTATGCAGCCTCAAAG Contig162 F: AAGAAGAGGAAGAAGAAGAG (GAG)5 - Ausente R: TTTCTAGGACAGTTATACGG Contig2114 F: TCCCGAAGAAATAGTCTC (GT)6 49-54 Presente R: GAAAGTCCATGACAATCTC Contig182 F: CCTGTTACTTCACCATAAAG (AT)6 - Ausente R: ACAGGAGAGAACATCTTTG Contig67 F: TAACTCGCATTCTATCTCC (TC)18..(TG)6 49-54 Bandas expúrias R: CATACTACTGGTGTTTGAGC Contig1227 F: CCCAGATTAATGGCTATAC (GAA)5 - Ausente R: ACATGCAGTTTCTTCTCTC Contig1812 F: AACTTGTGTGTTCCATGC (TA)6 49-54 Bandas expúrias R: CGGATGATCTAGAAAGCTC Contig2533 F: GATGTGCAGGTGATACTG (ATT)5 49-54 Presente R: CTGTCAAGTGAGGTAAAGAG Contig871 F: TCTGAATCTCCTCAGTCAG (CT)10…(CT)7…(CT)8 49-54 Presente R: ATTCAGCTAGAGAAAGAAGG Contig585 F: AGGTTCATACGCCATTAC (GAG)5 49-54 Bandas expúrias R: CTTCAGAGCATGTTTCTTC Contig1539 F: CACAGACAGTACATTAGTTCC (TG)6 - Ausente R: TGTGGATGAGAGTAAACG Contig2087 F: TACAACCGCAAGTAGATG (CA)6 49-54 Presente R: ATAGAAGAGTATAGGTAGGCG CL378 Contig1 F: CCGTTCTTGTGATTTCTC (TTA)5...(CT)6 - Ausente R:AACTATCTCAAGAGGCAGAG CL1Contig35 F:GTGGTTAAGGTACTGAAGG (GCT)6 - Ausente R:TGGTTTAGAGACTTTCTGAG CL320 Contig1 F: ATCACACTAAGCAGGATATG (TG)10 49-54 Presente R:ATCACACTAAGCAGGATATG CL1Contig24 F:CAAGAAAGTCGTATCTGAAC (TGG)5 - Ausente R:AGGATTCTAATCCAAGAGAC CL304Contig1 F:TATCGTCCTCCTCAAAAG (GAC)5 49-54 Bandas expúrias R: TCATCTAAGTCATCATCGTC CL1Contig13 F: TGTCATAATCCGACTCTTC (CCA)5 49-54 Bandas expúrias R:AGTAGGTGTTGATTGTGATG CL12Contig2 F: CTCATTATGTCCTTCTTGTC (TG)6 49-54 Bandas expúrias R: TAGAGGAGAGGTGTCTACTG 30 Após o processo de genotipagem do loco Contig 2075 (TTC)5 foi evidenciada variação alélica de 118 a 292 pb em 21 indivíduos amostrados (Figura 3). Para o Contig 2533 (ATT)5 obteve-se amplificação em 27 indivíduos com o tamanho dos alelos variando de 117 a 216 pb (Figura 4). O Contig 871 (CT)10...(CT)7...(CT)8 amplificou em 25 indivíduos, revelando alelos de 170 a 260 pb de tamanho (Figura 5). O marcador Contig 2087 (CA)6 demonstrou polimorfismo alélico variando de 154 a 298 pb em 26 indivíduos amostrados e o CL320 Contig1 (TG)10 amplificou fragmentos em 22 indivíduos com alelos variando de 92 a 142 pb (Figura 6). Para todos os locos testados, o gradiente de temperatura utilizado nas reações de touchdown foi de 49 a 56˚ C. Todas as informações descritas aqui encontram-se sumarizadas na tabela 3. Figura 3: Amplificação do loco Contig 2075 para 21 das 10 amostras testadas. Fragmentos de 200pb. Figura 4: Amplificação do loco Contig 2533 em oito dos 27 indivíduos testados. Fragmentos de 150pb. 300pb 200pb 100pb 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 300pb 200pb 100pb 31 Figura 5: Amplificação de sete dos 25 indivíduos testados para o loco Contig 871. Fragmentos de 100 a 200pb. Figura 6: Amplificação do loco Contig 2087 para 10 das 26 amostras testadas. Fragmentos de 200 pb. 5.1.2. Análises estatísticas Após a etapa de genotipagem, foram realizadas as análises estatísticas nos nove locos polimórficos utilizando-se o software Genepop, sendo estimados o número de homozigotos e heterozigotos esperados e observados e os níveis de heterozigozidade, estimados através da relação entre o número de heterozigotos e o número total de indivíduos analisados. Para o loco CL272 NM Contig1 obteve-se um total de 18 alelos e heterozigozidade observada de 0,84. O mesmo valor de heterozigozidade observada foi visto também para os marcadores CL 315 NM Contig 1 e Contig 1309, cuja diversidade alélica foi de 13 e 15 alelos, respectivamente. Ambos os marcadores Contig 2061 e Contig 2533 apresentaram oito alelos e heterozigozidades observadas de 0,86 e 0,55, respectivamente. Em relação aos locos Contig 2075 e Contig 2087, cada um mostrou 13 alelos e níveis de heterozigozidades observadas de 0,45 e 0,80 1 2 3 4 5 6 7 8 9 10 300pb 200pb 100pb 1 2 3 4 5 6 7 300pb 200pb 100pb 32 respectivamente. Para os locos Contig 871 e CL320 Contig1 o número de alelos e a heterozigozidade observada foram respectivamente, 20 alelos e 0,76 e quatro alelos e 0,32. Considerando-se o total de locos polimórficos validados neste trabalho, obteve-se uma diversidade alélica variando de 4 a 20 alelos e níveis de heterozigozidade observada de 0,32 a 0,86. Nenhum loco mostrou-se em desequilíbrio de ligação, sendo que o loco Contig 2075 não se apresentou em equilíbrio de Hardy-Weinberg (após o Teste Exato de Raymond e Rousset, 1995), evidenciando déficit significativo de heterozigotos mesmo após correção de Bonferroni. A análise no software Micro‐Ckecker para verificação de alelos nulos mostrou que há a evidência destes no loco Contig 2075, provavelmente devido a modificações nas regiões flanqueadoras dos primers desenhados para o loco microssatélite isolado, impossibilitando, assim que estes se anelem à fita molde de DNA com o consequente impedimento da replicação (Callen et al., 1993). Os locos que apresentaram os maiores valores de PIC (Polymorphism Information Content) foram o Contig 871 e CL 272 NM Contig 1, sendo que estes valores variaram de 0,76 a 0,92, com apenas um único loco evidenciando baixo conteúdo de polimorfismo (CL 320 Contig 1 , PIC = 0,34). A anotação genômica realizada nesses locos mostrou que somente os locos Contig 2061, Contig 2087 e Contig 2075 apresentam similaridade suficiente com genes já descritos nos bancos de dados consultados, evidenciando, respectivamente, relação com a síntese de fatores de transcrição, proteínas ligantes de ácidos graxos e inibidores de serina protease (Tabela 3). 33 Tabela 3: Detalhamento sobre os locos polimórficos: motif, número de alelos (Na), heterozigozidade esperada (He), heterozigozidade observada (Ho), valores de Polymorphism Information Content (PIC) e os respectivos produtos protéicos dos locos. Loco Motif Tamanho populacional (N) Alelos He Ho Na PIC P value Proteína CL272 NM Contig1 (AC)6 18 100-174 0,93 0,84 18 0,90 0.1890 Proteína expressa CL315 NM Contig1 (AAG)5 25 96-186 0,83 0,84 13 0,82 0.6690 Proteína expressa Contig 2061 (CT)17 21 244-260 0,81 0,86 8 0,89 0.8070 Fator de transcrição Contig 1309 (AC)8...(AC)6 25 155-271 0,83 0,84 15 0,81 0.7778 Proteína expressa Contig 2075 (TTC)5 21 118-292 0,83 0,45* 13 0,81 0 Inibidor I/II da serina protease Contig 2533 (ATT)5 27 117-216 0,78 0,55 8 0,81 0.0390 Proteína expressa Contig 871 (CT)10...(CT)7...(CT)8 25 170-260 0,94 0,76 20 0,92 0,0027 Proteína expressa Contig 2087 (CA)6 26 154-298 0,77 0,80 13 0,76 0.1675 Proteína ligante de ácido graxo CL320 Contig1 (TG)10 22 92-142 0,32 0,32 4 0,34 0.5106 Proteína expressa * loco com déficit de heterozigotos 5.1.3. Transferabilidade dos locos heterólogos Foi testada a amplificação dos nove locos polimórficos em cinco espécies nativas de camarão marinho. Após a utilização de três amostras de cada uma das espécies, obteve-se a amplificação em pelo menos uma das espécies testadas para cada marcador. O loco CL272 NM Contig1 amplificou nas espécies X. kroyeri, F. brasiliensis e L. schmitti com fragmentos de 200 pb para as primeiras espécies e 300 pb para a última. A amplificação do loco CL315 NM Contig1 só foi possível para as espécies F. brasiliensis (400 pb) e L. schmitti (200 pb), enquanto Contig 2061 mostrou amplificação de 300 pb para X. kroyeri, L. schmitti, F. paulensis e de 250 pb para R. constrictus. Para o Contig 1309 a amplificação só foi observada para L. schmitti (200 pb). O Contig 2075 e Contig 2533 mostraram êxito em suas reações para X. kroyeri e F. brasiliensis (150 pb e 200 pb, respectivamente) e para L. schmitti (250 pb e 200 pb, respectivamente). O Contig 871 demonstrou amplificação apenas para X. kroyeri (150 pb) enquanto o Contig 2087 amplificou fragmentos de 300 pb em F. brasiliensis e 200 pb nas demais espécies analisadas e o marcador CL320 NM Contig 1 obteve fragmentos de 200 pb para X. kroyeri, F. brasiliensis e L. schmitti. Embora as reações de 34 amplificação heteróloga tenham obtido grande sucesso, adaptações na reação e no ciclo se fazem necessárias, uma vez que para a maioria dos locos foi observada a amplificação também de bandas inespecíficas com tamanho superior ao esperado. Foi testada também a amplificação dos nove locos polimórficos nas espécies nativas de camarão de água doce Macrobrachium amazonicum e Macrobrachium jelskii. Os locos CL 272 NM Contig 1, CL 315 NM Contig1 e Contig 2075 mostraram amplificação somente para a espécie M. amazonicum (300 pb). Já os marcadores Contig 1309 e Contig 871 amplificaram para ambas as espécies com fragmentos de 300 pb para M. amazonicum e 150 pb para M. jelskii. O Contig 2533 demonstrou sucesso apenas para M. amazonicum (350 pb) e o Contig 2087 amplificou fragmentos de 200 pb para M. jelskii. Os locos Contig 2061 e CL 320 Contig 1 não apresentaram amplificação (Tabela 4). Tabela 4: Resultado das reações de amplificação heteróloga. Espécies e locos utilizados além dos tamanhos dos fragmentos obtidos (pb). Loco Espécies Xiphopenaeus kroyeri Farfantepenaeus brasiliensis Litopenaeus schmitti Farfantepenaeus paulensis Rimapenaeus constrictus Macrobrachium amazonicum Macrobrachium jelskii CL 272 NM Contig 1 200 200 300 - - 300 - CL315 NM Contig1 - 400 200 - - 300 - Contig 2061 300 - 300 300 250 - - Contig 1309 - - 200 - - 300 150 Contig 2075 150 200 250 - - 300 - Contig 2533 150 200 200 - - 350 - Contig 871 150 - - - - 300 150 Contig 2087 200 300 200 200 200 - 200 CL320 Contig1 200 200 200 - - - - 78% 66% 88% 22% 22% 66% 33% De acordo com as análises realizadas para os nove locos polimórficos obtidos na espécie L. vannamei, observou-se um número de alelos variando de 4 a 20, valores de heterozigozidade observada entre 0,32 a 0,86 e valores de PIC variando entre 0,34 e 0,92. O alto número de alelos 35 observado para seis dos nove locos aqui analisados contrasta com a maioria dos trabalhos relatados na literatura, que mencionam que locos SSRs localizados em regiões expressas apresentam menores taxas de polimorfismo quando comparadas com as de locos obtidos de regiões arbitrárias do genoma. Estudos realizados por Duff et al. (2004) por exemplo, demonstraram variação alélica para SSRs-ESTs entre 2 e 7 para os 13 locos analisados, sendo que os valores de heterozigozidade observada variaram de 0 a 0,37, considerados relativamente baixos. Segundo Thiel et al. (2005), valores de PIC encontrados para SSRs de regiões arbitrárias do genoma (0,58 ± 0,03) também foram maiores que aqueles observados para locos SSRs-ESTs (0,45 ± 0,03), confirmando mais uma vez um menor polimorfismo para locos de sequências codantes. Dados semelhantes foram encontrados por Pérez et al. (2005) na espécie L. vannamei, sendo que dos 40 locos SSRs-ESTs testados, 18 amplificaram e destes apenas sete eram polimórficos, com números de alelos variando entre 2 e 6. Os valores de heterozigozidade encontrados ficaram entre 0,15 e 0,56, com déficit de heterozigotos para três dos sete locos. Déficits significativos de heterozigotos costumam ser freqüentes em estudos de validação populacional. No presente trabalho, no entanto, este foi observado para apenas um loco (Contig 2075), o qual apontou a presença de alelos nulos após a análise realizada no Micro-Checker. Os alelos nulos ocorrem devido a mutações nas regiões flanqueadoras dos primers. Nestas situações, não ocorre à amplificação de um dos alelos do heterozigoto e este indivíduo é caracterizado como um homozigoto, devido ao fato de apresentar apenas um pico lido pelo seqüenciador no processo de genotipagem (Valles-Jimenez et al., 2005). Outro fenômeno que pode estar associado a essa possível deficiência de heterozigotos observada para o loco em questão é o efeito de Wahlund, no qual diferentes pool gênicos misturados podem resultar na não amostragem de todos os possíveis genótipos heterozigotos (Chu 36 et al., 2007). Problemas de amplificação durante a reação de PCR, como os stutters, também podem ser responsáveis pelo baixo número de heterozigotos observado devido à falta de amplificação para ambos os alelos do loco (Valles-Jimenez et al., 2005). Isso ocorre porque a DNA polimerase ‘escorrega’ durante a replicação do microssatélite, principalmente mono e dinucleotídeos, na reação de PCR, gerando fragmentos de vários tamanhos, caracterizados como bandas expúrias, que dificultam que estes sirvam de molde para a geração de novos fragmentos (Li et al., 2008). Dessa forma, o processo de genotipagem é prejudicado pelo surgimento de interferências. As bandas de stutters são ainda mais intensificadas se for utilizado DNA degradado que já se apresenta fragmentado, tornando necessário que a extração de material genético seja a mais eficiente possível através do uso de protocolos específicos (Schmerer, 2001). Entretanto, no presente trabalho não foi verificada a ocorrência de stutters para nenhum dos locos analisados através de análises no programa Micro-Checker. Em relação à taxa de transferabilidade para os locos SSRs-ESTs heterólogos analisados, foi observada uma alta eficiência de transferabilidade (de até 88% para a L. schmitti), uma vez que os nove marcadores polimórficos apresentaram amplificação em pelo menos uma das sete espécies nativas de camarão testadas. Embora ainda seja necessário melhorias nas reações para eliminação de bandas inespecíficas de tamanhos muito maiores do que o esperado, estas não inviabilizam a análise dos genótipos obtidos, uma vez que é possível determinar os alelos esperados para os respectivos locos. Além de permitir esta maior eficiência de reações de amplificação heteróloga, uma vez que as regiões flanqueadoras aos microssatélites são bem conservadas, possibilitando assim o anelamento dos primers heterólogos e reações bem sucedidas (Christiakov et al., 2006), essa alta conservação observada nas regiões das ESTs, no qual as SSRs se encontram (Wang, et al. 2005; Bouck et al. 2007), facilita as inferências de ortologia entre essas espécies, podendo-se 37 realizar este tipo de estratégia com maior confiabilidade, incluindo também análises de transcriptomas, mapas de ligação e melhoramento genético (Kuzniar et al., 2008). Tratando-se de locos heterólogos, espera-se um maior sucesso nas reações de transferabilidade entre espécies relacionadas. Sendo assim as espécies dos gêneros Farfantepenaeus e Litopenaeus, as quais consistem em dois grupos monofiléticos, segundo análises moleculares realizadas por Baldwin et al. (1998) e Maggioni et al. (2001), apresentariam um maior sucesso de transferabilidade. Por outro lado, F. paulensis parece ter se originado posteriormente à F. brasiliensis, devido ao nível dos mares da costa brasileira estar mais baixo por conta das glaciações do quaternário e conseqüentemente barreiras geográficas foram impostas às espécies existentes, resultando em especiação. Assim, F. paulensis é adaptado a águas mais frias e com menores concentrações de sal (Perez-Farfante, 1969 apud Maggioni et al., 2001), enquanto F. brasiliensis aparece em águas mais quentes e menos salobras, sendo mais próxima à L. vannamei. Em relação ao alto polimorfismo encontrado para alguns locos SSR-EST aqui analisados, este pode estar relacionado a uma possível variação de seus produtos protéicos, com manutenção de seu papel funcional. Segundo Ellegren (2004) variações trinucleotídicas ou múltiplas de três, por exemplo, teriam um menor impacto no produto protéico que as demais repetições por conservar o frame de leitura e consequentemente os mesmos aminoácidos, assumindo assim um menor comprometimento com a funcionabilidade da protéina expressa. Por outro lado, a variação no número de repetições de outros tipos de motifs presentes na região codante, poderia eventualmente produzir proteínas diferenciadas, que eventualmente poderiam manter sua funcionabilidade, mas também apresentar maior ou menor eficiência e/ou especificidade. Assim, dependendo do tipo de motif e de sua conseqüente sequência de aminoácidos na cadeia polipeptídica da proteína, esta variação pode ser maior ou menor em tais locos. 38 Dentre os locos polimórficos validados, foi possível elucidar o produto gênico do Contig 2061 (8 alelos) e dos Contigs 2087 e 2075 (13 alelos cada um), que possuem motifs dinucleotídeos perfeitos (CT)17 e (CA)6 e trinucleotídeo perfeito (TTC)5, respectivamente. Uma possível explicação para justificar esta alta diversidade alélica encontrada para os locos Contig 2061, Contig 2087 e Contig 2075 pode se basear no produto gênico obtido para eles. No primeiro caso, o gene codifica um fator de transcrição caracterizado por ter um efeito negativo na expressão de alguns genes transcritos pela RNA polimerase II, influenciando de maneira significativa a viabilidade do indivíduo (Tu et al., 2010). Neste contexto, apesar de, a priori, não ser esperado nenhum grande polimorfismo nesta proteína talvez, uma leve variação na sua sequência de aminoácidos (aqui indicada pela pequena variação encontrada no tamanho dos fragmentos obtidos: 244 a 260 pb), possa não ter um efeito limitante em sua função, podendo inclusive estar associado com alguma especificidade de reconhecimento do tipo de gene com o qual irá interagir. O loco Contig 2087, que apresentou 13 formas alélicas distintas, codifica uma proteína de transporte intracelular de lipídeos que se liga a ácidos graxos. Neste caso, diante desta alta variabilidade observada neste gene, podemos supor que, provavelmente, toda esta variação não interfira na função protéica, e se interferir, não apresente grande especificidade de substrato, uma vez que há pelo menos 13 formas alélicas distintas para esse produto. O loco Contig 2075 também apresentou 13 formas alélicas e codifica uma proteína inibidora da serina protease, ou seja, responsável pela interrupção do funcionamento desta enzima quando esta não é mais necessária. Esta enzima primariamente auxilia a digestão de alguns invertebrados ingeridos pelos crustáceos, embora também possa atuar no sistema imune destes organismos (Yu et al., 2011). Nestes três casos o polimorfismo desses locos não interfereria na determinação dos aminoácidos das respectivas proteínas codificadas, limitando-se apenas a adições ou deleções no número de aminoácidos presentes em suas respectivas cadeias polipeptídicas. Para o marcador 39 Contig 2061, o motif CT, repetido n vezes, possibilita o reconhecimento de dois tipos de aminoácidos: o Glutamato (CTC) e a Arginina (TCT), os quais fazem parte da estrutura primária da protéina em questão. Por outro lado, para o Contig 2087, a repetição (CA)n, indica a presença de Valina (CAC) e de Cisteína (ACA), os quais também compõem a sequência de aminoácidos da proteína em questão. Para o Contig 2075, de motif (TTC)5 não ocorre alteração no frame de leitura, por se tratar de um trinucleotídeo perfeito. Logo, o aminoácido codificado por esta trinca, a Lisina (TTC) ou (AAG), permanece o mesmo com variações apenas no número de repetições do motif o que poderia ser utilizado como justificativa para a grande diversidade alélica encontrada para este loco, a qual aparentemente parece não comprometer o papel funcional da respectiva proteína (Ellegren, 2004). Apesar destes tipos de variação potencialmente posibilitarem algum tipo de alteração na conformação da proteína e, conseqüentemente, em sua funcionabilidade, análises realizadas no BD do Swissprot de localização do motif e simulação das estruturas secundárias, terciárias ou quaternárias nas respectivas proteínas mostraram que em nenhum dos casos a região repetitiva está localizada em locais de domínio, sítios ativos ou regiões sinalizadoras dos genes estudados. Assim, o alto polimorfismo encontrado para estes marcadores parece não interferir na conformação e/ou função das proteínas relacionadas aos respectivos locos. 5.2. Capítulo 2 5.2.1. Anotação genômica das marcas ESTs e SSR-ESTs Através do processo de anotação genômica foi possível descrever as estruturas moleculares das proteínas, as interações entre elas, bem como destas com as demais moléculas biológicas, além 40 de poder inferir sobre relações entre importantes vias metabólicas. Além disso, a identificação de genes e seus respectivos produtos protéicos forneceram informações valiosas para melhor compreensão da funcionabilidade do organismo, podendo contribuir não somente com o desenvolvimento de ferramentas que subsidiam os programas genéticos aplicados ao manejo de espécies comercialmente exploradas, mas também para estudos que incluam aspectos relacionados à evolução e conservação destas e outras espécies de peneídeos. Foi realizada a anotação genômica de 400 ESTs e 80 SSR-ESTs pertencentes ao banco de dados de anotação do Projeto ShEST (acesso restrito). Deste total de 480 sequências, 477 apresentaram blasts automáticos positivos nos BD do NCBI e Swissprot, sendo possível elucidar o produto gênico das mesmas. Sete sequências apresentaram contaminação por vetores de clonagem, como Escherichia coli e Shigella, sendo eliminadas das análises posteriores. Em todas as sequências que apresentaram blasts automáticos positivos, os possíveis produtos protéicos foram avaliados através da anotação manual. Nesta etapa, todos os campos possíveis para a identificação do gene foram preenchidos, tais como função e nome do gene, organismo homologo, EC Number, TC Number e domínio (Anexo-Tabelas 7, 8 e 9). Para a decisão sobre o produto gênico final levou-se em consideração os resultados que evidenciaram os melhores valores de score e e-value. Foram elucidadas 260 ESTs não enzimáticas (Anexo – Tabela 7), cujos principais produtos estabelecidos foram proteínas musculares (miosina e actina); relacionadas a pigmentos respiratórios (hemocianina); de controle traducional e ribossomais (biossíntese e montagem) (Figura 7). 41 Os blasts contra o GO (Gene Ontology) permitiram estabelecer o componente celular, a função molecular e o processo biológico ao qual cada sequência encontra-se associada. Os principais locais onde as proteínas anotadas atuam foram: citoesqueleto, extracelularmente, citoplasma e núcleo. Várias outras localidades foram encontradas, mas em menor quantidade, caracterizando outros componentes celulares como membrana e filamento de miosina (Figura 8). Figura 8: Distribuição dos componentes celulares encontrados Em relação aos papéis desempenhados pelas moléculas encontraram-se proteínas ligantes (ATP, RNA, DNA, íons); estruturais (músculo e ribossomo); transportadoras de pigmento respiratório e oxigênio e responsáveis pelo controle da tradução. Cerca de 8% das ESTs não- enzimáticas apresentaram funções moleculares diversas (Figura 9). 16% 16% 14% 10% 8% 5% 5% 3% 23% Componente celular Citoesqueleto Não identificado Extracelular Citoplasma Núcleo Membrana Miosina Mitocôndria Outros Figura 7: Distribuição das proteínas encontradas em 260 ESTs 22% 14% 6% 5% 3% 50% Proteínas Musculares Pigmento respiratório Tradução Ribossomais Contaminação Outros 42 Figura 9: Distribuição das funções moleculares encontradas No presente trabalho, os produtos gênicos elucidados para o grupo de camarões estão relacionados a diversos processos celulares importantes, interagindo em vários mecanismos relevantes para o metabolismo dos tecidos. A maior parte das ESTs com processo biológico elucidado está envolvida nas etapas celulares de transporte, tradução e contração muscular. Para aproximadamente 32% das sequências não foi possível o estabelecimento do processo biológico (Figura 10). Figura 10: Distribuição dos processos biológicos encontrados 14% 14% 11% 7% 46% 8% Função molecular Estrutural Não identificado Transporte de oxigênio Tradução Proteínas ligantes Outros 32% 22% 10% 4% 2% 30% Processo biológico Não identificado Transporte Tradução Contração muscular Conformação protéica Outros 43 Figura 11: Distribuição das 260 ESTs nas principais bibliotecas genômicas utilizadas A figura 11 apresenta a distribuição das 260 ESTs encontradas nos processo de anotação nos diferentes tecidos utilizados para a construção da biblioteca genômica de L. vannamei. Como demonstrado, nota-se que a maior parte das sequências analisadas foi obtida de músculo (57%) o que justifica a grande quantidade de proteínas musculares encontradas, como miosina, actina e troposina. Isso reforça também as idéias contidas nas figuras 7, 8 e 9 em que cerca de 22% das proteínas encontradas são musculares, 16% dos locais de atuação das enzimas é o citoesqueleto que é composto de proteínas musculares e 14% das funções das ESTs é estrutural, respectivamente. Em seguida tem-se as proteínas que atuam no estágio larval do camarão, como nas fases de míssis e náuplio, merecendo destaque aqui as hemocianinas, responsáveis pelo transporte de oxigênio por possuir o pigmento respiratório, presente na hemolinfa dos crustáceos. Isso é visto em cerca de 14% do total de ESTs encontradas (Figura 7), em 11% das funções moleculares que são caracterizadas pelo transporte de oxigênio (Figura 9) e em 30% dos processos biológicos elucidados aqui. Posteriormente encontram-se as ESTs distribuídas nos ovos e no hepatopâncreas dos camarões com 8% cada um. O hepatopâncreas possui grande importância para a homeostase do indivíduo, uma vez que é o responsável pela produção de hormônios importantes, degradação de xenobióticos, imunidade, entre outros, acreditando-se que as proteínas que atuam neste local 57% 23% 8% 8% 4% Distribuição das bibliotecas genômicas Músculo Larvas Ovo Hepatopâncreas Pedúnculo ocular 44 estejam distribuídas entre traducionais, conformacionais e ligantes. Finalmente temos as proteínas isoladas do pedúnculo ocular dos camarões representadas por 4% do total de proteínas aqui elucidadas (Figura 11). Do total de 480 sequências analisadas, 220 foram caracterizadas como enzimas, sendo 140 ESTs e 80 SSR-ESTs. Foram obtidos 209 EC numbers, sendo que deste total, 86 correspondem a enzimas únicas que foram classificadas em seis grupos distintos (Figura 12) de acordo com o primeiro algarismo do EC number, considerando a nomenclatura para classificação enzimática do banco de dados de Estruturas de Enzimas EC-PDB (http://www.ebi.ac.uk/thornton- srv/databases/enzymes/). As classes enzimáticas são: oxidoredutases ou desidrogenases responsáveis por reações de oxido-redução, cujo composto oxidado é considerado como doador de elétrons (1.-.-.-); transferases, cuja função é a transferência de um grupo (metil ou glicosil) de um doador para outro composto receptor (2.-.-.-); as hidrolases que catalisam a hidrólise de pontes C-C, C-N e C-O (3.-.-.-); liases responsáveis pela quebra de ligações C-C, C-N e C-O, resultando em ligações duplas ou anéis (4.-.-.-); isomerases que catalisam alterações geométricas ou estruturais em uma molécula (5.-.-.-) e ligases com o papel de unir duas moléculas com consumo de energia (6.-.-.-). Figura 12: Distribuição das seis classes enzimáticas nos locos analisadas 38% 15% 27% 5% 9% 6% EC numbers Oxidoredutases (1.-.-.-) Transferases (2.-.-.-) Hidrolases (3.-.-.-) Liases (4.-.-.-) Isomerases (5.-.-.-) Ligases (6.-.-.-) 45 De acordo com a figura 12, a subclasse mais abundante nas análises foi a das oxidoredutases com a subclasse 1.6.-.- em maioria, caracterizando que neste caso o doador de elétrons é NADH ou NADPH. Em seguida, apareceu a classe das hidrolases, destacando-se as subclasses 3.4.-.- (quebra de ligações peptídicas) e 3.6.-.- (quebra de ligações de ácidos anidros com transporte transmembrana). A próxima classe com maior freqüência foi a das transferases com as subclasses 2.6.-.- (grupos nitrogenados) e 2.7.-.- (grupos fosfatados), seguida pelas isomerases da subclasse 5.3.-.- (açúcares isômeros), ligases e por último as liases. As enzimas com componente celular estabelecido atuam principalmente nas mitocôndrias, seguidas pelo citoplasma e núcleo. Cerca de um quinto das enzimas não puderam ter seu local de expressão na célula identificado e 13% dos resultados corresponderam a outros locais celulares (Figura 13). Em relação às funções das moléculas, estas se mostraram bem diversificadas com muitas funções variadas, totalizando 67% dos resultados. Outros papéis enzimáticos que se destacaram foram as desidrogenases e as hidrolases (Figura 14). Figura 13: Distribuição dos componentes celulares encontrados nas enzimas 28% 21% 19% 13% 6% 13% Componente celular Mitocôndria Citoplasma Não identificado Núcleo Extracelular Outros 46 Figura 14: Distribuição das funções moleculares das enzimas Figura 15: Distribuição dos processos biológicos das enzimas Os principais mecanismos celulares descritos para as enzimas aqui analisadas estão relacionados a transporte (prótons, elétrons, proteínas etc.); proteólise; metabolismo (lipídeos, açúcares) e síntese de ATP. A maior parte das sequências não pôde ter seu processo biológico elucidado (Figura 15). Dentre o grupo de organismos homólogos estabelecidos para os 480 locos anotados destacaram-se, em ordem de freqüência, as espécies: Litopenaeus vannamei, Penaeus monodon, Drosophila melanogaster, Tribolium castaneum e Marsupenaeus sp, sendo todos estes, pertencentes ao filo dos Artrópodes. As demais sequências apresentaram blasts automáticos com diversas outras espécies (Figura 16). 13% 8% 7% 5% 67% Função molecular Desidrogenase Hidrolase Transferase Isomerase Outros 12% 9% 24% 12% 8% 4% 31% Processo biológico Proteólise Síntese de ATP Transporte Metabolismo Não-identificado Glicólise Outros 47 Figura 16: Distribuição dos organismos homólogos em 480 locos anotados As nove SSRs-ESTs polimórficas anotadas permitiram estabelecer informações para apenas três destas, sendo descritos o produto gênico e dados do GO (componente celular, função molecular e processo biológico). Os locos CL 272 NM Contig 1, CL 315 NM Contig 1, Contig 1309, Contig 2533, Contig 871, CL 320 Contig 1 não puderam ter a caracterização de seu produto protéico e conseqüentemente dados do GO também não foram encontrados. O marcador Contig 2075 está relacionado a um precursor inibitório da serina protease, expressando-se principalmente extracelularmente e atuando como inibidor de uma serina endopeptidase. Já o loco 2061 transcreve trechos de um fator de transcrição presente no núcleo, desempenhando o papel de ligante de proteína e atuando na regulação da transcrição. O Contig 2087 é responsável por um fragmento de uma proteína ligante de ácido graxo, atuando principalmente no citoplasma celular, e funcionando como uma proteína ligante de lipídeo que participa do transporte de ácidos graxos na célula. Nenhum dos locos citados anteriormente se caracteriza como enzima, não sendo, portanto, descritos EC numbers para estes casos (Tabela 5). 10% 15% 9% 6% 4% Outros 69% Organismo homólogo Penaeus monodon Litopenaeus vannamei Drosophila melanogaster Tribolium castaneum Marsupenaeus sp. Outros 48 Tabela 5: Produtos protéicos juntamente aos componentes celularers, funções moleculares e processos biológicos dos nove locos polimórficos. Loco Proteína Componente celular Função molecular Processo biológico CL 272 NM Contig 1 Proteína expressa N/A N/A N/A CL 315 NM Contig 1 Proteína expressa N/A N/A N/A Contig 2061 Fator de transcrição BTF3 Núcleo Ligante de proteína Regulação da transcrição Contig 1309 Proteína expressa N/A N/A N/A Contig 2075 Precursor inibitório I/II da serina protease Região extracellular Inibidor da serina endopeptidase N/A Contig 2533 Proteína expressa N/A N/A N/A Contig 871 Proteína expressa N/A N/A N/A Contig 2087 Ligante de ácido graxo Citoplasma Ligante de lipídeo Transporte CL 320 Contig 1 Proteína expressa N/A N/A N/A No caso dos seis locos que não obtiveram blasts positivos, estes foram caracterizados apenas como proteínas expressas. Como estas sequências não apresentaram similaridade suficiente com nenhuma outra depositada nos bancos de dados disponíveis on line, sua caracterização gênica não pôde ser concluída. Tais resultados podem ser decorrentes do fato destas sequências ainda não terem sido estudadas, descritas e/ou depositadas nos bancos de dados. 5.2.2. Estabelecimento das vias metabólicas Os 209 EC numbers obtidos foram submetidos a análises no software PAICE para estabelecimento das possíveis vias metabólicas dos grupos dos peneídeos. Os códigos de identificação enzimáticos foram comparados automaticamente contra o banco de dados do KEGG para reconhecimento das respectivas enzimas e vias metabólicas participantes. Do total de EC numbers, 132 foram localizadas no KEGG e 77 não puderam ter sua respectiva enzima relacionada. Destes EC numbers, cerca de 86 correspondem a enzimas únicas, uma vez que algumas enzimas foram encontradas mais de uma vez e em várias vias. Foi observada a correspondência destas em algumas das 94 rotas metabólicas únicas e networks enzimáticas fornecidas pelo software PAICE. 49 A seguir estão destacadas algumas vias metabólicas com etapas dessas rotas parcialmente bem elucidadas. Estes dados foram obtidos através da cobertura de enzimas encontradas nos blasts do Swissprot que foram reconhecidas pelo software PAICE quando comparados contra o BD do KEGG. Os códigos de identificação enzimáticos (EC numbers) apresentam-se em parênteses. Dentre as vias mais completas obtidas está a glicólise (Anexo - Figura 17), na qual foram encontradas as enzimas glicose-6-fosfato isomerase (5.3.1.9) e frutose-1,6-bifosfatase 1 (3.1.3.11) responsáveis pela liberação de energia através da quebra de ligações fosfato e também a frutose bifosfato aldolase (4.1.2.13) que quebra frutose-1,6-bifosfato em dois outros compostos durante a glicólise além da enolase ou fosfopiruvato desidratase (4.2.1.11), que converte fosfoglicerato em compostos de piruvato nas etapas finais dessa via, uma vez que este é convertido em acetil CoA para sua introdução no ciclo de Krebs. No ciclo do citrato, ácido cítrico ou de Krebs (Anexo – Figura 18), que ocorre nas mitocôndrias, tem-se a participação de inúmeros compostos que ao ter suas ligações rompidas liberam energia para o metabolismo celular com a conversão de NAD+ em NADH, com armazenamento de energia sob a forma de ATP. Um exemplo é o oxaloacetato que é convertido a fosfoenol-piruvato através da enzima fosfoenolpiruvato carboxiquinase (4.1.1.32) para ser introduzido na glicólise juntamente ao oxaloacetato que provém do metabolismo da enzima malato desidrogenase (1.1.1.37). Esta última por sua vez é responsável pela conversão reversível de malato em oxaloacetato. As enzimas isocitrato desidrogenase (1.1.1.42) e succinato desidrogenase (1.3.5.1) são oxiredutases, sendo que a primeira atua reduzindo ou oxidando os compostos de acordo com a necessidade energética do organismo e a segunda atua na transferência de elétrons do succinato à ubiquinona (coenzima Q). Como uma alternativa a glicólise tem-se a via das pentoses (Anexo – Figura 19) que ocorre no citoplasma e também oxida a glicose 6-fosfato. Nesta via, no entanto, a energia produzida é 50 armazenada sob a forma de NADPH e não ATP. A via das pentoses apresenta prioridade quando a relação ATP/ADP é alta e ácidos graxos gordos são produzidos e estocados nos tecidos adiposos e hepáticos. Dentre as enzimas encontradas para esta via está a frutose bifosfato aldolase (4.1.2.13) uma liase responsável pela quebra de gliceraldeído 3-fosfato e consequente surgimento da frutose 1,6 bifosfato. Esta, através da frutose-1,6-bifosfatase (3.1.3.11), cuja função neste caso é a liberação de um grupo fosfato da frutose 1,6 bifosfato, é transformada em β-frutose 6-fosfato e com o auxílio da glicose-6-fosfato isomerase (5.3.1.9) realiza a interconversão entre as formas α e β da glicose 6-fosfato advindas da glicólise. A enzima ribulose-fosfato 3-epimerase (5.1.3.1) que converte xilulose ao seu isômero ribulose que posteriormente poderá participar do metabolismo de aminoácidos também foi encontrada para o grupo dos camarões. Dentre as vias relacionadas com o metabolismo de açúcares, que pode ocorrer tanto no citoplasma quanto nas mitocôndrias e é responsável pela produção de energia celular, através da quebra de dois monossacarídeos tem-se a frutose e