Alinhamento de sequências

Disciplinas relacionadas: Biologia

Você sabia ...

Crianças SOS tentou tornar o conteúdo mais acessível Wikipedia por esta selecção escolas. patrocínio SOS Criança é legal!

Em bioinformática , um alinhamento de sequências é uma forma de organizar o sequências primárias de ADN , ARN, ou proteínas para identificar regiões de semelhança que pode ser uma consequência de funcional, estruturais, ou evolutivos relações entre as sequências. Sequências alinhadas de de nucleótidos ou de aminoácidos são tipicamente de resíduos representados como linhas dentro de uma matriz . As lacunas estão inseridos entre os resíduos de modo a que os resíduos com caracteres idênticos ou semelhantes são alinhados em colunas sucessivas.

Um alinhamento da sequência, produzido pela ClustalW entre dois humana proteínas dedo de zinco identificado por Número de acesso GenBank. ( Key )

Se duas seqüências em um alinhamento compartilham um ancestral comum, descasamentos pode ser interpretado como mutações pontuais e lacunas como indels (isto é, mutações de inserção ou deleção) introduzidas em uma ou ambas as linhagens no tempo, uma vez que divergiram um do outro. Em alinhamento da sequência de proteína, o grau de semelhança entre aminoácidos que ocupam uma posição particular na sequência pode ser interpretada como uma medida aproximada da quantidade conservou uma determinada região ou seqüência motivo está entre linhagens. A ausência de substituições, ou a presença de apenas substituições muito conservadoras (isto é, a substituição de aminoácidos cujos cadeias laterais têm propriedades bioquímicas similares) em uma região específica da sequência, sugerem que esta região tem importância estrutural ou funcional. Apesar de ADN e ARN bases nucleotídicas são mais semelhantes entre si do que para os aminoácidos, a conservação de emparelhamento de bases pode indicar um papel funcional ou estrutural semelhante. Alinhamento de sequências pode ser utilizado para sequências não-biológicos, tais como aqueles presentes em linguagem natural ou em dados financeiros.

Muito curto ou muito sequências similares podem ser alinhados à mão; no entanto, os problemas mais interessantes exigem o alinhamento de sequências longas, altamente variáveis ou extremamente numerosos que não podem ser alinhados unicamente pela força humana. Em vez disso, o conhecimento humano é aplicada principalmente na construção de algoritmos para produzir alinhamentos de sequência de alta qualidade, e, ocasionalmente, em ajustar os resultados finais para reflectir os padrões que são difíceis de representar algoritmicamente (especialmente no caso de sequências de nucleótidos). Abordagens computacionais para alinhamento de sequências geralmente caem em duas categorias: alinhamentos globais e alinhamentos locais. Cálculo de um alinhamento global é uma forma de otimização global que "forças" o alinhamento para abranger toda a extensão de todas as seqüências de consulta. Em contrapartida, alinhamentos locais identificar regiões de similaridade dentro de sequências longas que muitas vezes são muito divergentes global. Alinhamentos locais são frequentemente preferível, mas pode ser mais difícil de calcular, porque o desafio adicional de identificar as regiões de similaridade. Uma variedade de algoritmos computacionais foram aplicados ao problema de alinhamento de sequências, incluindo lenta mas formalmente como optimização dos métodos programação dinâmica e eficiente heurísticas ou probabilísticos métodos concebidos para a pesquisa de banco de dados em larga escala.

Representações

Alinhamentos são comumente representado graficamente e em formato de texto. Em quase todas as representações de alinhamento de sequências, as sequências são escritos em filas dispostas de modo que os resíduos alinhados aparecem nas colunas sucessivas. Em formatos de texto, colunas alinhadas com caracteres idênticos ou semelhantes são indicados com um sistema de símbolos de conservação. Tal como na imagem acima, um asterisco ou tubo é usado para mostrar a identidade entre duas colunas; outros símbolos menos comuns incluem um dois-pontos para substituições conservadoras e um período para substituições semiconservative. Muitos programas de visualização de sequências também usar a cor para exibir informações sobre as propriedades dos elementos de sequência individuais; em seqüências de DNA e RNA, isso equivale a atribuir a cada nucleótido sua própria cor. Em alinhamentos de proteínas, tais como a da imagem acima, a cor é muitas vezes usado para indicar propriedades de aminoácidos para ajudar a julgar a conservação de uma determinada substituição de aminoácidos. Para várias sequências a última linha em cada coluna é muitas vezes o sequência de consenso determinado pelo alinhamento; a sequência de consenso é também muitas vezes representada em formato gráfico com um logotipo sequência em que o tamanho de cada carta de nucleidos ou amino corresponde ao seu grau de conservação.

Os alinhamentos de sequências podem ser armazenados em uma ampla variedade de formatos de arquivo baseado em texto, muitos dos quais foram originalmente desenvolvidos em conjunto com um programa de alinhamento ou aplicação específica. A maioria das ferramentas baseadas na web permitem que um número de formatos de entrada e saída, como Formato FASTA e Formato GenBank; no entanto, o uso de ferramentas específicas de autoria de laboratórios de investigação individuais pode ser complicada pela compatibilidade de formatos de arquivo limitado. Um programa de conversão geral está disponível em DNA Baser ou Readseq (para Readseq você deve fazer upload de seus arquivos em um servidor externo e fornecer seu endereço de e-mail).

Alinhamentos globais e locais

Ilustração de alinhamentos globais e locais que demonstram a qualidade "gappy 'de alinhamentos globais que podem ocorrer se as sequências não são suficientemente semelhantes

Alinhamentos globais, que tentam alinhar cada resíduo em cada seqüência, são mais úteis quando as sequências no conjunto de consulta são semelhantes e de tamanho aproximadamente igual. (Isso não significa alinhamentos globais não pode terminar em lacunas.) Uma técnica de alinhamento global geral é chamado de Algoritmo Needleman-Wunsch e é baseado em programação dinâmica. Alinhamentos locais são mais úteis para sequências diferentes que são suspeitos de conter regiões de semelhança ou motivos de sequências similares dentro de seu contexto sequência maior. O Algoritmo de Smith-Waterman é um método geral alinhamento local também baseado em programação dinâmica. Com sequências suficientemente semelhantes, não existe diferença entre os alinhamentos locais e globais.

Métodos híbridos, conhecidos como semiglobal ou métodos "glocais", tentativa de encontrar o melhor alinhamento possível que inclui o início e fim de uma ou da outra sequência. Isto pode ser especialmente útil quando a parte a jusante de uma sequência coincide com a parte a montante da outra sequência. Neste caso, nem alinhamento global nem local é totalmente adequado: um alinhamento mundial tentaria forçar o alinhamento de estender para além da região de sobreposição, enquanto um alinhamento local pode não cobrir totalmente a região de sobreposição.

Alinhamento Pairwise

Métodos de alinhamento de sequências de pares são usados para encontrar o melhor piecewise-matching (local) ou alinhamentos globais de duas seqüências de consulta. Alinhamentos aos pares só pode ser usado entre duas sequências de cada vez, mas eles são eficientes para calcular e são muitas vezes utilizados para métodos que não exigem extrema precisão (por exemplo, pesquisando uma base de dados para sequências com elevada de homologia com uma consulta). Os três principais métodos de produção de alinhamentos de pares são métodos matriciais, programação dinâmica, e métodos de palavras; Contudo, várias técnicas de alinhamento de sequências também podem alinhar pares de sequências. Apesar de cada método tem seus pontos fortes e fracos individuais, todos os três métodos de pares têm dificuldade com sequências altamente repetitivas de baixo conteúdo de informação - especialmente em que o número de repetições diferem nas duas sequências a serem alinhados. Uma forma de quantificar a utilidade de um determinado alinhamento aos pares é da "combinação única máxima", ou a maior subsequência que ocorre em ambos sequência de pesquisa. Mais sequências MUM normalmente refletem parentesco mais próximo.

Métodos matriciais

Wikiversidade tem materiais de aprendizagem sobre Métodos matriciais

Um gráfico de pontos de ADN de um humano de dedo de zinco fator de transcrição (GenBank ID NM_002383), mostrando regionais auto-similaridade. A principal diagonal representa o alinhamento da sequência com si mesmo; linhas fora da diagonal principal representam padrões semelhantes ou repetitivas dentro da sequência. Este é um exemplo típico de um enredo recorrência.

A abordagem de matriz de pontos, o que implicitamente produz uma família de alinhamentos de sequências de regiões individuais, é qualitativa e simples, embora demorado analisar em grande escala. É muito fácil para identificar visualmente determinada sequência apresenta-, tais como inserções, deleções, repete, ou repete-de invertidos um lote de matriz de pontos. Para construir a curva de matriz de pontos, as duas sequências são escritos ao longo do topo de linha e coluna mais à esquerda de um bidimensional matriz e um ponto é colocado em qualquer ponto onde os personagens nas respectivas colunas corresponder-este é um típico enredo recorrência. Algumas implementações variar o tamanho ou a intensidade do ponto dependendo do grau de semelhança entre os dois caracteres, para acomodar substituições conservadoras. Os gráficos de pontos de seqüências muito estreitamente relacionados aparecerá como uma única linha ao longo da matriz de diagonal principal.

Os gráficos de pontos, também pode ser utilizado para avaliar a repetitividade de uma única sequência. A seqüência pode ser plotados contra si mesmo e regiões que compartilham semelhanças significativas aparece como linhas fora da diagonal principal. Este efeito pode ocorrer quando uma proteína é composto por múltiplos semelhante domínios estruturais.

A programação dinâmica

A técnica de programação dinâmica pode ser aplicada para produzir alinhamentos globais via Algoritmo Needleman-Wunsch, e alinhamentos locais através da Algoritmo de Smith-Waterman. No uso típico, alinhamentos de proteína usar um matriz de substituição para atribuir pontuações aos jogos ou desencontros de aminoácidos, e um penalidade de intervalo para combinar um aminoácido numa sequência para uma abertura no outro. DNA e RNA alinhamentos pode usar uma matriz de pontuação, mas na prática muitas vezes simplesmente atribuir uma pontuação positiva partida, uma pontuação negativa incompatibilidade, e uma penalidade de intervalo negativo. (Em programação dinâmica padrão, a pontuação de cada posição de aminoácido é independente da identidade dos seus vizinhos, e, por conseguinte, efeitos de base empilhamento não são levados em conta. No entanto, é possível levar em conta tais efeitos através da modificação do algoritmo.)

A programação dinâmica pode ser útil no alinhamento de nucleótidos de sequências de proteínas, uma tarefa complicada pela necessidade de ter em conta mutações frameshift (geralmente inserções ou deleções). O método framesearch produz uma série de alinhamentos aos pares globais ou locais entre uma sequência de nucleótidos de consulta e um conjunto de pesquisa de sequências de proteínas, ou vice-versa. Embora o método seja muito lenta, a sua capacidade para avaliar compensados por um número arbitrário de nucleótidos quadro de leitura faz com que o método útil para a sequências que contenham um grande número de indels, que pode ser muito difícil alinhar com métodos heurísticos mais eficientes. Na prática, o método requer grandes quantidades de energia ou um sistema cuja arquitetura é especializada em programação dinâmica de computação. O BLAST e EMBOSS suites oferecem ferramentas básicas para a criação de alinhamentos traduzido (embora algumas dessas abordagens tirar proveito dos efeitos colaterais de capacidades seqüência procura das ferramentas). Métodos mais gerais estão disponíveis a partir de fontes comerciais, tais como FrameSearch, distribuído como parte do Accelrys pacote GCG, e Open Source software, tais como GeneWise.

O método de programação dinâmica é garantida para encontrar um alinhamento ótimo dada uma função de pontuação particular; no entanto, a identificação de uma boa função de pontuação é muitas vezes uma empírica e não uma questão teórica. Apesar de programação dinâmica é extensível a mais de duas sequências, é proibitivamente lento para um grande número de sequências ou extremamente longos.

Métodos do Word

Métodos do Word, também conhecidos como métodos k -tuple, são métodos heurísticos que não são garantidos para encontrar uma solução alinhamento ideal, mas são significativamente mais eficiente do que a programação dinâmica. Estes métodos são especialmente úteis em pesquisas de banco de dados de grande escala, onde Entende-se que uma grande proporção das sequências candidatas terão essencialmente nenhuma correspondência significativa com a sequência de pesquisa. Métodos Word são mais conhecidos por sua implementação nas ferramentas de pesquisa de banco de dados FASTA e o Família BLAST. Métodos do Word identificar uma série de subsequências não sobrepostas, de curta duração ("palavras") na seqüência de consulta que são então combinados com sequências de banco de dados candidato. As posições relativas da palavra nas duas sequências a serem comparadas são subtraídos para obter um deslocamento; isto indicará uma região de alinhamento se várias palavras distintas produzir o mesmo deslocamento. Só se for detectada nesta região fazer esses métodos se aplicam critérios de alinhamento mais sensíveis; assim, muitas comparações desnecessárias com sequências de nenhuma semelhança apreciável são eliminados.

No método FASTA, o usuário define um valor k para usar como o comprimento de palavra com a qual para procurar o banco de dados. O método é mais lento mas mais sensível a baixos valores de k, que também são preferidos para pesquisas que envolvem uma sequência de pesquisa de muito curta. A família BLAST de métodos de pesquisa fornece uma série de algoritmos otimizados para determinados tipos de consultas, como busca de sequência parente distante jogos. BLAST foi desenvolvido para fornecer uma alternativa mais rápida para FASTA sem sacrificar muito rigor; como FASTA, BLAST usa uma pesquisa palavra de comprimento k, mas avalia apenas os jogos de palavras mais significativas, ao invés de cada jogo palavra como faz FASTA. A maioria das implementações BLAST usar um comprimento de palavra padrão fixo que é otimizado para o tipo de consulta e banco de dados, e que é mudado apenas em circunstâncias especiais, como quando procura com seqüências de consulta repetitivas ou muito curtos. Implementações podem ser encontrados através de um número de portais web, tais como EMBL e FASTA NCBI BLAST.

O alinhamento múltiplo sequência

Alinhamento de 27 gripe aviária seqüências de proteína hemaglutinina colorido por conservação de resíduos (superior) e propriedades de resíduos (parte inferior)

O alinhamento múltiplo de sequência é uma extensão do alinhamento por pares de incorporar mais do que duas sequências de cada vez. Vários métodos de alinhamento tente alinhar todas as seqüências em um determinado conjunto de consulta. Alinhamentos múltiplos são muitas vezes utilizados na identificação as regiões de sequência conservada entre um grupo de sequências hipótese de ser evolutivamente relacionada. Tais motivos de sequência conservados pode ser usado em conjunto com e estrutural mecanicista informações para localizar o catalítica de locais activos enzimas. Alinhamentos também são usados para ajudar no estabelecimento de relações evolutivas de construção árvores filogenéticas. Vários alinhamentos de sequência são computacionalmente difíceis de produzir e a maioria das formulações de chumbo para o problema NP-completos problemas de otimização combinatória. No entanto, a utilidade destes alinhamentos em bioinformática levou ao desenvolvimento de uma variedade de métodos adequados para alinhamento de três ou mais sequências.

A programação dinâmica

A técnica de programação dinâmica é teoricamente aplicável a qualquer número de sequências; no entanto, porque é dispendiosa em termos de tempo e memória, ele raramente é usado por mais de três ou quatro seqüências em sua forma mais básica. Este método requer a construção do equivalente n-dimensional da matriz sequência formado a partir de duas sequências, onde n é o número de sequências na consulta. Programação dinâmica padrão é usado pela primeira vez em todos os pares de sequências de consulta e, em seguida, o "espaço de alinhamento" é preenchido por considerar possíveis correspondências ou lacunas nas posições intermediárias, eventualmente, construir um alinhamento essencialmente entre cada alinhamento de duas sequências. Embora esta técnica é dispendiosa, a sua garantia de uma solução ótima global é útil em casos em que apenas algumas seqüências precisam ser alinhados com precisão. Um método para reduzir as exigências computacionais de programação dinâmica, que se apoia sobre a "soma de pares de" função objetivo, foi implementado no Pacote de software MSA.

Métodos progressivos

Progressivo, ou métodos de árvores hierárquicas gerar um alinhamento de múltiplas sequências primeiro por alinhamento das sequências mais semelhantes e, em seguida, adicionando sucessivamente sequências ou menos grupos relacionados com o alinhamento até que todo o conjunto de consulta tiver sido incorporado na solução. A árvore inicial que descreve o parentesco sequência baseia-se em comparações de pares que podem incluir métodos de alinhamento de pares heurísticos semelhantes aos FASTA. Resultados alinhamento progressivo são dependentes da escolha de sequências de "mais relacionadas" e, portanto, pode ser sensível a imprecisões nos alinhamentos de pares iniciais. A maioria dos múltiplos métodos de alinhamento de sequências progressivos, adicionalmente, as sequências de peso na consulta definido de acordo com a sua relação, o que reduz a probabilidade de fazer uma má escolha de sequências iniciais e, assim, melhora a precisão de alinhamento.

Muitas variações do Implementação progressiva Clustal são utilizados para o alinhamento de sequências múltiplas, construção árvore filogenética, e como entrada para a previsão da estrutura de proteínas. Uma variante mais lento, mas mais preciso do método é conhecido como progressiva T-café; implementações podem ser encontradas em ClustalW e T-Coffee.

Métodos iterativos

Métodos iterativos tentar melhorar no ponto fraco dos métodos progressivos, a forte dependência na precisão dos alinhamentos de pares iniciais. Métodos iterativos otimizar um função objetiva com base em um método de pontuação de alinhamento seleccionado através da atribuição de um alinhamento global inicial e, em seguida, o realinhamento subconjuntos de seqüência. Os subconjuntos realinhados são, então, se alinharam para produzir alinhamento múltiplo de sequências da próxima iteração. Várias formas de selecionar os subgrupos de seqüência e função objetivo são revistos em.

Constatação Motif

Achado motivo, também conhecida como análise de perfil, constrói vários alinhamentos de sequências globais que tentam alinhar curto conservado motivos de sequência entre as sequências no conjunto de consulta. Isso geralmente é feito por primeiro construir um alinhamento múltiplo geral global seqüência, após o qual o altamente regiões conservadas são isolados e usados para a construção de um conjunto de matrizes de perfil. A matriz de perfil para cada região conservada é disposta como uma matriz de pontuação, mas as suas contagens de frequência para cada um dos aminoácidos ou nucleótidos em cada posição são derivados de distribuição de caracteres da região conservada, em vez de a partir de uma distribuição empírica mais geral. As matrizes de perfil são então usados para procurar outras sequências de ocorrências do motivo eles caracterizam. Nos casos em que o original conjunto de dados continha um pequeno número de sequências ou sequências apenas altamente relacionados, pseudocounts são adicionados para normalizar as distribuições de caracteres representados no motivo.

Técnicas inspiradas em ciência da computação

Uma variedade de geral algoritmos de optimização comumente utilizados em ciência computador também foram aplicados ao problema alinhamento múltiplo de sequências. Modelos ocultos de Markov têm sido usados para produzir dezenas de probabilidade para uma família de possíveis alinhamentos de seqüência múltiplas para um determinado conjunto de consulta; embora os métodos baseados em HMM primeiros produzido desempenho abaixo do esperado, os pedidos posteriores descobriram que eles especialmente eficaz na detecção de sequências remotamente relacionadas, porque eles são menos suscetíveis ao ruído criado por substituições conservadoras ou semiconservative. Algoritmos genéticos e recozimento simulado também têm sido usados em vários optimizar pontuações de alinhamento de sequências, tal como avaliado por uma função de pontuação, como o método de soma de pares. Detalhes mais completos e pacotes de software podem ser encontradas no artigo principal alinhamento múltiplo de sequências .

Alinhamento estrutural

Alinhamentos estruturais, que são geralmente específicas da proteína e, por vezes, sequências de RNA, utilizar as informações sobre o secundário e estrutura terciária da molécula de proteína ou ARN para ajudar no alinhamento das sequências. Estes métodos podem ser usados para duas ou mais sequências e tipicamente produzir alinhamentos locais; no entanto, porque eles dependem da disponibilidade de informações estruturais, eles só podem ser usados para sequências cujas estruturas são conhecidos correspondente (geralmente através de Cristalografia de raios X ou espectroscopia de RMN ). Porque tanto a estrutura da proteína e RNA é mais evolutivamente conservada do que seqüência, alinhamentos estruturais podem ser mais confiável entre as sequências que são muito distante relacionados e que divergiram de forma tão extensa que a comparação de sequência não pode detectar com segurança a sua semelhança.

Alinhamentos estruturais são usados como o "padrão ouro" na avaliação de alinhamentos para baseada em homologia a previsão da estrutura de proteínas porque explicitamente alinhar as regiões da sequência de proteína que são estruturalmente semelhantes ao invés de depender exclusivamente da informação de sequência. No entanto, claramente alinhamentos estruturais podem não ser utilizado na predição da estrutura, porque pelo menos uma sequência no conjunto de consulta é o alvo a ser modelado, para que a estrutura não é conhecida. Demonstrou-se que, dado o alinhamento estrutural entre um alvo e uma sequência molde, modelos de alta precisão da sequência de proteína alvo pode ser produzido; um grande obstáculo na previsão estrutura baseada em homologia é a produção de alinhamentos estruturalmente precisas fornecidas apenas informações sequência.

DALI

O método DALI, ou alinhamento matriz de distâncias, é um método baseado no fragmento para a construção de alinhamentos estruturais com base em padrões de similaridade de contacto entre hexapéptidos sucessivas nas sequências de consulta. Ele pode gerar pares ou alinhamentos múltiplos e identificar vizinhos estruturais de uma seqüência de consulta no Protein Data Bank (PDB). Ele tem sido usado para construir o FSSP banco de dados alinhamento estrutural (classificação Fold baseado em alinhamento Estrutura-estrutura das proteínas, ou famílias de proteínas estruturalmente semelhante). Um servidor web DALI pode ser acessado no EBI DALI e do FSSP está localizado na O Banco de Dados de Dali.

SSAP

IAS (estrutura sequencial programa de alinhamento) é um método baseado em programação dinâmica de alinhamento estrutural que utiliza vectores átomo-a-átomo no espaço estrutura como pontos de comparação. Tem sido estendido desde a sua descrição original para incluir múltiplos, bem como aos pares alinhamentos, e foi usado na construção do CATH (Classe, Arquitectura, Topologia, homologia) a classificação do banco de dados hierárquica de dobras de proteínas. O banco de dados CATH pode ser acessada em CATH Protein Structure Classificação.

Extensão Combinatória

O método de extensão combinatória de alinhamento estrutural gera um alinhamento estrutural aos pares usando a geometria local para alinhar os fragmentos curtos de duas proteínas a ser analisada e, em seguida, monta estes fragmentos para um alinhamento maior. Com base em medidas como de corpo rígido root mean square distância, distâncias de resíduos, estrutura secundária local, e que cercam características ambientais, tais como resíduo vizinho hidrofobicidade, alinhamentos locais chamados "pares de fragmentos alinhados" são gerados e utilizados para construir uma matriz de similaridade representando todos os alinhamentos estruturais possíveis dentro de critérios de corte pré-definidos. Um caminho de uma estrutura de proteína de estado para o outro é então traçada através da matriz, alargando a crescente alinhamento um fragmento de cada vez. A tal caminho ideal define o alinhamento combinatória-extensão. Um servidor baseado na Web implementar o método e proporcionando uma base de dados de alinhamentos entre pares de estruturas, no Protein Data Bank está localizado no Site Extensão combinatória.

A análise filogenética

Filogenia e alinhamento de sequências estão intimamente relacionados campos devido à necessidade de avaliar partilhada sequência parentesco. O campo de phylogenetics faz uso extensivo de alinhamentos de seqüência na construção e interpretação de árvores filogenéticas, que são usados para classificar as relações evolutivas entre homóloga genes representados na genomas de espécies diferentes. O grau em que as sequências em um conjunto diferente de consulta é qualitativamente relacionado com a distância evolutiva das sequências a partir de uma outra. Grosso modo, a identidade de alta sequência sugere que as sequências em questão têm uma jovem comparativamente ancestral comum mais recente, enquanto a baixa identidade sugere que a divergência é mais antiga. Esta aproximação, o que reflete a " relógio molecular "hipótese de que um ritmo mais ou menos constante de mudança evolucionária pode ser utilizada para extrapolar o tempo decorrido desde a primeira dois genes divergiram (isto é, o tempo de coalescência), assume que os efeitos da mutação e seleção são constantes em linhagens de seqüência. Por isso, não leva em conta possíveis diferenças entre organismos ou espécies nas taxas de reparo do DNA ou a possível conservação funcional de regiões específicas em uma seqüência. (No caso de sequências de nucleótidos, a hipótese de relógio molecular na sua forma mais básica também desconta a diferença nas taxas de aceitação entre mutações silenciosas, que não alteram o significado de um determinado codão e outras mutações que resultam numa diferente de aminoácidos de ser incorporada na proteína.) Mais estatisticamente métodos precisos permitir que a taxa de evolução de cada ramo da árvore filogenética para variar, produzindo, assim, uma melhor estimativas dos tempos de coalescência de genes.

Várias técnicas de alinhamento progressivo produzir uma árvore filogenética por necessidade, porque eles incorporam sequências para o alinhamento crescente, a fim de parentesco. Outras técnicas que montam alinhamentos múltiplos de sequências e árvores filogenéticas marcar e classificar árvores primeiro e calcular um alinhamento múltiplo de sequências a partir da árvore mais alta pontuação. Métodos usados comumente de construção da árvore filogenética são principalmente heurística porque o problema de selecionar a árvore óptimo, como o problema de selecionar o alinhamento de múltiplas sequências óptima, é NP-hard.

Avaliação de significância

Alinhamentos de sequências são úteis em bioinformática para identificação de similaridade de sequência, produzindo árvores filogenéticas, e desenvolver modelos de homologia de estruturas de proteínas. No entanto, a importância biológica dos alinhamentos de seqüência nem sempre é clara. Alinhamentos são frequentemente assumido para refletir um certo grau de mudança evolutiva entre as sequências de descendentes de um ancestral comum; no entanto, é formalmente possível que evolução convergente pode ocorrer para produzir aparente semelhança entre proteínas que são evolutivamente relacionado, mas desempenham funções semelhantes e têm estruturas semelhantes.

Em pesquisas de banco de dados, tais como BLAST, métodos estatísticos podem determinar a probabilidade de um alinhamento especial entre sequências ou regiões de sequências decorrentes por acaso dado o tamanho ea composição do banco de dados que está sendo pesquisada. Estes valores podem variar significativamente dependendo do espaço de busca. Em particular, a probabilidade de encontrar um determinado alinhamento por acaso se aumenta o banco de dados é constituído apenas por sequências a partir do mesmo organismo que a sequência de consulta. Seqüências repetitivas no banco de dados ou consulta também pode distorcer ambos os resultados da pesquisa e da avaliação de significância estatística; BLAST filtra automaticamente tais sequências repetitivas na consulta para evitar acessos aparentes, que são artefatos estatísticos.

Funções de pontuação

A escolha de uma função de pontuação, que reflete as observações biológicas ou estatísticas sobre sequências conhecidas é importante para produzir bons alinhamentos. As sequências de proteínas frequentemente são alinhados utilizando matrizes de substituição que reflectem as probabilidades de determinado personagem-a-personagem substituições. Uma série de matrizes chamada Matrizes PAM (matrizes Ponto de Mutação aceitado, originalmente definida por Margaret Dayhoff e, por vezes referido como "matrizes Dayhoff") explicitamente codificar aproximações evolutivas sobre as taxas e probabilidades de determinadas mutações de aminoácidos. Outra série comum de matrizes de pontuação, conhecido como BLOSUM (blocos Substituição Matrix), codifica empiricamente derivado probabilidades de substituição. Variantes de ambos os tipos de matrizes são usados para detectar seqüências com níveis de divergência usuários de BLAST ou FASTA diferentes, permitindo assim para restringir as pesquisas para partidas mais estreitamente relacionados ou expandir para detectar sequências mais divergentes. Penalidades de hiato são responsáveis para a introdução de uma lacuna - no modelo de evolução, uma mutação de inserção ou deleção - em ambas as sequências de nucleótidos e de proteína, e por conseguinte os valores de penalidade deve ser proporcional à taxa esperada de tais mutações. A qualidade dos alinhamentos produzidos, por conseguinte, depende da qualidade da função de pontuação.

Pode ser muito útil e instrutivo tentar as mesmas várias vezes alinhamento com diferentes opções para matriz de pontuação e / ou valores penalidade de intervalo e comparar os resultados. Regiões onde a solução é fraca ou não exclusivo pode frequentemente ser identificados pela observação de que as regiões do alinhamento são robustos a variações nos parâmetros de alinhamento.

Usos não-biológicos

Os métodos utilizados para o alinhamento de sequências biológica também têm encontrado aplicações em outros campos, mais notavelmente em processamento de linguagem natural. Técnicas que geram o conjunto de elementos a partir do qual as palavras serão selecionados em algoritmos de geração de linguagem natural tem emprestado várias técnicas de alinhamento de sequências de bioinformática para produzir versões linguísticas de provas matemáticas geradas por computador. No campo de históricos e comparativos linguística , de alinhamento de sequências foi usado para automatizar parcialmente o método comparativo por linguistas que tradicionalmente reconstruir idiomas. Negócios e pesquisa de marketing também aplicou várias técnicas de alinhamento de sequências em análise de séries de compras ao longo do tempo.

Software

Ferramentas de software comuns utilizados para tarefas de alinhamento de sequências geral incluem ClustalW e T-café para o alinhamento, e BLAST para pesquisa de banco de dados. Uma lista mais completa de software disponível categorizados por algoritmo e tipo de alinhamento está disponível em software de alinhamento de sequência.

Algoritmos e software de alinhamento podem ser diretamente comparados entre si usando um conjunto padronizado de de referência de benchmark vários alinhamentos de seqüência conhecida como BAliBASE. O conjunto de dados consiste em alinhamentos estruturais, que podem ser considerados um padrão contra o qual os métodos puramente baseado em sequência são comparados. O desempenho relativo dos muitos métodos de alinhamento comum sobre os problemas de alinhamento freqüentemente encontrados foram tabulados e selecionado resultados publicados on-line em BAliBASE. Uma lista completa de pontuações BAliBASE para muitos (atualmente 12) diferentes ferramentas de alinhamento pode ser computada dentro da bancada proteína CORREIA.

Retirado de " http://en.wikipedia.org/w/index.php?title=Sequence_alignment&oldid=220115526 "