Vérifié contenu

Bioinformatique

Renseignements généraux

Cette sélection se fait pour les écoles par la charité pour enfants lire la suite . Voulez-vous savoir sur le parrainage? Voir www.sponsorachild.org.uk

Carte du chromosome X humain (de la NCBI site). Assemblée de la génome humain est l'une des plus grandes réalisations de la bioinformatique.

Bioinformatique et la biologie computationnelle impliquent l'utilisation de techniques, y compris les mathématiques appliquées , informatique, statistiques , informatique , l'intelligence artificielle, la chimie et la biochimie pour résoudre biologiques problèmes habituellement sur le moléculaire niveau. Le principe de base de ces techniques utilise les ressources informatiques afin de résoudre des problèmes sur des échelles de grandeur beaucoup trop de discernement humain. Recherche en biologie computationnelle chevauche souvent la biologie des systèmes. Importants efforts de recherche dans le domaine comprennent alignement de séquences , découverte de gènes, assemblage du génome, alignement de la structure des protéines, prédiction de la structure des protéines, de prédiction l'expression du gène et interactions protéine-protéine, ainsi que la modélisation de l'évolution .

Introduction

Les termes et bioinformatique biologie computationnelle sont souvent utilisés indifféremment. Cependant bioinformatique se réfère plus correctement à la création et la promotion des algorithmes, des techniques informatiques et statistiques, et la théorie pour résoudre des problèmes formels et pratiques découlant de la gestion et l'analyse des données biologiques. Biologie computationnelle, d'autre part, se réfère à une enquête fondée sur une hypothèse d'un problème biologique spécifique à l'aide des ordinateurs, réalisée avec les données expérimentales ou simulées, avec l'objectif principal de la découverte et l'avancement des connaissances biologiques. Dit plus simplement, la bioinformatique est préoccupé par les informations tout en biologie computationnelle est préoccupé par les hypothèses. Une distinction similaire est faite par National Institutes of Health dans leur définitions de travail de la bioinformatique et de biologie computationnelle, où il est en outre souligné qu'il existe un couplage étroit de l'évolution et de connaissances entre la recherche fondée sur une hypothèse plus biologie computationnelle et de la recherche technique axée en bioinformatique. Bioinformatique est également souvent spécifié comme un sous-champ de la discipline appliquée plus générale de Informatique biomédicale.

Un dénominateur commun dans les projets de la bioinformatique et la biologie computationnelle est l'utilisation d'outils mathématiques pour extraire des informations utiles à partir de données produites par des techniques biologiques à haut débit tels que séquençage du génome. Un problème représentant en bioinformatique est l'assemblage de séquences génomiques de haute qualité à partir d'ADN fragmentaire "fusil de chasse" séquençage. Autres problèmes communs comprennent l'étude de la régulation des gènes à effectuer profilage d'expression en utilisant des données de puces ou la spectrométrie de masse .

Grands domaines de recherche

L'analyse de séquence

Depuis la Phage Φ-X174 était séquencé en 1977, le séquences d'ADN des centaines d'organismes ont été décodés et stockés dans des bases de données. Les données sont analysées afin de déterminer les gènes qui codent des polypeptides, ainsi que des séquences régulatrices. Une comparaison des gènes au sein d'une espèce ou entre espèces différentes peut montrer les similitudes entre les fonctions des protéines, ou les relations entre les espèces (l'utilisation de systématique moléculaire pour construire des arbres phylogénétiques). Avec la quantité croissante de données, il ya longtemps est devenu impossible d'analyser des séquences d'ADN manuellement. Aujourd'hui, programmes informatiques sont utilisés pour rechercher la génome de milliers d'organismes, contenant des milliards de nucléotides. Ces programmes seraient compenser mutations (bases, supprimés ou insérés échangés) dans la séquence d'ADN, afin d'identifier des séquences qui sont liés, mais pas identiques. Une variante de cet alignement de séquences est utilisé dans le processus de mise en séquence elle-même. La dite technique de séquençage shotgun (qui a été utilisé, par exemple, par L'Institut de recherche en génomique pour séquencer le premier génome bactérien, Haemophilus influenzae) ne donne pas une liste séquentielle de nucléotides, mais plutôt les séquences de milliers de petits fragments d'ADN (chacun d'environ 600 à 800 nucléotides de long). Les extrémités de ces fragments se chevauchent et, lorsqu'elles sont alignées dans le bon sens, constituent le génome complet. Séquençage Shotgun produit des données de séquence rapidement, mais la tâche d'assemblage des fragments peut être assez compliqué pour les grands génomes. Dans le cas de la Projet du génome humain, il a fallu plusieurs mois de temps CPU (sur un vintage circa-2000 Ordinateur DEC Alpha) pour assembler les fragments. Séquençage Shotgun est la méthode de choix pour pratiquement tous les génomes séquencés aujourd'hui, et des algorithmes d'assemblage du génome sont un domaine critique de la recherche en bioinformatique.

Un autre aspect de la bioinformatique dans l'analyse de séquence est l'automatique rechercher des gènes et des séquences régulatrices dans un génome. Pas tous les nucléotides dans le génome sont des gènes. Dans le génome des organismes supérieurs, de grandes parties de l'ADN ne servent pas un but évident. Ce soi-disant ADN poubelle peut toutefois contenir des éléments fonctionnels non reconnus. Bioinformatique contribue à combler le fossé entre génome et projets protéome - par exemple, dans l'utilisation de séquences d'ADN pour l'identification de protéines.

Voir aussi: analyse de la séquence, séquence outil de profilage, motif de séquence.

Annotation du génome

Dans le contexte de génomique, annotation est le processus de marquage des gènes et d'autres fonctions biologiques dans une séquence d'ADN. Le système logiciel d'annotation premier génome a été conçu en 1995 par le Dr Owen White, qui faisait partie de l'équipe qui a séquencé et analysé le premier génome d'un organisme vivant en liberté à décoder, la bactérie Haemophilus influenzae. Dr White a construit un système de logiciel pour trouver les gènes (places dans la séquence d'ADN qui codent pour une protéine), l'ARN de transfert, et d'autres caractéristiques, et de faire des affectations initiales de la fonction à ces gènes. La plupart des systèmes d'annotation du génome de courant fonctionnent de manière similaire, mais les programmes disponibles pour l'analyse de l'ADN génomique sont en constante évolution et l'amélioration.

Biologie évolutive Computational

La biologie évolutive est l'étude de l'origine et de la descente des espèces , ainsi que leur évolution dans le temps. Informatique a aidé les biologistes évolutionnistes, de plusieurs façons; elle a permis aux chercheurs de:

  • suivre l'évolution d'un grand nombre d'organismes par la mesure de l'évolution de leur ADN , plutôt que par taxonomie physique ou seules observations physiologiques,
  • plus récemment, de comparer ensemble génomes, ce qui permet l'étude des événements évolutifs plus complexes, tels que la duplication de gènes, transfert latéral de gènes, et la prédiction de facteurs importants dans bactérien spéciation,
  • construire des modèles informatiques complexes des populations de prédire l'issue du système au fil du temps
  • suivre et partager des informations sur un nombre de plus en plus grande des espèces et des organismes

Projets futurs de travail pour reconstruire le désormais plus complexe arbre de la vie.

Le domaine de la recherche dans les sciences de l'ordinateur qui utilise algorithmes génétiques est parfois confondu avec biologie évolutive de calcul, mais les deux zones ne sont pas liés.

Mesure de la biodiversité

La biodiversité d'un écosystème peut être définie comme le complément génomique total d'un environnement particulier, de toutes les espèces présentes, si ce est un biofilm dans une mine abandonnée, une goutte d'eau de mer, une boule de sol, ou toute la biosphère de la planète Terre . Bases de données sont utilisés pour recueillir les espèces noms, descriptions, les distributions, l'information génétique, le statut et la taille des populations, doit l'habitat, et comment chaque organisme interagit avec d'autres espèces. Spécialisé logiciels sont utilisés pour trouver, visualiser et analyser les informations, et surtout, communiquer à d'autres personnes. Modèle d'ordinateur des simulations de choses telles que la dynamique des populations, ou calculer la santé génétique cumulatif d'un pool de reproduction (dans l'agriculture ) ou de la population en voie de disparition (en conservation). Un potentiel très excitant de ce champ est que entières ADN séquences, ou génomes de espèces menacées peuvent être conservés, permettant aux résultats de l'expérience génétique de la nature pour se souvenir in silico, et peut-être réutilisé dans l'avenir, même si cette espèce est finalement perdu.

D'importants projets: Espèce de projet 2000; Projet uBio.

Analyse de l'expression des gènes

Le expression de nombreux gènes peut être déterminée en mesurant taux d'ARNm avec plusieurs techniques comprenant microarrays, exprimé marqueur de séquence d'ADNc (HNE) le séquençage, analyse en série de l'expression génique (SAGE) tag séquençage, séquençage massivement parallèle de signature (MPSS), ou diverses applications de multiplexage hybridation in situ. Toutes ces techniques sont extrêmement susceptible d'être bruyante et / ou sujettes à des biais dans la mesure biologique, et un domaine majeur de la recherche en biologie computationnelle implique le développement d'outils statistiques pour séparer signal provenant de bruit dans les études d'expression génique à haut débit. Ces études sont souvent utilisés pour déterminer les gènes impliqués dans une maladie: on peut comparer les données de puces à ADN à partir cancéreuse les cellules épithéliales de données à partir de cellules non cancéreuses pour déterminer les transcriptions qui sont régulés à la hausse et en baisse régulée dans une population particulière de cellules cancéreuses.

Analyse de la réglementation

Le règlement est l'orchestration complexe d'événements à partir d'un signal extracellulaire tel qu'un hormone et conduisant à une augmentation ou une diminution de l'activité d'une ou plusieurs protéines . Bioinformatique techniques ont été appliquées à explorer diverses étapes de ce processus. Par exemple, analyse de promoteur implique l'identification et l'étude des séquence de motifs dans l'ADN entourant la région codante d'un gène. Ces motifs influencer la mesure dans laquelle cette région est transcrit en ARNm. données d'expression peuvent être utilisées pour déduire la régulation des gènes: on pourrait comparer données de biopuces d'une grande variété d'états d'un organisme pour former des hypothèses sur les gènes impliqués dans chaque Etat. Dans un organisme unicellulaire, on pourrait comparer les étapes de la cycle cellulaire, ainsi que diverses conditions de stress (heat shock, famine, etc.). On peut alors se appliquer algorithmes de clustering à ce que les données d'expression afin de déterminer quels gènes sont co-exprimé. Par exemple, les régions en amont (promoteurs) de gènes co-exprimés peuvent être recherchés sur-représentés éléments de régulation.

Analyse de l'expression de la protéine

puces à protéines et à haut débit (HT) spectrométrie de masse (MS) peuvent fournir un instantané des protéines présentes dans un échantillon biologique. La bioinformatique est très impliqué dans la fabrication sens de microréseau de protéines et de données MS HT; la première approche face à des problèmes similaires avec des microréseaux ciblées à l'ARNm, celui-ci comporte le problème de l'adéquation de grandes quantités de données de masse contre des masses prédites à partir de bases de données de séquences de protéines, et l'analyse statistique complexe d'échantillons où plusieurs, mais peptides incomplets de chaque protéine sont détectée.

Analyse de mutations dans le cancer

Dans le cancer, les génomes de cellules affectées sont réarrangés de manière complexe voire imprévisibles. Massive efforts de séquençage sont utilisés pour identifier inconnue des mutations ponctuelles dans une gamme de gènes dans le cancer . Bioinformaticiens continuent à produire des systèmes automatisés spécialisés pour gérer le volume de données de séquence produite, et ils créent de nouveaux algorithmes et de logiciels de comparer les résultats de séquençage à la collection croissante de séquences du génome humain et polymorphismes germinales. La technologie de détection physique New sont employés, tels que microarrays oligonucléotides pour identifier les gains et pertes chromosomiques (appelés hybridation génomique comparative), et simples tableaux nucléotide polymorphisme pour détecter des mutations ponctuelles connues. Ces méthodes de détection mesurent simultanément plusieurs centaines de milliers de sites à travers le génome, et lorsqu'il est utilisé en haut débit pour mesurer des milliers d'échantillons, de générer téraoctets de données par expérience. Encore une fois les quantités massives et de nouveaux types de données génèrent de nouvelles opportunités pour les bioinformaticiens. Les données sont souvent avéré contenir une variabilité considérable, ou bruit, et donc Modèle de Markov caché et méthodes d'analyse des points de changement sont en cours d'élaboration pour déduire réel nombre de copies change.

Un autre type de données qui nécessite le développement de nouvelles de l'informatique est l'analyse des lésions jugées récurrents parmi de nombreuses tumeurs.

La prédiction de la structure des protéines

prédiction de la structure des protéines est une autre application importante de la bioinformatique. L' acide aminé séquence d'une protéine, la dite structure primaire, peut être facilement déterminé à partir de la séquence du gène qui code pour elle. Dans la grande majorité des cas, cette structure primaire qui détermine de façon unique une structure dans son environnement natif. (Bien sûr, il ya des exceptions, comme le encéphalopathie spongiforme bovine - aka La vache folle - prion .) La connaissance de cette structure est essentiel dans la compréhension de la fonction de la protéine. Faute de meilleures conditions, l'information structurelle est généralement classé comme l'un des secondaire, tertiaire et structure quaternaire. Une solution générale viable pour de telles prédictions reste un problème ouvert. A partir de maintenant, la plupart des efforts ont été orientés vers heuristique qui travaillent la plupart du temps.

Une des idées clés en bioinformatique est la notion de homologie. Dans la branche de la bioinformatique génomique, l'homologie est utilisé pour prédire la fonction d'un gène: si la séquence du gène A, dont la fonction est connue, est homologue à la séquence du gène B, dont la fonction est inconnue, on pourrait en déduire que B mai part la fonction d'un. Dans la branche de structure de la bioinformatique, l'homologie est utilisé pour déterminer quelles sont les parties d'une protéine sont importants dans la formation de la structure et les interactions avec d'autres protéines. Dans une modélisation par homologie de la technique dite, cette information est utilisée pour prédire la structure d'une protéine, une fois la structure d'une protéine homologue est connue. Cela reste actuellement le seul moyen de prévoir de manière fiable les structures des protéines.

Un exemple de ceci est la protéine semblable homologie entre l'hémoglobine chez l'homme et l'hémoglobine dans les légumineuses ( leghémoglobine). Tous deux servent le même but de transporter l'oxygène dans l'organisme. Bien que ces deux protéines ont complètement différentes séquences d'acides aminés, leurs structures de protéines sont pratiquement identiques, ce qui reflète leurs proches des fins identiques.

D'autres techniques pour prédire la structure des protéines comprennent filetage de protéines et de novo (à partir de zéro) de modélisation basé sur la physique.

Voir aussi: motif structural et domaine structural.

La génomique comparative

Le cœur de l'analyse comparative du génome est l'établissement de la correspondance entre (analyse de gènes orthologie) ou d'autres caractéristiques génomiques dans différents organismes. Ce sont ces cartes intergénomiques qui permettent de tracer les processus évolutifs responsables de la divergence des deux génomes. Une multitude d'événements évolutifs agissant à différents niveaux organisationnels à façonner l'évolution du génome. Au niveau le plus bas, des mutations ponctuelles affectent nucleotides individuels. À un niveau supérieur, de larges segments chromosomiques subissent duplication, transfert latéral, l'inversion, la transposition, la suppression et l'insertion. En fin de compte, des génomes entiers sont impliqués dans les processus d'hybridation, et polyploïdisation endosymbiose, menant souvent à la spéciation rapide. La complexité de l'évolution du génome pose de nombreux défis passionnants pour les développeurs de modèles et d'algorithmes mathématiques, qui ont recours à un spectre de techniques algorithmiques, statistiques et mathématiques, allant de exacte, heuristiques, paramètre fixe et algorithmes d'approximation pour des problèmes basés sur des modèles de parcimonie à Markov Chain Monte Carlo algorithmes pour l'analyse bayésienne des problèmes basés sur des modèles probabilistes.

Beaucoup de ces études sont basées sur la détection d'homologie et familles de protéines calcul.

Modélisation de systèmes biologiques

La biologie des systèmes implique l'utilisation de des simulations informatiques cellulaires sous-systèmes (tels que la réseaux de métabolites et enzymes qui comprennent métabolisme, voies de transduction du signal et réseaux de régulation de gènes) à la fois à analyser et visualiser les connexions complexes de ces processus cellulaires. La vie artificielle ou de l'évolution virtuelle tente de comprendre les processus évolutifs via la simulation par ordinateur des (artificiels) les formes de vie simples.

Haut Débit analyse d'image

Technologies informatiques sont utilisés pour accélérer ou complètement automatiser le traitement, la quantification et l'analyse de grandes quantités d'informations à haute teneur en l'imagerie biomédicale. Systèmes d'analyse d'images modernes augmentent la capacité d'un observateur d'effectuer des mesures à partir d'un ensemble important ou complexe d'images, en améliorant exactitude, l'objectivité, ou la vitesse. Un système d'analyse pleinement développé peut remplacer complètement l'observateur. Bien que ces systèmes ne sont pas uniques à l'imagerie biomédicale, l'imagerie biomédicale est de plus en plus important pour les deux diagnostic et la recherche. Certains exemples sont les suivants:

  • à haut débit et haute fidélité quantification et la localisation sous-cellulaire ( criblage à haut contenu, cytohistopathology)
  • morphométriques
  • analyse d'image clinique et de visualisation
  • déterminer les motifs d'écoulement d'air en temps réel dans la respiration poumons des animaux vivants
  • quantifier la taille d'occlusion dans l'imagerie en temps réel de l'évolution des cours et la récupération lésion artérielle
  • faire des observations comportementales à partir d'enregistrements vidéo étendues des animaux de laboratoire
  • mesures dans l'infrarouge pour la détermination de l'activité métabolique

Protéine-protéine accueil

Dans les deux dernières décennies, des dizaines de milliers de protéines structures tridimensionnelles ont été déterminées par Cristallographie aux rayons X et Protéine spectroscopie de résonance magnétique nucléaire (RMN des protéines). Une question centrale pour le scientifique biologique est de savoir si il est pratique pour prédire les interactions protéine-protéine possibles seulement sur la base de ces formes en 3D, sans faire protéine-protéine expériences d'interaction. Une variété de méthodes ont été développées pour se attaquer au Problème d'accueil protéine-protéine, mais il semble qu'il ya encore beaucoup de place pour travailler dans ce domaine.

Outils et Logiciels

Logiciels pour la bioinformatique va des outils de ligne de commande simples, à des programmes graphiques plus complexes et web-services autonomes. L'outil de la biologie computationnelle la plus connue des biologistes est probablement BLAST, un algorithme de détermination de la similarité de séquences arbitraires contre d'autres séquences, éventuellement à partir de bases de données curated de protéines ou des séquences d'ADN. Le NCBI fournit une implémentation basée sur le Web populaire qui recherche leurs bases de données. BLAST est l'un d'un certain nombre de programmes généralement disponibles pour faire l'alignement de séquences.

Services Web en bioinformatique

SOAP et Interfaces REST ont été développés pour une large variété d'applications de bioinformatique permettant une application se exécutant sur un ordinateur dans une partie du monde à utiliser des algorithmes, des données et des ressources informatiques sur des serveurs dans d'autres parties du monde. Les principaux avantages résident dans l'utilisateur final ne pas avoir à traiter avec des frais généraux et de maintenance de logiciels de base de données des services de bioinformatique de base sont classés par la EBI en trois catégories: SSS (Séquence Recherche Services), MSA (alignement multiple de séquences) et BSA (biologique Sequence Analysis). La disponibilité de ces bioinformatique ressources orientées services démontrent l'applicabilité de solutions bioinformatiques basés sur le Web, et la gamme d'une collection d'outils autonomes avec un format de données commun sous une seule, autonome ou interface Web, d'intégration, distribué et extensible bioinformatique systèmes de gestion de workflow.

Récupéré à partir de " http://en.wikipedia.org/w/index.php?title=Bioinformatics&oldid=228368417 "