Contenido Checked

Bioinformática

Temas relacionados: Biología ; Programación

Antecedentes

Esta selección se hace para las escuelas por caridad para niños leer más . ¿Quieres saber sobre el patrocinio? Ver www.sponsorachild.org.uk

Mapa del cromosoma X humano (de la NCBI sitio web). Asamblea de la genoma humano es uno de los mayores logros de la bioinformática.

Bioinformática y Biología Computacional implican el uso de técnicas que incluyen la matemática aplicada , informática, estadística , ciencias de la computación , la inteligencia artificial, la química y la bioquímica para resolver biológicos problemas por lo general en el molecular nivel. El principio básico de estas técnicas está utilizando los recursos informáticos con el fin de resolver los problemas en las escalas de magnitud demasiado grande para el discernimiento humano. La investigación en biología computacional a menudo se superpone con la biología de sistemas. Los principales esfuerzos de investigación en el campo incluyen la alineación de secuencias , la búsqueda de genes, montaje del genoma, estructura de alineación de proteínas, la predicción de estructura de la proteína, la predicción de la expresión génica y interacciones proteína-proteína, y el modelado de la evolución .

Introducción

Los términos y bioinformática biología computacional se usan indistintamente. Sin embargo la bioinformática se refiere más bien a la creación y promoción de los algoritmos, técnicas computacionales y estadísticos, y la teoría para resolver problemas formales y prácticas derivadas de la gestión y el análisis de datos biológicos. Biología computacional, por otro lado, se refiere a la investigación basadas en hipótesis de un problema biológico específico el uso de computadoras, realizada con datos experimentales o simulados, con el objetivo principal de los descubrimientos y el avance del conocimiento biológico. En términos más sencillos, la bioinformática se refiere a la información, mientras que la biología computacional se ocupa de las hipótesis. Una distinción similar se hace por Institutos Nacionales de la Salud en su definiciones de trabajo de Bioinformática y Biología Computacional, donde se destacó, además, que existe una estrecha conexión entre la evolución y el conocimiento entre la investigación más hipótesis impulsada en biología computacional y la investigación técnica impulsada en bioinformática. Bioinformática también con frecuencia se especifica como un subcampo aplicada de la disciplina más general de Informática biomédica.

Un hilo común en los proyectos de la bioinformática y la biología computacional es el uso de herramientas matemáticas para extraer información útil de los datos producidos por técnicas biológicas de alto rendimiento, tales como la secuenciación del genoma. Un problema de representación en bioinformática es el conjunto de secuencias del genoma de alta calidad a partir de ADN fragmentaria "escopeta" secuenciación. Otros problemas comunes incluyen el estudio de la regulación de genes para llevar a cabo perfiles de expresión utilizando los datos de microarrays o espectrometría de masas .

Las principales áreas de investigación

El análisis de secuencia

Desde el El fago Φ-X174 fue secuenciado en 1977, el Secuencias de ADN de cientos de organismos han sido decodificada y se almacenan en bases de datos. La información se analiza para determinar los genes que codifican polipéptidos, así como secuencias reguladoras. Una comparación de los genes dentro de una especie o entre especies diferentes puede mostrar similitudes entre funciones de la proteína, o las relaciones entre las especies (el uso de sistemática molecular para construir árboles filogenéticos). Con la creciente cantidad de datos, que hace mucho tiempo se convirtió en poco práctico para analizar secuencias de ADN de forma manual. Hoy en día, programas de ordenador se utilizan para buscar la genoma de miles de organismos, que contiene miles de millones de nucleótidos. Estos programas podrían compensar mutaciones (intercambiados, bases eliminados o insertados) en la secuencia de ADN, con el fin de identificar las secuencias que están relacionados, pero no idénticos. Una variante de esta alineación de secuencias se utiliza en el proceso de secuenciación sí mismo. El llamado técnica de secuenciación shotgun (que se utiliza, por ejemplo, El Instituto de Investigación Genómica para secuenciar el primer genoma bacteriano, Haemophilus influenzae) no da una lista secuencial de nucleótidos, pero en lugar de las secuencias de miles de pequeños fragmentos de ADN (cada una de unos 600 a 800 nucleótidos de longitud). Los extremos de estos fragmentos se superponen y, cuando se alinean de la manera correcta, constituyen el genoma completo. Secuenciación escopeta produce la secuencia de datos de forma rápida, pero la tarea de reunir los fragmentos puede ser bastante complicada para genomas más grandes. En el caso de la Proyecto del Genoma Humano, llevó varios meses de tiempo de CPU (en un vintage circa-2000 Equipo DEC Alpha) para ensamblar los fragmentos. Secuenciación escopeta es el método de elección para prácticamente todos los genomas secuenciados hoy, y algoritmos de ensamblaje del genoma son un área crítica de investigación en bioinformática.

Otro aspecto de la bioinformática en análisis de la secuencia es el automático buscar genes y secuencias reguladoras dentro de un genoma. No todos los nucleótidos dentro de un genoma son genes. Dentro del genoma de los organismos superiores, grandes partes del ADN no sirven ningún propósito obvio. Esta llamados ADN basura puede, sin embargo, contener elementos funcionales no reconocidos. Bioinformática ayuda a cerrar la brecha entre el genoma y proyectos proteoma - por ejemplo, en el uso de secuencias de ADN para la identificación de proteínas.

Ver también: análisis de la secuencia, secuencia herramienta de perfilado, motivo de secuencia.

La anotación del genoma

En el contexto de la genómica, la anotación es el proceso de marcado de los genes y otras características biológicas de una secuencia de ADN. El sistema de software de anotación primer genoma fue diseñado en 1995 por el Dr. Owen White, quien fue parte del equipo que secuenció y analizó el primer genoma de un organismo de vida libre a decodificar, la bacteria Haemophilus influenzae. El Dr. White construyó un sistema de software para encontrar los genes (lugares en la secuencia de ADN que codifica una proteína), el ARN de transferencia, y otras características, y para hacer las asignaciones iniciales de función a esos genes. La mayoría de los sistemas de anotación del genoma actual funcionan de manera similar, pero los programas disponibles para el análisis de ADN genómico están constantemente cambiando y mejorando.

Biología evolutiva computacional

La biología evolutiva es el estudio del origen y el descenso de las especies , así como su cambio en el tiempo. Informática ha ayudado a los biólogos evolutivos en varios aspectos clave; ha permitido a los investigadores:

  • trazar la evolución de un gran número de organismos mediante la medición de cambios en su ADN , en lugar de a través taxonomía física u observaciones fisiológicas por sí solos,
  • más recientemente, comparar toda genomas, que permite el estudio de eventos evolutivos más complejas, tales como la duplicación de genes, transferencia lateral de genes, y la predicción de factores importantes en bacteriana especiación,
  • construir complejos modelos computacionales de poblaciones para predecir el resultado del sistema en el tiempo
  • rastrear y compartir información sobre un número cada vez mayor de especies y organismos

Los esfuerzos futuros de trabajo para reconstruir el ahora más compleja árbol de la vida.

El área de investigación dentro de la informática que utiliza algoritmos genéticos se confunde a veces con biología evolutiva computacional, pero las dos áreas están relacionados.

Medición de la biodiversidad

La biodiversidad de un ecosistema puede definirse como el complemento genómico total de un entorno particular, de todas las especies presentes, si se trata de un biofilm en una mina abandonada, una gota de agua de mar, una cucharada de suelo, o toda la biosfera de el planeta Tierra . Las bases de datos se utilizan para recoger la especie nombres, descripciones, distribuciones, información genética, estado y tamaño de poblaciones, hábitat necesita, y cómo cada organismo interactúa con otras especies. Especializado programas de software se utilizan para encontrar, visualizar y analizar la información, y lo más importante, se comunican a otras personas. Simulaciones por ordenador modelo cosas tales como la dinámica de poblaciones, o calcular la salud genética acumulada de una piscina de cría (en la agricultura ) o población en peligro de extinción (en conservación). Un potencial muy interesante de este campo es que toda ADN secuencias, o genomas de especies en peligro de extinción se pueden preservar, permitiendo que los resultados del experimento genético de la naturaleza para ser recordado in silico, y posiblemente reutilizar en el futuro, incluso si las especies que se pierde con el tiempo.

Proyectos importantes: Especies proyecto 2000; Proyecto uBio.

Análisis de la expresión génica

La expresión de muchos genes puede determinarse midiendo los niveles de mRNA con múltiples técnicas que incluyen microarrays, etiquetas de secuencias expresadas cDNA (EST) secuenciación, serie de análisis de secuenciación de genes de expresión (SAGE) de etiquetas, masivamente paralelo firma secuenciación (MPSS), o diversas aplicaciones de multiplexado hibridación in situ. Todas estas técnicas son extremadamente proclive al ruido y / o sujetos a sesgos en la medición biológica, y un área importante de investigación en biología computacional implica el desarrollo de herramientas estadísticas para separar señal desde ruido en estudios de expresión génica de alto rendimiento. Estos estudios se utilizan a menudo para determinar los genes implicados en un trastorno: uno podría comparar los datos de microarrays de cancerosos las células epiteliales a los datos de las células no cancerosas para determinar las transcripciones que son regulados hacia arriba y hacia abajo-regulada en una población particular de células cancerosas.

Análisis de la regulación

Reglamento es el complejo orquestación de eventos que comienzan con una señal extracelular tal como una hormona y que conducen a un aumento o disminución en la actividad de una o más proteínas . Técnicas de bioinformática se han aplicado a explorar varios pasos de este proceso. Por ejemplo, promotor de análisis consiste en la identificación y estudio de motivos de secuencia en el ADN que rodea la región de codificación de un gen. Estos motivos influyen en la medida en que esa región se transcribe en ARNm. Los datos de expresión pueden utilizarse para inferir la regulación de genes: uno podría comparar microarrays de datos de una amplia variedad de estados de un organismo para formar hipótesis sobre los genes implicados en cada estado. En un organismo unicelular, se podría comparar las etapas del ciclo celular, junto con diversas condiciones de estrés (choque térmico, la inanición, etc.). Entonces se puede aplicar algoritmos de agrupamiento a que los datos de expresión para determinar qué genes se co-expresó. Por ejemplo, las regiones de aguas arriba (promotores) de co-expresó genes se pueden buscar para sobrerrepresentados elementos reguladores.

Análisis de la expresión de proteínas

Microarrays de proteínas y de alto rendimiento (HT) espectrometría de masas (MS) pueden proporcionar una instantánea de las proteínas presentes en una muestra biológica. La bioinformática es muy involucrado en la toma de sentido de microarrays de proteínas y datos HT MS; el enfoque anterior se enfrenta a problemas similares como con microarrays dirigidos a ARNm, este último implica el problema de hacer coincidir grandes cantidades de datos en masa contra masas predichos a partir de bases de datos de secuencias de proteínas, y el análisis estadístico complicado de muestras donde múltiples, pero incompletos péptidos de cada proteína son detectado.

Análisis de mutaciones en el cáncer

En el cáncer, los genomas de las células afectadas se reorganizan de forma compleja o incluso impredecibles. Esfuerzos de secuenciación masiva se utilizan para identificar previamente desconocido mutaciones puntuales en una variedad de genes en el cáncer . Bioinformáticos continúan produciendo sistemas automatizados especializadas para gestionar el gran volumen de datos de la secuencia producida, y crean nuevos algoritmos y software para comparar los resultados de la secuenciación a la creciente colección de secuencias del genoma humano y polimorfismos de línea germinal. Nueva tecnología de detección física se emplean, como microarrays de ADN para identificar a las ganancias y pérdidas cromosómicas (llamados hibridación genómica comparativa), y matrices de polimorfismos de nucleótido único para detectar mutaciones puntuales conocidas. Estos métodos de detección miden simultáneamente varios cientos de miles de sitios en todo el genoma, y cuando se utiliza en alto rendimiento para medir miles de muestras, generar terabytes de datos por experimento. Una vez más las cantidades masivas y nuevos tipos de datos generan nuevas oportunidades para bioinformáticos. Los datos se encuentra a menudo para contener una variabilidad considerable, o ruido, y por lo tanto Hidden Markov modelo y métodos de análisis de cambio de punto se están desarrollando para inferir reales número de copias cambios.

Otro tipo de datos que requiere el desarrollo de nuevos informática es el análisis de las lesiones encontradas a ser recurrente entre muchos tumores.

Predicción de la estructura de la proteína

Estructura de la proteína de predicción es otra aplicación importante de la bioinformática. El ácido amino secuencia de una proteína, el llamado estructura primaria, se puede determinar fácilmente a partir de la secuencia en el gen que la codifica. En la gran mayoría de los casos, esta estructura primaria determina de forma única una estructura en su ambiente nativo. (Por supuesto, hay excepciones, tales como la La encefalopatía espongiforme bovina - aka Las vacas locas - prión .) El conocimiento de esta estructura es de vital importancia en la comprensión de la función de la proteína. A falta de mejores términos, la información estructural generalmente se clasifica como uno de secundaria, terciaria y estructura cuaternaria. Una solución general viable a tales predicciones sigue siendo un problema abierto. A partir de ahora, la mayoría de los esfuerzos se han dirigido hacia la heurística que trabajan la mayor parte del tiempo.

Una de las ideas clave de la bioinformática es la noción de homología. En la rama genómico de la bioinformática, la homología se utiliza para predecir la función de un gen: si la secuencia del gen A, cuya función es sabido, es homóloga a la secuencia del gen B, cuya función es desconocida, se podría inferir que B puede compartir la función de A. En la rama de la bioinformática estructural, la homología se utiliza para determinar qué partes de una proteína son importantes en la formación de la estructura y la interacción con otras proteínas. En una técnica llamada modelado por homología, esta información se utiliza para predecir la estructura de una proteína una vez que se conoce la estructura de una proteína homóloga. Esta Actualmente sigue siendo la única manera de predecir estructuras de proteínas de forma fiable.

Un ejemplo de esto es la homología proteica similar, entre la hemoglobina en los seres humanos y de la hemoglobina en las legumbres ( leghemoglobina). Ambos tienen el mismo propósito de transportar oxígeno en el organismo. Aunque ambas de estas proteínas tienen completamente diferentes secuencias de aminoácidos, sus estructuras de proteínas son prácticamente idénticos, lo que refleja sus propósitos idénticos cerca.

Otras técnicas para la predicción de estructura de proteínas incluyen roscado de proteínas y de novo (desde cero) el modelado basado en la física.

Ver también: motivo estructural y dominio estructural.

Genómica comparativa

El núcleo de análisis comparativo del genoma es el establecimiento de la correspondencia entre genes (análisis orthology) u otras características genómicas en diferentes organismos. Es estos mapas intergenomic que permitan rastrear los procesos evolutivos responsables de la divergencia de los dos genomas. Una multitud de eventos evolutivos que actúan en los distintos niveles de organización a dar forma a la evolución del genoma. En el nivel más bajo, mutaciones puntuales afectan a nucleótidos individuales. En un nivel superior, grandes segmentos cromosómicos experimentan la duplicación, la transferencia lateral, la inversión, la transposición, la eliminación y la inserción. En última instancia, los genomas enteros están implicados en procesos de hibridación, y poliploidización endosimbiosis, a menudo conduce a la especiación rápida. La complejidad de la evolución del genoma plantea muchos retos emocionantes para los desarrolladores de modelos matemáticos y algoritmos, que recurren a un espectro de técnicas algorítmicas, estadísticos y matemáticos, que van desde exacto, heurística, parámetro fijo y algoritmos de aproximación a los problemas basados en modelos de parsimonia a Markov Chain Monte Carlo algoritmos para el análisis bayesiano de problemas basados en modelos probabilísticos.

Muchos de estos estudios se basan en la detección de homología y familias de proteínas cálculo.

Modelado de sistemas biológicos

La biología de sistemas implica el uso de simulaciones por ordenador de celulares subsistemas (como el redes de metabolitos y enzimas que comprenden metabolismo, vías de transducción de señal y redes reguladoras de genes) a ambos analizar y visualizar las complejas conexiones de estos procesos celulares. La vida artificial o evolución virtual de los intentos de entender los procesos evolutivos a través de la simulación por ordenador de las formas de vida simples (artificiales).

Análisis de imágenes de alto rendimiento

Tecnologías computacionales se utilizan para acelerar o automatizar el procesamiento, la cuantificación y el análisis de grandes cantidades de información de alta-contenido totalmente imaginería biomédica. Sistemas de análisis de imagen modernos aumentan la capacidad de un observador para realizar mediciones de un conjunto grande o complejo de las imágenes, mejorando exactitud, objetividad, o la velocidad. Un sistema de análisis plenamente desarrollado puede sustituir completamente el observador. Aunque estos sistemas no son exclusivos de la imaginería biomédica, imágenes biomédicas es cada vez más importante, tanto para diagnóstico e investigación. Algunos ejemplos son:

  • de alto rendimiento y alta fidelidad cuantificación y localización subcelular ( el cribado de alto contenido, cytohistopathology)
  • morfometría
  • análisis de imagen clínica y visualización
  • la determinación de los patrones de flujo de aire en tiempo real en los pulmones de los animales que viven respirar
  • cuantificar el tamaño de la oclusión en imágenes en tiempo real desde el desarrollo y la recuperación durante la lesión arterial
  • haciendo observaciones de comportamiento de las grabaciones de vídeo extendidos de los animales de laboratorio
  • mediciones infrarrojas para la determinación de la actividad metabólica

Acoplamiento proteína-proteína

En las últimas dos décadas, decenas de miles de proteínas estructuras tridimensionales han sido determinadas por Cristalografía de rayos X y Espectroscopía de resonancia magnética nuclear de la proteína (proteína NMR). Una cuestión central para el científico biológico es si es práctico para predecir las posibles interacciones proteína-proteína sólo sobre la base de estas figuras en 3D, sin hacer experimentos de interacción proteína-proteína. Una variedad de métodos se han desarrollado para hacer frente a la Problema de acoplamiento proteína-proteína, aunque parece que todavía hay mucho lugar para trabajar en este campo.

Software y Herramientas

Apoyo lógico para la bioinformática van desde simples herramientas de línea de comandos, para programas gráficos más complejos y servicios web independientes. La herramienta de la biología computacional más conocida entre los biólogos es, probablemente, BLAST, un algoritmo para determinar la similitud de secuencias arbitrarias contra otras secuencias, posiblemente a partir de bases de datos curada de proteínas o secuencias de ADN. La NCBI proporciona una aplicación basada en la web popular que busca en sus bases de datos. BLAST es uno de una serie de programas generalmente ofrecidos para hacer la alineación de secuencias.

Servicios Web en Bioinformática

SOAP y Interfaces basadas en REST se han desarrollado para una amplia variedad de aplicaciones de la bioinformática que permiten una aplicación que se ejecuta en una computadora en una parte del mundo que utiliza algoritmos, datos y recursos informáticos en servidores en otras partes del mundo. Las principales ventajas que yacían en el usuario final no tener que lidiar con software y mantenimiento de bases de datos los gastos generales de los servicios básicos de la bioinformática se clasifican por el EBI en tres categorías: SSS (Secuencia Buscar Servicios), MSA (múltiples secuencias de alineación) y BSA (análisis de secuencias biológicas). La disponibilidad de estos bioinformática recursos orientados a servicios demuestran la aplicabilidad de las soluciones bioinformáticas basadas en la web, y van desde una colección de herramientas independientes con un formato de datos común bajo una sola, independiente o interfaz basada en la web, para integradora, distribuido y extensible Flujo de trabajo de sistemas de gestión de la bioinformática.

Recuperado de " http://en.wikipedia.org/w/index.php?title=Bioinformatics&oldid=228368417 "