Inferencia bayesiana
Acerca de este escuelas selección Wikipedia
Esta selección Escuelas fue originalmente elegido por SOS para las escuelas en el mundo en desarrollo que no tienen acceso a Internet. Está disponible como una descarga intranet. Una rápida conexión para el apadrinamiento de niños es http://www.sponsor-a-child.org.uk/
Inferencia bayesiana es inferencia estadística en la que las pruebas o las observaciones se utilizan para actualizar o recién inferir la probabilidad de que una hipótesis puede ser cierto. El nombre "bayesiano" proviene de la utilización frecuente de Teorema de Bayes en el proceso de inferencia. El teorema de Bayes se derivó de la obra del reverendo Thomas Bayes.
Evidencia y creencias cambiantes
Inferencia bayesiana utiliza aspectos de la método científico, que consiste en la recolección evidencia de que está destinado a ser compatible o incompatible con una determinada hipótesis. Como evidencia se acumula, el grado de creencia en una hipótesis debe cambiar. Con suficiente evidencia, se debe llegar a ser muy alta o muy baja. Por lo tanto, los defensores de la inferencia bayesiana dicen que puede ser utilizado para discriminar entre hipótesis contradictorias: hipótesis con muy alto nivel de apoyo se deben aceptar como verdadero y los que tienen muy bajo apoyo deben ser rechazadas como falsas. Sin embargo, los detractores dicen que este método de inferencia puede ser sesgada debido a las creencias iniciales que uno tiene que mantener ante cualquier evidencia es cada vez recolectada.
Inferencia bayesiana utiliza una estimación numérica del grado de creencia en una hipótesis antes se ha observado evidencia y calcula una estimación numérica del grado de creencia en la hipótesis después se ha observado evidencia. Inferencia bayesiana general se basa en los grados de creencia, o probabilidades subjetivas, en el proceso de inducción y no pretende necesariamente para proporcionar un método objetivo de la inducción. No obstante, algunos estadísticos bayesianos creer probabilidades pueden tener un valor objetivo y, por tanto, la inferencia bayesiana puede proporcionar un método objetivo de la inducción. Ver método científico.
El teorema de Bayes ajusta probabilidades dadas las nuevas pruebas de la siguiente manera:
donde
- representa una hipótesis específica, que puede o no puede haber alguna hipótesis nula.
- se llama probabilidad antes de que se dedujo antes de nuevas pruebas, , Llegó a estar disponible.
- se llama probabilidad condicional de ver la evidencia si la hipótesis pasa a ser verdad. También se conoce una función de probabilidad cuando se considera como una función de para fijo .
- se llama probabilidad marginal de : La probabilidad a priori de ser testigo de las nuevas pruebas bajo todas las posibles hipótesis. Se puede calcular como la suma del producto de todas las probabilidades de cualquier conjunto completo de hipótesis mutuamente excluyentes y probabilidades condicionales correspondientes: .
- se llama probabilidad posterior de dado .
El factor representa el impacto que tiene la evidencia en la creencia en la hipótesis. Si es probable que la evidencia se observaría cuando la hipótesis en estudio es verdad, pero es poco probable que habría sido el resultado de la observación, a continuación, este factor será grande. Multiplicando la probabilidad a priori de la hipótesis por este factor se traduciría en una mayor probabilidad posterior de la hipótesis dada la evidencia. Por el contrario, si es poco probable que la evidencia que se observaría si la hipótesis bajo consideración es cierto, pero a priori probable que podría ser observado, entonces el factor reduciría la probabilidad posterior para . Bajo la inferencia bayesiana, el teorema de Bayes, por tanto, mide la cantidad de nuevas pruebas debería alterar la creencia en una hipótesis.
Estadísticos bayesianos argumentan que incluso cuando las personas tienen diferentes probabilidades subjetivas previas, la nueva evidencia a partir de observaciones repetidas tenderá a llevar sus probabilidades subjetivas posteriores más cerca. Sin embargo, otros argumentan que cuando la gente tiene muy diferentes subjetiva Probabilidades previas sus probabilidades subjetivas posteriores nunca pueden converger incluso con repetidas recolección de pruebas. Estos críticos argumentan que las visiones del mundo que son completamente diferentes inicialmente pueden permanecer completamente diferente en el tiempo a pesar de una gran acumulación de pruebas.
Multiplicando la probabilidad previa por el factor nunca dará lugar a una probabilidad de que es mayor que 1, ya es al menos tan grande como (Donde denota "y"), que es igual a (Ver probabilidad conjunta).
La probabilidad de dado , , Se puede representar como una función de su segunda discusión con su primer argumento mantiene fijo. Tal función se llama una función de verosimilitud; es una función de solo, con tratada como una parámetro. A razón de dos funciones de verosimilitud se llama un cociente de probabilidad, . Por ejemplo,
- ,
donde la dependencia de en se suprime por simplicidad (como se podría haber sido, excepto tendremos que utilizar ese parámetro más adelante).
Desde y no- se excluyen mutuamente y abarcan todas las posibilidades, la suma dada anteriormente para la probabilidad marginal se reduce a . Como resultado, podemos reescribir el teorema de Bayes como
- .
Podríamos entonces explotar la identidad exhibir como una función de sólo (Y , Que se calcula directamente a partir de las pruebas).
Con dos piezas independientes de evidencia y , Inferencia bayesiana se puede aplicar de forma iterativa. Podríamos utilizar la primera pieza de evidencia para calcular una probabilidad inicial posterior, y luego usar esa probabilidad posterior como una nueva probabilidad a priori para calcular una segunda probabilidad posterior dada la segunda pieza de evidencia. El teorema de Bayes aplica iterativamente rinde
El uso de cocientes de probabilidad, encontramos que
- ,
Esta iteración de la inferencia bayesiana podría ampliarse con piezas más independientes de las pruebas.
Inferencia bayesiana se utiliza para calcular las probabilidades para la toma de decisiones en condiciones de incertidumbre. Además de las probabilidades, una función de pérdida se debe evaluar para tener en cuenta el impacto relativo de las alternativas.
Ejemplos simples de inferencia bayesiana
Desde que tazón es la galleta?
Para ilustrar, supongamos que hay dos copas llenas de las cookies. Tazón # 1 tiene 10 chips de chocolate y 30 galletas de fricción, mientras tazón # 2 tiene 20 de cada uno. Nuestro amigo Fred recoge un recipiente al azar, y luego toma una galleta al azar. Podemos suponer que no hay razón para creer Fred trata de un tazón diferente a otra, lo mismo para las cookies. La cookie resulta ser una llanura. ¿Cómo es la probabilidad de que Fred lo recogió de tazón # 1?
Intuitivamente, parece claro que la respuesta debe ser más que un medio, ya que hay galletas más llanas en un tazón # 1. La respuesta precisa es dada por el teorema de Bayes. Dejar corresponden a los bolos # 1, y al recipiente # 2. Se establece que las copas son idénticos desde el punto de vista de Fred, así , Y los dos deben sumar 1, por lo que ambos son igual a 0,5. El evento es la observación de una galleta simple. A partir de los contenidos de los cuencos, sabemos que y . Fórmula de Bayes entonces rinde
Antes observamos la cookie, la probabilidad que asigna para Fred haber elegido tazón # 1 era la probabilidad a priori, , Que fue de 0,5. Después de observar la cookie, debemos revisar la probabilidad de , Que es 0,6.
Los falsos positivos en una prueba médica
Los falsos positivos se producen cuando una prueba falsa o incorrecta reporta un resultado positivo. Por ejemplo, un examen médico para una enfermedad puede devolver un resultado positivo que indica que el paciente tiene una enfermedad, incluso si el paciente no tiene la enfermedad. Podemos utilizar el teorema de Bayes para determinar la probabilidad de que un resultado positivo es, de hecho, un falso positivo. Encontramos que si una enfermedad es rara, entonces la mayoría de los resultados positivos puede ser falsos positivos, incluso si la prueba es exacta.
Supongamos que una prueba para una enfermedad genera los siguientes resultados:
- Si un paciente probado tiene la enfermedad, la prueba devuelve un resultado positivo 99% del tiempo, o con probabilidad 0.99
- Si un paciente probado no tiene la enfermedad, la prueba devuelve un resultado positivo 5% del tiempo, o con probabilidad de 0,05.
Ingenuamente, uno podría pensar que sólo el 5% de los resultados positivos son falsos, pero que es bastante malo, como veremos más adelante.
Supongamos que sólo 0,1% de la población tiene esa enfermedad, de modo que un paciente seleccionado al azar tiene un 0,001 probabilidad previa de tener la enfermedad.
Podemos utilizar el teorema de Bayes para calcular la probabilidad de que un resultado positivo de la prueba es un falso positivo.
Sea A representa la condición en la que el paciente tiene la enfermedad, y B representan la evidencia de un resultado positivo de la prueba. Entonces, la probabilidad de que el paciente realmente tiene la enfermedad dado el resultado positivo de la prueba se
y por lo tanto la probabilidad de que un resultado positivo es un falso positivo es de aproximadamente , O 98%.
A pesar de la alta precisión aparente de la prueba, la incidencia de la enfermedad es tan baja que la gran mayoría de los pacientes que dan positivo no tienen la enfermedad. Sin embargo, la fracción de pacientes que dan positivo que sí tienen la enfermedad (0.019) es de 19 veces la fracción de personas que aún no han tomado la prueba que tienen la enfermedad (001). Así, el ensayo no es inútil, y re-prueba puede mejorar la fiabilidad del resultado.
Con el fin de reducir el problema de los falsos positivos, una prueba debe ser muy precisa en informar de un resultado negativo cuando el paciente no tiene la enfermedad. Si la prueba reportó un resultado negativo en pacientes sin la enfermedad con probabilidad 0,999, entonces
- ,
de modo que ahora es la probabilidad de un falso positivo.
Por otra parte, falsos negativos se producen cuando una prueba falsa o incorrecta reporta un resultado negativo. Por ejemplo, un examen médico para una enfermedad puede devolver un resultado negativo indica que el paciente no tiene una enfermedad, aunque el paciente realmente tiene la enfermedad. También podemos utilizar el teorema de Bayes para calcular la probabilidad de un falso negativo. En el primer ejemplo anterior,
La probabilidad de que un resultado negativo es un falso negativo es sobre 0.0000105 o 0,00105%. Cuando una enfermedad es rara, los falsos negativos no será un gran problema con la prueba.
Pero si el 60% de la población tenía la enfermedad, entonces la probabilidad de un falso negativo sería mayor. Con la prueba anterior, la probabilidad de un falso negativo sería
La probabilidad de que un resultado negativo es un falso negativo se eleva a 0,0155 o 1,55%.
En la sala del tribunal
Inferencia bayesiana se puede utilizar en un entorno de tenis por un jurado individuo acumular coherentemente la evidencia a favor y en contra de la culpabilidad del acusado, y para ver si, en su totalidad, se encuentra con su umbral personal para "más allá de una duda razonable".
- Dejar denotar el caso de que el acusado es culpable.
- Dejar denotar el evento que coincide con el ADN del acusado ADN encontrado en la escena del crimen.
- Dejar denotar la probabilidad del evento viendo si el acusado es culpable en realidad. (Por lo general, esto se toma como unidad.)
- Dejar denotar la probabilidad de que el acusado es culpable de asumir la coincidencia de ADN (evento ).
- Dejar denotar estimación personal del miembro del jurado de la probabilidad de que el acusado es culpable, en base a la evidencia que no sea la coincidencia de ADN. Esto podría basarse en sus respuestas bajo cuestionamiento, o la evidencia presentada anteriormente.
Inferencia bayesiana nos dice que si podemos asignar una probabilidad p (G) a la culpabilidad del acusado antes de tomar las pruebas de ADN en cuenta, entonces podemos revisar esta probabilidad a la probabilidad condicional , Ya
Supongamos que, sobre la base de otras pruebas, un jurado decide que hay un 30% de probabilidad de que el acusado es culpable. Supongamos también que el testimonio forense fue que la probabilidad de que una persona elegida al azar tendría ADN que hacía juego que en la escena del crimen es de 1 en un millón, o 10 -6.
El evento E puede ocurrir de dos maneras. O bien el acusado es culpable (con probabilidad previa 0.3) y por lo tanto su ADN está presente con probabilidad 1, o que es inocente (con probabilidad a priori 0,7) y él es la mala suerte de ser uno de los 1 en un millón de personas que coincidan.
Así, el jurado podría revisar coherentemente su opinión a tener en cuenta la Pruebas de ADN como sigue:
- .
El beneficio de la adopción de un enfoque bayesiano es que le da al miembro del jurado de un mecanismo formal para la combinación de las pruebas presentadas. El enfoque se puede aplicar sucesivamente a todos los elementos de prueba presentados ante el tribunal, con la parte posterior de una etapa convirtiéndose en la previa para la próxima.
El jurado aún tendría que tener un presupuesto previo para la probabilidad de culpabilidad antes de que se considera la primera pieza de evidencia. Se ha sugerido que esto podría ser razonablemente la probabilidad de culpabilidad de una persona aleatoria tomada de la población de clasificación. Así, por un delito conocido por haber sido cometido por un varón adulto que vive en una ciudad que contiene 50.000 hombres adultos, la probabilidad previa inicial apropiada podría ser de 1 / 50.000.
Con el fin de explicar el teorema de Bayes para los miembros del jurado, por lo general será apropiado darle la forma de cuotas de apuestas en lugar de probabilidades, ya que estos son más ampliamente entendidas. En teorema de esta forma de Bayes que
- Apuesta a posteriori = anteriores odds x Factor de Bayes
En el ejemplo anterior, el miembro del jurado que tiene una probabilidad previa de 0,3 para el acusado de ser culpable sería ahora expresar que en la forma de probabilidades de 3: 7 a favor del acusado de ser culpable, el factor de Bayes es de un millón, y el resultado posterior probabilidades son 3 millones a 7 o alrededor de 429 mil a uno a favor de la culpabilidad.
La enfoque logarítmica que sustituye a la multiplicación con la suma y reduce el rango de los números implicados podría ser más fácil para un jurado de manejar. Este enfoque, desarrollado por Alan Turing durante la Segunda Guerra Mundial y más tarde promovido por IJ Good and ET Jaynes entre otros, asciende a la utilización de entropía información.
En el Reino Unido, el teorema de Bayes se explicó al jurado en forma probabilidades por un estadístico perito en el caso de violación Regina contra Denis John Adams. Una condena fue asegurado, pero el caso fue a apelar, ya que se habían proporcionado ningún medio de la acumulación de pruebas para los miembros del jurado que no quieren usar el teorema de Bayes. El Tribunal de Apelación confirmó la condena, sino que también dio su opinión de que "Para introducir el Teorema de Bayes, o cualquier método similar, en un juicio penal sumerge al Jurado en reinos inadecuados e innecesarios de la teoría y la complejidad, desviándolos de su tarea propia. " Ninguna otra apelación estaba permitido y la cuestión de la evaluación Bayesiano de datos forenses de ADN sigue siendo controvertido.
Gardner-Medwin sostiene que el criterio en el que debe basarse un veredicto en un juicio penal no es la probabilidad de culpabilidad, sino la probabilidad de las pruebas, dado que el acusado es inocente (similar a una frequentist p-valor). Argumenta que si la probabilidad posterior de la culpa debe ser calculado por el teorema de Bayes, la probabilidad previa de culpabilidad debe ser conocido. Esto dependerá de la incidencia de la delincuencia, que es una pieza inusual de evidencia para considerar en un juicio penal. Considere las siguientes tres proposiciones:
A: los hechos y testimonios conocidos podrían haber surgido si el acusado es culpable,
B: El hechos y testimonios conocidos podrían haber surgido si el acusado es inocente,
C: El acusado es culpable.
Gardner-Medwin sostiene que el jurado debe creer tanto en A y no-B con el fin de condenar. A y no-B implica la verdad de C, pero lo contrario no es cierto. Es posible que B y C son verdaderas, pero en este caso, argumenta que un jurado debe absolver, a pesar de que saben que van a estar dejando a algunas personas culpables queden libres. Ver también La paradoja de Lindley.
Otros casos judiciales en los que los argumentos probabilísticos jugaron algún papel fueron el Howland le falsificación juicio, el Caso de Sally Clark, y el Lucia de Berk caso.
Teoría Buscar
En mayo de 1968 el submarino nuclear de EE.UU. Scorpion (SSN-589) no llegó como se esperaba en su puerto de origen de Norfolk, Virginia. La Armada de Estados Unidos estaba convencido de que el buque se había perdido frente a la costa este, pero de una extensa búsqueda fracasado en descubrir los restos del naufragio. Experto en aguas profundas de la Armada de Estados Unidos, John Craven USN, creía que estaba en otro lugar y organizó una búsqueda al sur oeste de la Azores basado en una triangulación aproximada polémica por hidrófonos. Él se asignó un solo barco, el Mizar, y él tomó el consejo de una empresa de los matemáticos de consultores con el fin de maximizar sus recursos. Se adoptó una metodología de búsqueda bayesiano. Comandantes de los submarinos experimentados fueron entrevistados para construir hipótesis sobre lo que podría haber causado la pérdida del Escorpión.
La zona marítima se dividió en cuadrículas y una probabilidad asigna a cada plaza, en cada una de las hipótesis, para dar una serie de rejillas de probabilidad, uno para cada hipótesis. Estos continuación, se añadieron juntos para producir una rejilla global probabilidad. La probabilidad adjunta a cada plaza era entonces la probabilidad de que el naufragio fue en esa plaza. Una segunda cuadrícula se construyó con probabilidades que representaban la probabilidad de encontrar con éxito el naufragio si esa plaza fueron a buscar y el naufragio fuese realmente allí. Esta fue una función conocida de la profundidad del agua. El resultado de la combinación de esta red con la red anterior es una rejilla que da la probabilidad de encontrar los restos del naufragio en cada cuadrícula del mar si fuera a buscar.
Esta Red del Mar se buscó sistemáticamente de manera que comenzó con las regiones de alta probabilidad primera y trabajó hasta las regiones de baja probabilidad últimos. Cada vez que un cuadro de la rejilla se buscó y encontró a estar vacía su probabilidad se volvió a evaluar el uso El teorema de Bayes. Esto entonces obligó a las probabilidades de todos los demás cuadrantes para ser reevaluados (hacia arriba), también por el teorema de Bayes. El uso de este enfoque fue un importante reto computacional para el tiempo, pero finalmente tuvo éxito y el Escorpión se encontró unos 740 kilómetros al suroeste de la Azores en octubre de ese año. Supongamos que una cuadrícula tiene una probabilidad p de que contiene los restos del naufragio y que la probabilidad de detectar con éxito los restos del naufragio, si es que hay q. Si la plaza se busca y no pecio se encuentra, entonces, por el teorema de Bayes, la probabilidad revisada de los restos del naufragio de estar en la plaza está dada por
Ejemplos más matemáticos
Ingenuo clasificador de Bayes
Ver ingenuo clasificador de Bayes.
Distribución posterior del parámetro binomial
En este ejemplo consideramos el cálculo de la distribución posterior para el parámetro binomial. Este es el mismo problema considerado por Bayes en la Proposición 9 de su ensayo.
Se nos da m observó éxitos yn observó fallas en un experimento binomial. El experimento puede ser lanzar una moneda, extraer una bola de una urna, o preguntar a alguien su opinión, entre otras muchas posibilidades. Lo que sabemos sobre el parámetro (vamos a llamarlo a) se afirma como la distribución a priori, p (a).
Para un valor dado de un, la probabilidad de m éxitos en m + n ensayos es
Puesto que m y n son fijos, y a es desconocida, este es una función de probabilidad para un. De la forma continua de la ley de la probabilidad total tenemos
Para algunas opciones especiales de la p distribución previa (a), la integral puede ser resuelto y la posterior toma una forma conveniente. En particular, si p (a) es una distribución beta con parámetros m y n 0 0, entonces el posterior es también una distribución beta con parámetros m + m 0 y n + n 0.
La conjugado anterior es una distribución anterior, tal como la distribución beta en el ejemplo anterior, que tiene la propiedad de que la posterior es el mismo tipo de distribución.
¿Qué es "bayesiano" sobre la Proposición 9 es que Bayes lo presentó como una probabilidad del parámetro a. Es decir, no sólo puede uno probabilidades de cómputo para los resultados experimentales, sino también para el parámetro que los rige, y la misma álgebra se utiliza para hacer inferencias de uno u otro tipo. Curiosamente, en realidad Bayes establece su pregunta en una forma que podría hacer que la idea de asignar una distribución de probabilidad a un parámetro aceptable para una frecuentista. Se supone que una bola de billar es lanzada al azar sobre una mesa de billar, y que el p probabilidades y q son las probabilidades de que las bolas de billar posteriores caerán por encima o por debajo de la primera bola. Al hacer que el parámetro de un binomio depende de un evento al azar, que hábilmente se escapa un atolladero filosófico que era un problema que muy probablemente ni siquiera era consciente de.
Aplicaciones informáticas
Inferencia bayesiana tiene aplicaciones en inteligencia artificial y sistemas expertos. Técnicas de inferencia bayesiana han sido una parte fundamental de la computarizado técnicas de reconocimiento de patrones, desde finales de 1950. También hay una conexión cada vez mayor entre los métodos bayesianos y basados en la simulación de Monte Carlo técnicas ya que los modelos complejos no pueden ser procesados en forma cerrada por un análisis bayesiano, mientras que el modelo de estructura gráfica inherente a los modelos estadísticos, puede permitir la simulación de algoritmos eficientes, como el Muestreo Gibbs y otros Esquemas algoritmo Metropolis-Hastings. Recientemente inferencia bayesiana ha ganado popularidad entre los comunidad filogenética por estas razones; aplicaciones tales como BEAST, MrBayes y P4 permite muchos parámetros demográficos y evolutivos que deben estimarse de forma simultánea.
Como se aplica a clasificación estadística, la inferencia bayesiana se ha utilizado en los últimos años para desarrollar algoritmos para identificar masivo no solicitado e-mail spam. Aplicaciones que hacen uso de la inferencia bayesiana para el filtrado de spam incluyen DSPAM, Bogofilter, SpamAssassin, InBoxer, y Mozilla. Clasificación de correo no deseado se trata con más detalle en el artículo sobre el ingenuo clasificador de Bayes.
En algunas aplicaciones lógica difusa es una alternativa a la inferencia bayesiana. La lógica difusa y la inferencia bayesiana, sin embargo, matemáticamente y semánticamente no son compatibles: No se puede, en general, comprender el grado de verdad en lógica difusa como probabilidad y viceversa.