Contenido Checked

Regresión lineal

Temas relacionados: Matemáticas

Acerca de este escuelas selección Wikipedia

SOS Children, una organización benéfica educación , organizó esta selección. Una buena manera de ayudar a otros niños es mediante el patrocinio de un niño

La regresión lineal es una forma de análisis de regresión en el que los datos de observación se modelan por un mínimos cuadrados función que es una combinación lineal de los parámetros del modelo y depende de uno o más variables independientes. En la regresión lineal simple de la función modelo representa una línea recta. Los resultados de los datos ajustados están sujetos a análisis estadístico.

Ejemplo de regresión lineal con un dependiente y una variable independiente.

Definiciones

Los datos consisten en valores m y_1, \ ldots, y_m tomado de las observaciones de la variable dependiente ( variable de respuesta) y . La variable dependiente está sujeta a error. Se supone que este error sea variable aleatoria , con una media de cero. El error sistemático (por ejemplo, significa ≠ 0) pueden estar presentes, pero su tratamiento está fuera del alcance de los análisis de regresión. La variable independiente ( variable explicativa) x , Es libre de errores. Si esto no es así, el modelado debe hacerse utilizando errores en las variables técnicas de modelo. Las variables independientes son también llamadas regresores, variables exógenas, las variables de entrada y las variables predictoras. En la regresión lineal simple del modelo de datos se escribe como

y_i = \ beta_1 + x_i \ beta_2 + \ varepsilon_i

donde \ Epsilon_i es un error de observación. \ Beta_1 (El origen) y \ Beta_2 (Pendiente) son los parámetros del modelo. En general, hay parámetros n, \ Beta_1, \ ldots, \ beta_n y el modelo se puede escribir como

y_i = \ sum_ {j = 1} ^ {n} X_ {ij} \ beta_j + \ varepsilon_i

donde los coeficientes X_ {ij} son constantes o funciones de la variable independiente, x. Modelos que no se ajusten a esta especificación deben ser tratadas por regresión no lineal.

A menos que se indique lo contrario, se supone que los errores de observación son no correlacionado y pertenecen a una distribución normal . Esto, u otro supuesto, se utiliza cuando se realizan pruebas estadísticas sobre los resultados de la regresión. Una formulación equivalente de regresión lineal simple que muestra explícitamente la regresión lineal como un modelo de expectativa condicional se puede dar como

\ Mbox {E} (y | x) = \ alpha + \ beta x \,

La distribución condicional de y x dado es una transformación lineal de la distribución del término de error.

Notación y convenciones de nombres

  • Los escalares y vectores se denotan por letras minúsculas.
  • Las matrices se denotan con letras mayúsculas.
  • Los parámetros se denotan con letras griegas.
  • Vectores y matrices se denotan por letras en negrita.
  • Un parámetro con un sombrero, como \ Sombrero \ beta_j , Se refiere a un estimador de parámetros.

Análisis de mínimos cuadrados

El primer objetivo de análisis de regresión es mejor ajustar los datos mediante el ajuste de los parámetros del modelo. De los diferentes criterios que se pueden utilizar para definir lo que constituye un mejor ajuste, el criterio de mínimos cuadrados es muy poderoso. La función objetivo, S, se define como la suma de los residuos al cuadrado, r i

S = \ sum_ {i = 1} ^ {m} r_i ^ 2,

donde cada residual es la diferencia entre el valor observado y el valor calculado por el modelo:

r_i = y_i- \ sum_ {j = 1} ^ {n} X_ {ij} \ beta_j

Se obtiene el mejor ajuste cuando S, la suma de los residuos al cuadrado, se reduce al mínimo. Sujeto a ciertas condiciones, los parámetros a continuación tienen mínimo varianza ( Gauss-Markov teorema) y también puede representar un solución de máxima verosimilitud para el problema de optimización.

De la teoría de la mínimos cuadrados lineales, los estimadores de los parámetros se encuentran resolviendo las ecuaciones normales

\ Sum_ {i = 1} ^ {m} \ sum_ {k = 1} ^ {n} X_ {ij} X_ {ik} \ hat \ beta_k = \ sum_ {i = 1} ^ {m} X_ {ij} y_i, ~~~ j = 1, \ ldots, n

En la notación de matrices, estas ecuaciones se escriben como

\ Mathbf {\ left (X ^ TX \ right) \ boldsymbol {\ sombrero \ beta} = X ^ Ty} ,

Y así, cuando la matriz X ^ TX no es singular:

\ Boldsymbol {\ sombrero \ beta} = \ mathbf {\ left (X ^ TX \ right) ^ {- 1} X ^ Ty} ,

Específicamente, para el montaje de línea recta, esto se muestra en apropiado línea recta.

Estadísticas de regresión

El segundo objetivo de la regresión es el análisis estadístico de los resultados de ajuste de datos.

Denotemos por \ Sigma ^ 2 la varianza del término de error \ Epsilon (De modo que \ Epsilon_i \ sim N (0, \ sigma ^ 2) \, para cada i = 1, \ ldots, m ). Una estimación no sesgada de \ Sigma ^ 2 es dado por

\ Hat \ sigma ^ 2 = \ frac {S} {m-n} .

La relación entre la estimación y el valor verdadero es:

\ Hat \ sigma ^ 2 \ sim \ frac {\ chi_ {mn} ^ 2} {mn} \ \ sigma ^ 2

donde \ Chi_ {m-n} ^ 2 tiene distribución Chi-cuadrado con m-n grados de libertad.

La aplicación de esta prueba requiere que \ Sigma ^ 2 , La varianza de una observación de unidad de peso, ser estimado. Si el \ Chi ^ 2 prueba se pasa, los datos se puede decir que ser instalados dentro del error de observación.

La solución a las ecuaciones normales se puede escribir como

\ Sombrero \ boldsymbol \ beta = (\ mathbf {X ^ TX) ^ {- 1} X ^ Ty}

Esto demuestra que los estimadores de los parámetros son combinaciones lineales de la variable dependiente. De ello se desprende que, si los errores observacionales se distribuyen normalmente, los estimadores de los parámetros pertenecerán a una distribución t de Student con m-n grados de libertad. La desviación estándar en un estimador de parámetros viene dada por

\ Sombrero \ sigma_j = \ sqrt {\ frac {S} {mn} \ left [\ mathbf {(X ^ TX)} ^ {- 1} \ right] _ {jj}}

La 100 (1- \ alpha)% intervalo de confianza para el parámetro, \ Beta_j , Se calcula como sigue:

\ Sombrero \ beta_j \ pm t _ {\ frac {\ alpha} {2}, mn - 1} \ hat \ sigma_j

Los residuos se pueden expresar como

\ Mathbf {\ hat r = yx \ hat \ boldsymbol \ beta = yx (X ^ TX) ^ {- 1} X ^ Ty} \,

La matriz \ Mathbf {X (X ^ TX) ^ {- 1} X ^ T} se conoce como el matriz sombrero y tiene la propiedad útil que es idempotente. Usando esta propiedad se puede demostrar que, si los errores se distribuyen normalmente, los residuos seguirán una distribución t de Student con m-n grados de libertad. Residuos studentizados son útiles en las pruebas de valores atípicos.

Dado un valor de la variable independiente, x d, la respuesta pronosticada se calcula como

y_d = \ sum_ {j = 1} ^ {n} X_ {dj} \ hat \ beta_j

Escribir los elementos X_ {dj}, \ j = 1, n como \ Mathbf z , La 100 (1- \ alpha)% intervalo de confianza de respuesta media de se da la predicción, utilizando la teoría de la propagación de errores, por:

\ Mathbf {z ^ T \ hat \ boldsymbol \ beta} \ pm t_ {\ frac {\ alpha} {2}, mn} \ hat \ sigma \ sqrt {\ mathbf {z ^ T (X ^ TX) ^ {- 1} z}}

La 100 (1- \ alpha)% los intervalos de confianza de respuesta predichos para los datos están dados por:

\ Mathbf z ^ T \ hat \ boldsymbol \ beta \ pm t _ {\ frac {\ alpha} {2}, mn} \ hat \ sigma \ sqrt {1 + \ mathbf {z ^ T (X ^ TX) ^ {- 1} z}} .

Caso lineal

En el caso de que la fórmula a ser instalados es una línea recta, y = \ alpha + \ beta x \! , Las ecuaciones normales son

\ Begin {array} {lcl} m \ \ alpha + \ sum x_i \ \ beta = \ sum y_i \\ \ suma x_i \ \ alpha + \ sum x_i ^ 2 \ \ beta = \ sum x_iy_i \ end {array}

donde todas las sumas son desde i = 1 hasta i = m. Desde allí, por La regla de Cramer,

\ Sombrero \ beta = \ frac {m \ suma x_iy_i - \ suma x_i \ suma y_i} {\ Delta} = \ frac {\ sum (x_i- \ bar {x}) (y_i- \ bar {y})} { \ sum (x_i- \ bar {x}) ^ 2} \,
\ Sombrero \ alpha = \ frac {\ sum x_i ^ 2 \ suma y_i - \ suma x_i \ suma x_iy_i} {\ Delta} = \ bar y- \ bar x \ hat \ beta

donde

\ Delta = m \ suma x_i ^ 2 - \ left (\ sum x_i \ right) ^ 2

La matriz de covarianza es

\ Frac {1} {\ Delta} \ begin {pmatrix} \ suma x_i ^ 2 & - \ suma x_i \\ - \ resumir x_i & m \ end {pmatrix}

La significa intervalo de confianza respuesta está dada por

y_d = (\ alpha + \ hat \ beta x_D) \ pm t_ {\ frac {\ alpha} {2}, m-2} \ hat \ sigma \ sqrt {\ frac {1} {m} + \ frac {(x_D - \ bar {x}) ^ 2} {\ sum (x_i - \ bar {x}) ^ 2}}

La intervalo de confianza respuesta predicha está dada por

y_d = (\ alpha + \ hat \ beta x_D) \ pm t_ {\ frac {\ alpha} {2}, m-2} \ hat \ sigma \ sqrt {1+ \ frac {1} {m} + \ frac { (x_D - \ bar {x}) ^ 2} {\ sum (x_i - \ bar {x}) ^ 2}}

El análisis de varianza

El análisis de varianza es similar a ANOVA en que la suma de residuos al cuadrado se divide en dos componentes. La suma de cuadrados de regresión (o suma de residuos al cuadrado) SSR (también llamado comúnmente RSS) viene dada por:

\ Mathit {RSS} = \ sum {\ left ({\ y_i sombrero - \ bar y} \ right) ^ 2} = \ hat \ boldsymbol \ beta ^ T \ mathbf {X} ^ T \ mathbf y - \ frac { 1} {n} \ left (\ mathbf {y ^ T uu ^ T y} \ right)

donde \ Bar y = \ frac {1} {n} \ suma y_i y u es un n por 1 unidad vector (es decir, cada elemento es 1). Tenga en cuenta que los términos \ Mathbf {y ^ T u} y \ Mathbf {u ^ T y} son ambos equivalente a \ Suma y_i , Y así el término \ Frac {1} {n} \ mathbf {y ^ T u u ^ T y} es equivalente a \ Frac {1} {n} \ left (\ sum y_i \ right) ^ 2 .

El error (o inexplicable) suma de los cuadrados ESS está dada por:

\ Mathit {SEE} = \ sum \ left (y_i - \ hat y_i \ right) ^ 2 = \ mathbf {y ^ T y - \ hat \ boldsymbol \ beta ^ TX ^ T y}

La suma total de cuadrados TSS está dada por

{\ Mathit {SAT} = \ sum \ left (y_i- \ bar y \ right) ^ 2 = \ mathbf {y ^ T y} - \ frac {1} {n} \ left (\ mathbf {y ^ ^ Tuu Ty} \ right) = \ mathit {RSS} + \ mathit {SEE}}

El coeficiente de Pearson de regresión, R ² viene dada como

{R ^ 2 = \ frac {\ mathit {RSS}} {{\ mathit {SAT}}} = 1 - \ frac {\ mathit {SEE}} {\ mathit {SAT}}}

Ejemplo

Para ilustrar los diversos objetivos de la regresión, damos un ejemplo. El siguiente conjunto de datos da las alturas y pesos medios de las mujeres estadounidenses mayores de 30-39 (fuente: El Almanaque Mundial y Reserva de Datos de 1975).

Altura / m 1.47 1.5 1.52 1.55 1.57 1.60 1.63 1.65 1.68 1.7 1.73 1.75 1.78 1.8 1.83
Peso (kg 52.21 53.12 54.48 55.84 57.2 58.57 59.93 61.29 63.11 64.47 66.28 68.1 69.92 72.19 74.46

Una parcela de peso en contra de la altura (véase más adelante) muestra que no puede ser modelado por una línea recta, por lo que una regresión se realiza mediante el modelado de los datos por una parábola.

y = \ beta_0 + \ beta_1 x + \ beta_2 x ^ 2 + \ epsilon \!

donde la variable dependiente, y, es de peso y la variable independiente, x es la altura.

Coloca los coeficientes, 1, x_i \ \ mbox {y} \ x_i ^ 2 , De los parámetros para la i-ésima observación en el ª fila i de la matriz X.

X = \ begin {bmatrix} 1 y 1,47 y 2,16 \\ 1 y 1,50 y 2,25 \\ 1 y 1,52 y 2,31 \\ 1 y 1,55 y 2,40 \\ 1 y 1,57 y 2,46 \\ 1 y 1,60 y 2,56 \\ 1 & 1 0,63 y 2,66 \\ 1 y 1,65 y 2,72 \\ 1 y 1,68 y 2,82 \\ 1 y 1,70 y 2,89 \\ 1 y 1,73 y 2,99 \\ 1 y 1,75 y 3,06 \\ 1 y 1,78 y 3,17 \\ 1 y 1. 81 y 3.24 \\ 1 y 1,83 y 3,35 \\ \ end {bmatrix}
px 388
px 386

Los valores de los parámetros se encuentran resolviendo las ecuaciones normales

\ Mathbf {(X ^ TX) \ boldsymbol \ hat \ beta = X ^ Ty}

Elemento ij de la matriz normal de la ecuación, \ Mathbf {X ^ TX} está formada por la suma de los productos de la columna i y la columna j de X.

X_ {ij} = \ sum_ {k = 1} ^ {k = 15} X_ {ki} X_ {kj}

Elemento i del vector lado derecho \ Mathbf {X ^ Ty} está formada por la suma de los productos de la columna i de X con la columna de valores de variables independientes.

\ Left (\ mathbf {X ^ Ty} \ right) _i = \ sum X_ {ki} y_k

Por lo tanto, las ecuaciones normales son

\ Begin {} bmatrix 15 y 24.76 y 41.05 \\ 24.76 y 41.05 y 68.37 \\ 41.05 y 68.37 y 114.35 \\ \ end {bmatrix} \ begin {bmatrix} \ hat \ beta_0 \\ \ hat \ beta_1 \\ \ sombrero \ beta_2 \\ \ end {bmatrix} = \ begin {} bmatrix 931 \\ 1548 \\ 2586 \\ \ end {bmatrix}
\ Sombrero \ beta_0 = 129 \ pm 16 (Valor \ Pm desviacion estandar)
\ Sombrero \ beta_1 = -143 \ pm 20
\ Sombrero \ beta_2 = 62 \ pm 6

Los valores calculados se dan por

y ^ {calc} _i = \ hat \ beta_0 + \ hat \ beta_1 x_i + \ hat \ beta_2 x ^ 2_i

Los datos observados y calculados se representan juntos y los residuos, y_i-y ^ {calc} _i , Se calculan y se representan. Las desviaciones estándar se calculan mediante la suma de los cuadrados, S = 0,76 .

Los intervalos de confianza se calculan usando:

[\ Hat {\ beta_j} - \ sigma_j t_ {mn; 1- \ frac {\ alpha} {2}}; \ hat {\ beta_j} + \ sigma_j t_ {mn; 1- \ frac {\ alpha} {2 }}]

con \ Alpha = 5%, t_ {m-n; 1- \ frac {\ alpha} {2}} = 2,2. Por lo tanto, podemos decir que el 95% los intervalos de confianza son:

\ Beta_0 \ in [92.9,164.7]
\ Beta_1 \ in [-186,8, -99,5]
\ Beta_2 \ in [48.7,75.2]

Comprobación de las hipótesis del modelo

Los supuestos del modelo se comprueban mediante el cálculo de los residuos y trazarlos. Los siguientes gráficos se pueden construir para probar la validez de los supuestos:

  1. Los residuos según la variable, como se ilustra arriba.
  2. La serie gráfico de tiempo de los residuos, es decir, el trazado de los residuales como una función del tiempo.
  3. Residuos contra los valores ajustados, \ Hat \ mathbf y \, .
  4. Residuos contra el residual anterior.
  5. Un gráfico de probabilidad normal de los residuales para probar la normalidad. Los puntos deben estar en línea recta.

No debe haber ningún patrón perceptible a los datos en todo menos en la última trama

Comprobación de la validez del modelo

La validez del modelo se puede comprobar con cualquiera de los métodos siguientes:

  1. Usando el intervalo de confianza para cada uno de los parámetros, \ Sombrero \ beta_j . Si el intervalo de confianza incluye 0, entonces el parámetro puede ser retirado del modelo. Idealmente, sería necesario un nuevo análisis de regresión excluyendo ese parámetro a realizar y continuó hasta que no hay más parámetros para eliminar.
  2. En el montaje de una línea recta, calcular el coeficiente de Pearson de regresión. Cuanto más cerca el valor es 1; mejor es la regresión es. Este coeficiente da qué fracción de la conducta observada se explica por las variables dadas.
  3. El examen de los intervalos de confianza de observación y predicción. Cuanto más pequeños son los mejores.
  4. Cálculo de la F-estadísticas.

Otros procedimientos

Mínimos cuadrados ponderados

Mínimos cuadrados ponderados es una generalización del método de mínimos cuadrados, que se utiliza cuando los errores observacionales tienen varianza desigual.

Errores en las variables del modelo

Errores en las variables de modelo o total de los mínimos cuadrados cuando la variable independiente está sujeta a error

Modelo lineal generalizado

Modelo lineal generalizado se utiliza cuando la función de distribución de los errores no es una distribución Normal. Los ejemplos incluyen la distribución exponencial , distribución gamma, Distribución Inversa de Gauss, la distribución de Poisson , distribución binomial , distribución multinomial

Regresión robusta

Una serie de enfoques alternativos para el cálculo de los parámetros de regresión se incluyen en la categoría conocida como regresión robusta. Una técnica minimiza la media error absoluto, o alguna otra función de los residuos, en lugar de error cuadrático medio como en la regresión lineal. Regresión robusta es mucho más computacionalmente intensivas que la regresión lineal y es algo más difícil de implementar también. Mientras menos estimaciones plazas no son muy sensibles a la ruptura de la normalidad de la suposición de errores, esto no es cierto cuando la varianza o media de la distribución de error no está acotado, o cuando un analista que puede identificar valores atípicos no está disponible.

Entre Usuarios de Stata, regresión robusta se toma con frecuencia en el sentido de regresión lineal con las estimaciones de error estándar Huber-blancos debido a las convenciones de nomenclatura para los comandos de regresión. Este procedimiento se relaja el supuesto de homocedasticidad de varianza estima solamente; los predictores son todavía mínimos cuadrados ordinarios (MCO) estimaciones. Esta vez en cuando lleva a la confusión; Usuarios de Stata veces creen que la regresión lineal es un método robusto cuando se utiliza esta opción, aunque en realidad no es robusto en el sentido de outlier-resistencia.

Aplicaciones de la regresión lineal

La regresión lineal es ampliamente utilizado en las ciencias biológicas, conductuales y sociales para describir las relaciones entre las variables. Esta considerado como una de las herramientas más importantes que se utilizan en estas disciplinas.

La línea de tendencia

Una línea de tendencia representa un tendencia, el movimiento a largo plazo en datos de series de tiempo después de otros componentes han tenido en cuenta. Le dice si un conjunto de datos en particular (digamos PIB, los precios del petróleo o precios de las acciones) han aumentado o disminuido durante el período de tiempo. Una línea de tendencia podría simplemente ser dibujado por ojo a través de un conjunto de puntos de datos, pero más adecuadamente su posición y la pendiente se calcula utilizando técnicas estadísticas como la regresión lineal. Las líneas de tendencia típicamente son líneas rectas, aunque algunas variaciones utilizan polinomios de grado superior, dependiendo del grado de curvatura deseada en la línea.

Las líneas de tendencia se utilizan a veces en Business Analytics para mostrar los cambios en los datos a través del tiempo. Esto tiene la ventaja de ser simple. Las líneas de tendencia se utilizan a menudo para argumentar que una acción particular o evento (como la formación, o una campaña publicitaria) causaron los cambios observados en un punto en el tiempo. Esta es una técnica simple, y no requiere de un grupo de control, el diseño experimental, o una técnica de análisis sofisticado. Sin embargo, adolece de una falta de validez científica en los casos en que otros cambios potenciales pueden afectar a los datos.

Medicina

Como un ejemplo, la evidencia preliminar en relación fumar tabaco a la mortalidad y la morbilidad vino de estudios que emplean regresión. Los investigadores por lo general incluyen varias variables en su análisis de regresión en un esfuerzo por eliminar los factores que podrían producir correlaciones espurias. Para el ejemplo tabaquismo, los investigadores podrían incluir el estatus socio-económico, además de fumar para asegurar que cualquier efecto del tabaquismo sobre la mortalidad observada no se debe a un efecto de la educación o ingresos. Sin embargo, nunca es posible incluir todas las posibles variables de confusión en un estudio de regresión empleando. Para el ejemplo de fumar, un hipotético gen podría aumentar la mortalidad y también hacer que las personas fuman más. Por esta razón, Los ensayos controlados aleatorios se consideran más fiables que un análisis de regresión.

Finanzas

La Capital Asset Pricing Model utiliza la regresión lineal, así como el concepto de Beta para analizar y cuantificar el riesgo sistemático de una inversión. Esto viene directamente de la Coeficiente Beta del modelo de regresión lineal que relaciona el rendimiento de la inversión para el retorno de todos los activos de riesgo.

Regresión puede no ser la forma apropiada para estimar beta en finanzas, dado que se supone que debe proporcionar la volatilidad de una inversión con respecto a la volatilidad del mercado en su conjunto. Para ello sería necesario que tanto estas variables ser tratados de la misma manera cuando se estima la pendiente. Mientras trata de regresión toda la variabilidad como en la inversión vuelve variable, es decir que sólo tiene en cuenta los residuos en la variable dependiente.

Recuperado de " http://en.wikipedia.org/w/index.php?title=Linear_regression&oldid=208952832 "