Regresión lineal y correlación

Análisis de correlación
Véalo aquí
 
Análisis de correlación: se usa un gupo de técnicas estadísticas para medir la fuerza de la relación (correlación) entre dos variables.
Diagrama de dispersión: gráfica que describe la relación entre las dos variables de interés.
Variable dependiente: la variable que se pronostica o estima.
Variable independiente: la variable que proporciona la base para la estimación. Es la variable predictora.

Coeficiente de correlación, r
Véalo aquí

El coeficiente de correlación (r) es una medida de la intensidad de la relación entre dos variables.
Requiere datos con escala de intervalo o de razón (variables).
Puede tomar valores entre -1.00 y 1.00.
Valores de -1.00 o 1.00 indican correlación fuerte y perfecta.
Valores cercanos a 0.0 indican correlación débil.
Valores negativos indican una relación inversa y valores positivos indican una relación directa.

Correlación negativa perfecta
Véalo aquí

Correlación positiva perfecta
Véalo aquí

Correlación cero
Véalo aquí


Correlación positiva fuerte
Véalo aquí


Fórmula para r
Véalo aquí


Coeficiente de determinación
Véalo aquí

El coeficiente de determinación, r2 - la proporción de la variación total en la variable dependiente Y que está explicada por o se debe a la variación en la variable independiente X.
El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores de 0 a 1.
Ejemplo:
Dan Ireland, presidente de la sociedad de alumnos de la Universidad de Toledo, está preocupado por el costo de los libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librería. Decide estudiar la relación entre el número de páginas del libro y el costo. Calcule el coeficiente de correlación.
r =.614 (verifique)
Pruebe la hipótesis de que no existe correlación en la población. Use .02 de nivel de significancia.
Paso 1: H0 la correlación en la población es cero. H1 la correlación en la población es distinta de cero.
Paso 2: H0 se rachza si t>3.143 o si t<-3.143, gl = 6, a = .02
El estadístico de prueba es t = 1.9055, calculado por


con (n - 2) grados de libertad
Paso 4: H0 no se rechaza

Análisis de regresión
Véalo aquí

Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X).
Procedimiento: seleccionar una muestra de la población y enumerar los datos por pares para cada observación; dibujar un diagrama de dispersión para visualizar la relación; determinar la ecuación de regresión.
La ecuación de regresión: Y’= a + bX, donde:
Y’ es el valor promedio pronosticado de Y para cualquier valor de X.
a es la intercepción en Y, o el valor estimado de Y cuando X = 0
b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de una unidad en X
se usa el principio de mínimos cuadrados para obtener a y b:

Ejemplo:
Desarrollar una ecuación de regresión para la información dada en el EJEMPLO de coeficiente de regresión que puede usarse para estimar el precio de venta basado en el número de páginas.
Por el principio de mínimos cuadrados,
b = .01714 y a = 16.00175
Y’ = 16.00175 + .01714X
 

Error estándar de la estimación
Véalo aquí

El error estándar de la estimación mide la dispersión de los valores observados alrededor de la recta de regresión.
Fórmulas usadas para calcular el error estándar:

 

Suposiciones fundamentales de regresión lineal
Véalo aquí

Para cada valor de X, existe un grupo de valores de Y que tienen una distribución normal.
Las medias de estas distribuciones normales de valores de Y deben estar sobre la recta de regresión.
Las desviaciones estándar de estas distribuciones normales son iguales.
Los valores de Y son estadísticamente independientes. Es decir, que en la selección de una muestra, los valores elegidos de Y para un valor particular de X no depende de los valores de Y para otro valor de X.
 

Intervalo de confianza
Véalo aquí

El intervalo de confianza para el valor medio de Y para un valor dado de X está definido por:

 

Intervalo de predicción
Véalo aquí

El intervalo de predicción para un valor individual de Y para un valor dado de X se define por:

Ejemplo
Use la información del primer ejemplo:
calcule el error estándar de la estimación:

desarrolle un intervalo de confianza de 95% para los libros de 650 páginas: [24.03, 30.25]. Verifique
desarrolle un intervalo de predicción de 95% para un libro de 650 páginas: [18.09, 36.19] Verifique

 

Más sobre el coeficiente de determinación
Véalo aquí


 
<< atras

Tabla de contenidos

adelante >>