La regresión es una herramienta fundamental en estadística que nos permite modelar y entender las relaciones entre diferentes variables. Tenemos variables independientes, que son las que usamos para predecir, y variables dependientes, que son las que queremos predecir. Por ejemplo, podemos usar las horas de estudio para predecir las calificaciones de un estudiante. En este gráfico vemos una correlación positiva: a más horas de estudio, mejores calificaciones.
La regresión lineal simple es el tipo más básico de regresión. Utiliza la ecuación y igual a m por x más b, donde m es la pendiente que indica cuánto cambia Y por cada unidad de cambio en X, y b es el intercepto, el valor de Y cuando X es cero. El objetivo es encontrar la mejor línea recta que pase a través de nuestros puntos de datos, minimizando las diferencias entre los valores reales y los predichos por la línea.
El método de mínimos cuadrados es la técnica matemática que utilizamos para encontrar la mejor línea de regresión. Este método minimiza la suma de los cuadrados de los residuos, que son las diferencias entre los valores reales y los valores predichos por la línea. Las fórmulas nos permiten calcular exactamente la pendiente y el intercepto óptimos. Los cuadrados amarillos representan visualmente estos residuos al cuadrado que queremos minimizar.
Para evaluar la calidad de nuestro modelo de regresión, utilizamos varias métricas importantes. El R cuadrado nos dice qué proporción de la variabilidad en Y es explicada por X, donde 1 significa ajuste perfecto y 0 significa que no hay relación lineal. El error cuadrático medio mide el promedio de los errores al cuadrado. En estos ejemplos vemos la diferencia entre un buen ajuste con R cuadrado de 0.95 y un mal ajuste con R cuadrado de solo 0.15.
Existen varios tipos de regresión más allá de la lineal simple. La regresión múltiple utiliza varias variables independientes para hacer predicciones más precisas. La regresión polinomial puede capturar relaciones no lineales usando curvas cuadráticas o cúbicas. La regresión logística se usa para variables categóricas. En este gráfico vemos cómo diferentes tipos de regresión se ajustan al mismo conjunto de datos: la línea roja es lineal, la verde es cuadrática y la morada es cúbica.