Uno de las primeras cosas que aprendí durante mis estudios fue el método de los mínimos cuadrados, cuenta la historia que en los años 1800 Zach un astrónomo alemán amigo Gauss estudiaba la órbita del pequeño planeta Ceres, lamentablemente Zach solo pudo estudiar la órbita de Ceres durante algunas semanas antes de que Ceres desapareciera detrás del sol. Varios intentaron predecir cuando volvería a aparecer Ceres en el cielo nocturno, sin embargo solo uno lo logro, y este fue Gauss con su método de los mínimos cuadrados. Uno de las primeras cosas que aprendí durante mis estudios fue el método de los mínimos cuadrados, cuenta la historia que en los años 1800 Zach un astrónomo alemán amigo Gauss estudiaba la órbita del pequeño planeta Ceres, lamentablemente Zach solo pudo estudiar la órbita de Ceres durante algunas semanas antes de que Ceres desapareciera detrás del sol. Varios intentaron predecir cuando volvería a aparecer Ceres en el cielo nocturno, sin embargo solo uno lo logro, y este fue Gauss con su método de los mínimos cuadrados.1
El método de los mínimos cuadrados nos permite “ajustar” una serie de datos ordenados, es decir, parejas de datos ordenados $(x,y)$ a una familia de curvas, minimizando el error al cuadrado. Por ejemplo dado un conjunto de puntos $(x,y)$ en el plano nos interesa encontrar la línea que esta mas cerca de todos los puntos, como se muestra a continuación,
Aunque la deducción del método es interesante en si misma, no lo haremos aquí, pero puedes revisarla en Wikipedia o aqui, entonces puedes preguntarte sobre que es este post, en este post hablaremos de por que usamos el cuadrado del error o el error cuadrático y no el valor absoluto del error.
La verdad es que esta es una pregunta bastante interesante, el método de mínimos cuadrados nos da una predicción digamos $(x,y_{pred})$ a nuestros datos originales $(x,y_{org})$ de aquí el hecho de “ajustar”, es natural pensar en minimizar el valor absoluto del error $|y_{org}-y_{pred}|$ pues se acerca más a lo que medimos, entonces por que usar el error cuadrático $(y_{org}-y_{pred})^2$ , esto es por algunas de sus propiedades matemáticas,
Es diferenciable en todos lados,
mientras el valor absoluto no es diferenciable en el cero, esto lo vuelve un mejor candidato para métodos de optimizan, ya que muchos usan la derivada para resolver el problema de optimización.
Viene de un producto interno,
el error cuadrático es inducido por un producto interno, del espacio donde trabajamos en este caso $\mathbf{R}^2$ y el producto interno euclideano(el usual) $<(a_1,b_1),(a_2,b_2)>=\sqrt((a_2-a_1)^2+(b_2-b_1)^2)$ y eso no ayuda a tener una idea geométrica del espacio, en particular nos da la noción de,
- Ángulo recto si $<a,b>=0$
- Longitud $\lVert x\rVert=\sqrt<x,x>$
al decir que el error cuadrático viene de un producto interno nos referimos a que el error entre $a=(x,y_{org})$ y $b=(x,y_{pred})$ es simplemente $\lVert a-b\rVert^2$ esta propiedad no ayuda a que el error es “independiente” de los ejes
El error cuadrático también tiene otras propiedades estadísticas importantes pero eso será para otro post ;).