builderall

¿Que es la regresion lineal y para que sirve?

Escrito por: Genaro Delgado
 

La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua como una función de una o varias variables predictoras. Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales, financieros y biológicos.
Las técnicas de regresión lineal permiten crear un modelo lineal. Este modelo describe la relación entre una variable dependiente (también conocida como la respuesta) como una función de una o varias variables independientes Xi (denominadas predictores). 
Pongamos un ejemplo para que quede mas claro, si queremos determinar el precio de renta o venta de una casa o departamento, la variable dependiente seria el precio de venta o renta, y la o las variables independientes podrian ser, los metros cuadrados de terreno, metros cuadrados de construccion, numero de cuartos, numero de baños, lugares de estacionamiento, etc. 
La variable dependiente Y, es decir el precio de venta o renta, claramente depende de las variables independientes anteriormente mencionadas, aunque es casi imposible considerar todas las variables independientes que afecten a la variable dependiente, por ejemplo tambien se podria considerar los años que tiene la construccion, el numero de ventanas, el tipo de piso, incluso el numero de puertas, todo esto y mas puede afectar el precio de renta o venta. 
En este escrito solo daremos una idea intutiva de como funciona el algoritmo sin meternos tanto en las matematicas y tecnisismos dado que son un poco avanzadas, pero si quieres saber mas sobre la parte tecnica ingresa aqui.
 

¿Como determinar el precio de una casa o departamento con una regresion lineal?

Ahora explicaremos como determinar el precio de una casa o departamento apartir de las variables dependientes menciondas anteriormente pero sin conocer, claro esta, la variable dependiente, que en este caso es el precio

Lo primero que necesitamos es una base de datos, con variables dependientes e independientes conocidas, ya que el algoritmo funciona en base a observaciones y datos conocidos. 
Para ilustrar el ejemplo usaremos la siguiente base de datos,  en donde solo consideramos los m2 de terreno y m2 de construccion

 

m2 construccion m2 terreno Precio
135 108 1099000
221 190 2100000
180 150 1468000
120 100 685000
330 320 2000000
240 240 2300000
207 120 2500000
257 120 2400000
244 199 3200000

Para cada observacion, si nos fijamos solamente en los m2 de construccion y en el precio, podemos graficarla como puntos en el plano
para la primera observacion que es de 135 m2 y de precio $1099000 el grafico es el siguiente

Para cada observacion tenemos un punto en el plano, si graficamos todas las observaciones de nuestra base de datos, añadiendo algunas observaciones  mas, el grafico se ve como  sigue

Lo que hace el algoritmo de regresion lineal es ajustar una linea recta en el grafico anterior, y con ello ya podemos determinar el precio de una casa solamente conociendo los m2 de construccion, la grafica con la linea recta ajustada es la siguiente:

Usando esta linea recta podemos determinar el precio de una casa, por ejemplo si tenemos una cas de 200 m2 de construccion, el modelo nos da un valor aproximado de 1750000, si tenemos una casa de 250 metros cuadrados, el modelo nos da un precio aproximado de 2100000.

En este caso solamente estamos considerando los metros cuadrados de construccion, aunque como mencionamos anteriormente el precio depende de muchas mas variables.
El problema al considerar mas variables es que ya no podemos graficar, por que si tenemos por ejemplo tres variables independientes y una variable dependiente, el grafico seria de 4 dimensiones lo cual ya no se puede visualizar pero afortunadamente si se puede trabajar matematicamente.
La idea es la misma, solo que en mas dimensiones 

Una base de datos que se puede usar para determinar el precio de un departamento es la siguiente:

En conclusion la regresion lineal nos permite analisar grandes cantidades de informacion y como las variables independientes, como numero de cuartos, lugares de estacionamiento, etc. afectan a nuestra variable dependiente que en este caso es el precio de la casa