La multicolinealidad es un desafío bien conocido en la regresión múltiple. El término se refiere a la alta correlación entre dos o más variables explicativas, es decir, predictoras. Puede ser un problema en el aprendizaje automático, pero lo que realmente importa es su caso de uso específico.
De acuerdo a
Como puede ver, todos estos se relacionan con la importancia variable. En muchos casos, la regresión múltiple se usa con el propósito de comprender algo. Por ejemplo, un ecólogo podría querer saber qué tipo de factores ambientales y biológicos provocan cambios en el tamaño de la población de chimpancés. Si el objetivo es la comprensión, la comprobación de la correlación entre los predictores es una práctica estándar. Dicen que una imagen vale más que mil palabras así que veamos algo de multicolinealidad.
Imagine que desea comprender qué impulsa el consumo de combustible en los automóviles. Podemos usar un conjunto de datos llamado mtcars que tiene información sobre millas por galón (mpg) y otros detalles sobre diferentes modelos de automóviles. Cuando graficamos las correlaciones de todas las variables continuas, podemos ver muchas correlaciones fuertes, es decir, multicolinealidad.
Cuando realicé una regresión lineal simple con estos datos, el peso del automóvil (wt) apareció como un predictor estadísticamente significativo. También vemos que otras variables se correlacionan fuertemente con nuestro objetivo (mpg). Aún así, el modelo no los reconoció como predictores importantes debido a la multicolinealidad.
Cuando pensamos en la regresión, debemos hacer una suposición sobre la distribución, la forma de los datos. Cuando necesitamos especificar una distribución, este es un método paramétrico. por ejemplo, el
Los algoritmos de aprendizaje automático (ML) generalmente tienen como objetivo lograr la mejor precisión o un error de predicción bajo, no para explicar la verdadera relación entre los predictores y la variable objetivo. Esto puede hacerle creer que la multicolinealidad no es un problema en el aprendizaje automático. De hecho, al buscar "multicolinealidad y aprendizaje automático", uno de los principales resultados de búsqueda fue un
Yo no sería tan directo.
La multicolinealidad puede ser un problema en el aprendizaje automático.
Por ejemplo,
Bueno, usemos redes neuronales para todo, ¿no?
El problema es que, en la práctica, debe explicar el comportamiento de su sistema, especialmente si toma decisiones.
Pero, ¿y si realmente no te importa explicar y entender nada? Solo desea una bonita caja negra que tenga un rendimiento excepcional. Si ese es el caso, usted está fuera de peligro; puede ignorar los predictores correlacionados pero luego no verificar la importancia de la variable cuando alguien le pregunte al respecto.
Para aquellos interesados en manejar características correlacionadas, aquí hay algunos consejos.
Puedes lidiar con la multicolinealidad por
Ambas soluciones lo limitarán de manera diferente. Como
Las variables predictivas correlacionadas pueden ser un problema en el aprendizaje automático y los métodos no paramétricos. La multicolinealidad no es su amiga, por lo que siempre debe verificar dos veces si su método elegido puede manejarla automáticamente. Aún así, la solución dependerá de su caso de uso; principalmente, si necesita explicar lo que el modelo ha aprendido o no.
Para una inmersión profunda en el tema, recomiendo leer