¿Es que cuantas más características incorporemos, mejor funcionará el clasificador?

La incorporación de más características a un vector de características, que se alimenta aún más a un clasificador clásico de aprendizaje automático no necesariamente aumenta la precisión de la clasificación. La razón principal es que las características agregadas pueden no ser útiles y, por lo tanto, no ayudan al clasificador a distinguir entre las clases.

Si el vector de características se sobrecarga con características inútiles o redundantes, la precisión disminuirá ya que el clasificador no podrá converger a una solución óptima. Este aumento da como resultado un espacio de características extremadamente alta dimensional. En tales espacios de alta dimensión, los algoritmos clásicos de aprendizaje automático, como SVM o KNN, son casi intratables con respecto al entrenamiento. Además, el número de muestras de entrenamiento es mucho menor que la dimensionalidad del espacio de características, al menos en un orden de magnitud. Finalmente, la extracción de características de una estructura de cuadrícula densamente muestreada conduce a un alto grado de multicolinealidad.

Para sortear este problema, los métodos de reducción de dimensionalidad se pueden usar para seleccionar las características que mejor representan las clases. La regresión parcial de mínimos cuadrados ha demostrado ser extremadamente efectiva para lo mismo. Sin embargo, hay muchos otros métodos que se pueden usar como PCA, LDA, FDA, etc.

Este documento puede resultarle útil: Detección humana mediante el análisis de mínimos cuadrados parciales. Enlace: Página en umd.edu

No no siempre. Considere la siguiente configuración para el problema de clasificación:
[matemática] X | Y = 1 [/ matemática] ~ [matemática] N (\ mu_1, I) [/ matemática]
[matemática] X | Y = 0 [/ matemática] ~ [matemática] N (\ mu_2, I) [/ matemática]

[matemáticas] \ mu_1 = [1, 0, …, 0] ^ T [/ matemáticas]
[matemáticas] \ mu_2 = [-1, 0, …, 0] ^ T [/ matemáticas]

X es d dimensional (también lo es [math] \ mu_1 [/ math] y [math] \ mu_2 [/ math]). Pero solo la primera característica nos está ayudando a clasificar. Otras características son irrelevantes. A medida que aumenta d, la distancia entre dos puntos aleatorios en la misma clase se aproxima a la distancia entre dos puntos aleatorios en diferentes clases. Por lo tanto, se vuelve difícil y difícil de clasificar (puede crear una simulación en matlab para ver esto).

Más funciones de ayuda, pero solo hasta cierto punto. Algunas características en realidad no contribuyen en absoluto o contribuyen marginalmente. Existen mecanismos para determinar características útiles.