Explica en detalle el concepto de escalamiento y normalizacion en el ambito de Machine Learning .
视频信息
答案文本
视频字幕
En Machine Learning, el escalamiento y la normalización son técnicas esenciales de preprocesamiento de datos. Estas transforman las características de un conjunto de datos para que tengan escalas similares. Por ejemplo, si tenemos datos de edad en años y salario en miles, las diferencias de escala pueden hacer que algunos algoritmos den más importancia al salario simplemente por tener valores más grandes.
El escalamiento Min-Max es una técnica que transforma los datos a un rango fijo, típicamente entre 0 y 1. La fórmula resta el valor mínimo y divide por el rango total. Como vemos en el ejemplo, los valores originales de 20 a 100 se transforman proporcionalmente al rango 0 a 1. Esta técnica preserva las relaciones originales entre los datos, pero es sensible a valores atípicos que pueden comprimir el resto de los datos.
La estandarización o Z-score transforma los datos para que tengan media cero y desviación estándar uno. La fórmula resta la media y divide por la desviación estándar. Como vemos en las gráficas, la distribución original centrada en 50 se transforma a una distribución centrada en cero. Esta técnica es menos sensible a valores atípicos que el escalamiento Min-Max y es especialmente útil cuando los datos siguen una distribución aproximadamente normal.
La normalización ajusta la magnitud de cada vector muestra individualmente, típicamente para que tenga norma unitaria. A diferencia del escalamiento que opera sobre características, la normalización opera sobre muestras. En el ejemplo vemos un vector original de magnitud 5 que se normaliza a magnitud 1, manteniendo su dirección. Esto es útil cuando queremos comparar vectores basándose en su dirección y no en su magnitud, como en análisis de texto o cuando usamos similitud de coseno.
Para elegir la técnica correcta, debemos considerar el algoritmo y los datos. Usa escalamiento Min-Max cuando necesites un rango específico como 0 a 1, especialmente en redes neuronales. La estandarización es mejor para algoritmos sensibles a escala como regresión lineal, SVM y KNN, especialmente cuando hay valores atípicos. La normalización se usa cuando la dirección del vector es más importante que su magnitud, como en análisis de texto. El preprocesamiento adecuado es fundamental para el éxito en Machine Learning.