Métodos de discretización (minería de datos)

Algunos algoritmos que se usan para crear modelos de minería de datos en SQL Server Analysis Services requieren tipos de contenido específicos para funcionar correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede usar columnas continuas como entrada y no puede predecir valores continuos. Además, algunas columnas pueden contener tantos valores que el algoritmo no puede identificar fácilmente patrones interesantes en los datos desde los que crear un modelo.

En estos casos, puede discretizar los datos de las columnas para permitir el uso de los algoritmos y así generar un modelo de minería de datos. La discretización es el proceso de colocar valores en cubos para que haya un número limitado de estados posibles. Los cubos se tratan como valores ordenados y discretos. Puede discretizar columnas numéricas y de cadena.

Hay varios métodos que puede usar para discretizar datos. Si la solución de minería de datos usa datos relacionales, puede controlar el número de cubos que se usarán para agrupar datos estableciendo el valor de la DiscretizationBucketCount propiedad . El número predeterminado de cubos es 5.

Si la solución de minería de datos usa datos de un cubo de procesamiento analítico en línea (OLAP), el algoritmo de minería de datos calcula automáticamente el número de cubos que se van a generar mediante la siguiente ecuación, donde n es el número de valores distintos de datos de la columna:

Number of Buckets = sqrt(n)

Si no desea que Analysis Services calcule el número de cubos, puede usar la DiscretizationBucketCount propiedad para especificar manualmente el número de cubos.

En la tabla siguiente se describen los métodos que puede usar para discretizar datos en Analysis Services.

Método de discretización	Descripción
`AUTOMATIC`	Analysis Services determina qué método de discretización se va a usar.
`CLUSTERS`	El algoritmo divide los datos en grupos mediante el muestreo de los datos de entrenamiento, la inicialización en varios puntos aleatorios y, a continuación, ejecuta varias iteraciones del algoritmo de agrupación en clústeres de Microsoft mediante el método de agrupación en clústeres Expectation Maximization (EM). El `CLUSTERS` método es útil porque funciona en cualquier curva de distribución. Sin embargo, requiere más tiempo de procesamiento que los otros métodos de discretización. Este método solo se puede usar con columnas numéricas.
`EQUAL_AREAS`	El algoritmo divide los datos en grupos que contienen un número igual de valores. Este método se usa mejor para curvas de distribución normales, pero no funciona bien si la distribución incluye un gran número de valores que se producen en un grupo estrecho en los datos continuos. Por ejemplo, si una mitad de los elementos tiene un costo de 0, la mitad de los datos se producirán bajo un único punto de la curva. En esta distribución, este método divide los datos en un esfuerzo para establecer la discretización igual en varias áreas. Esto produce una representación inexacta de los datos.

Observaciones

Puede usar el EQUAL_AREAS método para discretizar cadenas.
El CLUSTERS método usa una muestra aleatoria de 1000 registros para discretizar los datos. Utilice el método EQUAL_AREAS si no desea que el algoritmo muestree los datos.
El tutorial del modelo de minería de datos de red neuronal proporciona un ejemplo de cómo se puede personalizar la discretización. Para obtener más información, vea Lección 5: Creación de modelos de regresión logística y red neuronal (Tutorial intermedio de minería de datos).

Véase también

Tipos de contenido (minería de datos)
Tipos de contenido (DMX)
Algoritmos de minería de datos (Analysis Services - Minería de datos)
Estructuras de minería (Servicios de Análisis - Minería de Datos)
Tipos de datos (minería de datos)
Columnas de la estructura de minería de datos
Distribuciones de columnas (minería de datos)

Last updated on 2017-03-06

Compartir a través de

Métodos de discretización (minería de datos)

Observaciones

Véase también

Recursos adicionales