Compartir a través de


Personalización de modelos y estructura de minería

Después de seleccionar un algoritmo que satisfaga sus necesidades empresariales, puede personalizar el modelo de minería de datos de las siguientes maneras para potencialmente mejorar los resultados.

  • Use diferentes columnas de datos en el modelo o cambie el uso, el tipo de contenido o el método de discretización de las columnas.

  • Cree filtros en el modelo de minería de datos para restringir los datos usados en el entrenamiento del modelo.

  • Cambie el algoritmo que se usó para analizar los datos.

  • Establezca parámetros de algoritmo para controlar umbrales, divisiones de árbol y otras condiciones importantes.

En este tema se describen estas opciones.

Cambio de datos usados por el modelo

Las decisiones que se toman sobre las columnas de datos que se van a usar en el modelo y cómo usar y procesar esos datos afectan considerablemente a los resultados del análisis. En los temas siguientes se proporciona información para ayudarle a comprender estas opciones.

Uso de la selección de características

La mayoría de los algoritmos de minería de datos de Analysis Services usan un proceso denominado selección de características para seleccionar solo los atributos más útiles para agregar a un modelo. Reducir el número de columnas y atributos puede mejorar el rendimiento y la calidad del modelo. Los métodos de selección de características disponibles difieren en función del algoritmo que elija.

Selección de características (minería de datos).

Cambio del uso

Puede cambiar qué columnas se incluyen en un modelo de minería de datos y cómo se usa cada columna. Si no obtiene los resultados esperados, debe mostrar ejemplos de las columnas que usó como entrada y preguntarse si las columnas son una buena opción y si hay algo que puede hacer para mejorar el control de los datos, entre los que se incluyen:

  • Identificación de variables categóricas que se han etiquetado erróneamente como números.

  • Agregar categorías para contraer el número de atributos y facilitar la búsqueda de correlaciones.

  • Cambiar la forma en que los números están agrupados en intervalos o discretizados.

  • Quitar columnas que tienen muchos valores únicos o columnas que realmente son datos de referencia y que no son útiles para el análisis, como direcciones o nombres intermedios.

No es necesario quitar físicamente columnas de la estructura de minería; simplemente puede marcar la columna como Omitir. La columna se quita del modelo de minería de datos, pero otros modelos de minería de datos pueden usarse en la estructura o en una consulta de obtención de detalles.

Creación de alias para columnas de modelo

Cuando Analysis Services crea el modelo de minería de datos, usa los mismos nombres de columna que están en la estructura de minería de datos. Puede agregar un alias a cualquier columna del modelo de minería de datos. Esto puede facilitar la comprensión del contenido o el uso de las columnas, o bien hacer que el nombre sea más corto para mayor comodidad al crear consultas. Los alias también son útiles cuando se desea crear una copia de una columna y asignarle un nombre descriptivo.

Para crear un alias, edite la Name propiedad de la columna del modelo de minería de datos. Analysis Services sigue usando el nombre original como identificador de la columna, y el valor nuevo que usted escribe en Name se convierte en el alias de la columna, y aparece en la cuadrícula entre paréntesis junto al uso de la columna.

alias de columnas del modelo de

El gráfico muestra modelos relacionados que tienen varias copias de una columna de estructura de minería, todas relacionadas con Ingresos. Cada copia de la columna de estructura se ha discretizado de una manera diferente. Los modelos en el diagrama usan cada uno una columna diferente de la estructura de minería de datos; sin embargo, para mayor comodidad al comparar las columnas entre los modelos, la columna en cada modelo ha sido renombrada a [Ingresos].

Agregar filtros

Puede agregar un filtro a un modelo de minería de datos. Un filtro es un conjunto de condiciones WHERE que restringen los datos de los casos del modelo a algún subconjunto. El filtro se usa al entrenar el modelo y, opcionalmente, se puede usar al probar el modelo o crear gráficos de precisión.

Al agregar filtros, puede reutilizar estructuras de minería de datos, pero crear modelos basados en subconjuntos muy diferentes de los datos. O bien, simplemente puede usar filtros para eliminar determinadas filas y mejorar la calidad del análisis.

Para obtener más información, vea Filtros para modelos de minería de datos (Analysis Services - Minería de datos).

Cambiar el algoritmo

Aunque los nuevos modelos que agregue a una estructura de minería de datos comparten el mismo conjunto de datos, puede obtener resultados diferentes mediante un algoritmo diferente (si los datos lo admiten) o cambiando los parámetros del algoritmo. También puede establecer marcas de modelado.

La elección del algoritmo determina qué tipo de resultados obtendrá. Para obtener información general sobre cómo funciona un algoritmo específico o los escenarios empresariales en los que se beneficiaría del uso de un algoritmo determinado, consulte Algoritmos de minería de datos (Analysis Services - Minería de datos).

Consulte el tema de referencia técnica de cada algoritmo para obtener una descripción de los requisitos y restricciones, así como información detallada sobre las personalizaciones que admite cada algoritmo.

Algoritmo de árboles de decisión de Microsoft Algoritmo de serie temporal de Microsoft
Algoritmo de agrupación en clústeres de Microsoft Algoritmo de red neuronal de Microsoft
Algoritmo bayes naive de Microsoft Algoritmo de regresión logística de Microsoft
Algoritmo de asociación de Microsoft Algoritmo de regresión lineal de Microsoft
Algoritmo de agrupación en clústeres de secuencia de Microsoft

Personalización de parámetros de algoritmo

Cada algoritmo admite parámetros que puede usar para personalizar el comportamiento del algoritmo y ajustar los resultados del modelo. Para obtener una descripción de cómo usar cada parámetro, consulte los temas siguientes:

En el tema de cada tipo de algoritmo también se enumeran las funciones de predicción que se pueden usar con modelos basados en ese algoritmo.

Nombre de propiedad Se aplica a
AUTO_DETECTAR_PERIODICIDAD Referencia técnica del algoritmo de serie temporal de Microsoft
Recuento_de_Clústeres Referencia técnica del algoritmo de agrupación en clústeres de Microsoft

Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft
SEMILLA_DEL_CLUSTER Referencia técnica del algoritmo de agrupación en clústeres de Microsoft
Método de agrupamiento Referencia técnica del algoritmo de agrupación en clústeres de Microsoft
PENALIZACIÓN_COMPLEJIDAD Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de serie temporal de Microsoft
FORCE_REGRESSOR Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Indicadores de Modelado (Minería de Datos)
MÉTODO_DE_PRONÓSTICO Referencia técnica del algoritmo de serie temporal de Microsoft
HIDDEN_NODE_RATIO Referencia técnica del algoritmo de red neuronal de Microsoft
CONTEO_MODELOS_HISTÓRICOS Referencia técnica del algoritmo de serie temporal de Microsoft
BRECHA_DEL_MODELO_HISTÓRICO Referencia técnica del algoritmo de serie temporal de Microsoft
Porcentaje de reserva Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Nota: Este parámetro es diferente del valor de porcentaje de espera que se aplica a una estructura de minería de datos.
HOLDOUT_SEED Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Nota: Este parámetro es diferente del valor de semilla de reserva que se aplica a una estructura de minería.
INESTABILIDAD_SENSIBILIDAD Referencia técnica del algoritmo de serie temporal de Microsoft
ATRIBUTOS_DE_ENTRADA_MÁXIMOS Referencia técnica del algoritmo de agrupación en clústeres de Microsoft

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Referencia técnica del algoritmo Bayes naive de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft
CUENTA_MÁXIMA_CONJUNTO_DE_ELEMENTOS Referencia técnica del algoritmo de asociación de Microsoft
TAMAÑO_MÁXIMO_DEL_CONJUNTO_DE_ELEMENTOS Referencia técnica del algoritmo de asociación de Microsoft
ATRIBUTOS_DE_SALIDA_MÁXIMA Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de regresión lineal de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo Bayes naive de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft
ESTADOS_SECUENCIA_MÁXIMA Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft
VALOR_MÁXIMO_SERIE Referencia técnica del algoritmo de serie temporal de Microsoft
ESTADOS_MÁXIMOS Referencia técnica del algoritmo de agrupación en clústeres de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft

Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft
SOPORTE MÁXIMO Referencia técnica del algoritmo de asociación de Microsoft
IMPORTANCIA_MÍNIMA Referencia técnica del algoritmo de asociación de Microsoft
TAMAÑO_MÍNIMO_DEL_CONJUNTO_DE_ELEMENTOS Referencia técnica del algoritmo de asociación de Microsoft
PROBABILIDAD_MÍNIMA_DEPENDENCIA Referencia técnica del algoritmo Bayes naive de Microsoft
PROBABILIDAD_MÍNIMA Referencia técnica del algoritmo de asociación de Microsoft
VALOR_MÍNIMO_SERIE Referencia técnica del algoritmo de serie temporal de Microsoft
Soporte mínimo Referencia técnica del algoritmo de asociación de Microsoft

Referencia técnica del algoritmo de agrupación en clústeres de Microsoft

Referencia técnica del algoritmo de árboles de decisión de Microsoft

Referencia técnica del algoritmo de agrupación en clústeres de secuencia de Microsoft

Referencia técnica del algoritmo de serie temporal de Microsoft
MISSING_VALUE_SUBSTITUTION Referencia técnica del algoritmo de serie temporal de Microsoft
Modelado de Cardinalidad Referencia técnica del algoritmo de agrupación en clústeres de Microsoft
INDICACIÓN DE PERIODICIDAD Referencia técnica del algoritmo de serie temporal de Microsoft
SUAVIZADO_DE_PREDICCIÓN Referencia técnica del algoritmo de serie temporal de Microsoft
TAMAÑO_DE_MUESTRA Referencia técnica del algoritmo de agrupación en clústeres de Microsoft

Referencia técnica del algoritmo de regresión logística de Microsoft

Referencia técnica del algoritmo de red neuronal de Microsoft
Método de Puntuación Referencia técnica del algoritmo de árboles de decisión de Microsoft
MÉTODO_DE_DIVISIÓN Referencia técnica del algoritmo de árboles de decisión de Microsoft
Tolerancia de Parada Referencia técnica del algoritmo de agrupación en clústeres de Microsoft

Véase también

Algoritmos de minería de datos (Analysis Services - Minería de datos)Arquitectura física (Analysis Services - Minería de datos)