Compartir a través de


Crear estructura de minería de datos (complementos de minería de datos de SQL Server)

Botón Crear estructura de minería, cinta de datos

Use la opción Avanzadas en el grupo Modelado de datos cuando desee crear un conjunto de datos usado para el análisis sin necesidad de crear un modelo. Esto resulta útil cuando se desea experimentar con algoritmos diferentes.

Después de crear la estructura de minería de datos, use el Asistente para Agregar Modelo a Estructura para crear un modelo basado en esa estructura. También puede crear nuevos modelos mediante el Editor de consultas avanzadas de minería de datos.

También puede usar esta opción cuando piensa crear modelos mediante uno de los algoritmos avanzados, que son compatibles con Analysis Services, pero no están disponibles a través de un asistente, como la regresión lineal o la agrupación en clústeres de secuencia, o si usa un algoritmo personalizado.

Nota:

Al crear la estructura minera, también puede establecer un conjunto de datos de prueba elegido al azar que pueda usar para validar todos sus modelos. Esto resulta útil porque puede comparar fácilmente la precisión del modelo con un conjunto de datos común. Solo tiene que seleccionar la opción Dividir datos en conjuntos de entrenamiento y pruebas y especificar un porcentaje adecuado de datos que se van a reservar para las pruebas, normalmente alrededor del 30 %.

Uso del asistente para crear una estructura de minería de datos

  1. En la cinta de opciones Minería de datos , haga clic en Avanzadas y seleccione Crear estructura.

  2. En el cuadro de diálogo Seleccionar datos de origen, especifique el rango de Excel, la tabla de datos de Excel o el origen de datos externo que contiene los datos que desea usar para su análisis.

    Haga clic en Next.

  3. En el cuadro de diálogo Seleccionar columnas , revise la lista de columnas disponibles en el origen de datos seleccionado.

  4. Haga clic en la flecha situada a la derecha del nombre de columna para cambiar el uso de la columna, eligiendo entre estos valores:

    • Clave. Se requiere al menos una clave para cada modelo.

    • Hora clave. Esta opción solo está disponible para los modelos de previsión, donde es necesario.

    • Incluir. Indica que la columna debe estar disponible en la estructura de minería, pero no es una columna clave.

    • No utilizar. Indica que la columna no debe ser incluida en la estructura de minería.

    Recuerde que siempre puede omitir las columnas al compilar el modelo, pero para agregar columnas más adelante, es necesario volver a procesar la estructura y el modelo.

  5. Haga clic en el botón Examinar (...) para establecer el tipo de contenido, el tipo de datos y las marcas de modelado.

    Nota:

    Si la columna contiene datos numéricos, siempre debe abrir este cuadro de diálogo para asegurarse de que se elige el tipo de datos correcto. En algunos casos, incluso si los datos de entrada son un número, querrá tratarlos como una variable categórica o un valor discreto, en lugar de un número continuo.

    Por ejemplo, una columna de código postal puede aparecer de forma predeterminada como un tipo de datos largo continuo, pero para obtener mejores resultados, puede especificar que se controle como un valor de texto discreto.

    Para obtener más información, consulte la sección sobre los tipos de contenido en Elegir datos para minería de datos.

    Haga clic en OK (Aceptar) para cerrar el cuadro de diálogo.

  6. Haga clic en Next.

    Dependiendo del tipo de datos que esté usando, puede completar el asistente después de este paso. En ese caso, dirígete a la página Finalizar para asignar un nombre a la estructura de minería.

    Para otros modelos, tiene la opción adicional de crear un conjunto de datos de prueba.

  7. En el cuadro de diálogo Dividir datos en conjuntos de datos de entrenamiento y prueba, especifique cómo desea que se particione el conjunto de datos. De forma predeterminada, se usa el 30 % de los datos para las pruebas.

    Opcionalmente, escriba el número máximo de filas que se van a usar para realizar pruebas.

    Haga clic en Next.

  8. En el cuadro de diálogo Finalizar, escriba el nombre y la descripción para la nueva estructura de minería.

  9. Haga clic en Finalizar

Opción Comentarios
Cuadro de diálogo Seleccionar Datos de Origen Al seleccionar una tabla de Excel, debe indicar si los datos ya tienen encabezados. Si omite esto, la primera fila de datos se usará como nombre de columna.

Si usa la opción Origen de datos externo, puede usar cualquier tipo de datos que se puedan definir en un origen de datos de Analysis Services. Sin embargo, el cuadro de diálogo del complemento para crear nuevos orígenes de datos no incluye la gama completa de orígenes de datos admitidos por Analysis Services, por lo que se recomienda crear los orígenes de datos en el servidor de Analysis Services de antemano y después conectarse mediante los complementos.
Cuadro de diálogo Editor de consultas de origen de datos Después de conectarse al origen de datos especificado, puede agregar columnas o crear una consulta personalizada para generar columnas personalizadas.
Dividir datos en conjuntos de datos de entrenamiento y pruebas Un valor recomendado para los conjuntos de entrenamiento frente a pruebas es del 70 por ciento para el entrenamiento y el 30 por ciento para las pruebas; Sin embargo, si tiene una gran cantidad de datos, puede especificar un número máximo de filas para las pruebas.
Cuadro de diálogo de finalización Las opciones de obtención de detalles están disponibles en algunos tipos de modelo y son muy útiles si incluyó columnas de detalle en la estructura de minería de datos. Por ejemplo, si crea un modelo de agrupación en clústeres, puede incluir detalles como el nombre o la dirección de correo electrónico para la obtención de detalles, pero no el análisis, para facilitar el contacto con los clientes de un clúster determinado.

Establecer el uso de columnas en el Asistente para crear estructuras de minería

Al crear una nueva estructura de minería de datos, puede especificar qué columnas del origen de datos deben incluirse en la estructura de minería de datos y cómo se deben usar esas columnas. Recuerde que una estructura de minería de datos puede admitir varios modelos de minería de datos.

Valores Descripción
Incluir Especifica que la columna contiene datos que se pueden usar para el análisis o la predicción.
clave Especifica que la columna contiene un identificador de transacción, un identificador de serie u otra clave necesaria para el procesamiento.

Todos los algoritmos requieren una columna Clave. Sin embargo, algunos algoritmos solo permiten una sola clave, mientras que otras permiten varias claves.

Si la columna contiene una clave, pero no es necesaria para el procesamiento, seleccione No usar.
Hora clave Especifica que la columna contiene una fecha u otro valor numérico que se puede usar para identificar de forma única los elementos de una serie temporal.
No usar Especifica que se debe omitir la columna. Los datos de la columna no se procesarán.

Para procesar un modelo correctamente, el algoritmo debe saber qué columna es la columna de clave que identifica de forma única cada fila, que columna es la columna de destino para crear predicciones si va a crear un modelo predecible y qué columnas usar como columnas de entrada para crear las relaciones que predicen la columna de destino.

  • Las columnas especificadas como No usar no estarán presentes en la estructura de minería.

    Si agrega columnas innecesarias o que tienen valores incorrectos, puede afectar negativamente a los resultados del análisis. Por lo tanto, asegúrese de incluir solo las columnas que sean pertinentes. Sin embargo, tenga en cuenta que las columnas que no se usan en la estructura de minería no estarán disponibles para realizar consultas.

  • Las columnas especificadas como tipo Include se incluirán en la estructura de minería y, posteriormente, se pueden usar para el análisis o la predicción en los modelos de minería.

    Si no está seguro de si necesitará usar la columna, siempre puede incluir la columna en la estructura de minería de datos y, a continuación, crear un modelo de minería de datos que no use esa columna. Por ejemplo, puede incluir una columna de número de teléfono en los datos para una referencia posterior, pero crear un modelo de agrupación en clústeres que omita los números de teléfono. Una vez creados los clústeres, puede crear una consulta que devuelva los números de teléfono de las personas que pertenecen a un clúster determinado.

  • Todos los algoritmos requieren una columna Clave . Los valores de la columna Clave deben ser únicos. Solo se requiere una columna Key Time para los modelos de previsión o serie temporal. .

Requisitos

Para crear una estructura de minería de datos, debe tener una conexión a una instancia de Analysis Services. Se requiere una conexión incluso si está trabajando con estructuras temporales. Para obtener más información sobre cómo crear o cambiar una conexión, consulte Conexión a datos de origen (cliente de minería de datos para Excel).

Véase también

Creación de un modelo de minería de datos