Compartir a través de


Crear una estructura de minería de datos relacional

La mayoría de los modelos de minería de datos se basan en orígenes de datos relacionales. Las ventajas de crear un modelo de minería de datos relacionales son que puede ensamblar datos ad hoc y entrenar y actualizar un modelo sin la complejidad de crear un cubo.

Una estructura de minería de datos relacional puede extraer datos de orígenes dispares. Los datos sin procesar se pueden almacenar en tablas, archivos o sistemas de bases de datos relacionales, siempre que los datos se puedan definir como parte de la vista del origen de datos. Por ejemplo, debe usar una estructura de minería de datos relacional si los datos están en Excel, un almacenamiento de datos de SQL Server o una base de datos de informes de SQL Server, o en orígenes externos a los que se accede a través de los proveedores OLE DB o ODBC.

En este tema se proporciona información general sobre cómo usar el Asistente para minería de datos para crear una estructura de minería de datos relacional.

Requisitos

Proceso para crear una estructura de minería de datos relacional

Cómo elegir orígenes de datos

Cómo especificar el tipo de contenido y el tipo de datos

¿Por qué y cómo crear un conjunto de datos de retención?

¿Por qué y cómo habilitar la exploración detallada?

Requisitos

En primer lugar, debe tener un origen de datos existente. Puede usar el diseñador de orígenes de datos para configurar un origen de datos, si aún no existe uno. Para obtener más información, consulte Creación de un origen de datos (SSAS multidimensional).

A continuación, use el Asistente para vista del origen de datos para ensamblar los datos necesarios en una sola vista del origen de datos. Para obtener más información sobre cómo puede seleccionar, transformar, filtrar o administrar datos con vistas de origen de datos, vea Vistas del origen de datos en modelos multidimensionales.

Información general del proceso

Inicie el Asistente para minería de datos; para ello, haga clic con el botón derecho en el nodo Estructuras de minería de datos en el Explorador de soluciones y seleccione Agregar nueva estructura de minería de datos. El asistente le guía por los pasos siguientes para crear la estructura de un nuevo modelo de minería de datos relacional:

  1. Seleccione el Método de definición: aquí seleccione un tipo de origen de datos y elija Desde la base de datos relacional o el almacenamiento de datos.

  2. Crear la estructura de minería de datos: determine si va a crear solo una estructura o una estructura con un modelo de minería de datos.

    También puede elegir un algoritmo adecuado para el modelo inicial. Para obtener instrucciones sobre qué algoritmo es mejor para determinadas tareas, consulte Algoritmos de minería de datos (Analysis Services - Minería de datos).

  3. Seleccione Vista del origen de datos: elija una vista de orígenes de datos para usarla en el entrenamiento del modelo. La vista del origen de datos también puede contener datos usados para pruebas o datos no relacionados. Puede decidir qué datos se utilizan realmente en la estructura y en el modelo. También puede aplicar filtros a los datos más adelante.

  4. Especificar tipos de tabla: seleccione la tabla que contiene los casos usados para el análisis. Para algunos conjuntos de datos, especialmente los que se usan para crear modelos de cesta de mercado, también puede incluir una tabla relacionada, para usarla como tabla anidada.

    Para cada tabla, debe especificar la clave para que el algoritmo sepa cómo identificar un registro único y los registros relacionados si ha agregado una tabla anidada.

    Para obtener más información, consulte columnas de estructuras de minería.

  5. Especifique los datos de entrenamiento: en esta página, elija como tabla de casos, que es la tabla que contiene los datos más importantes para el análisis.

    Para algunos conjuntos de datos, especialmente los que se usan para crear modelos de cesta de mercado, también puede incluir una tabla relacionada. Los valores de esa tabla anidada se controlarán como varios valores relacionados con una sola fila (o caso) en la tabla principal.

  6. Especificar contenido de columnas y tipos de datos: para cada columna que use en la estructura, debe elegir un tipo de datos y un tipo de contenido.

    El asistente detectará automáticamente los posibles tipos de datos, pero no es necesario usar el tipo de datos recomendado por el asistente. Por ejemplo, incluso si los datos contienen números, podrían ser representativos de datos categóricos. A las columnas que especifique como claves se les asigna automáticamente el tipo de datos correcto para ese tipo de modelo concreto. Para obtener más información, vea Columnas del modelo de minería y Tipos de datos (minería de datos).

    El tipo de contenido que elija para cada columna que use en el modelo indica al algoritmo cómo se deben procesar los datos.

    Por ejemplo, puede decidir discretizar números, en lugar de usar valores continuos. También puede pedir al algoritmo que detecte automáticamente el mejor tipo de contenido para la columna. Para obtener más información, vea Tipos de contenido (minería de datos).

  7. Crear conjunto de pruebas: en esta página, puede indicar al asistente cuánto datos se deben reservar para su uso en la prueba del modelo. Si los datos admitirán varios modelos, es recomendable crear un conjunto de datos de espera para que todos los modelos se puedan probar en los mismos datos.

    Para obtener más información, vea Testing and Validation (Data Mining).

  8. Finalización del Asistente: en esta página, asigne un nombre a la nueva estructura de minería de datos y al modelo de minería de datos asociado y guarde la estructura y el modelo.

    También puede establecer algunas opciones importantes, según el tipo de modelo. Por ejemplo, puede habilitar el profundizar en la estructura.

    En este momento, la estructura de minería de datos y su modelo son solo metadatos; tendrá que procesarlos para obtener resultados.

Cómo elegir datos relacionales

Las estructuras de minería de datos relacionales se pueden basar en cualquier dato que esté disponible a través de un origen de datos OLE DB. Si los datos de origen están contenidos en varias tablas, se usa una vista del origen de datos para ensamblar las tablas y columnas que necesita en un solo lugar.

Si las tablas incluyen relaciones de uno a muchos, por ejemplo, si tiene varios registros de compra para cada cliente que desea analizar, puede agregar ambas tablas y usar una como tabla de casos, vinculando los datos del lado de muchos de la relación como una tabla anidada.

Los datos de una estructura de minería de datos se derivan de lo que se encuentra en la vista del origen de datos existente. Puede modificar los datos según sea necesario en la vista del origen de datos, agregando relaciones o columnas derivadas que podrían no estar presentes en los datos relacionales subyacentes. También puede crear cálculos con nombre o agregaciones dentro de la vista del origen de datos. Estas características son muy útiles si no tiene control sobre la organización de datos en el origen de datos, o si desea experimentar con diferentes agregaciones de datos para los modelos de minería de datos.

No es necesario usar todos los datos disponibles; puede elegir qué columnas se incluirán en la estructura de minería. Todos los modelos basados en esa estructura pueden usar esas columnas o puede marcar determinadas columnas como Ignore para un modelo determinado. Puede permitir que los usuarios de un modelo de minería de datos exploren en profundidad los resultados del modelo de minería de datos para ver columnas de estructura de minería de datos adicionales que no se incluyeron en el propio modelo de minería de datos.

Cómo especificar el tipo de contenido y el tipo de datos

El tipo de datos es prácticamente el mismo que los tipos de datos que especifique en SQL Server u otras interfaces de aplicación: fechas y horas, números de tamaños diferentes, valores booleanos, texto y otros datos discretos.

Sin embargo, los tipos de contenido son importantes para la minería de datos y afectan al resultado del análisis. El tipo de contenido indica al algoritmo lo que debe hacer con los datos: ¿deben tratarse los números en una escala continua o deben ser agrupados? ¿Cuántos valores potenciales hay? ¿Cada valor es distinto? Si el valor es una clave, ¿qué tipo de clave es : indica un valor de fecha y hora, una secuencia o algún otro tipo de clave?

Tenga en cuenta que la elección del tipo de datos puede limitar la elección de tipos de contenido. Por ejemplo, no se pueden discretizar valores que no son numéricos. Si no puede ver el tipo de contenido que desea, puede hacer clic en Atrás para volver a la página de tipo de datos e intentar otro tipo de datos.

No necesita preocuparse demasiado por obtener el tipo de contenido incorrecto. Es muy fácil crear un nuevo modelo y cambiar el tipo de contenido dentro del modelo, siempre que el nuevo tipo de contenido sea compatible con el conjunto de tipos de datos de la estructura de minería. También es muy común crear varios modelos mediante diferentes tipos de contenido, ya sea como experimento, o para cumplir los requisitos de un algoritmo diferente.

Por ejemplo, si los datos contienen una columna de ingresos, puede crear dos modelos diferentes al usar el algoritmo de árboles de decisión de Microsoft y configurar la columna de forma alternativa como números continuos o intervalos discretos. Sin embargo, si agregó un modelo mediante el algoritmo Bayes Naïve de Microsoft, se le obligaría a cambiar la columna a valores discretos solo, ya que ese algoritmo no admite números continuos.

¿Por qué y cómo dividir datos en conjuntos de entrenamiento y pruebas?

Cerca del final del asistente, debe decidir si desea dividir los datos en conjuntos de entrenamiento y pruebas. La capacidad de aprovisionar una parte muestreada aleatoriamente de los datos para las pruebas es muy conveniente, ya que garantiza que un conjunto coherente de datos de prueba esté disponible para su uso con todos los modelos de minería de datos asociados a la nueva estructura de minería de datos.

Advertencia

Tenga en cuenta que esta opción no está disponible para todos los tipos de modelo. Por ejemplo, si crea un modelo de previsión, no podrá usar el holdout, ya que el algoritmo de serie temporal requiere que no haya huecos en los datos. Para obtener una lista de los tipos de modelo que admiten conjuntos de datos de validación, consulte Conjuntos de datos de entrenamiento y test.

Para crear este conjunto de datos de espera, especifique el porcentaje de los datos que desea usar para las pruebas. Todos los datos restantes se usarán para el entrenamiento. Opcionalmente, puede establecer un número máximo de casos que se usarán para las pruebas o establecer un valor de inicialización que se usará al iniciar el proceso de selección aleatoria.

La definición del conjunto de pruebas de retención se almacena con la estructura de minería, de manera que cada vez que cree un nuevo modelo basado en la estructura, el conjunto de datos de prueba estará disponible para evaluar la exactitud del modelo. Si elimina la memoria caché de la estructura de minería de datos, también se eliminará la información sobre qué casos se usaron para el entrenamiento y que se usaron para las pruebas.

¿Por qué y cómo habilitar el drillthrough?

Casi al final del asistente, tiene la opción de habilitar la obtención de detalles. Es fácil perder esta opción, pero es una importante. La funcionalidad Drillthrough le permite ver los datos de origen en la estructura de minería consultando el modelo de minería.

¿Por qué es útil? Supongamos que está viendo los resultados de un modelo de agrupación en clústeres y desea ver los clientes que se colocaron en un clúster específico. Mediante el desglosado, puede ver información detallada como la información de contacto.

Advertencia

Para usar desagregación, debe habilitarla al crear la estructura de minería. Puede habilitar la obtención de detalles en los modelos más adelante estableciendo una propiedad en el modelo, pero las estructuras de minería de datos requieren que esta opción se establezca al principio. Para obtener más información, consulte Consultas de drillthrough (Minería de datos).

Véase también

Diseñador de minería de datos
Asistente para minería de datos (Analysis Services - Minería de datos)
Propiedades del modelo de minería
Propiedades para estructura de minería y columnas de estructura
Tareas y Guías de Estructuras de Minería