Compartir a través de


Crear una estructura de minería de datos OLAP

Hay muchas ventajas para crear un modelo de minería de datos basado en un cubo OLAP u otro almacén de datos multidimensional. Una solución OLAP ya contiene grandes cantidades de datos que están bien organizados, limpios y con el formato correcto; sin embargo, la complejidad de los datos es tal que es poco probable que los usuarios encuentren patrones significativos mediante la exploración ad hoc. La minería de datos ofrece la capacidad de detectar nuevas correlaciones y proporcionar información accionable.

En este tema se describe cómo crear una estructura de minería de datos OLAP, basada en una dimensión y medidas relacionadas en una solución multidimensional existente.

Requisitos

Información general sobre el proceso de minería de datos OLAP

Escenarios para el uso de minería de datos en soluciones OLAP

Filtros

Uso de tablas anidadas

Dimensiones de minería de datos

Requisitos para la estructura y los modelos de minería de datos OLAP

Si va a diseñar un modelo de minería de datos OLAP, el origen de datos ya existe en la base de datos que se usó para compilar el cubo. No se puede conectar a un cubo remoto y construir objetos de minería de datos, los mismos deben estar disponibles dentro de la misma solución junto con la base de datos y la estructura de minería que construirá.

Si no tiene los archivos de proyecto originales o no desea modificarlos, puede usar la opción en Visual Studio, Importar desde servidor (multidimensional o minería de datos) para obtener una copia de los metadatos y los objetos de solución. A continuación, puede modificar el destino de implementación, editar orígenes de datos y trabajar con los objetos de cubo sin afectar a los objetos existentes.

Para obtener más información, consulte Importación de un proyecto de minería de datos mediante el Asistente para importación de Analysis Services.

Información general sobre el proceso de minería de datos OLAP

Inicie el Asistente para minería de datos haciendo clic con el botón derecho en el nodo Estructuras de minería de datos en el Explorador de soluciones y seleccionando Nueva estructura de minería de datos. El asistente le guía a través de los siguientes pasos para crear la estructura y el modelo de un nuevo proyecto:

  1. Seleccione el Método de definición: aquí seleccione un tipo de origen de datos y elija Desde el cubo existente.

    Nota:

    El cubo OLAP que utilizas como fuente debe existir dentro de la misma base de datos que la estructura de minería de datos, tal como se describe arriba. Además, no puede usar un cubo creado por el complemento PowerPivot para Excel como origen de minería de datos.

  2. Crear la estructura de minería de datos: determine si va a crear solo una estructura o una estructura con un modelo de minería de datos.

    También debe elegir un algoritmo adecuado para analizar los datos. Para obtener instrucciones sobre qué algoritmo es mejor para determinadas tareas, vea HYPERLINK "ms-help://SQL111033/as_1devconc/html/ed1fc83b-b98c-437e-bf53-4ff001b92d64.htm" Algoritmos de minería de datos (Analysis Services - Minería de datos).

  3. Seleccione la dimensión de cubo de origen: este paso es el mismo que seleccionar un origen de datos. Debe elegir la dimensión única que contiene los datos más importantes que se usan para entrenar el modelo. Puede agregar datos de otras dimensiones más adelante o filtrar la dimensión.

  4. Seleccione la Clave del caso: dentro de la dimensión que acaba de seleccionar, elija un atributo (columna) que sirva como identificador único para los datos del caso.

    Normalmente, se seleccionará previamente una columna, pero puede cambiarla si, de hecho, hay varias claves.

  5. Seleccionar columnas de nivel de caso: aquí elegirá los atributos de la dimensión seleccionada y las medidas relacionadas, que son relevantes para el análisis. Este paso equivale a seleccionar columnas de una tabla.

    El asistente incluye automáticamente para la revisión y selección todas las medidas que se crearon mediante atributos de la dimensión seleccionada.

    Por ejemplo, si el cubo contiene una medida que calcula el costo de flete en función de la ubicación geográfica del cliente y eligió la dimensión Customer como origen de datos principal para el modelado, la medida se propone como candidata para agregar al modelo. Tenga en cuenta la adición de demasiadas medidas que ya se basan directamente en atributos, ya que ya hay una relación implícita entre las columnas, tal como se define en la fórmula de medida, y la intensidad de esta correlación (esperada) puede ocultar otras relaciones que podría detectar de otro modo.

  6. Especificar el uso de columnas del modelo de minería de datos: para cada atributo o medida que agregó en la estructura, debe especificar si el atributo debe utilizarse para realizar predicciones o como entrada. Si no selecciona ninguna de estas opciones, los datos serán procesados, pero no se usarán para el análisis; sin embargo, estarán disponibles como datos en segundo plano en caso de que más adelante habilite los filtros detallados.

  7. Agregar tablas anidadas: Hacer clic para agregar tablas relacionadas. En el cuadro de diálogo Seleccionar una dimensión de grupo de medida, puede elegir una sola dimensión entre las dimensiones relacionadas con la dimensión actual.

    A continuación, usará el cuadro de diálogo Seleccionar una clave de tabla anidada para definir cómo está relacionada la nueva dimensión con la dimensión que contiene los datos de casos.

    Use el cuadro de diálogo Seleccionar columnas de tabla anidada para elegir los atributos y medidas de la nueva dimensión que desea usar en el análisis. También debe especificar si el atributo anidado se utilizará para la predicción.

    Después de agregar todos los atributos anidados que podría necesitar, vuelva a la página, Especifique el uso de columnas del modelo de minería y haga clic en Siguiente.

  8. Especificar contenido de columnas y tipo de datos: en este punto, ha agregado todos los datos que se usarán para el análisis y debe especificar el tipo de datos y el tipo de contenido para cada atributo.

    En un modelo OLAP, no tiene la opción de detectar automáticamente tipos de datos, ya que el tipo de datos ya está definido por la solución multidimensional y no se puede cambiar. Las claves también se identifican automáticamente. Para obtener más información, consulte Tipos de datos (minería de datos).

    El tipo de contenido que elija para cada columna que use en el modelo indica al algoritmo cómo se deben procesar los datos. Para obtener más información, vea Tipos de contenido (minería de datos).

  9. Corte del cubo de origen: aquí puede definir filtros en un cubo para seleccionar un subconjunto de datos específico y entrenar modelos más enfocados.

    Para filtrar un cubo, elija la dimensión en la que filtrar, seleccione el nivel de la jerarquía que contiene los criterios que desea usar y, a continuación, escriba una condición para usarla como filtro.

  10. Crear conjunto de pruebas: en esta página, puede indicar al asistente cuánto datos se deben reservar para su uso en la prueba del modelo. Si los datos admitirán varios modelos, es recomendable crear un conjunto de datos de espera para que todos los modelos se puedan probar en los mismos datos.

    Para obtener más información, vea Testing and Validation (Data Mining).

  11. Finalización del Asistente: en esta página, asigne un nombre a la nueva estructura de minería de datos y al modelo de minería de datos asociado y guarde la estructura y el modelo.

    En esta página, también puede establecer las siguientes opciones:

    • Permitir drillthrough

    • Crear dimensión del modelo de minería

    • Crear cubo usando la dimensión del modelo de minería de datos

    Para obtener más información sobre estas opciones, consulte la sección más adelante en este tema, Comprensión de dimensiones de minería de datos y perforación.

En este momento, la estructura de minería de datos y su modelo son solo metadatos; tendrá que procesarlos para obtener resultados.

Escenarios para el uso de minería de datos con datos OLAP

Los cubos OLAP contienen con frecuencia tantos miembros y dimensiones que pueden ser difíciles de saber dónde comenzar con la minería de datos. Para ayudar a identificar los patrones que contienen los cubos, normalmente se identifica una sola dimensión de interés y, a continuación, comienza a explorar patrones relacionados con esa dimensión. En la tabla siguiente se enumeran varias tareas comunes de minería de datos OLAP, se describen escenarios de ejemplo en los que se puede aplicar cada tarea e identifica el algoritmo de minería de datos que se va a usar para cada tarea.

Tarea Escenario de ejemplo Algoritmo
Agrupar miembros en clústeres Segmente una dimensión de cliente en función de las propiedades de los miembros del cliente, los productos que compran los clientes y la cantidad de dinero que gastan los clientes. Algoritmo de agrupación en clústeres de Microsoft
Buscar miembros interesantes o anómalos Identifique tiendas interesantes o anómalas en una dimensión de tienda basándose en las ventas, las ganancias, la ubicación de la tienda y el tamaño de la tienda. Algoritmo de árboles de decisión de Microsoft
Buscar células interesantes o anómalas Identifique las ventas de la tienda que van en contra de las tendencias típicas a lo largo del tiempo. Algoritmo de serie temporal de Microsoft
Búsqueda de correlaciones Identifique los factores relacionados con el tiempo de inactividad del servidor, incluida la región, el tipo de máquina, el sistema operativo o la fecha de compra. Algoritmo bayes naïve de Microsoft

Segmentación de un cubo frente a modelos de filtrado

Cortar el cubo mientras está creando un modelo es como crear un filtro en un modelo de minería relacional. En un modelo relacional, el filtro del origen de datos se define como una cláusula WHERE en una instrucción SQL; en un cubo, se usa el editor para crear instrucciones de filtro mediante MDX.

Por ejemplo, un cubo podría contener información sobre las compras de productos en todo el mundo, pero para su campaña de marketing, quiere crear un modelo basado en el análisis de clientes femeninos de más de 30 que viven en el Reino Unido.

En este escenario, crearía dos filtros:

  • Para el primer filtro, elegiría la dimensión Geography, elegiría la jerarquía de Region y, a continuación, usaría la lista Filter Expression para elegir "Reino Unido" de entre los valores posibles.

  • Para el segundo filtro, elegiría la dimensión Customer, seleccionaría el atributo Gender y seleccionaría "Female" en la lista de valores de atributo.

Una vez creada la estructura de minería de datos, puede modificar tanto la definición de los datos del cubo como los criterios de filtro. Para obtener más información, consulte Filtrar el cubo de origen para una estructura de minería.

Tanto la pestaña Estructura de minería como la pestaña Modelo de minería proporcionan una opción para agregar un filtro a una estructura de minería existente haciendo clic en Definir un corte de cubo. El cuadro de diálogo Slice Cube (Cubo de segmento ) le ayuda a crear una expresión de filtro MDX válida eligiendo el valor de las listas desplegables.

Advertencia

Tenga en cuenta que la interfaz para diseñar y examinar cubos se ha cambiado en SQL Server 2014. Para obtener más información, vea Examinar datos y metadatos en Cube.

Puede agregar tantos filtros en el cubo como sean necesarios para obtener los datos que necesita para el modelo de minería de datos. También puede definir secciones en rebanadas individuales del cubo. Por ejemplo, si la estructura contiene dos tablas anidadas basadas en productos, podría segmentar una tabla en marzo de 2004 y la otra tabla en abril de 2004. A continuación, el modelo resultante podría usarse para predecir las compras realizadas en abril en función de las compras realizadas en marzo.

Uso de tablas anidadas en un modelo de minería de datos OLAP

Al usar el Asistente para minería de datos para crear un modelo basado en datos de cubo, puede agregar tablas anidadas especificando los nombres de las dimensiones relacionadas y, a continuación, eligiendo los atributos o medidas que se van a agregar al modelo.

Por ejemplo, si la dimensión principal utilizada para los datos de casos es Cliente, podría agregar como dimensión relacionada la dimensión Productos, porque es posible que un cliente haya pedido varios productos a lo largo del tiempo, y el cubo ya vincula cada cliente a varios productos a través de las tablas de hechos de pedido.

Puede agregar tablas anidadas en la página del asistente Especificar uso de columnas del modelo de minería haciendo clic en Agregar tablas anidadas. Se abre un cuadro de diálogo que le guía por el proceso de elección de una dimensión relacionada, así como cualquier medida. El caso y las dimensiones anidadas deben estar relacionados mediante una clave externa, y las medidas deben usar uno de los atributos que ya están incluidos en el caso o en las tablas anidadas. Desafortunadamente, estas restricciones realmente no hacen mucho para restringir el ámbito, por lo que debe tener cuidado de seleccionar solo los atributos que son útiles para el modelado.

Para cada atributo o medida que agregue a la tabla anidada, debe especificar si el atributo anidado se usará para la predicción o no, seleccionando Predicción o Entrada en el cuadro de diálogo Seleccionar columnas de tabla anidadas . Si no selecciona alguna de estas opciones, los datos se agregarán a la estructura de minería, pero no se usarán para el análisis.

Para cada atributo y medida, también debe especificar si el atributo es discreto, discretizado o continuo. El asistente preseleccionará un valor predeterminado en función del tipo de datos del atributo, pero es posible que tenga que cambiarlos, en función de los requisitos del algoritmo. Si elige un tipo de contenido que no es compatible con el algoritmo que ha elegido (por ejemplo, usa un tipo numérico continuo con un modelo Bayes naïve), no recibirá un mensaje de error hasta que intente procesar el modelo.

Cuando haya terminado de establecer estas opciones, el asistente agrega la tabla anidada a la tabla de casos. El nombre predeterminado de la tabla anidada es el nombre de la dimensión anidada, pero puede renombrar la tabla anidada y sus columnas. Puede repetir este proceso para agregar varias tablas anidadas a la estructura de minería de datos.

La capacidad de usar datos de tabla anidados como esta es una característica de la minería de datos de SQL Server que es especialmente eficaz y, en un cubo, hay casi posibilidades ilimitadas para usar subconjuntos de datos relacionados.

Comprensión de las dimensiones y exploración de datos de minería

La opción Permitir obtención de detalles le permite ejecutar consultas en los datos de cubo subyacentes mientras explora el modelo. Los datos no están incluidos en la nueva dimensión de minería de datos, pero la base de datos de Analysis Services puede usar los enlaces de datos para recuperar la información del cubo de origen.

La opción Crear dimensión del modelo de minería permite generar una nueva dimensión dentro del cubo existente que contiene los patrones detectados por el algoritmo. El tipo de modelo determina en gran medida la jerarquía dentro de la nueva dimensión. Por ejemplo, la representación de un modelo de agrupación en clústeres es bastante plana, con el nodo (All) en la parte superior de la jerarquía y cada clúster del siguiente nivel. En cambio, la dimensión que se crea para un modelo de árbol de decisión puede tener una jerarquía muy profunda, que representa la bifurcación del árbol.

La opción Crear cubo mediante la dimensión del modelo de minería permite exportar la nueva dimensión de minería de datos a un cubo nuevo. Los objetos necesarios para el drillthrough en la dimensión de minería de datos se incluirán automáticamente.

Advertencia

Solo estos tipos de modelo admiten la creación de dimensiones de minería de datos: modelos basados en el algoritmo de agrupación en clústeres de Microsoft, el algoritmo de árboles de decisión de Microsoft o el algoritmo de asociación de Microsoft.

Véase también

Algoritmos de minería de datos (Analysis Services - Minería de datos)
Columnas de la estructura de minería de datos
Columnas del modelo de minería de datos
Propiedades del modelo de minería
Propiedades para estructura de minería y columnas de estructura