Estructuras de minería de datos (Servicios de Análisis - Minería de datos)

La estructura de minería de datos define los datos desde los que se compilan los modelos de minería de datos: especifica la vista de datos de origen, el número y el tipo de columnas, y una partición opcional en conjuntos de entrenamiento y pruebas. Una única estructura de minería de datos puede admitir varios modelos de minería de datos que comparten el mismo dominio. En el diagrama siguiente se muestra la relación de la estructura de minería de datos con el origen de datos y con sus modelos de minería de datos constituyentes.

Procesamiento de datos: origen para estructurar el modelo

La estructura de minería de datos del diagrama se basa en un origen de datos que contiene varias tablas o vistas, combinadas en el campo CustomerID. Una tabla contiene información sobre los clientes, como la región geográfica, la edad, los ingresos y el género, mientras que la tabla anidada relacionada contiene varias filas de información adicional sobre cada cliente, como los productos que el cliente ha comprado. El diagrama muestra que se pueden crear varios modelos en una estructura de minería de datos y que los modelos pueden usar columnas diferentes de la estructura.

Modelo 1 utiliza CustomerID (identificación del cliente), Income (ingresos), Age (edad), Region (región) y filtra los datos según la Región.

Modelo 2 usa CustomerID, Income, Age, Region y filtra los datos según la edad.

Modelo 3 Usa CustomerID, Age, Gender y la tabla anidada, sin filtro.

Dado que los modelos usan columnas diferentes para la entrada y, debido a que dos de los modelos restringen además los datos que se usan en el modelo aplicando un filtro, los modelos pueden tener resultados muy diferentes aunque se basen en los mismos datos. Tenga en cuenta que la columna CustomerID es necesaria en todos los modelos porque es la única columna disponible que se puede usar como clave de caso.

En esta sección se explica la arquitectura básica de las estructuras de minería de datos: cómo se define una estructura de minería de datos, cómo se rellena con datos y cómo se usa para crear modelos. Para obtener más información sobre cómo administrar o exportar estructuras de minería de datos existentes, vea Administración de soluciones y objetos de minería de datos.

Definición de una estructura de minería de datos

La configuración de una estructura de minería de datos incluye los pasos siguientes:

Defina un origen de datos.
Seleccione las columnas de datos que se van a incluir en la estructura (no todas las columnas deben agregarse al modelo) y definir una clave.
Defina una clave para la estructura, incluida la clave de la tabla más recomendada, si procede.
Especifique si los datos de origen deben dividirse en un conjunto de entrenamiento y un conjunto de pruebas. Este paso es opcional.
Proceda con la estructura.

En las secciones siguientes se describen estos pasos de forma más detallada.

Orígenes de datos para estructuras de minería de datos

Al definir una estructura de minería de datos, se usan columnas que están disponibles en una vista de origen de datos existente. Una vista del origen de datos es un objeto compartido que permite combinar varios orígenes de datos y usarlos como un único origen. Los orígenes de datos originales no son visibles para las aplicaciones cliente y puede usar las propiedades de la vista del origen de datos para modificar tipos de datos, crear agregaciones o columnas de alias.

Si crea varios modelos de minería de datos a partir de la misma estructura de minería de datos, los modelos pueden usar columnas diferentes de la estructura. Por ejemplo, puede crear una única estructura y, a continuación, crear modelos independientes de árbol de decisión y agrupación en clústeres a partir de ella, con cada modelo mediante columnas diferentes y predicción de atributos diferentes.

Además, cada modelo puede usar las columnas de la estructura de maneras diferentes. Por ejemplo, la vista del origen de datos puede contener una columna de Ingresos, que puede agrupar de diferentes maneras para distintos modelos.

La estructura de minería de datos almacena la definición del origen de datos y las columnas en él en forma de enlaces a los datos de origen. Para obtener más información sobre los enlaces de origen de datos, consulte Orígenes de datos y enlaces (SSAS Multidimensional) . Sin embargo, tenga en cuenta que también puede crear una estructura de minería de datos sin enlazarla a un origen de datos específico mediante la instrucción DMX CREATE MINING STRUCTURE (DMX).

Columnas de estructura de minería

Los elementos básicos de la estructura de minería son las columnas de la estructura de minería, que describen los datos que contiene el origen de datos. Estas columnas contienen información como el tipo de datos, el tipo de contenido y cómo se distribuyen los datos. La estructura de minería de datos no contiene información sobre cómo se usan las columnas para un modelo de minería de datos específico o sobre el tipo de algoritmo que se usa para crear un modelo; esta información se define en el propio modelo de minería de datos.

Una estructura de minería de datos también puede contener tablas anidadas. Una tabla anidada representa una relación uno a varios entre la entidad de un caso y sus atributos relacionados. Por ejemplo, si la información que describe al cliente reside en una tabla y las compras del cliente residen en otra tabla, puede usar tablas anidadas para combinar la información en un solo caso. El identificador de cliente es la entidad y las compras son los atributos relacionados. Para obtener más información sobre cuándo usar tablas anidadas, vea Tablas anidadas (Analysis Services - Minería de datos).

Para crear un modelo de minería de datos en SQL Server Data Tools (SSDT), primero debe crear una estructura de minería de datos. El Asistente para minería de datos le guía por el proceso de creación de una estructura de minería de datos, la elección de datos y la adición de un modelo de minería de datos.

Si crea un modelo de minería de datos mediante extensiones de minería de datos (DMX), puede especificar el modelo y las columnas en él, y DMX creará automáticamente la estructura de minería de datos necesaria. Para obtener más información, vea CREATE MINING MODEL (DMX).

Para obtener más información, consulte columnas de estructuras de minería.

Dividir los datos en conjuntos de entrenamiento y pruebas

Al definir los datos de la estructura de minería de datos, también puede especificar que algunos de los datos se usan para el entrenamiento y algunos para las pruebas. Por lo tanto, ya no es necesario separar los datos con antelación de la creación de una estructura de minería de datos. En su lugar, mientras crea el modelo, puede especificar que se mantenga un porcentaje determinado de los datos para las pruebas y el resto usado para el entrenamiento, o puede especificar un número determinado de casos que se usarán como conjunto de datos de prueba. La información sobre los conjuntos de datos de entrenamiento y pruebas se almacena en caché con la estructura de minería, y, como resultado, se puede usar el mismo conjunto de pruebas con todos los modelos basados en esa estructura.

Para obtener más información, consulte Conjuntos de datos de entrenamiento y pruebas.

Habilitación de desglosar datos

Puede agregar columnas a la estructura de minería de datos aunque no planee usar la columna en un modelo de minería de datos específico. Esto resulta útil si, por ejemplo, desea recuperar las direcciones de correo electrónico de los clientes en un modelo de agrupación en clústeres, sin usar la dirección de correo electrónico durante el proceso de análisis. Para pasar por alto una columna durante la fase de análisis y predicción, agréguela a la estructura, pero no especifique un uso para la columna o establezca la marca de uso en Omitir. Los datos marcados de esta manera todavía se pueden usar en consultas si se ha habilitado el desglosado de datos en el modelo de minería y si tiene los permisos adecuados. Por ejemplo, podría revisar los clústeres resultantes del análisis de todos los clientes y, a continuación, usar una consulta de obtención de detalles para obtener los nombres y las direcciones de correo electrónico de los clientes de un clúster determinado, aunque esas columnas de datos no se usaran para compilar el modelo.

Para obtener más información, consulte Consultas de drillthrough (Minería de datos).

Procesar estructuras de minería de datos

Una estructura de minería de datos es solo un contenedor para metadatos hasta que se procesa. Al procesar una estructura de minería de datos, Analysis Services crea una memoria caché que almacena estadísticas sobre los datos, información sobre cómo se discretizan los atributos continuos y otra información que los modelos de minería de datos usan posteriormente. El propio modelo de minería no almacena esta información resumida, sino que refiere a la información que fue almacenada en caché cuando se procesó la estructura minera. Por lo tanto, no es necesario volver a procesar la estructura cada vez que agregue un nuevo modelo a una estructura existente; puede procesar solo el modelo.

Puede optar por descartar esta caché después del procesamiento, si la memoria caché es muy grande o desea quitar datos detallados. Si no desea que los datos se almacenen en caché, puede cambiar la CacheMode propiedad de la estructura de minería de datos a ClearAfterProcessing. Esto destruirá la memoria caché después de procesar los modelos. Al establecer la CacheMode propiedad en ClearAfterProcessing se deshabilitará la obtención de detalles del modelo de minería de datos.

Sin embargo, después de destruir la memoria caché, no podrá agregar nuevos modelos a la estructura de minería de datos. Si agrega un nuevo modelo de minería de datos a la estructura o cambia las propiedades de los modelos existentes, primero tendrá que volver a procesar la estructura de minería de datos. Para obtener más información, vea Requisitos y consideraciones de procesamiento (minería de datos).

Visualización de estructuras de minería

No puede usar visores para examinar los datos de una estructura de minería. Sin embargo, en SQL Server Data Tools (SSDT), puede usar la pestaña Estructura de minería de datos del Diseñador de minería de datos para ver las columnas de estructura y sus definiciones. Para obtener más información, consulte Diseñador de minería de datos.

Si desea revisar los datos de la estructura de minería de datos, puede crear consultas mediante extensiones de minería de datos (DMX). Por ejemplo, la instrucción SELECT * FROM <structure>.CASES devuelve todos los datos de la estructura de minería de datos. Para recuperar esta información, se debe haber procesado la estructura de minería de datos y los resultados del procesamiento deben almacenarse en caché.

La declaración SELECT * FROM <model>.CASES retorna las mismas columnas, pero solo para los casos de ese modelo en particular. Para obtener más información, vea SELECT FROM structure (ESTRUCTURA> SELECT FROM<). CASOS y SELECT FROM <modelo>. CASOS (DMX).

Uso de modelos de minería de datos con estructuras de minería

Un modelo de minería de datos aplica un algoritmo de modelo de minería de datos a los datos representados por una estructura de minería de datos. Un modelo de minería de datos es un objeto que pertenece a una estructura de minería de datos determinada y el modelo hereda todos los valores de las propiedades definidas por la estructura de minería de datos. El modelo puede usar todas las columnas que contiene la estructura de minería de datos o un subconjunto de las columnas. Puede agregar varias copias de una columna de estructura a una estructura. También puede agregar varias copias de una columna de estructura a un modelo y, a continuación, asignar nombres o alias diferentes a cada columna de estructura del modelo. Para obtener más información sobre las columnas de alias en la estructura, vea Crear un alias para una columna de modelo y Propiedades del Modelo de Minería de Datos.

Para obtener más información sobre la arquitectura de los modelos de minería de datos, vea Modelos de minería de datos (Analysis Services - Minería de datos).

Utilice los enlaces proporcionados para obtener más información sobre cómo definir, gestionar y utilizar estructuras de minería.

Tareas	Enlaces
Trabajar con estructuras de minería de datos relacionales	Crear una nueva estructura de minería de datos relacional Agregar una tabla anidada a una estructura de minería de datos
Trabajar con estructuras de minería de datos basadas en cubos OLAP	Crear una nueva estructura de minería de datos OLAP Filtrar el Cubo de Origen para una Estructura de Minería
Trabajar con columnas en una estructura de minería	Agregar columnas a una estructura de minería de datos Quitar columnas de una estructura de minería
Cambiar o consultar las propiedades y los datos de la estructura de minería de datos	Cambiar las propiedades de una estructura de minería
Trabajar con los orígenes de datos subyacentes y actualizar los datos de origen	Editar la vista de origen de datos utilizada para una estructura de minería Procesar una estructura de minería de datos

Véase también

Objetos de base de datos (Analysis Services - Datos multidimensionales)
Modelos de minería de datos (Analysis Services - Data Mining)

Last updated on 2017-06-13

Compartir a través de