Arquitectura lógica (Analysis Services - Minería de datos)

La minería de datos es un proceso que implica la interacción de varios componentes.

Puede acceder a orígenes de datos en una base de datos de SQL Server o a cualquier otro origen de datos que se use para el entrenamiento, las pruebas o la predicción.
Las estructuras y modelos de minería de datos se definen mediante SQL Server Data Tools (SSDT) o Visual Studio.
Puede administrar objetos de minería de datos y crear predicciones y consultas mediante SQL Server Management Studio.
Una vez completada la solución, se implementa en una instancia de Analysis Services.

El proceso de creación de estos objetos de solución ya se ha descrito en otra parte. Para obtener más información, vea Soluciones de minería de datos.

Datos de origen de minería de datos

Los datos que se usan en la minería de datos no se almacenan en la solución de minería de datos; solo se almacenan los enlaces. Los datos pueden residir en una base de datos creada en una versión anterior de SQL Server, un sistema CRM o incluso un archivo plano. Al entrenar la estructura o el modelo mediante el procesamiento, se crea un resumen estadístico de los datos y se almacena en una memoria caché que se puede conservar para su uso en operaciones posteriores o se elimina después del procesamiento. Para obtener más información, vea Estructuras de minería de datos (Analysis Services - Minería de datos).

Puede combinar datos dispares en el objeto de vista del origen de datos (DSV) de Analysis Services, que proporciona una capa de abstracción sobre sus datos. Puede especificar uniones entre tablas o agregar tablas que tengan una relación de muchos a uno para crear columnas de tabla anidadas. La definición de estos objetos, el origen de datos y la vista del origen de datos, se almacenan dentro de la solución con las extensiones de nombre de archivo, *.ds y *.dsv. Para obtener más información sobre cómo crear y usar orígenes de datos de Analysis Services y vistas de orígenes de datos, vea Orígenes de datos compatibles (SSAS multidimensional) .

También puede definir y modificar orígenes de datos y vistas de orígenes de datos mediante AMO o XMLA. Para obtener más información sobre cómo trabajar con estos objetos mediante programación, vea Información general sobre la arquitectura lógica (Analysis Services - Datos multidimensionales).

Estructuras mineras

Una estructura de minería de datos es un contenedor de datos lógico que define el dominio de datos desde el que se compilan los modelos de minería de datos. Una sola estructura de minería de datos puede admitir varios modelos de minería de datos.

Cuando necesite usar los datos de la solución de minería de datos, Analysis Services lee los datos del origen y genera una memoria caché de agregados y otra información. De forma predeterminada, esta caché se conserva para que los datos de entrenamiento se puedan reutilizar para admitir modelos adicionales. Si necesita eliminar la memoria caché, cambie la CacheMode propiedad del objeto de estructura de minería de datos por el valor , ClearAfterProcessing. Para obtener más información, consulte Clases de minería de datos de AMO.

SQL Server 2014 Analysis Services (SSAS) también proporciona la capacidad de separar los datos en conjuntos de datos de entrenamiento y pruebas, de modo que pueda probar los modelos de minería de datos en un conjunto representativo seleccionado aleatoriamente de datos. Los datos no se almacenan realmente por separado; en su lugar, los datos de caso de la caché de estructuras se marcan con una propiedad que indica si ese caso concreto se usa para entrenamiento o pruebas. Si se elimina la memoria caché, esa información no se puede recuperar.

Para obtener más información, vea Estructuras de minería de datos (Analysis Services - Minería de datos).

Una estructura de minería de datos puede contener tablas anidadas. Una tabla anidada proporciona detalles adicionales sobre el caso que se modela en la tabla de datos principal. Para obtener más información, consulte Tablas anidadas (Analysis Services - Minería de datos)

Modelos de minería

Antes del procesamiento, un modelo de minería de datos es solo una combinación de propiedades de metadatos. Estas propiedades especifican una estructura de minería de datos, especifican un algoritmo de minería de datos y una colección de parámetros y valores de filtro que afectan a cómo se procesan los datos. Para obtener más información, vea Modelos de minería de datos (Analysis Services - Minería de datos).

Al procesar el modelo, los datos de entrenamiento almacenados en la memoria caché de la estructura de minería se usan para generar patrones, basados tanto en propiedades estadísticas de los datos como en las heurísticas definidas por el algoritmo y sus parámetros. Esto se conoce como entrenamiento del modelo.

El resultado del entrenamiento es un conjunto de datos de resumen, incluidos en el contenido del modelo, que describe los patrones que se encontraron y proporcionan reglas por las que generar predicciones. Para obtener más información, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).

En casos limitados, la estructura lógica del modelo también se puede exportar a un archivo que representa fórmulas de modelo y enlaces de datos según un formato estándar, el lenguaje de marcado de modelado predictivo (PMML). Esta estructura lógica se puede importar en otros sistemas que utilizan PMML, y el modelo así descrito luego puede utilizarse para la predicción. Para obtener más información, vea Descripción de la instrucción SELECT de DMX.

Objetos de minería de datos personalizados

Otros objetos que se usan en el contexto de un proyecto de minería de datos, como gráficos de precisión o consultas de predicción, no se conservan en la solución, pero se pueden crear scripts mediante ASSL o compilados mediante AMO.

Además, puede ampliar los servicios y características disponibles en una instancia de Analysis Services agregando estos objetos personalizados:

Ensamblados personalizados
Los ensamblados de .NET se pueden definir mediante cualquier lenguaje CLR o COM-complaint y después registrarse con una instancia de SQL Server. Los archivos de ensamblado se cargan desde la ubicación definida por la aplicación y se guarda una copia en el servidor junto con los datos. La copia del archivo de ensamblado se usa para cargar el ensamblado cada vez que se inicia el servicio.

Para obtener más información, vea Administración de ensamblados de modelos multidimensionales.

Procedimientos almacenados personalizados
La minería de datos de Analysis Services admite el uso de procedimientos almacenados para trabajar con objetos de minería de datos. Puede crear sus propios procedimientos almacenados para ampliar la funcionalidad y trabajar con más facilidad con los datos devueltos por consultas de predicción y consultas de contenido.

Definición de procedimientos almacenados

Se admiten los siguientes procedimientos almacenados para su uso en la realización de la validación cruzada.

Procedimientos almacenados de minería de datos (Analysis Services - Minería de datos)

Además, Analysis Services contiene muchos procedimientos almacenados del sistema que se usan internamente para la minería de datos. Aunque los procedimientos almacenados del sistema son para uso interno, es posible que los encuentre accesos directos útiles. Microsoft se reserva el derecho de cambiar estos procedimientos almacenados según sea necesario; Por lo tanto, para su uso en producción, se recomienda crear consultas mediante DMX, AMO o XMLA.

Algoritmos de complemento personalizados
Analysis Services proporciona un mecanismo para crear sus propios algoritmos y, a continuación, agregar los algoritmos como un nuevo servicio de minería de datos a la instancia del servidor.

Analysis Services usa interfaces COM para comunicarse con algoritmos de complemento. Para más información sobre cómo implementar nuevos algoritmos, consulte Algoritmos de complementos.

Debe registrar cada nuevo algoritmo para poder usarlo. Para registrar un algoritmo, agregue los metadatos necesarios para los algoritmos en el archivo .ini de la instancia de Analysis Services. Debe agregar la información a cada instancia en la que planee usar el nuevo algoritmo. Después de agregar el algoritmo, puede reiniciar la instancia y usar el conjunto de filas de esquema MINING_SERVICES para ver el nuevo algoritmo, incluidas las opciones y los proveedores que admite el algoritmo.

Véase también

Procesamiento de objetos de modelo multidimensional
Referencia de extensiones de minería de datos (DMX)

Last updated on 2017-04-27

Compartir a través de