Compartir a través de


Algoritmo de asociación de Microsoft

El algoritmo de asociación de Microsoft es un algoritmo de asociación proporcionado por Analysis Services que es útil para los motores de recomendación. Un motor de recomendaciones recomienda productos a los clientes en función de los artículos que ya han comprado o en los que han indicado un interés. El algoritmo de asociación de Microsoft también es útil para el análisis de la cesta de compra. Para obtener un ejemplo de un análisis de cesta de mercado, vea Lección 3: Crear un escenario de cesta de mercado (Tutorial intermedio de minería de datos) en el Tutorial de minería de datos.

Los modelos de asociación se basan en conjuntos de datos que contienen identificadores para casos individuales y para los elementos que contienen los casos. Un grupo de elementos en un caso se denomina conjunto de elementos. Un modelo de asociación consta de una serie de conjuntos de elementos y las reglas que describen cómo se agrupan esos elementos dentro de los casos. Las reglas que identifica el algoritmo se pueden usar para predecir las compras futuras probables de un cliente, en función de los elementos que ya existen en el carro de la compra del cliente. En el diagrama siguiente se muestra una serie de reglas en un conjunto de elementos.

Un conjunto de reglas para un modelo de asociación Un conjunto

Como se muestra en el diagrama, el algoritmo de asociación de Microsoft puede encontrar muchas reglas dentro de un conjunto de datos. El algoritmo usa dos parámetros, compatibilidad y probabilidad, para describir los conjuntos de elementos y las reglas que genera. Por ejemplo, si X e Y representan dos elementos que podrían estar en un carro de la compra, el parámetro support es el número de casos del conjunto de datos que contienen la combinación de elementos, X e Y. Mediante el uso del parámetro support en combinación con los parámetros definidos por el usuario, MINIMUM_SUPPORT y MAXIMUM_SUPPORT, el algoritmo controla el número de conjuntos de elementos que se generan. El parámetro de probabilidad, también denominado confianza, representa la fracción de casos del conjunto de datos que contienen X y que también contienen Y. Mediante el uso del parámetro de probabilidad en combinación con el parámetro MINIMUM_PROBABILITY , el algoritmo controla el número de reglas que se generan.

Ejemplo

La empresa Adventure Works Cycle está rediseñando la funcionalidad de su sitio web. El objetivo del rediseño es aumentar la venta de productos. Dado que la empresa registra cada venta en una base de datos transaccional, pueden usar el algoritmo de asociación de Microsoft para identificar conjuntos de productos que tienden a adquirirse juntos. Después, pueden predecir artículos adicionales en los que un cliente podría estar interesado, en función de los elementos que ya están en la cesta de la compra del cliente.

Funcionamiento del algoritmo

El algoritmo de asociación de Microsoft recorre un conjunto de datos para buscar elementos que aparecen juntos en un caso. A continuación, el algoritmo agrupa en conjuntos de elementos los elementos asociados que aparecen, como mínimo, en el número de casos especificados por el parámetro MINIMUM_SUPPORT . Por ejemplo, un conjunto de elementos puede ser "Mountain 200=Existing, Sport 100=Existing" y puede tener un soporte de 710. A continuación, el algoritmo genera reglas de los conjuntos de elementos. Estas reglas se usan para predecir la presencia de un elemento en la base de datos, en función de la presencia de otros elementos específicos que el algoritmo identifica como importante. Por ejemplo, una regla podría ser "si Touring 1000=existente y portabotellas de carretera=existente, entonces botella de agua=existente" y podría tener una probabilidad de 0.812. En este ejemplo, el algoritmo identifica que la presencia en la cesta del neumático Touring 1000 y la jaula de botella de agua predice que una botella de agua también estaría en la cesta.

Para obtener una explicación más detallada del algoritmo, junto con una lista de parámetros para personalizar el comportamiento del algoritmo y controlar los resultados en el modelo de minería de datos, vea Referencia técnica del algoritmo de asociación de Microsoft.

Datos necesarios para los modelos de asociación

Al preparar los datos para su uso en un modelo de reglas de asociación, debe comprender los requisitos para el algoritmo concreto, incluida la cantidad de datos que se necesitan y cómo se usan los datos.

Los requisitos de un modelo de reglas de asociación son los siguientes:

  • Una sola columna de clave Cada modelo debe contener una columna numérica o de texto que identifique de forma única cada registro. no se permiten claves compuestas.

  • Una sola columna de predicción Un modelo de asociación solo puede tener una columna de predicción. Normalmente es la columna clave de la tabla anidada, como el campo que lista los productos comprados. Los valores deben ser discretos o discretizados.

  • Columnas de entrada . Las columnas de entrada deben ser discretas. Los datos de entrada de un modelo de asociación a menudo se encuentran en dos tablas. Por ejemplo, una tabla puede contener información del cliente mientras que otra tabla contiene compras de clientes. Puede introducir estos datos en el modelo mediante una tabla anidada. Para obtener más información sobre las tablas anidadas, vea Tablas anidadas (Analysis Services - Minería de datos).

Para obtener información más detallada sobre los tipos de contenido y los tipos de datos admitidos para los modelos de asociación, consulte la sección Requisitos de referencia técnica del algoritmo de asociación de Microsoft.

Visualización de un modelo de asociación

Para explorar el modelo, puede usar el Visor de asociaciones de Microsoft. Al ver un modelo de asociación, Analysis Services presenta las correlaciones desde distintos ángulos para que pueda comprender mejor las relaciones y reglas que se encontraron en los datos. El panel Conjunto de elementos del visor proporciona un desglose detallado de las combinaciones o conjuntos de elementos más comunes. El panel Reglas presenta una lista de reglas que se han generalizado de los datos, agrega cálculos de probabilidad y clasifica las reglas por importancia relativa. el visor de red de dependencias le permite explorar visualmente cómo se conectan los distintos elementos individuales. Para obtener más información, vea Examinar un modelo mediante el Visor de clústeres de Microsoft.

Si desea obtener más información sobre cualquiera de los conjuntos de elementos y reglas, puede examinar el modelo en el Visor de árboles de contenido genérico de Microsoft. El contenido almacenado para el modelo incluye la compatibilidad con cada conjunto de elementos, una puntuación para cada regla y otras estadísticas. Para obtener más información, vea Contenido del modelo de minería de datos para modelos de asociación (Analysis Services - minería de datos).

Creación de predicciones

Una vez procesado el modelo, puede usar las reglas y conjuntos de elementos para realizar predicciones. En un modelo de asociación, una predicción indica qué elemento es probable que se produzca dada la presencia del elemento especificado y la predicción puede incluir información como la probabilidad, la compatibilidad o la importancia. Para obtener ejemplos de cómo crear consultas en un modelo de asociación, consulte Ejemplos de consultas del modelo de asociación.

Para obtener información general sobre cómo crear una consulta en un modelo de minería de datos, consulte Consultas de minería de datos.

Rendimiento

El proceso de creación de conjuntos de elementos y correlaciones de recuento puede llevar mucho tiempo. Aunque el algoritmo de reglas de asociación de Microsoft usa técnicas de optimización para ahorrar espacio y hacer que el procesamiento sea más rápido, debe saber que los problemas de rendimiento pueden producirse en condiciones como las siguientes:

  • El conjunto de datos es grande con muchos elementos individuales.

  • El tamaño mínimo del conjunto de elementos se establece demasiado bajo.

Para minimizar el tiempo de procesamiento y reducir la complejidad de los conjuntos de elementos, puede intentar agrupar elementos relacionados por categorías antes de analizar los datos.

Observaciones

  • No admite el uso del lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos.

  • Admite la obtención de detalles.

  • Admite el uso de modelos de minería de datos OLAP.

  • Admite la creación de dimensiones de minería de datos.

Véase también

Algoritmos de minería de datos (Analysis Services - Minería de datos)Examinar un modelo mediante el contenido del modelo de minería de datos del Visor de reglas de asociación de Microsoft para los modelos de asociación (Analysis Services - Minería de datos)Ejemplos de consulta del modelo de asociaciónde referencia técnica del algoritmo de asociación de Microsoft