Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación basado en los teoremas de Bayes y proporcionado por Microsoft SQL Server Analysis Services para su uso en el modelado predictivo. La palabra naïve en el nombre Naïve Bayes deriva del hecho de que el algoritmo usa técnicas bayesianas, pero no tiene en cuenta las dependencias que pueden existir.
Este algoritmo es menos intenso desde el punto de vista computacional que otros algoritmos de Microsoft y, por lo tanto, resulta útil para generar rápidamente modelos de minería de datos para detectar relaciones entre columnas de entrada y columnas predecibles. Puede usar este algoritmo para realizar la exploración inicial de los datos y, después, puede aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos que sean más intensos y precisos de forma computacional.
Ejemplo
Como estrategia promocional en curso, el departamento de marketing de la empresa Adventure Works Cycle ha decidido dirigirse a clientes potenciales mediante el envío de folletos. Para reducir los costos, quieren enviar volantes solo a los clientes que probablemente respondan. La empresa almacena información en una base de datos sobre datos demográficos y respuesta a un correo electrónico anterior. Quieren usar estos datos para ver cómo los datos demográficos, como la edad y la ubicación, pueden ayudar a predecir la respuesta a una promoción comparando clientes potenciales con clientes que tienen características similares y que han adquirido de la empresa en el pasado. En concreto, quieren ver las diferencias entre los clientes que compraron una bicicleta y los clientes que no lo hicieron.
Mediante el algoritmo Bayes naive de Microsoft, el departamento de marketing puede predecir rápidamente un resultado para un perfil de cliente determinado y, por tanto, puede determinar qué clientes tienen más probabilidades de responder a los folletos. Con el Visor Bayes ingenuo de Microsoft en SQL Server Data Tools (SSDT), también pueden investigar visualmente qué columnas de entrada contribuyen a respuestas positivas a los folletos.
Funcionamiento del algoritmo
El algoritmo Bayes naive de Microsoft calcula la probabilidad de cada estado de cada columna de entrada, dado cada estado posible de la columna de predicción.
Para comprender cómo funciona esto, use el Visor bayes naive de Microsoft en SQL Server Data Tools (SSDT) (como se muestra en el gráfico siguiente) para explorar visualmente cómo distribuye el algoritmo los estados.
Aquí, el Visor bayes naive de Microsoft muestra cada columna de entrada del conjunto de datos y muestra cómo se distribuyen los estados de cada columna, dado cada estado de la columna predecible.
Usaría esta vista del modelo para identificar las columnas de entrada que son importantes para diferenciar entre estados de la columna predecible.
Por ejemplo, en la fila de Distancia de viaje que se muestra aquí, la distribución de los valores de entrada es visiblemente diferente para los compradores frente a los no compradores. Lo que le indica es que la entrada, Distancia de viaje = 0-1 millas, es un indicador potencial.
El visor también proporciona valores para las distribuciones, por lo que puede ver que para los clientes que viajan de una a dos millas para trabajar, la probabilidad de que compren una bicicleta es 0,387, y la probabilidad de que no compren una bicicleta es 0,287. En este ejemplo, el algoritmo usa la información numérica, derivada de las características del cliente (como la distancia de desplazamiento), para predecir si un cliente comprará una bicicleta.
Para obtener más información sobre el uso del Visor bayes naive de Microsoft, vea Examinar un modelo mediante el Visor bayes naive de Microsoft.
Datos necesarios para los modelos Naive Bayes
Al preparar los datos para su uso en el entrenamiento de un modelo bayes naive, debe comprender los requisitos del algoritmo, incluida la cantidad de datos que se necesitan y cómo se usan los datos.
Los requisitos para un modelo Bayes naive son los siguientes:
Una sola columna de clave Cada modelo debe contener una columna numérica o de texto que identifique de forma única cada registro. No se permiten claves compuestas.
Columnas de entrada En un modelo de Naive Bayes, todas las columnas deben ser columnas discretas o discretizadas. Para obtener información sobre las columnas de discretización, vea Métodos de discretización (minería de datos).
Para un modelo Bayes naive, también es importante asegurarse de que los atributos de entrada son independientes entre sí. Esto es especialmente importante cuando se usa el modelo para la predicción.
La razón es que, si usa dos columnas de datos que ya están estrechamente relacionadas, el efecto sería multiplicar la influencia de esas columnas, lo que puede ocultar otros factores que influyen en el resultado.
Por el contrario, la capacidad del algoritmo para identificar correlaciones entre variables es útil cuando se explora un modelo o un conjunto de datos para identificar las relaciones entre las entradas.
Al menos una columna predecible El atributo predecible debe contener valores discretos o discretizados.
Los valores de la columna de predicción se pueden tratar como entradas. Esta práctica puede ser útil al explorar un nuevo conjunto de datos para buscar relaciones entre las columnas.
Visualización del modelo
Para explorar el modelo, puede usar el Visor Bayes Naive de Microsoft. El visor muestra cómo se relacionan los atributos de entrada con el atributo de predicción. El visor también proporciona un perfil detallado de cada clúster, una lista de los atributos que distinguen cada clúster de los demás y las características de todo el conjunto de datos de entrenamiento. Para obtener más información, vea Examinar un modelo mediante el Visor bayes naive de Microsoft.
Si desea obtener más información, puede examinar el modelo en el Visor de árboles de contenido genérico de Microsoft (minería de datos). Para obtener más información sobre el tipo de información almacenada en el modelo, vea el contenido del modelo de minería para los modelos Naive Bayes (Analysis Services - Minería de datos).
Realización de predicciones
Una vez entrenado el modelo, los resultados se almacenan como un conjunto de patrones, que puede explorar o usar para realizar predicciones.
Puede crear consultas para devolver predicciones sobre cómo se relacionan los nuevos datos con el atributo de predicción, o bien puede recuperar estadísticas que describen las correlaciones encontradas por el modelo.
Para obtener información sobre cómo crear consultas en un modelo de minería de datos, consulte Consultas de minería de datos. Para obtener ejemplos de cómo usar consultas con un modelo bayes naive, consulte Ejemplos de consultas de modelos bayes naive.
Observaciones
Admite el uso del lenguaje de marcado de modelos predictivos (PMML) para crear modelos de minería de datos.
Admite la obtención de detalles.
No admite la creación de dimensiones de minería de datos.
Admite el uso de modelos de minería de datos OLAP.
Véase también
Algoritmos de minería de datos (Analysis Services - Minería de datos)Selección de características (Minería de datos)Ejemplos de consultas de modelo Naive BayesContenido del modelo de minería para modelos Naive Bayes (Analysis Services - Minería de datos)Referencia técnica del algoritmo Microsoft Naive Bayes