Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El algoritmo Bayes naive de Microsoft es un algoritmo de clasificación proporcionado por Microsoft SQL Server Analysis Services para su uso en el modelado predictivo. El algoritmo calcula la probabilidad condicional entre las columnas de entrada y predicción y supone que las columnas son independientes. Esta suposición de independencia conduce al nombre Naive Bayes.
Implementación del algoritmo Bayes naive de Microsoft
Este algoritmo es menos intenso desde el punto de vista computacional que otros algoritmos de Microsoft y, por lo tanto, resulta útil para generar rápidamente modelos de minería de datos para detectar relaciones entre columnas de entrada y columnas predecibles. El algoritmo considera cada par de valores de atributo de entrada y valores de atributo de salida.
Una descripción de las propiedades matemáticas del Teorema bayes está fuera del ámbito de esta documentación; para obtener más información, vea el documento de Microsoft Research titulado Learning Bayesian Networks: The Combination of Knowledge and Statistical Data.
Para obtener una descripción de cómo se ajustan las probabilidades de todos los modelos para tener en cuenta los posibles valores que faltan, vea Valores que faltan (Analysis Services - Minería de datos).
Selección de características
El algoritmo Bayes naive de Microsoft realiza la selección automática de características para limitar el número de valores que se consideran al compilar el modelo. Para obtener más información, consulte Selección de características (minería de datos).
| Algoritmo | Método de análisis | Comentarios |
|---|---|---|
| Naive Bayes (Bayes ingenuo) | Entropía de Shannon Bayesiano con K2 Prior Bayesian Dirichlet con un prior uniforme (valor predeterminado) |
Naive Bayes solo acepta atributos discretos o discretizados; por lo tanto, no puede usar la puntuación de interés. |
El algoritmo está diseñado para minimizar el tiempo de procesamiento y seleccionar eficazmente los atributos que tienen la mayor importancia; Sin embargo, puede controlar los datos que usa el algoritmo estableciendo los parámetros como se indica a continuación:
Para limitar los valores que se usan como entradas, reduzca el valor de MAXIMUM_INPUT_ATTRIBUTES.
Para limitar el número de atributos analizados por el modelo, reduzca el valor de MAXIMUM_OUTPUT_ATTRIBUTES.
Para limitar el número de valores que se pueden considerar para cualquier atributo, reduzca el valor de MINIMUM_STATES.
Personalización del algoritmo bayes naive
El algoritmo Bayes naive de Microsoft admite varios parámetros que afectan al comportamiento, el rendimiento y la precisión del modelo de minería de datos resultante. También puede establecer indicadores de modelado en las columnas del modelo para controlar cómo se procesan los datos, o establecer indicadores en la estructura de minería para especificar cómo manejar los valores faltantes o NULL.
Establecer parámetros de algoritmo
El algoritmo Bayes naive de Microsoft admite varios parámetros que afectan al rendimiento y la precisión del modelo de minería de datos resultante. En la tabla siguiente se describe cada parámetro.
ATRIBUTOS_DE_ENTRADA_MÁXIMOS
Especifica el número máximo de atributos de entrada que el algoritmo puede controlar antes de invocar la selección de características. Al establecer este valor en 0 se deshabilita la selección de características para los atributos de entrada.
El valor predeterminado es 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Especifica el número máximo de atributos de salida que el algoritmo puede controlar antes de invocar la selección de características. Al establecer este valor en 0, se deshabilita la selección de características para los atributos de salida.
El valor predeterminado es 255.
PROBABILIDAD_MÍNIMA_DE_DEPENDENCIA
Especifica la probabilidad de dependencia mínima entre los atributos de entrada y salida. Este valor se usa para limitar el tamaño del contenido generado por el algoritmo. Esta propiedad se puede establecer de 0 a 1. Los valores más grandes reducen el número de atributos del contenido del modelo.
El valor predeterminado es 0,5.
MAXIMUM_STATES
Especifica el número máximo de estados de atributo que admite el algoritmo. Si el número de estados que tiene un atributo es mayor que el número máximo de estados, el algoritmo usa los estados más populares del atributo y trata los estados restantes como ausentes.
El valor predeterminado es 100.
Banderas de modelado
El algoritmo de árboles de decisión de Microsoft admite las siguientes marcas de modelado. Al crear la estructura de minería o el modelo de minería, se definen indicadores de modelado para especificar cómo se gestionan los valores de cada columna durante el análisis. Para obtener más información, vea Modeling Flags (Data Mining).
| Bandera de modelado | Descripción |
|---|---|
| Existencia_del_Modelo_Solamente | Significa que la columna se tratará como si tuviera dos estados posibles: falta y existente. Un valor NULL es un valor que falta. Se aplica a la columna del modelo minero. |
| NO NULO | Indica que la columna no puede contener un valor NULL. Se producirá un error si Analysis Services encuentra un valor NULL durante el entrenamiento del modelo. Se aplica a la columna de la estructura de minería. |
Requisitos
Un modelo de árbol Bayes naive debe contener una columna de clave, al menos un atributo de predicción y al menos un atributo de entrada. Ningún atributo puede ser continuo; Si los datos contienen datos numéricos continuos, se omitirán o discretizarán.
Columnas de entrada y predicción
El algoritmo Bayes naive de Microsoft admite las columnas de entrada específicas y las columnas de predicción que se enumeran en la tabla siguiente. Para obtener más información sobre lo que significan los tipos de contenido cuando se usan en un modelo de minería de datos, vea Tipos de contenido (minería de datos).
| Columna | Tipos de contenido |
|---|---|
| Atributo de entrada | Cíclico, Discreto, Discretizado, Clave, Tabla y Ordenado |
| Atributo de predicción | Cíclico, Discreto, Discretizado, Tabla y Ordenado |
Nota:
Se admiten tipos de contenido cíclicos y ordenados, pero el algoritmo los trata como valores discretos y no realiza un procesamiento especial.
Véase también
Algoritmo bayes naive de Microsoft
Ejemplos de consultas de modelo Bayes Ingenuo
Contenido del modelo de minería para modelos Naive Bayes (Analysis Services - Data Mining)