Compartir a través de


Descripción de los requisitos de un modelo de serie temporal (Tutorial intermedio de minería de datos)

Al preparar los datos para su uso en un modelo de previsión, debe asegurarse de que los datos contienen una columna que se puede usar para identificar los pasos de la serie temporal. Esa columna se designará como columna Key Time . Dado que es una clave, la columna debe contener valores numéricos únicos.

Elegir la unidad adecuada para la Key Time columna es una parte importante del análisis. Por ejemplo, supongamos que los datos de ventas se actualizan por minuto. No usaría necesariamente minutos como unidad para la serie temporal; es posible que tenga más sentido acumular datos de ventas por día, semana o incluso mes. Si no está seguro de qué unidad de tiempo usar, puede crear una nueva vista del origen de datos para cada agregación y crear modelos relacionados, para ver si surgen diferentes tendencias en cada nivel de agregación.

En este tutorial, los datos de ventas se recopilan diariamente en la base de datos de ventas transaccional, pero para la minería de datos, los datos se han agregado previamente por meses utilizando una vista.

Además, es conveniente analizar que los datos tienen lo menos brechas posibles. Si tiene previsto analizar varias series de datos, es preferible que todas las series comiencen y finalicen en la misma fecha. Si los datos tienen huecos, pero las lagunas no están al principio o al final de una serie, puede usar el parámetro MISSING_VALUE_SUBSTITUTION para rellenar la serie. Analysis Services también proporciona varias opciones para reemplazar los datos que faltan por valores, como el uso de medios o constantes.

Advertencia

Ya no se proporcionan las herramientas de gráfico dinámico y tabla dinámica que se incluyeron en versiones anteriores del diseñador de vistas del origen de datos. Se recomienda identificar de antemano las brechas en los datos de serie temporal mediante herramientas como Data Profiler incluidas en Integration Services.

Para identificar la clave de tiempo del modelo de previsión

  1. En el panel SalesByRegion.dsv [Design], haga clic con el botón derecho en la tabla vTimeSeries y, a continuación, seleccione Explorar datos.

    Se abre una nueva pestaña denominada Explorar tabla vTimeSeries.

  2. En la pestaña Tabla , revise los datos que se usan en las columnas TimeIndex y Reporting Date.

    Ambas son secuencias con valores únicos y se pueden usar como clave de serie temporal; sin embargo, los tipos de datos de las columnas son diferentes. El algoritmo de serie temporal de Microsoft no requiere un datetime tipo de datos, solo que los valores sean distintos y ordenados. Por lo tanto, cualquiera de las columnas se puede usar como clave temporal para el modelo de previsión.

  3. En la superficie de diseño de la vista del origen de datos, seleccione la columna Fecha de informe y seleccione Propiedades. A continuación, haga clic en la columna TimeIndex y seleccione Propiedades.

    El campo TimeIndex tiene el tipo de datos System.Int32, mientras que el campo Fecha de informe tiene el tipo de datos System.DateTime. Muchos almacenes de datos convierten valores de fecha y hora en enteros y usan la columna de enteros como clave para mejorar el rendimiento de la indexación. Sin embargo, si usa esta columna, el algoritmo de serie temporal de Microsoft realizará predicciones con valores futuros, como 201014, 201014, etc. Dado que desea representar la previsión de datos de ventas mediante fechas de calendario, usará la columna Fecha de informe como identificador de serie único.

Para establecer la clave en la vista de fuente de datos

  1. En el panel SalesByRegion.dsv, seleccione la tabla vTimeSeries.

  2. Haga clic con el botón derecho en la columna, Fecha de informe y seleccione Establecer clave principal lógica.

Control de datos que faltan (opcional)

Si alguna serie tiene datos que faltan, es posible que reciba un error al intentar procesar el modelo. Tiene varias maneras de solucionar los datos que faltan:

  • Puede hacer que Analysis Services rellene los valores que faltan, ya sea calculando una media o usando un valor anterior. Para ello, establezca el parámetro MISSING_VALUE_SUBSTITUTION en el modelo de minería. Para obtener más información sobre este parámetro, vea Referencia técnica del algoritmo de serie temporal de Microsoft. Para obtener información sobre cómo cambiar parámetros en un modelo de minería de datos existente, vea Ver o cambiar parámetros de algoritmo.

  • Puede modificar el origen de datos o filtrar la vista subyacente para eliminar series desiguales o reemplazar valores. Puede hacerlo en el origen de datos relacional o puede modificar la vista del origen de datos mediante la creación de consultas con nombre personalizadas o cálculos con nombre. Para obtener más información, vea Vistas del origen de datos en modelos multidimensionales. Una tarea posterior de esta lección proporciona un ejemplo de cómo crear una consulta con nombre y un cálculo personalizado.

En este escenario, faltan algunos datos al principio de una serie: es decir, no hay datos para la línea de productos T1000 hasta julio de 2007. De lo contrario, todas las series terminan en la misma fecha y no hay valores faltantes.

El requisito del algoritmo de serie temporal de Microsoft es que cualquier serie que incluya en un único modelo debe tener el mismo punto final . Dado que el modelo de bicicletaS T1000 se introdujo en 2007, los datos de esta serie comienzan más tarde que para otros modelos de bicicletas, pero la serie termina en la misma fecha; por lo tanto, los datos se pueden usar.

Para cerrar el diseñador de vistas del origen de datos

  • Haga clic con el botón derecho en la pestaña Explorar tabla vTimeSeries y seleccione Cerrar.

Siguiente tarea de la lección

Creación de una estructura y un modelo de previsión (Tutorial intermedio de minería de datos)

Véase también

Algoritmo de serie temporal de Microsoft