Compartir a través de


Datos de ejemplo (complementos de minería de datos de SQL Server)

Asistente para particiones de datos en la cinta de opciones de Minería de Datos

El asistente para Sample Data facilita la división de los datos de origen en dos conjuntos: uno para entrenar el modelo y otro para probar el modelo. Este asistente también proporciona una opción para remuestrear los datos con el fin de crear un nuevo conjunto de datos que represente mejor su objetivo.

Crear el tipo correcto de datos para entrenar y probar los modelos es una parte importante de la minería de datos, pero una que puede ser tediosa sin las herramientas adecuadas. El asistente realiza el muestreo estratificado para asegurarse de que los conjuntos de entrenamiento y pruebas estén bien equilibrados.

Muestreo aleatorio y sobremuestreo

. El muestreo aleatorio es la mejor manera de asegurarse de que los datos que se usan para probar un modelo representan bastante los datos que se usan para crear el modelo. Puede muestrear aleatoriamente los datos almacenados en Excel o en un origen de datos externo.

Si usa la opción de muestreo aleatorio, el Asistente para datos de ejemplo crea automáticamente conjuntos de datos de entrenamiento y prueba y los genera en hojas de cálculo de Excel independientes para referencia posterior.

Si los datos se almacenan en un libro de Excel y no en un origen de datos externo, también tiene la opción de usar el sobremuestreo. Con esta opción, se especifica un valor objetivo que puede ser poco frecuente en los datos, y el asistente recopilará un conjunto equilibrado que incluya más de ese valor objetivo. Puede instruir al asistente para lograr un porcentaje objetivo o para crear un número determinado de filas.

Si usa la opción de sobremuestreo, el asistente para datos de muestra crea una nueva hoja de cálculo que contiene los datos de muestra recién equilibrados.

Uso del Asistente de Datos de Muestra

Para separar los datos en conjuntos de entrenamiento y pruebas

  1. En la cinta Minería de datos, haga clic en Datos de muestra.

  2. En la página Seleccionar datos de origen, especifique si los datos que desea crear particiones están en un rango o tabla de Excel o en un origen de datos externo.

  3. En la página Seleccionar tipo de muestreo , especifique si desea crear conjuntos de datos de entrenamiento y prueba mediante muestreo aleatorio o crear un nuevo conjunto de datos mediante el sobremuestreo.

    Nota:

    Si usa un origen de datos externo, solo está disponible la opción de muestreo aleatorio. Si desea usar el sobremuestreo con datos externos, puede importar los datos a un libro de Excel mediante una conexión de datos de Excel y, a continuación, usar el Asistente para muestreo de datos.

  4. Establezca opciones específicas para el método de muestreo seleccionado.

    • Para el muestreo aleatorio, especifique un porcentaje de los datos originales que se van a usar para las pruebas o el número total de filas que se usarán en el conjunto de datos de prueba.

    • Para sobremuestreo, seleccione la columna y el valor que desea resaltar. A continuación, especifique el número total de filas del nuevo conjunto de datos y el porcentaje de filas del nuevo conjunto de datos que debe incluir el valor de destino.

      El valor objetivo para el sobremuestreo debe ser un valor discreto; no puede sobremuestrear datos numéricos continuos.

  5. En la página Finalizar, acepte los nombres predeterminados de los nuevos conjuntos de datos o escriba un nombre nuevo.

    El asistente crea nuevas hojas de cálculo para cada conjunto de datos.

La mayoría de los asistentes del cliente de minería de datos para Excel también proporcionan una opción para separar aleatoriamente los datos en conjuntos de entrenamiento y pruebas. Sin embargo, si utiliza los asistentes, los datos permanecen en la misma hoja de cálculo (u otro origen de datos) y la información sobre si una fila determinada es un caso de prueba o un caso de aprendizaje se almacena internamente. Por el contrario, cuando se usa el asistente de Datos de Muestra, los datos de prueba y entrenamiento se generan en hojas de cálculo separadas para una referencia fácil.

A medida que avance a través del asistente, tendrá estas opciones:

Opciones Comentarios
Cuadro de diálogo Seleccionar datos de origen (cliente de minería de datos para Excel) Seleccione un rango o tabla de Excel que contenga los datos. Si desea usar datos externos, los datos pueden ser relacionales, pero deben incluirse en un origen de datos de Analysis Services. T
Página de selección del tipo de muestreo (Cliente de minería de datos para Excel) Si usa un origen de datos externo, se limita al uso de la opción de muestreo aleatorio. Además, debe especificar el número de filas que se van a crear en el conjunto de datos final mediante la opción Recuento de filas. No se puede especificar un porcentaje de los datos de origen.
Página de muestreo aleatorio (cliente de minería de datos para Excel) Puede copiar un porcentaje de filas del origen o un número específico de filas.
Página de Sobremuestreo (Cliente de Minería de Datos para Excel) Estado de destino

Seleccione un valor de la lista que está bajo representación en el conjunto de datos original. El sobremuestreo aumentará la proporción de filas de datos que incluyen este estado.

Tamaño de ejemplo

Seleccione el número total de filas que se van a extraer. Este valor representa el tamaño del conjunto de datos final.

Otras opciones de muestreo

Si las opciones de muestreo de este asistente no satisfacen sus necesidades, puede usar la transformación de muestreo en SQL Server Integration Services (SSIS) para muestrear filas de varios orígenes de datos.

Para obtener más información, vea Transformación de muestreo de filas y Transformación de muestreo de porcentaje.

Véase también

Lista de comprobación de preparación para la minería de datos