Compartir a través de


Exploración y limpieza de datos

La preparación de datos es mucho más que la limpieza de datos. Recuerde que la forma en que se preparan los datos también afecta a cómo se interpretan los resultados al final. La preparación de datos implica estas tareas:

  • Exploración y comprobación de la distribución de datos.

  • Limpiar registros incorrectos y elegir columnas para la minería de datos.

  • Manejo de valores nulos adecuadamente.

  • Clasificación de valores o agregación de valores por intervalos de tiempo distintos.

  • Agregar etiquetas para mejorar la facilidad de uso de los resultados.

  • Convertir tipos de datos o clasificar valores cuando sea necesario para el análisis.

Si no está familiarizado con el modelado de datos, se recomienda leer el tema relacionado Lista de comprobación de preparación para la minería de datos.

Herramientas de preparación de datos

Los complementos de minería de datos para Office incluyen las siguientes herramientas para la limpieza y preparación de datos:

Exploración de datos

Use el Asistente para explorar datos para estas tareas de preparación de datos:

  • Obtenga una vista previa de los datos e identifique los errores que deben corregirse antes del análisis.

  • Recopile información estadística útil para comprender el equilibrio de datos y las tareas de limpieza necesarias.

  • Identifique las columnas que son útiles para el análisis y planee la fase de modelado de datos.

Explore datos (complementos de minería de datos de SQL Server).

Detectar y gestionar los valores atípicos

El Asistente para valores atípicos grafica la distribución de valores de los datos y le ayuda a quitar valores extremos. Use la herramienta Valores atípicos para las siguientes tareas de preparación de datos:

  • Determine si los valores individuales son confiables, en función de los patrones encontrados en los datos.

  • Revise los valores inusuales y tome medidas eliminando o reemplazandolos.

  • Limita un modelo a un rango específico de valores. Por ejemplo, si sabe que tiene valores atípicos en un almacén determinado, puede eliminar ese valor y obtener un modelo que prediga mejor a otros almacenes.

Valores atípicos (complementos de minería de datos de SQL Server).

Reetiquetar y agrupar datos en intervalos

El asistente de Relabel agrupa los datos por valores para permitirle cambiar las etiquetas de los datos. Use la herramienta Relabel para estas tareas de preparación de datos:

  • Cambie los códigos numéricos usados en los resultados de la encuesta a una descripción de texto de lo que significa el código numérico.

    Por ejemplo, puede reemplazar entradas de datos como Gender = 1 por Gender = Female.

  • Clasificar los datos mediante la creación de grupos para representar intervalos numéricos.

    Por ejemplo, es posible que desee reemplazar una columna Ingresos de números por etiquetas como Ingresos - Moderado e Ingresos - Alto.

  • Agrupe valores discretos en categorías.

    Por ejemplo, si tiene demasiados productos individuales para detectar un patrón entre las compras, podría intentar asignar productos a categorías más amplias.

Cambiar la etiqueta (complementos de minería de datos de SQL Server)

Limpiar datos

La limpieza de datos abarca una amplia gama de actividades, la mayoría de las cuales son compatibles con los complementos

  • Identifique los valores NULL y determine si se deben cambiar a un valor real o controlarlos como Missing valores.

  • Detecte los valores que faltan y, a continuación, quítelos o impute un valor adecuado, como una media, null u otro valor.

Explorar datos (complementos de minería de datos de SQL Server)

Cambiar la etiqueta (complementos de minería de datos de SQL Server)

Llenar desde el ejemplo

Datos de ejemplo

El asistente de datos de muestra ofrece dos métodos para crear conjuntos de datos equilibrados para entrenar y evaluar modelos.

  • Muestreo aleatorio. Use esta opción para extraer un conjunto representativo de datos de un conjunto de datos mayor, para usarlo en entrenamiento o pruebas. Los complementos de minería de datos usan muestreo estratificado para asegurarse de que se obtiene un conjunto equilibrado de valores para cada variable muestreada.

  • Sobremuestreo. Use esta opción cuando tenga menos datos de los que desea para un resultado de destino y tenga que ponderar esos datos con mayor intensidad. Por ejemplo, el fraude puede ser relativamente raro, pero se pueden tomar más muestras de casos que implican fraude para obtener datos adecuados para el análisis de modelos.

Datos de ejemplo (complementos de minería de datos de SQL Server).

Véase también

Creación de un modelo de minería de datos
Validar modelos y usar modelos para la predicción (complementos de minería de datos para Excel)
Implementar y escalar modelos de minería de datos (complementos de minería de datos para Excel)