Compartir a través de


Elección de datos para minería de datos

A medida que inicia la minería de datos, puede preguntar "¿Cuántos datos necesito?" o "¿Hay algún requisito especial que debo saber al limpiar o dar formato a mis datos?"

En concreto, las personas nuevas en la minería de datos suelen tener problemas con datos de Excel, como la necesidad de dar formato a los datos de forma coherente dentro de las columnas, limpiar los valores que faltan o asignar números. En esta sección también se enumeran los requisitos de datos para determinados tipos de modelos.

Elección de datos

Problemas comunes de datos

Otros requisitos de datos

Elección de datos

La selección de los datos usados para el análisis es quizás la parte más importante del proceso de minería de datos, más incluso que la selección de un algoritmo. La razón es que la minería de datos no suele ser controlada por hipótesis, pero controlada por datos. En lugar de seleccionar y probar variables de antemano, como podría con el modelado estadístico tradicional, la minería de datos puede tomar datos y detectar nuevas correlaciones (o no detectar ningún patrón). La calidad y la cantidad de los datos pueden tener un efecto significativo en los resultados.

En general, observe las reglas siguientes:

  • Obtenga tantos datos limpios como sea posible.

  • Realice la generación de perfiles de datos antes de probar los modelos. Debe comprender los datos antes de poder derivar el significado de ellos. Como mínimo:

    1. Use las herramientas de los complementos para buscar los valores máximos y mínimos, los valores más comunes y los valores promedio.

    2. Rellene los valores que faltan. Los complementos (así como algunos algoritmos) proporcionan herramientas para imputar valores que faltan.

    3. Corrija los datos incorrectos siempre que sea posible. Los proyectos de minería de datos a menudo sirven como impulso para nuevas iniciativas de calidad de datos.

  • Pruebe a compilar un modelo de prueba y busque problemas de datos de esa manera. A medida que examine los resultados, puede encontrar, por ejemplo, que las proyecciones de ventas se basan en datos anómalos debido a un error de conversión de moneda.

  • Pruebe a convertir los datos en diferentes formatos o pruebe a clasificar números en grupos. Los patrones a menudo surgen cuando se transforman los datos.

    Por ejemplo, el nivel de servicio en el centro de llamadas podría verse afectado por el día de la semana, lo cual no advertiría si solo utilizara los valores de fecha y hora. Las previsiones pueden ser mejores cuando se generan en ciclos de 10 días en lugar de unidades semanales o diarias.

  • Coloque números en las clasificaciones adecuadas para reducir el número de valores posibles para análisis.

  • Cree varias versiones de los datos y cree varios modelos.

Para obtener sugerencias adicionales sobre cómo seleccionar, modificar y revisar datos, consulte Lista de comprobación de preparación para la minería de datos.

¿Cuántos datos necesito?

Una regla general es no tener nunca menos de 50-100 filas de datos para los escenarios y tipos de modelos más sencillos. Por ejemplo, si va a predecir un único atributo mediante un modelo Bayes naïve y el conjunto de datos tiene un formato correcto, es posible que pueda generar predicciones bastante precisas con 50-100 filas de datos.

En el caso de los modelos de asociación, normalmente se necesitan muchos más datos: es posible que mil filas no sean suficientes si está analizando muchos atributos, como asociaciones entre productos. Si el conjunto de datos es demasiado grande o demasiado pequeño, a veces puede lograr mejores resultados al contraer filas en categorías. Por ejemplo, en lugar de analizar asociaciones entre productos individuales, podría clasificar los productos.

Si tiene un conjunto de datos de un tamaño razonable, céntrese más en la calidad de los datos en lugar de agregar más y más datos. Después de un punto, se han encontrado todos los patrones que son estadísticamente válidos y agregar más datos no mejora su validez. Por el contrario, a medida que agrega más datos a veces puede introducir correlaciones accidentales.

Números discretos frente a números continuos

Una columna discreta contiene un número finito de valores. Por ejemplo, el texto siempre se trata como valores discretos.

Hay algunos atributos importantes para valores discretos. Por ejemplo, si trata los números como discretos, no hay ningún orden implícito entre ellos y no puede promediar ni sumar los números. Los códigos de área telefónica son un buen ejemplo de datos numéricos discretos que nunca usaría para realizar operaciones matemáticas.

A veces, los valores discretos se conocen como valores de categoría, ya que se puede agrupar un conjunto de datos por ellos, mientras que no puede con números organizados en una serie infinita.

También puede decidir tratar los números como discretos cuando los valores están claramente separados y no hay ninguna posibilidad de valores fraccionarios o los valores fraccionarios no son útiles.

Los datos numéricos continuos pueden contener un número infinito de valores fraccionarios. Una columna de ingresos es un ejemplo de una columna de atributo continuo. Si especifica que una columna es numérica, cada valor de esa columna debe ser un número, excepto los valores NULL. Tenga en cuenta que en Excel se pueden considerar las marcas de tiempo y cualquier otra representación de fecha y hora que pueda convertirse en un tipo de dato de SQL Server.

Convertir números en variables categóricas

Solo porque una columna contiene números no significa que se traten como números continuos. La discretización proporciona muchas ventajas para el análisis. Uno es que se reduce el espacio del problema. Otro es que a veces los números no son la manera adecuada de expresar un resultado.

Por ejemplo, el número de niños por hogar puede tratarse como un valor continuo o discreto. Puesto que no es posible tener 2,5 niños en el hogar, y los hogares con 3 o más niños pueden comportarse de forma muy diferente de los hogares con 2 niños, es posible que obtenga mejores resultados tratando este número como una categoría. Sin embargo, si va a crear un modelo de regresión o requiere un promedio (por ejemplo, 1,357 niños por hogar), usaría un tipo de datos de número continuo.

No es posible crear un modelo de minería de datos que tenga datos continuos y, a continuación, tratar la columna como discreta más adelante. Los dos conjuntos de datos se deben procesar de forma diferente y se controlan en el back-end como estructuras de minería de datos independientes. Si no está seguro de la manera correcta de controlar los datos, debe crear modelos independientes que controlen los datos de forma diferente. En cualquier caso, esta es una buena manera de obtener una perspectiva diferente de los datos y quizás resultados diferentes.

Convertir números en texto

A menudo, los valores que deben ser discretos, como Macho y Hembra, se representan como datos numéricos, usando las etiquetas 1 y 2. Normalmente, esta codificación se realiza para simplificar la entrada de datos o para ahorrar espacio de almacenamiento en una base de datos, pero la codificación puede provocar ambigüedad sobre la naturaleza o el significado de los valores. Además, dado que los valores discretos se almacenan como números, a medida que se mueven los datos entre las aplicaciones, se pueden producir errores de conversión de tipos de datos y los valores se pueden calcular o tratar de otro modo como continuos. Para evitar estos problemas, antes de comenzar la minería de datos, debe volver a convertir las etiquetas numéricas en etiquetas de texto discretas.

Binning Numbers

Aunque todos los números en principio son infinitos y, por tanto, son continuos, cuando se modela información, es posible que sea más eficaz discretizar o bin los valores disponibles.

Puede discretizar datos de muchas maneras:

  • Especifique un número finito de cubos y deje que el algoritmo ordene los valores en ellos.

  • Para agruparlas previamente, cree algunos conjuntos de agrupaciones que tengan significado empresarial o con los que sea más fácil trabajar. Con este enfoque, a menudo se pierde la distribución verdadera de valores, pero los intervalos son más fáciles de leer.

  • Deje que el algoritmo determine tanto el número óptimo de cubos como la distribución de valores. Este es el valor predeterminado en la mayoría de las herramientas, pero puede sobrescribir estos valores predeterminados usando los asistentes de la barra de herramientas de minería de datos.

  • Aproximación de valores a una media central o un valor representativo.

Problemas comunes de datos

Formatos de números de Excel

Excel es una herramienta fácil de usar porque es flexible; ¡puedes colocar casi cualquier tipo de datos en cualquier lugar! Sin embargo, antes de empezar a buscar patrones y analizar correlaciones, debe imponer algunas restricciones o estructura en los datos.

De forma predeterminada, al importar datos numéricos en Microsoft Office Excel, los números se almacenan en formato decimal con dos posiciones decimales. Si no es un formato de número adecuado, debe cambiar a otro formato numérico o cambiar el número de posiciones decimales.

Una opción es usar la herramienta Relabel para cambiar la forma en que se muestran o agrupan los números.

Sin embargo, si los datos son demasiado complejos para procesarlos con la herramienta Relabel , puede usar las funciones numéricas de Excel para convertir los datos en intervalos discretos, guardar ese resultado en una columna independiente y, a continuación, usar la columna discretizada para la clasificación en su lugar.

Por ejemplo, si está analizando los resultados de la carrera y desea agrupar los corredores por sus tiempos de finalización en minutos, puede redondear hasta el minuto más cercano y guardar ese valor redondeado en una nueva columna. También puede extraer solo el valor de minuto mediante la MINUTE función y, a continuación, guardar ese valor en una nueva columna para su uso en el análisis.

Discretización de números y fechas en Excel

De forma predeterminada, los datos numéricos de Excel se almacenan como .Double Las fechas y horas también se almacenan en formato numérico. Si necesita discretizar números o fechas para la minería de datos, debe agregar nuevas columnas antes de compilar el modelo de minería de datos o convertir fechas y números a otro formato de antemano.

Formatos de números científicos

Las herramientas de minería de datos suelen generar probabilidades en notación científica, para representar números muy grandes o muy pequeños. Si no está familiarizado con la notación científica, puede mostrar fácilmente estos números en otro formato cambiando simplemente el formato de celda.

Para cambiar la notación científica a un formato numérico decimal
  1. En la tabla de datos de Excel, resalte la columna o celda que contiene el número en notación científica.

  2. Haga clic con el botón derecho y seleccione Formato de celdas en el menú contextual.

  3. En la lista Categoría , seleccione Número.

  4. Aumente el número de posiciones decimales. Una probabilidad que se representa en notación científica suele ser muy pequeña.

    Solo se cambia la presentación del número, no el valor subyacente.

Manejo de fechas y horas

Cuando tenga fechas en una tabla de Excel y use la columna como entrada o predicción, puede recibir resultados inesperados, en función de cómo se dé formato a la información de fecha u hora. Por ejemplo, cuando se usan Detectar categorías o Clasificar e incluir una columna que contiene fechas, las fechas se clasifican como números con muchas posiciones decimales. Esto no es un error; es una representación precisa de los datos subyacentes. El algoritmo de minería de datos funciona con el formato de almacenamiento subyacente, no con el formato de presentación.

Si tiene dificultades para trabajar con fechas y desea analizar fechas con agrupaciones de sentido común como mes o día, puede usar las funciones DATE en Excel para extraer el año, mes o día en una columna independiente y, a continuación, usar esa columna para la clasificación en su lugar.

Otros requisitos de datos

Requisitos por tipo de algoritmo

Algunos algoritmos que se usan en los complementos requieren tipos de datos o tipos de contenido específicos para crear un modelo.

Modelos Bayesianos ingenuos

  • El algoritmo Bayes naive de Microsoft no puede usar columnas continuas como entrada. Esto significa que debe categorizar los números, o, si hay pocos valores, manejarlos como valores discretos.

  • Este tipo de modelo tampoco puede predecir valores continuos. Por lo tanto, si desea predecir un número continuo, como ingresos (por ejemplo), primero debe binar los valores en intervalos significativos. Si no está seguro de cuáles son los intervalos adecuados, puede usar el algoritmo de clústeres para identificar grupos de números en sus datos.

  • Cuando se usa un asistente basado en este algoritmo (como Analizar influenciadores clave (Herramientas de análisis de tablas para Excel)), el asistente agrupará las columnas continuas.

  • Si crea un modelo Bayes naive mediante la opción Modelado avanzado (complementos de minería de datos para Excel), las columnas de número se quitarán del modelo. Si quiere evitar esto, use la herramienta Reetiquetar (Complementos de minería de datos de SQL Server) para crear una nueva columna con valores agrupados.

Modelos de agrupación en clústeres

Modelos de previsión

  • Todas las herramientas de previsión requieren que se prediga un número continuo. No se puede predecir un número que se ha guardado como texto.

  • Si los datos contienen columnas de número que tienen el tipo de datos incorrecto, puede usar funciones de Excel o funciones de PowerPivot para realizar una copia de la columna que tenga el tipo de datos numérico correcto. Si lo hace, asegúrese de quitar la copia de la columna que tiene los números de texto para que los valores no estén duplicados.

  • Si desea crear un gráfico de dispersión de un modelo de regresión, las variables de entrada también deben ser números continuos, expresados como un tipo de datos adecuado.

Uso de tipos de contenido para mejorar los modelos

Un tipo de contenido es una propiedad que se aplica a una columna para especificar cómo el modelo debe usar los datos de columna. El algoritmo puede usar el tipo de contenido como una instrucción o sugerencia al realizar el análisis.

Por ejemplo, si una columna contiene números que se repiten en un intervalo específico para indicar los días de la semana, puede especificar el tipo de contenido de esa columna como Cyclical.

No tiene que preocuparse por los tipos de contenido si usa los asistentes y herramientas proporcionados en estos complementos. Sin embargo, si usa la opción de modelado Agregar modelo a estructura (complementos de minería de datos para Excel) para agregar un nuevo modelo a los datos existentes, es posible que reciba un error relacionado con los tipos de contenido.

La razón es que algunos tipos de modelo requieren un determinado tipo de datos (como una marca de tiempo). Las herramientas procesan estas columnas según requisitos específicos y también agregan una propiedad de tipo de contenido. Por lo tanto, si vuelve a usar los datos con un algoritmo completamente diferente, es posible que tenga que cambiar el tipo de datos o el tipo de contenido.

En la lista siguiente se describen los tipos de contenido que se usan en la minería de datos e identifica los tipos de datos que admiten cada tipo.

Discrete
La columna contiene un número finito de valores sin continuidad entre los valores. Por ejemplo, una columna de género es una columna de atributo discreta típica, en que los datos representan un número específico de categorías.

El Discrete tipo de contenido se puede usar con todos los tipos de datos.

Continuous
La columna contiene valores que representan datos numéricos en una escala que permite valores provisionales. Una columna continua representa medidas escalables y es posible que los datos contengan un número infinito de valores fraccionarios. Una columna de temperaturas es un ejemplo de una columna de atributo continuo.

El Continuous tipo de contenido se puede usar con los siguientes tipos de datos: Date, Doubley Long.

Discretized
La columna contiene valores que representan grupos de valores derivados de una columna continua. Los cubos se consideran como valores ordenados y discretos.

El Discretized tipo de contenido se puede usar con los siguientes tipos de datos: Date, Double, Long.

clave
La columna identifica de forma única una fila.

Normalmente, la columna de clave es un identificador numérico o de texto que no se debe usar para el análisis, solo para los registros de seguimiento. Las excepciones son claves de serie temporal y claves de secuencia.

Las claves de tabla anidadas solo se usan cuando se obtienen datos de un origen de datos externo que se ha definido como una vista del origen de datos de Analysis Services. Para obtener más información sobre las tablas anidadas, vea https://msdn.microsoft.com/library/ms175659.aspx:

Este tipo de contenido se puede usar con los siguientes tipos de datos: Date, Double, Longy Text.

Secuencia de claves
La columna contiene valores que representan una secuencia de eventos. Los valores se ordenan, pero no tienen que estar a una distancia igual entre sí.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long, Texty Date.

Momento clave
La columna contiene valores ordenados y que representan una escala de tiempo. Puede usar el tipo de contenido de momento clave solo si el modelo es un modelo de serie de tiempo o un modelo de agrupación de secuencias por clústeres.

Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Longy Date.

Tabla
Este tipo de contenido también se usa solo cuando se obtienen datos de un origen de datos externo que se ha definido como una vista del origen de datos de Analysis Services.

Lo que significa es que cada fila de datos contiene realmente una tabla de datos anidada, con una o varias columnas y una o varias filas.

Las tablas anidadas son muy útiles, pero solo se pueden usar con las opciones de modelado avanzado (complementos de minería de datos para Excel). Por ejemplo, los datos de ejemplo del Asistente de asociación (Cliente de minería de datos para Excel) y la herramienta Análisis de la cesta de la compra (Herramientas de Análisis de Tablas para Excel) contienen datos que se han aplanado desde una tabla anidada.