Compartir a través de


Valores atípicos (Complementos de minería de datos de SQL Server)

Asistente para valores atípicos en la cinta de minería de datos

Un valor atípico significa un valor de datos problemático por cualquiera de los siguientes motivos:

  • El valor está fuera del intervalo esperado.

  • Es posible que los datos se hayan escrito incorrectamente.

  • Falta el valor.

  • Los datos constan de un espacio u otra cadena nula.

  • El valor es preciso, pero está fuera de la distribución que puede afectar significativamente al modelo.

El cliente de minería de datos para Excel le ayuda a detectar estos datos y, a continuación, actualizar los valores o suprimirlos. Por ejemplo, puede reemplazar valores atípicos por una media aritmética o puede eliminar filas que contengan valores potencialmente incorrectos.

Control de valores atípicos

El Asistente para quitar valores atípicos proporciona varias herramientas para controlar los valores atípicos correctamente:

  • En primer lugar, puede explorar los datos para comprender mejor la distribución de valores y la relación de los valores atípicos con otros datos.

    Por ejemplo, puede usar la tarea Explorar datos para revisar y corregir los valores. El Asistente para quitar valores atípicos también muestra un gráfico, ya sea una línea o un gráfico de barras, para ayudarle a comprender la distribución de todos los valores.

  • A continuación, puede usar el Asistente para valores atípicos para quitar o cambiar valores atípicos. El método que se usa depende de si los valores son discretos o continuos.

    El asistente muestra valores discretos en un gráfico de barras, donde cada barra representa un valor específico y el alto de la barra indica el número de casos de cada valor. Al deslizar el control de umbral en el gráfico, puede cortar barras que representan grupos de valores extremos o potencialmente incorrectos.

  • El asistente muestra valores continuos en un gráfico de barras o en un gráfico de líneas. En el gráfico de líneas, el valor se representa en el eje X y el recuento de valores del eje Y.

    Puede controlar si desea quitar o mantener valores en los extremos bajos y altos del gráfico cambiando los valores Mínimo y Máximo , o deslizando las barras. A medida que cambia la configuración de valor mínimo y máximo, los datos que se suprimirán se muestran mediante sombreado en el gráfico.

Después de seleccionar los valores atípicos con los que trabajar, indique al asistente cómo controlar los valores atípicos. Puede eliminar las filas que contienen los valores atípicos o puede especificar un valor de reemplazo, como una media, un valor NULL u otro valor de su elección.

Por último, el asistente proporciona algunas opciones para mostrar los nuevos datos. Puede reemplazar los datos originales por los nuevos valores, agregar una nueva columna a la tabla que contiene los nuevos valores o crear una nueva hoja de cálculo que contenga los datos actualizados.

Uso del Asistente para valores atípicos

  1. En la cinta Minería de datos, haga clic en Limpiar datos y seleccione Valores atípicos.

  2. En el cuadro de diálogo Seleccionar datos de origen, seleccione una tabla de datos de Excel o un intervalo de celdas y haga clic en Siguiente.

    Advertencia

    No puede usar el Asistente para valores atípicos en datos externos, a menos que lo copie primero en Excel.

  3. En el cuadro de diálogo Seleccionar columna , seleccione una sola columna.

    Haga clic en Next.

  4. En el cuadro de diálogo Especificar umbrales , revise la distribución de datos.

    • Si la columna contiene valores discretos, el asistente muestra un histograma que contiene el recuento de cada valor discreto.

      Suponiendo que los valores atípicos son valores poco frecuentes, puede filtrarlos cambiando el valor mínimo .

    • Si la columna contiene datos numéricos, puede hacer clic en el botón Ver como discreto o en el botón Ver como numérico para alternar entre ver los valores de un gráfico de barras o gráfico de líneas.

  5. En el cuadro de diálogo Especificar umbrales , elija el intervalo de datos que desea conservar escribiendo un valor mínimo y máximo, o arrastrando las barras deslizantes. Haga clic en Next.

  6. En el cuadro de diálogo Control de valores atípicos , especifique si desea que los valores se eliminen o reemplacen y haga clic en Siguiente.

  7. En el cuadro de diálogo Seleccionar destino , especifique dónde desea que se guarden los nuevos datos.

El asistente proporciona estas opciones:

Opciones Comentario
Seleccionar columna Puede trabajar solo con una columna a la vez.
Especificar el control de umbrales Establezca un umbral mediante Minimum para excluir los valores que se encuentran en menos filas que el valor de umbral.

Inicialmente, el valor de Minimum es igual al valor con las filas más bajas y no puede hacer que el valor mínimo sea menor que ese valor.
Control de valores atípicos Si decide eliminar valores atípicos, puede cambiar los datos de la hoja de cálculo actual o crear una copia de los datos en una nueva hoja de cálculo.

Véase también

Explorar datos (complementos de minería de datos de SQL Server)