Compartilhar via


Medidas no relatório de validação cruzada

Durante a validação cruzada, o Analysis Services divide os dados em uma estrutura de mineração em várias seções cruzadas e, em seguida, testa iterativamente a estrutura e quaisquer modelos de mineração associados. Com base nessa análise, ele gera um conjunto de medidas de precisão padrão para a estrutura e cada modelo.

O relatório contém algumas informações básicas sobre o número de dobras nos dados e a quantidade de dados em cada dobra e um conjunto de métricas gerais que descrevem a distribuição de dados. Comparando as métricas gerais de cada seção cruzada, você pode avaliar a confiabilidade da estrutura ou do modelo.

O Analysis Services também exibe um conjunto de medidas detalhadas para modelos de mineração. Essas medidas dependem do tipo de modelo e do tipo de atributo que está sendo analisado: por exemplo, se ele é discreto ou contínuo.

Esta seção fornece uma lista das medidas contidas no relatório de validação cruzada e o que elas significam. Para obter detalhes sobre como cada medida é calculada, consulte Fórmulas de Validação Cruzada.

Lista de medidas no relatório de validação cruzada

A tabela a seguir lista as medidas que aparecem no relatório de validação cruzada. As medidas são agrupadas por tipo de teste, que é fornecido na coluna à esquerda da tabela a seguir. A coluna à direita lista o nome da medida como ela aparece no relatório e fornece uma breve explicação do que ela significa.

Tipo de teste Medidas e descrições
Agrupamento Medidas que se aplicam a modelos de clustering:

Probabilidade de caso: essa medida geralmente indica a probabilidade de um caso pertencer a um cluster específico.
Para validação cruzada, as pontuações são somadas e depois divididas pelo número de casos, de modo que aqui a pontuação é a média da probabilidade dos casos.
Classificação Medidas que se aplicam a modelos de classificação:

Verdadeiro Positivo/
Verdadeiro Negativo/ Falso Positivo/ Falso Positivo: contagem de linhas ou valores na partição em que o estado previsto corresponde ao estado de destino e a probabilidade de previsão é maior que o limite especificado. Os casos que têm valores ausentes para o atributo de destino são excluídos, o que significa que as contagens de todos os valores podem não somar
Passagem/falha: contagem de linhas ou valores na partição em que o estado previsto corresponde ao estado de destino e onde o valor de probabilidade de previsão é maior que 0.
Probabilidade As medidas de probabilidade se aplicam a vários tipos de modelo:

Elevação: a razão entre a probabilidade prevista real e a probabilidade marginal nos casos de teste. As linhas que têm valores ausentes para o atributo de destino são excluídas. Essa medida geralmente mostra o quanto a probabilidade do resultado de destino melhora quando o modelo é usado.

Erro quadrado médio raiz: raiz quadrada do erro médio para todos os casos de partição, dividido pelo número de casos na partição, excluindo linhas que têm valores ausentes para o atributo de destino. O RMSE é um avaliador popular para modelos preditivos. A pontuação calcula a média dos resíduos de cada caso para produzir um único indicador de erro de modelo.

Pontuação de log: o logaritmo da probabilidade real para cada caso, resumido e dividido pelo número de linhas no conjunto de dados de entrada, excluindo linhas que têm valores ausentes para o atributo de destino. Como a probabilidade é representada como uma fração decimal, as pontuações de log são sempre números negativos. Um número mais próximo de 0 é uma pontuação melhor. Enquanto as pontuações brutas podem ter distribuições muito irregulares ou distorcidas, uma pontuação de log é semelhante a uma porcentagem.
Estimativa Medidas que se aplicam somente a modelos de estimativa, que preveem um atributo numérico contínuo:

Erro de quadrado médio raiz: erro médio quando o valor previsto é comparado com o valor real. O RMSE é um avaliador popular para modelos preditivos. A pontuação calcula a média dos resíduos de cada caso para produzir um único indicador de erro do modelo.

Erro absoluto médio: erro médio quando os valores previstos são comparados aos valores reais, calculados como a média da soma absoluta dos erros. O erro absoluto médio é útil para entender a proximidade geral das previsões com os valores reais. Uma pontuação menor significa que as previsões eram mais precisas.

Pontuação de log: o logaritmo da probabilidade real para cada caso, resumido e dividido pelo número de linhas no conjunto de dados de entrada, excluindo linhas que têm valores ausentes para o atributo de destino. Como a probabilidade é representada como uma fração decimal, as pontuações de log são sempre números negativos. Um número mais próximo de 0 é uma pontuação melhor. Enquanto as pontuações brutas podem ter distribuições muito irregulares ou distorcidas, uma pontuação de log é semelhante a uma porcentagem.
Agregados As medidas de agregação fornecem uma indicação da variação nos resultados de cada partição:

Média dos valores de partição para uma determinada medida.

Desvio Padrão: média do desvio da média para uma medida específica, em todas as partições em um modelo. Para validação cruzada, um valor mais elevado dessa pontuação implica uma variação substancial entre as partições.

Consulte Também

Teste e validação (mineração de dados)