Compartilhar via


Fórmulas de validação cruzada

Quando você gera um relatório de validação cruzada, ele contém medidas de precisão para cada modelo, dependendo do tipo de modelo de mineração (ou seja, o algoritmo que foi usado para criar o modelo), o tipo de dados do atributo previsível e o valor previsível do atributo, se houver.

Esta seção lista as medidas usadas no relatório de validação cruzada e descreve o método de cálculo.

Para obter uma divisão das medidas de precisão por tipo de modelo, consulte Medidas no Relatório de Validação Cruzada.

Fórmulas usadas para medidas de validação cruzada

Observação

Importante: Essas medidas de precisão são computadas para cada atributo de destino. Para cada atributo, você pode especificar ou omitir um valor de destino. Se um caso no conjunto de dados não tiver nenhum valor para o atributo de destino, o caso será tratado como tendo um valor especial chamado de valor ausente. As linhas que têm valores ausentes não são contadas ao calcular a medida de precisão para um atributo de destino específico. Observe que, como as pontuações são computadas para cada atributo individualmente, se os valores estiverem presentes para o atributo de destino, mas ausentes para outros atributos, isso não afetará a pontuação do atributo de destino.

Medida Aplica-se a Implementação
Verdadeiro positivo Atributo discreto, o valor é especificado Contagem de casos que atendem a essas condições:

Case contém o valor de destino.

O modelo previu que esse caso contém o valor de destino.
Verdadeiro Negativo Atributo discreto, o valor é especificado Contagem de casos que atendem a essas condições:

Case não contém o valor de destino.

O modelo previu que esse caso não contém o valor alvo.
Falso Positivo Atributo discreto, o valor é especificado Contagem de casos que atendem a essas condições:

O valor real é igual ao valor de destino.

O modelo previu que esse caso contém o valor de destino.
Falso Negativo Atributo discreto, o valor é especificado Contagem de casos que atendem a essas condições:

Valor real não igual ao valor de destino.

O modelo previu que esse caso não contém o valor alvo.
Passar/falhar Atributo discreto, nenhum destino especificado Contagem de casos que atendem a essas condições:

Passe se o estado previsto com a maior probabilidade for o mesmo que o estado de entrada e a probabilidade for maior que o valor do Limite de Estado.

Caso contrário, falhará.
Elevador Atributo discreto. O valor de destino pode ser especificado, mas não é necessário. A média de verossimilhança logarítmica para todas as linhas com valores para o atributo alvo, em que a verossimilhança logarítmica para cada caso é calculada como Log(ProbabilidadeAtual/ProbabilidadeMarginal). Para calcular a média, a soma dos valores de probabilidade de log é dividida pelo número de linhas no conjunto de dados de entrada, excluindo linhas com valores ausentes para o atributo de destino.

Lift pode ser um valor negativo ou positivo. Um valor positivo indica que o modelo é eficaz e supera o palpite aleatório.
Pontuação de Log Atributo discreto. O valor de destino pode ser especificado, mas não é necessário. Log da probabilidade real para cada caso, somado e depois dividido pelo número de linhas no conjunto de dados de entrada, excluindo linhas com valores ausentes para o atributo de destino.

Como a probabilidade é representada como uma fração decimal, as pontuações de log são sempre números negativos. Uma pontuação mais próxima de 0 é uma pontuação melhor.
Probabilidade de caso Clúster Soma das pontuações de probabilidade do cluster para todos os casos, dividida pelo número de casos na partição, excluindo linhas com valores ausentes para o atributo de destino.
Erro absoluto médio Atributo contínuo Soma do erro absoluto para todos os casos na partição, dividido pelo número de casos na partição.
Erro quadrático médio Atributo contínuo Raiz quadrada do erro médio quadrático da partição.
Erro quadrático médio Atributo discreto. O valor de destino pode ser especificado, mas não é necessário. Raiz quadrada da média dos quadrados de complemento da pontuação de probabilidade, dividida pelo número de casos na partição, excluindo linhas com valores ausentes para o atributo de destino.
Erro médio quadrático Atributo discreto, nenhum destino especificado. Raiz quadrada da média dos quadrados de complemento da pontuação de probabilidade, dividida pelo número de casos na partição, excluindo casos com valores ausentes para o atributo de destino.

Consulte Também

Teste e validação (mineração de dados)
Validação cruzada (Analysis Services – Mineração de dados)