Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Die Validierung ist der Prozess der Bewertung, wie gut Ihre Miningmodelle mit realen Daten funktionieren. Es ist wichtig, dass Sie Ihre Miningmodelle überprüfen, indem Sie ihre Qualität und Eigenschaften verstehen, bevor Sie sie in einer Produktionsumgebung bereitstellen.
In diesem Abschnitt werden einige grundlegende Konzepte im Zusammenhang mit der Modellqualität vorgestellt und die Strategien für die Modellüberprüfung beschrieben, die in Microsoft Analysis Services bereitgestellt werden. Eine Übersicht darüber, wie die Modellüberprüfung in den größeren Data Mining-Prozess passt, finden Sie unter Data Mining Solutions.
Methoden zum Testen und Überprüfen von Data Mining-Modellen
Es gibt viele Ansätze zur Bewertung der Qualität und Eigenschaften eines Data Mining-Modells.
Verwenden Sie verschiedene Kennzahlen der statistischen Gültigkeit, um festzustellen, ob es Probleme in den Daten oder im Modell gibt.
Trennen Sie die Daten in Schulungs- und Testsätze, um die Genauigkeit von Vorhersagen zu testen.
Bitten Sie Unternehmensexperten, die Ergebnisse des Data Mining-Modells zu überprüfen, um festzustellen, ob die ermittelten Muster im zielbezogenen Geschäftsszenario Bedeutung haben.
Alle diese Methoden sind bei der Data Mining-Methodik nützlich und werden iterativ verwendet, während Sie Modelle erstellen, testen und verfeinern, um ein bestimmtes Problem zu beantworten. Keine einzige umfassende Regel kann Ihnen mitteilen, wann ein Modell gut genug ist oder wenn Sie über genügend Daten verfügen.
Definition von Kriterien für die Überprüfung von Data Mining-Modellen
Measures of Data Mining fallen in der Regel in die Kategorien Genauigkeit, Zuverlässigkeit und Nützlichkeit.
Genauigkeit ist ein Maß dafür, wie gut das Modell ein Ergebnis mit den Attributen in den bereitgestellten Daten korreliert. Es gibt verschiedene Genauigkeitsmaße, aber alle Genauigkeitsmaße sind von den verwendeten Daten abhängig. Tatsächlich fehlen oder sind Werte ungefähr, oder die Daten wurden durch mehrere Prozesse geändert. Insbesondere in der Phase der Erkundung und Entwicklung können Sie sich entscheiden, eine bestimmte Fehlermenge in den Daten zu akzeptieren, insbesondere, wenn die Daten in ihren Merkmalen relativ einheitlich sind. Beispielsweise kann ein Modell, das den Umsatz für einen bestimmten Store basierend auf früheren Verkäufen voraussagt, stark korreliert und sehr genau sein, auch wenn dieser Store konsistent die falsche Buchhaltungsmethode verwendet hat. Daher müssen Messungen der Genauigkeit durch Zuverlässigkeitsbewertungen ausgeglichen werden.
Zuverlässigkeit bewertet die Art und Weise, wie ein Data Mining-Modell für verschiedene Datasets ausgeführt wird. Ein Data Mining-Modell ist zuverlässig, wenn es dieselbe Art von Vorhersagen generiert oder dieselben allgemeinen Mustertypen findet, unabhängig von den bereitgestellten Testdaten. Beispielsweise würde das Modell, das Sie für den Store generieren, der die falsche Buchhaltungsmethode verwendet hat, nicht gut auf andere Stores generalisieren und daher nicht zuverlässig sein.
Die Nützlichkeit umfasst verschiedene Metriken, die Ihnen mitteilen, ob das Modell nützliche Informationen bereitstellt. Beispielsweise kann ein Data Mining-Modell, das den Standort mit dem Verkauf korreliert, sowohl genau als auch zuverlässig sein, aber möglicherweise nicht nützlich sein, da Sie dieses Ergebnis nicht generalisieren können, indem Sie weitere Stores an demselben Standort hinzufügen. Darüber hinaus beantwortet sie nicht die grundlegende Geschäftliche Frage, warum bestimmte Standorte mehr Umsatz haben. Möglicherweise stellen Sie auch fest, dass ein Modell, das tatsächlich erfolgreich erscheint, sinnlos ist, da es auf Querkorrelationen in den Daten basiert.
Tools zum Testen und Überprüfen von Miningmodellen
Analysis Services unterstützt mehrere Ansätze zur Validierung von Data Mining-Lösungen und unterstützt alle Phasen der Data Mining-Testmethodik.
Partitionieren von Daten in Test- und Schulungssätze.
Filtern von Modellen zum Trainieren und Testen verschiedener Kombinationen derselben Quelldaten.
Messlift und Gain. Ein Liftdiagramm ist eine Methode zur Visualisierung der Verbesserung, die Sie von der Verwendung eines Data Mining-Modells erhalten, wenn Sie es mit zufälliger Erraten vergleichen.
Durchführen einer Kreuzüberprüfung von Datensätzen
Generieren von Klassifizierungsmatrizen. Diese Diagramme sortieren gute und schlechte Schätzwerte in eine Tabelle, sodass Sie schnell und einfach messen können, wie genau das Modell den Zielwert vorhersagt.
Erstellen von Punktdiagrammen zur Bewertung der Anpassung einer Regressionsformel.
Erstellen von Gewinndiagrammen , die finanzielle Gewinne oder Kosten mit der Verwendung eines Miningmodells verknüpfen, damit Sie den Wert der Empfehlungen bewerten können.
Diese Metriken zielen nicht darauf ab, die Frage zu beantworten, ob das Data Mining-Modell Ihre Geschäftsfrage beantwortet; Stattdessen stellen diese Metriken objektive Messungen bereit, die Sie verwenden können, um die Zuverlässigkeit Ihrer Daten für predictive Analytics zu bewerten und Ihre Entscheidung zu leiten, ob sie einen bestimmten Iterate für den Entwicklungsprozess verwenden soll.
Die Themen in diesem Abschnitt enthalten eine Übersicht über die einzelnen Methoden und führen Sie durch den Prozess der Messung der Genauigkeit von Modellen, die Sie mit SQL Server Data Mining erstellen.
Verwandte Themen
| Themen | Verknüpfungen |
|---|---|
| Erfahren Sie, wie Sie einen Testdatensatz mit einem Assistenten oder BEFEHLEN FÜR DIE AUSFÜHRUNG einrichten. | Schulungs- und Testdatensätze |
| Erfahren Sie, wie Sie die Verteilung und Repräsentativität der Daten in einer Miningstruktur testen. | Cross-Validation (Analysis Services - Data Mining) |
| Erfahren Sie mehr über die Genauigkeitsdiagrammtypen, die in SQL Server 2014 Analysis Services (SSAS) bereitgestellt werden. |
Lift-Chart (Analysis Services - Data Mining) Gewinndiagramm (Analysis Services - Data Mining) Punktdiagramm (Analysis Services - Data Mining) |
| Erfahren Sie, wie Sie eine Klassifizierungsmatrix erstellen, die manchmal als Verwirrungsmatrix bezeichnet wird, um die Anzahl wahrer und falsch positiver und negativer Ergebnisse zu bewerten. | Klassifizierungsmatrix (Analysis Services - Data Mining) |
Siehe auch
Data Mining Tools
Data Mining-Projektmappen
Test- und Validierungsaufgaben und Vorgehensweisen (Data Mining)