Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Data Mining-Assistent in Microsoft SQL Server Analysis Services wird jedes Mal gestartet, wenn Sie einem Data Mining-Projekt eine neue Miningstruktur hinzufügen. Der Assistent hilft Ihnen bei der Auswahl einer Datenquelle und beim Einrichten einer Datenquellenansicht, die die für die Analyse zu verwendenden Daten definiert, und hilft Ihnen dann beim Erstellen eines anfänglichen Modells.
In der letzten Phase des Assistenten können Sie Ihre Daten optional in Schulungs- und Testsätze aufteilen und Features wie Drillthrough aktivieren.
Was Sie wissen müssen, bevor Sie beginnen
Hier sind die Informationen, die Sie kennen sollten, bevor Sie den Assistenten starten.
Erstellen Sie die Data Mining-Struktur und -Modelle aus einer relationalen Datenbank oder aus einem vorhandenen Cube in einer OLAP-Datenbank?
Welche Spalten enthalten die Schlüssel, die einen Falldatensatz eindeutig identifizieren?
Welche Spalten oder Attribute möchten Sie für die Vorhersage verwenden? Welche Spalten oder Attribute eignen sich gut für die Verwendung als Eingabe für die Analyse?
Welchen Algorithmus sollten Sie verwenden? Die in SQL Server Analysis Services bereitgestellten Algorithmen weisen unterschiedliche Merkmale auf und erzeugen unterschiedliche Ergebnisse. Glücklicherweise sind Sie nicht auf ein Modell für jede Datenmenge beschränkt, daher können Sie experimentieren, indem Sie verschiedene Modelle hinzufügen.
Müssen Sie In der Lage sein, Ihre Modelle auf einem einheitlichen Dataset zu testen? Wenn ja, sollten Sie die Option verwenden, um einige Daten für Testzwecke zur Seite zu legen. Sie können einen Prozentsatz auswählen und dies bei Bedarf durch eine bestimmte Anzahl von Zeilen festlegen.
Starten des Data Mining-Assistenten
Um den Data Mining-Assistenten zu verwenden, müssen Sie eine Lösung in SQL Server Data Tools (SSDT) geöffnet haben, die mindestens ein Data Mining- oder OLAP-Projekt enthält.
Wenn Ihre Lösung für data Mining bereit ist, können Sie einfach mit der rechten Maustaste im Projektmappen-Explorer auf den Knoten "Miningstrukturen " klicken und "New Mining Structure" auswählen, um den Assistenten zu starten.
Wenn Ihre Lösung keine vorhandenen Projekte enthält, können Sie ein neues Data Mining-Projekt hinzufügen. Wählen Sie im Menü "Datei " die Option "Neu" und dann "Projekt" aus. Stellen Sie sicher, dass Sie die Vorlage Analysis Services Multidimensional and Data Mining Project auswählen.
Sie können auch den Analysis Services-Import-Assistenten verwenden, um Metadaten aus einer vorhandenen Data Mining-Lösung abzurufen. Sie können jedoch nicht die zu importierenden einzelnen Objekte auswählen. Die gesamte Datenbank wird importiert, einschließlich Cubes, Datenquellenansichten usw. Beachten Sie außerdem, dass die neue Lösung, die über den Import erstellt wird, automatisch für die Verwendung der lokalen Standarddatenbank konfiguriert ist. Möglicherweise müssen Sie dies in eine andere Instanz ändern, bevor Sie die Objekte verarbeiten oder durchsuchen können. Wenn Sie aus einer früheren Version von Analysis Services importieren, müssen Sie möglicherweise Verweise auf Anbieter aktualisieren.
Als Nächstes erstellen Sie die Miningstruktur und ein zugeordnetes Data Mining-Modell. Sie können auch nur die Miningstruktur erstellen und später Modelle hinzufügen, aber im Allgemeinen ist es am einfachsten, zuerst ein Testmodell zu erstellen.
Relationale vs. OLAP-Miningmodelle
Die nächste wichtige Option besteht darin, ob Sie eine relationale Datenquelle verwenden oder ihr Modell auf multidimensionalen (OLAP)-Daten basieren möchten.
Der Data Mining-Assistent zweigt an dieser Stelle zwei Pfade ab, je nachdem, ob die Datenquelle relational oder als Cube vorliegt. Alles andere ist gleich geblieben, mit Ausnahme des Datenauswahlprozesses, wie die Wahl des Algorithmus, die Möglichkeit, einen Holdout-Datensatz hinzuzufügen usw. – allerdings ist das Auswählen von Cube-Daten etwas komplexer als die Verwendung relationaler Daten. (Sie erhalten auch einige zusätzliche Optionen am Ende, wenn Sie ein Modell basierend auf einem Cube erstellen.)
Weitere Informationen zu den einzelnen Optionen finden Sie in den folgenden Themen:
Erstellen einer relationalen Miningstruktur
Führt Sie durch die Entscheidungen, die Sie beim Erstellen eines relationalen Data Mining-Modells treffen.
Erstellen einer OLAP-Miningstruktur
Beschreibt die zusätzlichen Optionen und Auswahlmöglichkeiten, die beim Auswählen von Daten aus einem OLAP-Cube getroffen werden sollen.
Hinweis
Sie müssen nicht über einen Cube oder eine OLAP-Datenbank verfügen, um Data Mining durchzuführen. Sofern Ihre Daten nicht bereits in einem Cube gespeichert sind oder Sie OLAP-Dimensionen oder die Ergebnisse von OLAP-Aggregationen oder Berechnungen minen möchten, empfehlen wir, eine relationale Tabelle oder Datenquelle für data Mining zu verwenden.
Auswählen eines Algorithmus
Als Nächstes müssen Sie entscheiden, welcher Algorithmus bei der Verarbeitung Ihrer Daten verwendet werden soll. Diese Entscheidung kann schwierig sein. Jeder in Analysis Services bereitgestellte Algorithmus verfügt über unterschiedliche Features und erzeugt unterschiedliche Ergebnisse, sodass Sie experimentieren und verschiedene Modelle ausprobieren können, bevor Sie bestimmen, welche für Ihre Daten und Ihr Geschäftsproblem am besten geeignet sind. Im folgenden Thema finden Sie eine Erläuterung der Aufgaben, für die jeder Algorithmus am besten geeignet ist:
Data Mining-Algorithmen (Analysis Services - Data Mining)
Auch hier können Sie mehrere Modelle mit unterschiedlichen Algorithmen erstellen oder Parameter für die Algorithmen ändern, um unterschiedliche Modelle zu erstellen. Sie sind nicht in Ihre Wahl des Algorithmus gesperrt, und es empfiehlt sich, mehrere verschiedene Modelle auf denselben Daten zu erstellen.
Definieren der für die Modellierung verwendeten Daten
Zusätzlich zur Auswahl der Daten aus einer Quelle müssen Sie angeben, welche Tabelle in der Datenquellenansicht die Falldaten enthält. Die Falltabelle wird verwendet, um das Data Mining-Modell zu trainieren und als solche die Entitäten enthalten, die Sie analysieren möchten: z. B. Kunden und deren demografische Informationen. Jeder Fall muss eindeutig sein und muss durch einen Fallschlüssel identifizierbar sein.
Zusätzlich zur Angabe der Falltabelle können Sie geschachtelte Tabellen in Ihre Daten einschließen. Eine geschachtelte Tabelle enthält in der Regel zusätzliche Informationen zu den Entitäten in der Falltabelle, z. B. Transaktionen, die vom Kunden durchgeführt werden, oder Attribute, die eine n:1-Beziehung mit der Entität aufweisen. Beispielsweise kann eine geschachtelte Tabelle, die mit der Falltabelle " Kunden " verknüpft ist, eine Liste der Produkte enthalten, die von jedem Kunden erworben wurden. In einem Modell, das den Datenverkehr zu einer Website analysiert, kann die geschachtelte Tabelle die Sequenzen von Seiten enthalten, die der Benutzer besucht hat. Weitere Informationen finden Sie unter "Geschachtelte Tabellen" (Analysis Services – Data Mining)
Zusätzliche Features
Um Ihnen bei der Auswahl der richtigen Daten zu helfen und die Datenquellen richtig zu konfigurieren, bietet der Data Mining-Assistent die folgenden zusätzlichen Features:
Automatische -detection von Datentypen: Der Assistent untersucht die Eindeutigkeit und Verteilung von Spaltenwerten und empfiehlt dann den besten Datentyp und schlägt einen Verwendungstyp für die Daten vor. Sie können diese Vorschläge überschreiben, indem Sie Werte aus einer Liste auswählen.
Vorschläge für Variablen: Sie können auf ein Dialogfeld klicken und einen Analysator starten, der Korrelationen in den Spalten berechnet, die im Modell enthalten sind, und bestimmt, ob spalten wahrscheinliche Prädiktoren des Ergebnisattributes sind, aufgrund der Konfiguration des Modells bisher. Sie können diese Vorschläge überschreiben, indem Sie unterschiedliche Werte eingeben.
Featureauswahl: Die meisten Algorithmen erkennen automatisch Spalten, die gute Prädiktoren sind und diese bevorzugt verwenden. In Spalten, die zu viele Werte enthalten, wird die Featureauswahl angewendet, um die Kardinalität der Daten zu verringern und die Chancen für die Suche nach einem aussagekräftigen Muster zu verbessern. Sie können das Verhalten der Featureauswahl mithilfe von Modellparametern beeinflussen.
Automatische Cubeslicing: Wenn Ihr Miningmodell auf einer OLAP-Datenquelle basiert, wird automatisch die Möglichkeit zum Segmentieren des Modells mithilfe von Cubeattributen bereitgestellt. Dies ist praktisch, um Modelle basierend auf Teilmengen von Cubedaten zu erstellen.
Abschließen des Assistenten
Der letzte Schritt des Assistenten besteht darin, der Miningstruktur und dem zugehörigen Miningmodell einen Namen zu geben. Je nachdem, welche Art von Modell Sie erstellt haben, haben Sie möglicherweise auch die folgenden wichtigen Optionen:
Wenn Sie "Drillthrough zulassen" auswählen, ist die Möglichkeit zum Drillthrough im Modell aktiviert. Mit Drillthrough können Benutzer, die über die entsprechenden Berechtigungen verfügen, die Quelldaten untersuchen, die zum Erstellen des Modells verwendet werden.
Wenn Sie ein OLAP-Modell erstellen, können Sie die Optionen auswählen, einen neuen Data Mining-Cube erstellenoder eine Data Mining-Dimension erstellen. Beide Optionen erleichtern das Durchsuchen des fertiggestellten Modells und das tiefergehende Navigieren zu den zugrunde liegenden Daten.
Nachdem Sie den Data Mining-Assistenten abgeschlossen haben, verwenden Sie den Data Mining-Designer, um die Miningstruktur und -modelle zu ändern, die Genauigkeit des Modells zu überprüfen, Eigenschaften der Struktur und Modelle anzuzeigen oder mithilfe der Modelle Vorhersagen zu treffen.
Verwandte Inhalte
Weitere Informationen zu den Entscheidungen, die Sie beim Erstellen eines Data Mining-Modells treffen müssen, finden Sie unter den folgenden Links:
Data Mining-Algorithmen (Analysis Services - Data Mining)
Fehlende Werte (Analysis Services - Data Mining)
Drillthrough zu Miningmodellen