Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Es gibt viele Vorteile beim Erstellen eines Data Mining-Modells, das auf einem OLAP-Cube oder einem anderen mehrdimensionalen Datenspeicher basiert. Eine OLAP-Lösung enthält bereits große Datenmengen, die gut organisiert, bereinigt und ordnungsgemäß formatiert sind; Die Komplexität der Daten ist jedoch so, dass Benutzer durch Ad-hoc-Erkundung keine sinnvollen Muster finden. Data Mining bietet die Möglichkeit, neue Korrelationen zu entdecken und umsetzbare Einblicke zu bieten.
In diesem Thema wird beschrieben, wie Sie eine OLAP-Miningstruktur basierend auf einer Dimension und verwandten Measures in einer vorhandenen multidimensionalen Lösung erstellen.
Übersicht über den OLAP Data Mining-Prozess
Szenarien für die Verwendung von Data Mining in OLAP-Lösungen
Verwenden geschachtelter Tabellen
Anforderungen für OLAP-Miningstruktur und -modelle
Wenn Sie ein OLAP-Miningmodell entwerfen, ist Ihre Datenquelle bereits in der Datenbank vorhanden, die zum Erstellen des Cubes verwendet wurde. Sie können keine Verbindung mit einem Remote-Cube herstellen und Data Mining-Objekte erstellen. die Cubeobjekte müssen innerhalb derselben Lösung wie die Datenbank verfügbar sein wie die Miningstruktur, die Sie erstellen möchten.
Wenn Sie nicht über die ursprünglichen Projektdateien verfügen oder sie nicht ändern möchten, können Sie die Option in Visual Studio, Importieren von Server (Multidimensional oder Data Mining) verwenden, um eine Kopie der Metadaten und Lösungsobjekte abzurufen. Anschließend können Sie das Bereitstellungsziel ändern, Datenquellen bearbeiten und mit den Cubeobjekten arbeiten, ohne dass sich dies auf die vorhandenen Objekte auswirkt.
Weitere Informationen finden Sie unter Importieren eines Data Mining-Projekts mithilfe des Analysis Services-Import-Assistenten.
Übersicht über den OLAP Data Mining-Prozess
Starten Sie den Data Mining-Assistenten, indem Sie im Projektmappen-Explorer mit der rechten Maustaste auf den Knoten "Miningstrukturen " klicken und "Neue Miningstruktur" auswählen. Der Assistent führt Sie durch die folgenden Schritte zum Erstellen der Struktur für eine neue Struktur und ein neues Modell:
Wählen Sie die Definitionsmethode aus: Hier wählen Sie einen Datenquellentyp und dann "Aus vorhandenem Cube" aus.
Hinweis
Der OLAP-Cube, den Sie als Quelle verwenden, muss in derselben Datenbank wie die Miningstruktur vorhanden sein, wie oben beschrieben. Außerdem können Sie keinen Würfel verwenden, der vom PowerPivot für Excel-Add-in als Quelle für das Data-Mining erstellt wurde.
Erstellen Sie die Data Mining-Struktur: Bestimmen Sie, ob Sie nur eine Struktur oder eine Struktur mit einem Miningmodell erstellen.
Sie müssen auch einen geeigneten Algorithmus für die Analyse Ihrer Daten auswählen. Anleitungen dazu, welcher Algorithmus für bestimmte Aufgaben am besten geeignet ist, finden Sie unter HYPERLINK "ms-help://SQL111033/as_1devconc/html/ed1fc83b-b98c-437e-bf53-4ff001b92d64.htm" Data Mining-Algorithmen (Analysis Services - Data Mining).
Wählen Sie die Quellwürfeldimension aus: Dieser Schritt entspricht dem Auswählen einer Datenquelle. Sie müssen die einzelne Dimension auswählen, die die wichtigsten Daten enthält, die für die Schulung Ihres Modells verwendet werden. Sie können später Daten aus anderen Dimensionen hinzufügen oder die Dimension filtern.
Wählen Sie den Fallschlüssel aus: Wählen Sie in der gerade ausgewählten Dimension ein Attribut (Spalte) aus, das als eindeutiger Bezeichner für Ihre Falldaten dient.
In der Regel wird eine Spalte für Sie vorab ausgewählt, aber Sie können die Spalte ändern, wenn es tatsächlich mehrere Schlüssel gibt.
Auswählen von Spalten auf Fallebene: Hier wählen Sie die Attribute aus der ausgewählten Dimension und die zugehörigen Measures aus, die für Ihre Analyse relevant sind. Dieser Schritt entspricht dem Auswählen von Spalten aus einer Tabelle.
Der Assistent fügt automatisch zur Überprüfung und Auswahl alle Maßnahmen hinzu, die mithilfe von Attributen aus der ausgewählten Dimension erstellt wurden.
Wenn Ihr Cube beispielsweise ein Measure enthält, das die Frachtkosten basierend auf dem geografischen Standort des Kunden berechnet, und Sie die Kundendimension als Hauptdatenquelle für die Modellierung ausgewählt haben, wird das Measure als Kandidat für das Hinzufügen zum Modell vorgeschlagen. Achten Sie darauf, zu viele Maßnahmen hinzuzufügen, die bereits direkt auf Attributen basieren, da bereits eine implizite Beziehung zwischen den Spalten besteht, wie in der Maßnahmenformel definiert, und die Stärke dieser (erwarteten) Korrelation kann andere Beziehungen verdecken, die Sie sonst möglicherweise entdecken.
Verwendung der Spalten im Miningmodell festlegen: Für jedes Attribut oder jede Messgröße, die Sie der Struktur hinzugefügt haben, müssen Sie angeben, ob das Attribut für die Vorhersage oder als Eingabe genutzt werden soll. Wenn Sie keine dieser Optionen auswählen, werden die Daten verarbeitet, aber nicht für die Analyse verwendet. Es ist jedoch als Hintergrunddaten verfügbar, falls Sie später Drillthrough aktivieren.
Fügen Sie geschachtelte Tabellen hinzu: Klicken Sie hier, um verwandte Tabellen hinzuzufügen. Im Dialogfeld " Maßgruppendimension auswählen " können Sie eine einzelne Dimension aus den Dimensionen auswählen, die sich auf die aktuelle Dimension beziehen.
Als Nächstes verwenden Sie das Dialogfeld " Geschachtelte Tabellenschlüssel auswählen ", um zu definieren, wie die neue Dimension mit der Dimension verknüpft ist, die die Falldaten enthält.
Verwenden Sie das Dialogfeld " Geschachtelte Tabellenspalten auswählen ", um die Attribute und Kennzahlen aus der neuen Dimension auszuwählen, die Sie in der Analyse verwenden möchten. Sie müssen auch angeben, ob das geschachtelte Attribut für die Vorhersage verwendet wird.
Nachdem Sie alle möglicherweise benötigten geschachtelten Attribute hinzugefügt haben, kehren Sie zur Seite zurück, geben Sie die Verwendung von Miningmodellspalten an, und klicken Sie auf Weiter.
Geben Sie Spalteninhalt und Datentyp an: An diesem Punkt haben Sie alle Daten hinzugefügt, die für die Analyse verwendet werden sollen, und müssen den Datentyp und den Inhaltstyp für jedes Attribut angeben.
In einem OLAP-Modell haben Sie nicht die Möglichkeit, Datentypen automatisch zu erkennen, da der Datentyp bereits durch die multidimensionale Lösung definiert ist und nicht geändert werden kann. Schlüssel werden ebenfalls automatisch identifiziert. Weitere Informationen finden Sie unter Datentypen (Data Mining).
Der Inhaltstyp , den Sie für jede Spalte auswählen, die Sie im Modell verwenden, teilt dem Algorithmus mit, wie die Daten verarbeitet werden sollen. Weitere Informationen finden Sie unter Inhaltstypen (Data Mining).
Quellwürfel schneiden: Hier können Sie Filter in einem Würfel definieren, um nur einen Teil der Daten auszuwählen und zielgerichtetere Modelle zu trainieren.
Sie filtern einen Cube, indem Sie die zu filternde Dimension auswählen, die Ebene der Hierarchie auswählen, die die zu verwendenden Kriterien enthält, und dann eine Bedingung eingeben, die als Filter verwendet werden soll.
Testsatz erstellen: Auf dieser Seite können Sie dem Assistenten mitteilen, wie viele Daten für die Verwendung beim Testen des Modells reserviert werden sollen. Wenn Ihre Daten mehrere Modelle unterstützen, empfiehlt es sich, einen Aufbewahrungsdatensatz zu erstellen, damit alle Modelle auf denselben Daten getestet werden können.
Weitere Informationen finden Sie unter Testing and Validation (Data Mining).
Abschluss des Assistenten: Auf dieser Seite geben Sie der neuen Miningstruktur und dem zugehörigen Miningmodell einen Namen, und speichern Sie die Struktur und das Modell.
Auf dieser Seite können Sie auch die folgenden Optionen festlegen:
Drillthrough zulassen
Erstellen der Miningmodelldimension
Cube mithilfe der Miningmodelldimension erstellen
Weitere Informationen zu diesen Optionen finden Sie im Abschnitt weiter unten in diesem Thema, Grundlegendes zu Data Mining Dimensions und Drillthrough.
An dieser Stelle sind die Bergbaustruktur und ihr Modell nur Metadaten; Sie müssen beide verarbeiten, um Ergebnisse zu erhalten.
Szenarien für die Verwendung von Data Mining mit OLAP-Daten
OLAP-Cubes enthalten häufig so viele Member und Dimensionen, dass es schwierig sein kann zu wissen, wo sie mit dem Data Mining beginnen. Um die Muster zu identifizieren, die die Cubes enthalten, identifizieren Sie in der Regel eine einzelne Dimension von Interesse und beginnen dann mit der Erkundung von Mustern im Zusammenhang mit dieser Dimension. In der folgenden Tabelle sind mehrere allgemeine OLAP-Data Mining-Aufgaben aufgeführt, in denen Beispielszenarien beschrieben werden, in denen Sie die einzelnen Aufgaben anwenden können, und der Data Mining-Algorithmus identifiziert, der für jeden Vorgang verwendet werden soll.
| Aufgabe | Beispielszenario | Algorithmus |
|---|---|---|
| Gruppieren von Mitgliedern in Cluster | Segmentieren Sie eine Kundendimension basierend auf den Eigenschaften der Kundenmitglieder, den Produkten, die die Kunden kaufen, und dem Geldbetrag, den die Kunden ausgeben. | Microsoft Clustering-Algorithmus |
| Interessante oder abnorme Mitglieder suchen | Identifizieren Sie interessante oder abnorme Geschäfte in einer Store-Dimension basierend auf Umsatz, Gewinn, Store-Standort und Store-Größe. | Microsoft Decision Trees-Algorithmus |
| Suchen interessanter oder abnormer Zellen | Identifizieren Sie Store-Verkäufe, die im Laufe der Zeit gegen typische Trends gehen. | Microsoft-Zeitreihenalgorithmus |
| Suchen von Korrelationen | Ermitteln Sie Faktoren, die sich auf Serverausfallzeiten beziehen, einschließlich Region, Computertyp, Betriebssystem oder Kaufdatum. | Microsoft Naïve Bayes-Algorithmus |
Zerlegen eines Würfels vs. Filtern von Modellen
Beim Erstellen eines Modells ist das Schneiden des Würfels ähnlich wie das Erstellen eines Filters für ein relationales Miningmodell. In einem relationalen Modell wird der Filter für die Datenquelle als WHERE-Klausel für eine SQL-Anweisung definiert; in einem Cube verwenden Sie den Editor, um Filteranweisungen mit MDX zu erstellen.
Beispielsweise kann ein Cube Informationen zu Käufen von Produkten weltweit enthalten, aber für Ihre Marketingkampagne möchten Sie ein Modell basierend auf der Analyse weiblicher Kunden über 30 erstellen, die im Vereinigten Königreich leben.
In diesem Szenario würden Sie zwei Filter erstellen:
Für den ersten Filter würden Sie die Dimension "Geografie" auswählen, die Hierarchie für "Region" auswählen und dann die Filterausdruckliste verwenden, um "Vereinigtes Königreich" aus den möglichen Werten auszuwählen.
Für den zweiten Filter würden Sie die Dimension "Customer" auswählen, das Attribut "Gender" und "Female" aus der Liste der Attributwerte auswählen.
Nachdem die Miningstruktur erstellt wurde, können Sie sowohl die Definition der Cube-Daten als auch die Filterkriterien modifizieren. Weitere Informationen finden Sie unter "Filtern des Quellwürfels für eine Miningstruktur".
Sowohl die Registerkarte "Miningstruktur " als auch die Registerkarte " Miningmodell " bieten eine Option zum Hinzufügen eines Filters zu einer vorhandenen Miningstruktur, indem Sie auf "Cubesegment definieren" klicken. Das Dialogfeld Segmentwürfel hilft Ihnen, einen gültigen MDX-Filterausdruck zu erstellen, indem Sie einen Wert aus den Dropdown-Listen auswählen.
Warnung
Beachten Sie, dass die Schnittstelle zum Entwerfen und Durchsuchen von Cubes in SQL Server 2014 geändert wurde. Weitere Informationen finden Sie unter Durchsuchen von Daten und Metadaten in Cube.
Sie können dem Cube beliebig viele Filter hinzufügen, um die für das Miningmodell benötigten Daten zurückzugeben. Sie können auch Segmente für einzelne Cubesegmente definieren. Wenn Ihre Struktur beispielsweise zwei geschachtelte Tabellen enthält, die auf Produkten basieren, könnten Sie eine Tabelle am März 2004 und die andere Tabelle am April 2004 segmentieren. Das resultierende Modell könnte dann verwendet werden, um Käufe im April basierend auf den im März getätigten Einkäufen vorherzusagen.
Verwenden geschachtelter Tabellen in einem OLAP-Miningmodell
Wenn Sie mithilfe des Data Mining-Assistenten ein Modell basierend auf Cubedaten erstellen, können Sie geschachtelte Tabellen hinzufügen, indem Sie die Namen verwandter Dimensionen angeben und dann die Attribute oder Measures auswählen, die dem Modell hinzugefügt werden sollen.
Wenn die hauptdimension für Falldaten beispielsweise "Kunde" verwendet wird, können Sie die Dimension "Produkte" als verwandte Dimension hinzufügen, da Sie davon ausgehen, dass ein Kunde mehrere Produkte im Laufe der Zeit bestellt hat, und der Cube verknüpft jeden Kunden bereits über die Bestell-Faktentabellen mit den vielen Produkten.
Sie fügen geschachtelte Tabellen auf der Seite " Miningmodellspaltenverwendung angeben " des Assistenten hinzu, indem Sie auf " Geschachtelte Tabellen hinzufügen" klicken. Ein Dialogfeld wird geöffnet, das Sie durch den Prozess der Auswahl einer verwandten Dimension sowie beliebiger Maße führt. Die Fälle und verschachtelten Dimensionen müssen mit einem Fremdschlüssel verknüpft sein, und Messwerte müssen eines der Attribute verwenden, die bereits in den Fall- oder verschachtelten Tabellen enthalten sind. Leider tun diese Einschränkungen wirklich nicht viel, um den Bereich einzugrenzen, daher müssen Sie darauf achten, nur die Attribute auszuwählen, die für die Modellierung nützlich sind.
Für jedes Attribut oder jede Maßnahme, das Sie der geschachtelten Tabelle hinzufügen, müssen Sie angeben, ob das geschachtelte Attribut für die Vorhersage verwendet wird oder nicht, indem Sie im Dialogfeld Geschachtelte Tabellenspalten auswählen die Option Prädiktiv oder Eingabe auswählen. Wenn Sie keine dieser Optionen auswählen, werden die Daten der Miningstruktur hinzugefügt, aber nicht für die Analyse verwendet.
Für jedes Attribut und jedes Measure müssen Sie auch angeben, ob das Attribut diskret, diskretisiert oder fortlaufend ist. Der Assistent wählt basierend auf dem Datentyp des Attributs eine Standardeinstellung aus, aber je nach den Anforderungen des Algorithmus könnte eine Änderung notwendig sein. Wenn Sie einen Inhaltstyp auswählen, der nicht mit dem ausgewählten Algorithmus kompatibel ist (z. B. verwenden Sie einen fortlaufenden numerischen Typ mit einem Naïve Bayes-Modell), wird keine Fehlermeldung angezeigt, bis Sie versuchen, das Modell zu verarbeiten.
Wenn Sie diese Optionen festgelegt haben, fügt der Assistent der Falltabelle die geschachtelte Tabelle hinzu. Der Standardname für die geschachtelte Tabelle ist der Name der geschachtelten Dimension, Sie können jedoch die geschachtelte Tabelle und die zugehörigen Spalten umbenennen. Sie können diesen Vorgang wiederholen, um der Miningstruktur mehrere geschachtelte Tabellen hinzuzufügen.
Die Möglichkeit, geschachtelte Tabellendaten wie diese zu verwenden, ist ein Feature von SQL Server Data Mining, das besonders leistungsfähig ist, und in einem Cube gibt es fast grenzenlose Möglichkeiten für die Verwendung verwandter Teilmengen von Daten.
Grundlegendes zu Data Mining-Dimensionen und Drillthrough
Mit der Option " Drillthrough zulassen" können Sie Abfragen für die zugrunde liegenden Cubedaten ausführen, während Sie das Modell durchsuchen. Die Daten sind nicht in der neuen Data Mining-Dimension enthalten, aber die Analysis Services-Datenbank kann die Datenbindungen verwenden, um die Informationen aus dem Quellwürfel abzurufen.
Mit der Option " Miningmodelldimension erstellen" können Sie eine neue Dimension innerhalb des vorhandenen Cubes generieren, die die vom Algorithmus ermittelten Muster enthält. Die Hierarchie innerhalb der neuen Dimension wird weitgehend vom Modelltyp bestimmt. Beispielsweise ist die Darstellung eines Clustermodells relativ flach, mit dem Knoten (Alle) an der Spitze der Hierarchie und jedem Cluster auf der nächsten Ebene darunter. Im Gegensatz dazu kann die Dimension, die für ein Entscheidungsstrukturmodell erstellt wird, eine sehr tiefe Hierarchie aufweisen, die die Verzweigung der Struktur darstellt.
Mit der Option " Cube mithilfe der Miningmodelldimension erstellen" können Sie die neue Data Mining-Dimension in einen neuen Cube exportieren. Alle Objekte, die für den Durchgriff auf die Data Mining-Dimension erforderlich sind, werden automatisch eingeschlossen.
Warnung
Nur diese Modelltypen unterstützen die Erstellung von Data Mining-Dimensionen: Modelle, die auf dem Microsoft Clustering-Algorithmus, dem Microsoft Decision Trees-Algorithmus oder dem Microsoft Association-Algorithmus basieren.
Siehe auch
Data Mining-Algorithmen (Analysis Services - Data Mining)
Miningstrukturspalten
Spalten des Miningmodells
Miningmodelleigenschaften
Eigenschaften für Bergbaustruktur- und Strukturspalten