Relationale Miningstruktur erstellen

Die meisten Data Mining-Modelle basieren auf relationalen Datenquellen. Die Vorteile der Erstellung eines relationalen Data Mining-Modells sind, dass Sie Ad-hoc-Daten zusammenstellen und ein Modell trainieren und aktualisieren können, ohne dass die Komplexität der Erstellung eines Cubes besteht.

Eine relationale Miningstruktur kann Daten aus unterschiedlichen Quellen beziehen. Die Rohdaten können in Tabellen, Dateien oder relationalen Datenbanksystemen gespeichert werden, solange die Daten als Teil der Datenquellenansicht definiert werden können. Sie sollten beispielsweise eine relationale Miningstruktur verwenden, wenn sich Ihre Daten in Excel, einem SQL Server-Data Warehouse oder einer SQL Server-Berichtsdatenbank oder in externen Quellen befinden, auf die über die OLE DB- oder ODBC-Anbieter zugegriffen wird.

Dieses Thema enthält eine Übersicht über die Verwendung des Data Mining-Assistenten zum Erstellen einer relationalen Miningstruktur.

Anforderungen

Prozess zum Erstellen einer relationalen Miningstruktur

Auswählen von Datenquellen

Angeben von Inhaltstyp und Datentyp

Warum und wie man einen Holdout-Datensatz erstellt

Warum und wie Drillthrough aktiviert wird

Anforderungen

Zunächst müssen Sie über eine vorhandene Datenquelle verfügen. Sie können den Datenquellen-Designer verwenden, um eine Datenquelle einzurichten, falls noch keine vorhanden ist. Weitere Informationen finden Sie unter Erstellen einer Datenquelle (SSAS Multidimensional).

Verwenden Sie als Nächstes den Datenquellenansichts-Assistenten, um erforderliche Daten in einer einzelnen Datenquellenansicht zusammenzustellen. Weitere Informationen dazu, wie Sie Daten mit Datenquellenansichten auswählen, transformieren, filtern oder verwalten können, finden Sie unter Datenquellenansichten in mehrdimensionalen Modellen.

Übersicht über den Prozess

Starten Sie den Data Mining-Assistenten, indem Sie im Projektmappen-Explorer mit der rechten Maustaste auf den Knoten "Miningstrukturen " klicken und " Neue Miningstruktur hinzufügen" auswählen. Der Assistent führt Sie durch die folgenden Schritte zum Erstellen der Struktur für ein neues relationales Miningmodell:

Wählen Sie die Definitionsmethode aus: Hier wählen Sie einen Datenquellentyp und dann "Aus relationaler Datenbank" oder "Data Warehouse" aus.
Erstellen Sie die Data Mining-Struktur: Bestimmen Sie, ob Sie nur eine Struktur oder eine Struktur mit einem Miningmodell erstellen.

Sie wählen auch einen geeigneten Algorithmus für Ihr anfängliches Modell aus. Anleitungen dazu, welcher Algorithmus für bestimmte Aufgaben am besten geeignet ist, finden Sie unter Data Mining-Algorithmen (Analysis Services - Data Mining).
Wählen Sie "Datenquellenansicht" aus: Wählen Sie eine Datenquellenansicht aus, die zum Trainieren Ihres Modells verwendet werden soll. Die Datenquellenansicht kann auch Daten enthalten, die für Tests oder nicht verwandte Daten verwendet werden. Sie können auswählen, welche Daten tatsächlich in der Struktur und im Modell verwendet werden. Sie können auch später Filter auf die Daten anwenden.
Geben Sie Tabellentypen an: Wählen Sie die Tabelle aus, die die für die Analyse verwendeten Fälle enthält. Für einige Datasets, insbesondere für die Erstellung von Marktkorbmodellen, können Sie auch eine verwandte Tabelle einschließen, um sie als geschachtelte Tabelle zu verwenden.

Für jede Tabelle müssen Sie den Schlüssel angeben, damit der Algorithmus weiß, wie ein eindeutiger Datensatz identifiziert werden kann, und verwandte Datensätze, wenn Sie eine geschachtelte Tabelle hinzugefügt haben.

Weitere Informationen finden Sie unter "Mining Structure Columns".
Geben Sie die Schulungsdaten an: Auf dieser Seite wählen Sie als Falltabelle aus, bei der es sich um die Tabelle handelt, die die wichtigsten Daten für die Analyse enthält.

Für einige Datasets, insbesondere für die Erstellung von Marktkorbmodellen, können Sie auch eine verwandte Tabelle einschließen. Die Werte in dieser geschachtelten Tabelle werden als mehrere Werte behandelt, die alle mit einer einzelnen Zeile (oder einem Fall) in der Haupttabelle zusammenhängen.
Spalteninhalt und Datentypen angeben: Für jede Spalte, die Sie in der Struktur verwenden, müssen Sie sowohl einen Datentyp als auch einen Inhaltstyp auswählen.

Der Assistent erkennt automatisch mögliche Datentypen, sie müssen jedoch nicht den vom Assistenten empfohlenen Datentyp verwenden. Selbst wenn Ihre Daten Zahlen enthalten, können sie für kategorisierte Daten repräsentativ sein. Spalten, die Sie als Schlüssel angeben, werden dem richtigen Datentyp für diesen bestimmten Modelltyp automatisch zugewiesen. Weitere Informationen finden Sie unter Miningmodellspalten und Datentypen (Data Mining).

Der Inhaltstyp , den Sie für jede Spalte auswählen, die Sie im Modell verwenden, teilt dem Algorithmus mit, wie die Daten verarbeitet werden sollen.

Sie können z. B. entscheiden, Zahlen zu diskretieren, anstatt fortlaufende Werte zu verwenden. Sie können den Algorithmus auch bitten, den besten Inhaltstyp für die Spalte automatisch zu erkennen. Weitere Informationen finden Sie unter Inhaltstypen (Data Mining).
Testsatz erstellen: Auf dieser Seite können Sie dem Assistenten mitteilen, wie viele Daten für die Verwendung beim Testen des Modells reserviert werden sollen. Wenn Ihre Daten mehrere Modelle unterstützen, empfiehlt es sich, einen Aufbewahrungsdatensatz zu erstellen, damit alle Modelle auf denselben Daten getestet werden können.

Weitere Informationen finden Sie unter Testing and Validation (Data Mining).
Abschluss des Assistenten: Auf dieser Seite geben Sie der neuen Miningstruktur und dem zugehörigen Miningmodell einen Namen, und speichern Sie die Struktur und das Modell.

Je nach Modelltyp können Sie auch einige wichtige Optionen festlegen. Sie können z. B. Drillthrough für die Struktur aktivieren.

An dieser Stelle sind die Bergbaustruktur und ihr Modell nur Metadaten; Sie müssen beide verarbeiten, um Ergebnisse zu erhalten.

So wählen Sie relationale Daten aus

Relationale Miningstrukturen können auf allen Daten basieren, die über eine OLE DB-Datenquelle verfügbar sind. Wenn die Quelldaten in mehreren Tabellen enthalten sind, verwenden Sie eine Datenquellenansicht, um die Tabellen und Spalten zusammenzustellen, die Sie an einer zentralen Stelle benötigen.

Wenn die Tabellen beispielsweise eine 1:n-Beziehung enthalten - zum Beispiel, wenn Sie mehrere Einkaufsdatensätze für jeden Kunden haben, die Sie analysieren möchten -, können Sie beide Tabellen hinzufügen und dann eine Tabelle als Referenztabelle verwenden, wobei die Daten auf der Seite mit den vielen Elementen der Beziehung als geschachtelte Tabelle verknüpft werden.

Die Daten in einer Miningstruktur werden von dem abgeleitet, was sich in der vorhandenen Datenquellenansicht befindet. Sie können Daten nach Bedarf in der Datenquellenansicht ändern, Beziehungen oder abgeleitete Spalten hinzufügen, die möglicherweise nicht in den zugrunde liegenden relationalen Daten vorhanden sind. Sie können auch benannte Berechnungen oder Aggregationen innerhalb der Datenquellenansicht erstellen. Diese Features sind sehr praktisch, wenn Sie keine Kontrolle über die Anordnung von Daten in der Datenquelle haben oder wenn Sie mit verschiedenen Aggregationen von Daten für Ihre Data Mining-Modelle experimentieren möchten.

Sie müssen nicht alle verfügbaren Daten verwenden; Sie können auswählen, welche Spalten Sie in die Miningstruktur integrieren möchten. Alle Modelle, die auf dieser Struktur basieren, können diese Spalten verwenden, oder Sie können bestimmte Spalten als Ignore für ein bestimmtes Modell kennzeichnen. Sie können Benutzern eines Data-Mining-Modells ermöglichen, aus den Ergebnissen des Modells einen Drilldown durchzuführen, um zusätzliche Spalten der Miningstruktur anzeigen zu lassen, die nicht im Data-Mining-Modell selbst enthalten waren.

Angeben von Inhaltstyp und Datentyp

Der Datentyp ist ziemlich identisch mit den Datentypen, die Sie in SQL Server oder anderen Anwendungsschnittstellen angeben: Datums- und Uhrzeitangaben, Zahlen verschiedener Größen, boolescher Werte, Text und andere diskrete Daten.

Inhaltstypen sind jedoch wichtig für data Mining und wirken sich auf das Ergebnis der Analyse aus. Der Inhaltstyp teilt dem Algorithmus mit, was er mit den Daten tun sollte: Sollten Zahlen in einer kontinuierlichen Skalierung behandelt oder binniert werden? Wie viele potenzielle Werte gibt es? Ist jeder Wert unterschiedlich? Wenn der Wert ein Schlüssel ist, welche Art von Schlüssel ist es – gibt er einen Datums-/Uhrzeitwert, eine Sequenz oder eine andere Art von Schlüssel an?

Beachten Sie, dass die Auswahl des Datentyps die Auswahl von Inhaltstypen einschränken kann. Sie können z. B. keine Werte unterscheiden, die nicht numerisch sind. Wenn der gewünschte Inhaltstyp nicht angezeigt wird, können Sie auf "Zurück " klicken, um zur Datentypseite zurückzukehren und einen anderen Datentyp zu versuchen.

Sie müssen sich nicht allzu viele Sorgen machen, sich bei der Wahl des Inhaltstyps zu irren. Es ist sehr einfach, ein neues Modell zu erstellen und den Inhaltstyp innerhalb des Modells zu ändern, solange der neue Inhaltstyp vom Datentypsatz in der Miningstruktur unterstützt wird. Es ist auch sehr üblich, mehrere Modelle mit unterschiedlichen Inhaltstypen zu erstellen, entweder als Experiment oder um die Anforderungen eines anderen Algorithmus zu erfüllen.

Wenn Ihre Daten beispielsweise eine Einkommensspalte enthalten, können Sie bei Verwendung des Microsoft Decision Trees-Algorithmus zwei verschiedene Modelle erstellen und die Spalte abwechselnd als fortlaufende Zahlen oder diskrete Bereiche konfigurieren. Wenn Sie jedoch ein Modell mit dem Microsoft Naïve Bayes-Algorithmus hinzugefügt haben, würden Sie gezwungen sein, die Spalte nur in diskretisierte Werte zu ändern, da dieser Algorithmus keine fortlaufenden Zahlen unterstützt.

Warum und wie Daten in Schulungs- und Testsätze aufgeteilt werden

Am Ende des Assistenten müssen Sie entscheiden, ob Sie Ihre Daten in Trainings- und Testsätze aufteilen möchten. Die Möglichkeit, einen zufällig stichprobenbezogenen Teil der Daten für Tests bereitzustellen, ist sehr praktisch, da sichergestellt wird, dass eine konsistente Gruppe von Testdaten für die Verwendung mit allen Miningmodellen verfügbar ist, die der neuen Miningstruktur zugeordnet sind.

Warnung

Beachten Sie, dass diese Option für alle Modelltypen nicht verfügbar ist. Wenn Sie z. B. ein Prognosemodell erstellen, können Sie "Holdout" nicht verwenden, da der Zeitreihenalgorithmus erfordert, dass keine Datenlücken vorhanden sind. Eine Liste der Modelltypen, die Aufbewahrungsdatensätze unterstützen, finden Sie unter "Schulungs- und Testdatensätze".

Zum Erstellen dieses Aufbewahrungsdatensatzes geben Sie den Prozentsatz der Daten an, die Sie für Tests verwenden möchten. Alle verbleibenden Daten werden zur Schulung verwendet. Optional können Sie eine maximale Anzahl von Fällen festlegen, die für Tests verwendet werden sollen, oder einen Ausgangswert festlegen, der beim Starten des Zufälligen Auswahlvorgangs verwendet werden soll.

Die Definition des Holdout-Testsatzes wird mit der Miningstruktur gespeichert, sodass jedes Mal, wenn Sie ein neues Modell basierend auf der Struktur erstellen, der Testdatensatz um die Genauigkeit des Modells zu bewerten, zur Verfügung steht. Wenn Sie den Cache der Miningstruktur löschen, werden auch die Informationen dazu gelöscht, welche Fälle für Schulungen verwendet wurden und welche auch für Tests verwendet wurden.

Warum und wie Drillthrough aktiviert wird

Fast am Ende des Assistenten haben Sie die Möglichkeit, Drillthrough zu aktivieren. Es ist einfach, diese Option zu verpassen, aber es ist eine wichtige. Mit Drillthrough können Sie die Quelldaten, die sich in der Miningstruktur befinden, anzeigen, indem Sie eine Abfrage des Miningmodells durchführen.

Warum ist dies nützlich? Angenommen, Sie zeigen die Ergebnisse eines Clustermodells an und möchten die Kunden sehen, die in einen bestimmten Cluster eingefügt wurden. Mithilfe von Drillthrough können Sie Details wie Kontaktinformationen anzeigen.

Warnung

Um Drillthrough zu verwenden, müssen Sie sie aktivieren, wenn Sie die Miningstruktur erstellen. Sie können Drillthrough für Modelle später aktivieren, indem Sie eine Eigenschaft im Modell festlegen, aber bei Miningstrukturen ist es erforderlich, dass diese Option von Anfang an festgelegt wird. Weitere Informationen finden Sie unter Drillthrough Queries (Data Mining).

Siehe auch

Datenanalyse-Designer
Data Mining-Assistent (Analysis Services - Data Mining)
Miningmodelleigenschaften
Eigenschaften für Bergbaustruktur- und Strukturspalten
Bergbaustrukturaufgaben und Vorgehensweisen

Last updated on 2017-06-13

Freigeben über

Relationale Miningstruktur erstellen

Anforderungen

Übersicht über den Prozess

So wählen Sie relationale Daten aus

Angeben von Inhaltstyp und Datentyp

Warum und wie Daten in Schulungs- und Testsätze aufgeteilt werden

Warum und wie Drillthrough aktiviert wird

Siehe auch

Zusätzliche Ressourcen