Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Ein Data Mining-Projekt ist Teil einer Analysis Services-Lösung. Während des Entwurfsvorgangs stehen die Objekte, die Sie in diesem Projekt erstellen, zum Testen und Abfragen als Teil einer Arbeitsbereichsdatenbank zur Verfügung. Wenn Sie möchten, dass Benutzer die Objekte im Projekt abfragen oder durchsuchen können, müssen Sie das Projekt in einer Instanz von Analysis Services bereitstellen, die im mehrdimensionalen Modus ausgeführt wird.
Dieses Thema enthält die grundlegenden Informationen, die zum Verstehen und Erstellen von Data Mining-Projekten erforderlich sind.
Erstellen von Data Mining-Projekten
In SQL Server Data Tools (SSDT) erstellen Sie Data Mining-Projekte mithilfe der Vorlage, des OLAP- und Data Mining-Projekts. Sie können Data Mining-Projekte auch programmgesteuert mithilfe von AMO erstellen. Einzelne Data Mining-Objekte können mithilfe der Skriptsprache Analysis Services Scripting (ASSL) skriptiert werden. Weitere Informationen finden Sie unter Multidimensional Model Data Access (Analysis Services – Multidimensional Data).
Wenn Sie ein Data Mining-Projekt in einer vorhandenen Lösung erstellen, werden die Data Mining-Objekte standardmäßig in einer Analysis Services-Datenbank mit demselben Namen wie die Lösungsdatei bereitgestellt. Sie können diesen Namen und den Zielserver mithilfe des Dialogfelds "Projekteigenschaften " ändern. Weitere Informationen finden Sie unter Konfigurieren der Projekteigenschaften für Analysis Services (SSDT).
Warnung
Um Ihr Projekt erfolgreich zu erstellen und bereitzustellen, müssen Sie Zugriff auf eine Instanz von Analysis Services haben, die im OLAP/Data Mining-Modus ausgeführt wird. Sie können keine Data Mining-Lösungen für eine Instanz von Analysis Services entwickeln oder bereitstellen, die tabellarische Modelle unterstützt, oder Sie können Daten nicht direkt aus einer PowerPivot-Arbeitsmappe oder aus einem tabellarischen Modell verwenden, das den Speicher im Arbeitsspeicher verwendet. Informationen dazu, ob die Instanz von Analysis Services, die Sie haben, Data Mining unterstützen kann, finden Sie unter Ermitteln des Servermodus einer Analysis Services-Instanz.
In jedem von Ihnen erstellten Data Mining-Projekt führen Sie die folgenden Schritte aus:
Wählen Sie eine Datenquelle aus, z. B. einen Cube, eine Datenbank oder sogar Excel- oder Textdateien, die die Rohdaten enthalten, die Sie zum Erstellen von Modellen verwenden.
Definieren Sie eine Teilmenge der Daten in der Datenquelle, die für die Analyse verwendet werden soll, und speichern Sie sie als Datenquellenansicht.
Definieren Sie eine Miningstruktur zur Unterstützung der Modellierung.
Fügen Sie Miningmodelle zur Miningstruktur hinzu, indem Sie einen Algorithmus auswählen und angeben, wie der Algorithmus die Daten verarbeiten wird.
Trainieren Sie Modelle, indem Sie sie mit den ausgewählten Daten oder einer gefilterten Teilmenge der Daten auffüllen.
Erkunden, Testen und Neuerstellen von Modellen.
Wenn das Projekt abgeschlossen ist, können Sie es für Benutzer zum Durchsuchen oder Abfragen bereitstellen oder programmgesteuerten Zugriff auf die Miningmodelle in einer Anwendung bereitstellen, um Vorhersagen und Analysen zu unterstützen.
Objekte in Data Mining-Projekten
Alle Data Mining-Projekte enthalten die folgenden vier Objekttypen. Sie können über mehrere Objekte aller Typen verfügen.
Datenquellen
Datenquellenansichten
Bergbaustrukturen
Miningmodelle
Beispielsweise kann ein einzelnes Data Mining-Projekt einen Verweis auf mehrere Datenquellen enthalten, wobei jede Datenquelle mehrere Datenquellenansichten unterstützt. Jede Datenquellenansicht kann wiederum mehrere Miningstrukturen unterstützen, die jeweils mit vielen zugehörigen Miningmodellen verbunden sind.
Darüber hinaus kann Ihr Projekt Plug-In-Algorithmen, benutzerdefinierte Assemblys oder benutzerdefinierte gespeicherte Prozeduren enthalten; Diese Objekte werden jedoch hier nicht beschrieben. Weitere Informationen finden Sie im Entwicklerhandbuch (Analysis Services).
Datenquellen
Die Datenquelle definiert die Verbindungszeichenfolge und Authentifizierungsinformationen, die der Analysis Services-Server zum Herstellen einer Verbindung mit der Datenquelle verwendet. Die Datenquelle kann mehrere Tabellen oder Ansichten enthalten; es kann so einfach wie eine einzelne Excel-Arbeitsmappe oder Textdatei oder so komplex wie eine OLAP-Datenbank (Online Analytical Processing) oder eine große relationale Datenbank sein.
Ein einzelnes Data Mining-Projekt kann auf mehrere Datenquellen verweisen. Obwohl ein Miningmodell jeweils nur eine Datenquelle verwenden kann, könnte das Projekt mehrere Modelle haben, die auf verschiedene Datenquellen zurückgreifen.
Analysis Services unterstützt Daten von vielen externen Anbietern, und SQL Server Data Mining kann sowohl relationale als auch Cubedaten als Datenquelle verwenden. Wenn Sie jedoch beide Arten von Projektmodellen basierend auf relationalen Quellen und Modellen entwickeln, die auf OLAP-Cubes basieren, können Sie diese in separaten Projekten entwickeln und verwalten.
In der Regel sollten Modelle, die auf einem OLAP-Cube basieren, innerhalb der OLAP-Entwurfslösung entwickelt werden. Ein Grund dafür ist, dass Modelle, die auf einem Cube basieren, den Cube verarbeiten müssen, um Daten zu aktualisieren. Im Allgemeinen sollten Sie Cubedaten nur dann verwenden, wenn es sich dabei um das Prinzip der Datenspeicherung und des Zugriffs handelt, oder wenn Sie die Aggregationen, Dimensionen und Attribute benötigen, die vom multidimensionalen Projekt erstellt wurden.
Wenn Ihr Projekt nur relationale Daten verwendet, sollten Sie die relationalen Modelle in einem separaten Projekt erstellen, sodass Sie andere Objekte nicht unnötig neu verarbeiten. In vielen Fällen enthält die Stagingdatenbank oder das Data Warehouse zur Unterstützung der Cubeerstellung bereits die Ansichten, die zum Durchführen von Data Mining erforderlich sind, und Sie können diese Ansichten für data Mining verwenden, anstatt die Aggregationen und Dimensionen im Cube zu verwenden.
Sie können Daten im Arbeitsspeicher oder PowerPivot nicht direkt verwenden, um Data-Mining-Modelle zu erstellen.
Die Datenquelle identifiziert nur den Server oder Anbieter und den allgemeinen Datentyp. Wenn Sie Die Datenformatierung und Aggregationen ändern müssen, verwenden Sie das Datenquellenansichtsobjekt.
Um zu steuern, wie Daten aus der Datenquelle verarbeitet werden, können Sie abgeleitete Spalten oder Berechnungen hinzufügen, Aggregate ändern oder Spalten in den Daten in der Datenquellenansicht umbenennen. (Sie können auch mit nachgelagerten Daten arbeiten, indem Sie Miningstrukturspalten ändern oder Modellierungsflags und Filter auf der Ebene der Miningmodellspalte verwenden.)
Wenn die Datenbereinigung erforderlich ist oder die Daten im Data Warehouse geändert werden müssen, um zusätzliche Variablen zu erstellen, Datentypen zu ändern oder alternative Aggregationen zu erstellen, müssen Sie möglicherweise zusätzliche Projekttypen zur Unterstützung des Data Mining erstellen. Weitere Informationen zu diesen verwandten Projekten finden Sie unter "Verwandte Projekte für Data Mining Solutions".
Ansichten der Datenquellen
Nachdem Sie diese Verbindung mit einer Datenquelle definiert haben, erstellen Sie eine Ansicht, die die spezifischen Daten identifiziert, die für Ihr Modell relevant sind.
Mit der Datenquellenansicht können Sie auch die Art und Weise anpassen, wie die Daten in der Datenquelle dem Miningmodell bereitgestellt werden. Sie können die Struktur der Daten ändern, um sie für Ihr Projekt relevanter zu machen, oder sie können nur bestimmte Arten von Daten auswählen.
Beispielsweise können Sie mithilfe des Datenquellenansicht-Editors Folgendes ausführen:
Erstellen abgeleiteter Spalten, z. B. Datumsabschnitte, Teilzeichenfolgen usw.
Aggregieren von Werten mithilfe von Transact-SQL Anweisungen wie GROUP BY
Vorübergehendes Einschränken von Daten oder Beispieldaten
Weitere Informationen dazu, wie Sie Daten in einer Datenquellenansicht ändern können, finden Sie unter Datenquellenansichten in mehrdimensionalen Modellen.
Warnung
Wenn Sie die Daten filtern möchten, können Sie dies in der Datenquellenansicht tun, aber Sie können auch Filter für die Daten auf der Ebene des Miningmodells erstellen. Da die Filterdefinition mit dem Miningmodell gespeichert wird, erleichtert die Verwendung von Modellfiltern die Ermittlung der Daten, die zum Trainieren des Modells verwendet wurden. Darüber hinaus können Sie mehrere verwandte Modelle mit unterschiedlichen Filterkriterien erstellen. Weitere Informationen finden Sie unter Filter für Miningmodelle (Analysis Services – Data Mining).
Beachten Sie, dass die von Ihnen erstellte Datenquellenansicht zusätzliche Daten enthalten kann, die nicht direkt für die Analyse verwendet werden. Sie können z. B. Ihrer Ansicht Ihrer Datenquelle Daten hinzufügen, die für Tests, Vorhersagen oder für Drillthrough verwendet werden. Weitere Informationen zu diesen Verwendungen finden Sie unter Testing and Validation (Data Mining) und Drillthrough.
Bergbaustrukturen
Nachdem Sie die Datenquellen- und Datenquellenansicht erstellt haben, müssen Sie die Datenspalten auswählen, die für Ihr Geschäftsproblem am relevantesten sind, indem Sie Miningstrukturen innerhalb des Projekts definieren. Eine Miningstruktur teilt dem Projekt mit, welche Datenspalten aus der Datenquellenansicht tatsächlich in Modellierung, Schulung und Tests verwendet werden sollen.
Um eine neue Miningstruktur hinzuzufügen, starten Sie den Data Mining-Assistenten. Der Assistent definiert automatisch eine Miningstruktur, führt Sie durch den Prozess der Auswahl der Daten und ermöglicht optional das Hinzufügen eines anfänglichen Miningmodells zur Struktur. In der Miningstruktur wählen Sie Tabellen und Spalten aus der Datenquellenansicht oder aus einem OLAP-Cube aus, und definieren Beziehungen zwischen Tabellen, wenn Ihre Daten geschachtelte Tabellen enthalten.
Die Auswahl der Daten unterscheidet sich im Data Mining-Assistenten sehr, je nachdem, ob Sie relationale oder OLAP-Datenquellen (Online Analytical Processing) verwenden.
Wenn Sie Daten aus einer relationalen Datenquelle auswählen, ist das Einrichten einer Miningstruktur einfach: Sie wählen Spalten aus den Daten in der Datenquellenansicht und legen zusätzliche Anpassungen wie Aliase fest oder definieren, wie Werte in der Spalte gruppiert oder in Bins eingeteilt werden sollen. Weitere Informationen finden Sie unter Erstellen einer relationalen Miningstruktur.
Wenn Sie Daten aus einem OLAP-Cube verwenden, muss sich die Miningstruktur in derselben Datenbank wie die OLAP-Lösung befinden. Um eine Miningstruktur zu erstellen, wählen Sie Attribute aus den Dimensionen und den zugehörigen Kennzahlen Ihrer OLAP-Lösung aus. Numerische Werte befinden sich typischerweise in Maßzahlen, und kategorische Variablen in Dimensionen. Weitere Informationen finden Sie unter Erstellen einer OLAP-Miningstruktur.
Sie können auch Bergbaustrukturen mithilfe von DMX definieren. Weitere Informationen finden Sie unter Data Mining Extensions (DMX) Data Definition Statements.
Nachdem Sie die anfängliche Miningstruktur erstellt haben, können Sie die Strukturspalten kopieren, ändern und aliasen.
Jede Miningstruktur kann mehrere Miningmodelle enthalten. Nachdem Sie fertig sind, können Sie die Miningstruktur erneut öffnen und data Mining Designer verwenden, um der Struktur weitere Miningmodelle hinzuzufügen.
Sie haben auch die Möglichkeit, Ihre Daten in einen Schulungsdatensatz zu trennen, der zum Erstellen von Modellen verwendet wird, und einen Aufbewahrungsdatensatz, der beim Testen oder Validieren Ihrer Miningmodelle verwendet werden soll.
Warnung
Einige Modelltypen, z. B. Zeitreihenmodelle, unterstützen die Erstellung von Aufbewahrungsdatensätzen nicht, da sie eine fortlaufende Datenreihe für Schulungen erfordern. Weitere Informationen finden Sie unter Schulungs- und Testdatensätze.
Miningmodelle
Das Miningmodell definiert den Algorithmus oder die Analysemethode, die Sie für die Daten verwenden werden. Zu jeder Miningstruktur fügen Sie ein oder mehrere Miningmodelle hinzu.
Je nach Ihren Anforderungen können Sie viele Modelle in einem einzelnen Projekt kombinieren oder separate Projekte für jede Art von Modell oder analytische Aufgabe erstellen.
Nachdem Sie eine Struktur und ein Modell erstellt haben, verarbeiten Sie jedes Modell, indem Sie die Daten aus der Datenquellenansicht über den Algorithmus ausführen, der ein mathematisches Modell der Daten generiert. Dieser Prozess wird auch als Schulung des Modells bezeichnet. Weitere Informationen finden Sie unter Verarbeitungsanforderungen und Überlegungen (Data Mining).
Nachdem das Modell verarbeitet wurde, können Sie das Miningmodell visuell untersuchen und Vorhersageabfragen dafür erstellen. Wenn die Daten aus dem Schulungsvorgang zwischengespeichert wurden, können Sie Drillthroughabfragen verwenden, um detaillierte Informationen zu den im Modell verwendeten Fällen zurückzugeben.
Wenn Sie ein Modell für die Produktion verwenden möchten (z. B. zum Erstellen von Vorhersagen oder zum Durchsuchen durch allgemeine Benutzer), können Sie das Modell auf einem anderen Server bereitstellen. Wenn Sie das Modell in Zukunft erneut verarbeiten müssen, müssen Sie auch die Definition der zugrunde liegenden Miningstruktur (und unbedingt die Definition der Datenquellen- und Datenquellenansicht) gleichzeitig exportieren.
Wenn Sie ein Modell bereitstellen, müssen Sie außerdem sicherstellen, dass die richtigen Verarbeitungsoptionen für die Struktur und das Modell festgelegt sind und potenzielle Benutzer über die erforderlichen Berechtigungen zum Ausführen von Abfragen, Ansichtsmodellen oder Drillthrough zum Strukturieren von Modelldaten verfügen. Weitere Informationen finden Sie unter Security Overview (Data Mining).
Verwenden des abgeschlossenen Data Mining-Projekts
In diesem Abschnitt werden die Möglichkeiten zusammengefasst, wie Sie das abgeschlossene Data Mining-Projekt verwenden können. Sie können Genauigkeitsdiagramme erstellen, die Daten untersuchen und überprüfen und die Data Mining-Muster benutzern zur Verfügung stellen.
Warnung
Die Diagramme, Abfragen und Visualisierungen, die Sie mit Data Mining-Modellen verwenden, werden nicht als Teil des Data Mining-Projekts gespeichert und können nicht bereitgestellt werden. Wenn Sie diese Objekte beibehalten müssen, sollten Sie entweder den dargestellten Inhalt speichern oder es gemäß der Beschreibung für jedes Objekt skripten.
Modelle anzeigen und erkunden
Nachdem Sie ein Modell erstellt haben, können Sie visuelle Tools und Abfragen verwenden, um die Muster im Modell zu untersuchen und mehr über die zugrunde liegenden Muster und Statistiken zu erfahren. Auf der Registerkarte "Miningmodellanzeige " im Data Mining-Designer stellt Analysis Services Viewer für jeden Miningmodelltyp bereit, mit dem Sie die Miningmodelle untersuchen können.
Diese Visualisierungen sind temporär und werden geschlossen, ohne zu speichern, wenn Sie die Sitzung mit Analysis Services beenden. Wenn Sie diese Visualisierungen daher für die Präsentation oder weitere Analyse in eine andere Anwendung exportieren müssen, verwenden Sie die Befehle "Kopieren ", die auf jeder Registerkarte oder jedem Bereich der Viewer-Benutzeroberfläche bereitgestellt werden.
Die Data Mining-Add-Ins für Excel bieten auch eine Visio-Vorlage, die Sie verwenden können, um Ihre Modelle in einem Visio-Diagramm darzustellen und das Diagramm mithilfe von Visio-Tools zu kommentieren und zu ändern. Weitere Informationen finden Sie unter Microsoft SQL Server 2008 SP2 Data Mining-Add-Ins für Microsoft Office 2007.
Testen und Überprüfen von Modellen
Nachdem Sie ein Modell erstellt haben, können Sie die Ergebnisse untersuchen und Entscheidungen darüber treffen, welche Modelle am besten funktionieren.
Analysis Services bietet mehrere Diagramme, die Sie verwenden können, um Miningmodelle direkt zu vergleichen und das genaueste oder nützlichste Miningmodell auszuwählen. Zu diesen Tools gehören ein Liftdiagramm, ein Gewinndiagramm und eine Klassifizierungsmatrix. Sie können diese Diagramme mithilfe der Registerkarte "Mining-Genauigkeitsdiagramm " des Data Mining-Designers generieren.
Sie können auch den Kreuzvalidierungsbericht verwenden, um eine iterative Stichprobenziehung Ihrer Daten durchzuführen und zu bestimmen, ob das Modell auf eine bestimmte Datenmenge voreingenommen ist. Die vom Bericht bereitgestellten Statistiken können verwendet werden, um Modelle objektiv zu vergleichen und die Qualität Ihrer Schulungsdaten zu bewerten.
Beachten Sie, dass diese Berichte und Diagramme nicht mit dem Projekt oder in der ssASnoversion-Datenbank gespeichert werden. Wenn Sie also die Ergebnisse beibehalten oder duplizieren müssen, sollten Sie entweder die Ergebnisse speichern oder die Objekte mithilfe von DIRECTORY oder AMO skripten. Sie können auch gespeicherte Prozeduren für die Kreuzüberprüfung verwenden.
Weitere Informationen finden Sie unter Testing and Validation (Data Mining).
Erstellen von Vorhersagen
Analysis Services stellt eine Abfragesprache namens Data Mining Extensions (DMX) bereit, die die Grundlage für das Erstellen von Vorhersagen ist und leicht skriptbar ist. Um Ihnen bei der Erstellung von DMX-Vorhersageabfragen zu helfen, stellt SQL Server einen Abfragegenerator bereit, der in SQL Server Management Studio verfügbar ist. Es gibt auch viele DMX-Vorlagen für den Abfrage-Editor in SQL Server Management Studio. Wenn Sie mit Vorhersageabfragen noch nicht vertraut sind, empfehlen wir Ihnen, den Abfrage-Assistenten zu nutzen, der sowohl im Data Mining-Designer als auch in SQL Server Management Studio bereitgestellt wird. Weitere Informationen finden Sie unter Data Mining Tools.
Die Vorhersagen, die Sie in SQL Server Data Tools (SSDT) oder SQL Server Management Studio erstellen, werden nicht beibehalten. Wenn Ihre Abfragen komplex sind oder Sie die Ergebnisse reproduzieren müssen, empfehlen wir, Ihre Vorhersageabfragen in DMX-Abfrage-Dateien zu speichern, zu skripten oder die Abfragen als Teil eines Integration Services-Pakets einzubetten.
Programmgesteuerter Zugriff auf Data Mining-Objekte
Analysis Services bietet mehrere Tools, mit denen Sie programmgesteuert mit Data Mining-Projekten und den darin enthaltenen Objekten arbeiten können. Die DMX-Sprache stellt Anweisungen bereit, die zur Erstellung von Datenquellen und Datenquellenansichten sowie zum Erstellen, Trainieren und Verwenden von Data-Mining-Strukturen und -Modellen verwendet werden können. Weitere Informationen finden Sie unter Data Mining-Erweiterungen (DMX) – Referenz.
Sie können diese Aufgaben auch mithilfe der Analysis Services Scripting Language (ASSL) oder mithilfe von Analysis Management Objects (AMO) ausführen. Weitere Informationen finden Sie unter Developing with XMLA in Analysis Services.
Verwandte Aufgaben
In den folgenden Themen wird die Verwendung des Data Mining-Assistenten zum Erstellen eines Data Mining-Projekts und zugehöriger Objekte beschrieben.
| Aufgaben | Themen |
|---|---|
| Beschreibt das Arbeiten mit Miningstrukturspalten | Erstellen einer relationalen Miningstruktur |
| Enthält weitere Informationen zum Hinzufügen neuer Miningmodelle sowie zum Verarbeiten einer Struktur und der Modelle. | Hinzufügen von Miningmodellen zu einer Struktur (Analysis Services - Data Mining) |
| Stellt Links zu Ressourcen bereit, mit denen Sie die Algorithmen anpassen können, die Miningmodelle erstellen. | Anpassen von Miningmodellen und -struktur |
| Enthält Links zu Informationen zu den einzelnen Miningmodell-Viewern. | Data Mining-Modellanzeigen |
| Erfahren Sie, wie Sie ein Liftdiagramm, ein Gewinndiagramm oder eine Klassifizierungsmatrix erstellen oder eine Miningstruktur testen. | Testen und Überprüfen (Data Mining) |
| Informationen zu Verarbeitungsoptionen und Berechtigungen | Verarbeiten von Data Mining-Objekten |
| Enthält weitere Informationen zu Analysis Services | Mehrdimensionale Modelldatenbanken (SSAS) |
Siehe auch
Datenanalyse-Designer
Erstellen von mehrdimensionalen Modellen mit SQL Server Data Tools (SSDT)
Arbeitsbereichsdatenbank (SSAS tabellarisch)