Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Es gibt eine Vielzahl von Beispieldatasets, die von Azure Databricks bereitgestellt und von Drittanbietern zur Verfügung gestellt werden, die Sie in Ihrem Azure Databricks-Arbeitsbereich verwenden können.
Unity-Katalog-Datasets
Unity Catalog bietet Zugriff auf eine Reihe von Beispieldatasets im samples-Katalog. Sie können diese Datasets auf der Benutzeroberfläche des Katalog-Explorers überprüfen und direkt in einem Notebook oder im SQL-Editor auf sie verweisen, indem Sie das <catalog-name>.<schema-name>.<table-name>-Muster verwenden.
Das nyctaxi-Schema (auch als Datenbank bekannt) enthält die Tabelle trips, in der Einzelheiten über Taxifahrten in New York City gespeichert sind. Die folgende Anweisung gibt die ersten 10 Datensätze in dieser Tabelle zurück:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Das tpch-Schema enthält Daten aus der TPC-H-Benchmark. Führen Sie zum Auflisten der Tabellen in diesem Schema Folgendes aus:
SHOW TABLES IN samples.tpch
Das tpcds_sf1 Schema enthält Daten aus dem TPC-DS Benchmark. Führen Sie zum Auflisten der Tabellen in diesem Schema Folgendes aus:
SHOW TABLES IN samples.tpcds_sf1;
Weitere Anleitungen zur Verwendung dieses Datasets zur Auswertung der Systemleistung finden Sie unter Verwenden des TPC-DS Beispieldatensatzes zum Auswerten der Systemleistung.
Beispieldatasets von Drittanbietern im CSV-Format
Azure Databricks verfügt über integrierte Tools zum schnellen Hochladen von Beispieldatasets von Drittanbietern als CSV-Dateien (durch Trennzeichen getrennte Werte) in Azure Databricks-Arbeitsbereiche. Dies sind einige beliebte Beispieldatasets von Drittanbietern, die im CSV-Format verfügbar sind:
| Beispieldataset | So laden Sie das Beispieldataset als CSV-Datei herunter... |
|---|---|
| Squirrel Census | Klicken Sie auf der Webseite Data auf Park Data, Squirrel Data oder Stories. |
| OWID-Datasetsammlung | Klicken Sie im GitHub-Repository auf den Ordner datasets. Klicken Sie auf den Unterordner, der das Zieldatenset enthält, und klicken Sie dann auf die CSV-Datei des Datasets. |
| Data.gov-CSV-Datasets | Klicken Sie auf der Webseite mit den Suchergebnissen auf das Zielsuchergebnis, und klicken Sie neben dem CSV-Symbol auf Download. |
| Diamonds (erfordert ein Kaggle-Konto) | Klicken Sie auf der Webseite des Datasets auf der Registerkarte " Daten " auf der Registerkarte " Daten " neben diamonds.csvauf das Symbol " Herunterladen ". |
| NYC Taxi Trip Duration (erfordert ein Kaggle-Konto) | Klicken Sie auf der Webseite des Datasets auf der Registerkarte " Daten " neben sample_submission.zipauf die Schaltfläche Downloadsymbol. Um die CSV-Dateien des Datasets zu finden, extrahiert sie den Inhalt der heruntergeladenen ZIP-Datei. |
Gehen Sie wie folgt vor, um Beispieldatasets von Drittanbietern in Ihrem Azure Databricks-Arbeitsbereich zu verwenden:
- Befolgen Sie die Anweisungen des Drittanbieters, um das Dataset als CSV-Datei auf Ihren lokalen Computer herunterzuladen.
- Laden Sie die CSV-Datei von Ihrem lokalen Computer in Ihren Azure Databricks-Arbeitsbereich hoch.
- Um mit den importierten Daten zu arbeiten, verwenden Sie Databricks SQL, um die Daten abzufragen. Sie können auch ein Notebook verwenden, um die Daten als DataFrame zu laden.
Beispieldatasets von Drittanbietern in Bibliotheken
Einige Drittanbieter enthalten Beispieldatasets in Bibliotheken, z. B. PyPI-Pakete (Python Package Index) oder CRAN-Pakete (Comprehensive R Archive Network). Weitere Informationen finden Sie in der Dokumentation des Bibliotheksanbieters.
- Informationen zum Installieren einer Bibliothek auf einem Azure Databricks-Cluster mithilfe der Clusterbenutzeroberfläche finden Sie unter bereichsspezifischen Bibliotheken.
- Informationen zum Installieren einer Python-Bibliothek mithilfe eines Azure Databricks-Notebooks finden Sie unter Python-Bibliotheken im Notebook-Bereich.
- Informationen zum Installieren einer R-Bibliothek mithilfe eines Azure Databricks-Notebooks finden Sie unter R-Bibliotheken im Notebook-Bereich.
Databricks-Datasets (databricks-datasets), die im DBFS bereitgestellt werden
Azure Databricks rät in den meisten Anwendungsfällen in Databricks-Arbeitsbereichen, in denen Unity Catalog aktiviert ist, davon ab, DBFS und bereitgestellte Cloudobjektspeicher zu verwenden. Einige Beispieldatasets, die im DBFS bereitgestellt werden, sind in Azure Databricks verfügbar.
Hinweis
Die Verfügbarkeit und der Speicherort von Databricks-Datasets können ohne Ankündigung geändert werden.
Durchsuchen von im DBFS bereitgestellten Databricks-Datasets
Um diese Dateien aus einem Python-, Scala- oder R-Notizbuch zu durchsuchen, können Sie die Databricks Utilities (dbutils) Referenz verwenden. Der folgende Code listet alle verfügbaren Databricks-Datasets auf.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"