Freigeben über


Beispieldatasets

Es gibt eine Vielzahl von Beispieldatasets, die von Azure Databricks bereitgestellt und von Drittanbietern zur Verfügung gestellt werden, die Sie in Ihrem Azure Databricks-Arbeitsbereich verwenden können.

Unity-Katalog-Datasets

Unity Catalog bietet Zugriff auf eine Reihe von Beispieldatasets im samples-Katalog. Sie können diese Datasets auf der Benutzeroberfläche des Katalog-Explorers überprüfen und direkt in einem Notebook oder im SQL-Editor auf sie verweisen, indem Sie das <catalog-name>.<schema-name>.<table-name>-Muster verwenden.

Das nyctaxi-Schema (auch als Datenbank bekannt) enthält die Tabelle trips, in der Einzelheiten über Taxifahrten in New York City gespeichert sind. Die folgende Anweisung gibt die ersten 10 Datensätze in dieser Tabelle zurück:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Das tpch-Schema enthält Daten aus der TPC-H-Benchmark. Führen Sie zum Auflisten der Tabellen in diesem Schema Folgendes aus:

SHOW TABLES IN samples.tpch

Das tpcds_sf1 Schema enthält Daten aus dem TPC-DS Benchmark. Führen Sie zum Auflisten der Tabellen in diesem Schema Folgendes aus:

SHOW TABLES IN samples.tpcds_sf1;

Weitere Anleitungen zur Verwendung dieses Datasets zur Auswertung der Systemleistung finden Sie unter Verwenden des TPC-DS Beispieldatensatzes zum Auswerten der Systemleistung.

Beispieldatasets von Drittanbietern im CSV-Format

Azure Databricks verfügt über integrierte Tools zum schnellen Hochladen von Beispieldatasets von Drittanbietern als CSV-Dateien (durch Trennzeichen getrennte Werte) in Azure Databricks-Arbeitsbereiche. Dies sind einige beliebte Beispieldatasets von Drittanbietern, die im CSV-Format verfügbar sind:

Beispieldataset So laden Sie das Beispieldataset als CSV-Datei herunter...
Squirrel Census Klicken Sie auf der Webseite Data auf Park Data,
Squirrel Data oder Stories.
OWID-Datasetsammlung Klicken Sie im GitHub-Repository auf den Ordner datasets. Klicken Sie auf den Unterordner, der das Zieldatenset enthält, und klicken Sie dann auf die CSV-Datei des Datasets.
Data.gov-CSV-Datasets Klicken Sie auf der Webseite mit den Suchergebnissen auf das Zielsuchergebnis, und klicken Sie neben dem CSV-Symbol auf Download.
Diamonds (erfordert ein Kaggle-Konto) Klicken Sie auf der Webseite des Datasets auf der Registerkarte " Daten " auf der Registerkarte " Daten " neben diamonds.csvauf das Symbol " Herunterladen ".
NYC Taxi Trip Duration (erfordert ein Kaggle-Konto) Klicken Sie auf der Webseite des Datasets auf der Registerkarte " Daten " neben sample_submission.zipauf die Schaltfläche
Downloadsymbol. Um die CSV-Dateien des Datasets zu finden, extrahiert sie den Inhalt der heruntergeladenen ZIP-Datei.

Gehen Sie wie folgt vor, um Beispieldatasets von Drittanbietern in Ihrem Azure Databricks-Arbeitsbereich zu verwenden:

  1. Befolgen Sie die Anweisungen des Drittanbieters, um das Dataset als CSV-Datei auf Ihren lokalen Computer herunterzuladen.
  2. Laden Sie die CSV-Datei von Ihrem lokalen Computer in Ihren Azure Databricks-Arbeitsbereich hoch.
  3. Um mit den importierten Daten zu arbeiten, verwenden Sie Databricks SQL, um die Daten abzufragen. Sie können auch ein Notebook verwenden, um die Daten als DataFrame zu laden.

Beispieldatasets von Drittanbietern in Bibliotheken

Einige Drittanbieter enthalten Beispieldatasets in Bibliotheken, z. B. PyPI-Pakete (Python Package Index) oder CRAN-Pakete (Comprehensive R Archive Network). Weitere Informationen finden Sie in der Dokumentation des Bibliotheksanbieters.

Databricks-Datasets (databricks-datasets), die im DBFS bereitgestellt werden

Azure Databricks rät in den meisten Anwendungsfällen in Databricks-Arbeitsbereichen, in denen Unity Catalog aktiviert ist, davon ab, DBFS und bereitgestellte Cloudobjektspeicher zu verwenden. Einige Beispieldatasets, die im DBFS bereitgestellt werden, sind in Azure Databricks verfügbar.

Hinweis

Die Verfügbarkeit und der Speicherort von Databricks-Datasets können ohne Ankündigung geändert werden.

Durchsuchen von im DBFS bereitgestellten Databricks-Datasets

Um diese Dateien aus einem Python-, Scala- oder R-Notizbuch zu durchsuchen, können Sie die Databricks Utilities (dbutils) Referenz verwenden. Der folgende Code listet alle verfügbaren Databricks-Datasets auf.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"