Hochladen von Trainings- und Testdatasets für Custom Speech

Sie benötigen Audio- oder Textdaten, um die Genauigkeit der Spracherkennung von zu testen oder Ihre benutzerdefinierten Modelle zu trainieren. Informationen zu den zum Testen oder Trainieren von Modellen verfügbaren Datentypen finden Sie unter Trainieren und Testen von Datasets.

Tipp

Sie können auch mithilfe des Editors für Onlinetranskriptionen bezeichnete Audiodatasets erstellen und optimieren.

Hochladen von Datasets

Führen Sie die folgenden Schritte aus, um Datasets für Schulungen (Feinabstimmung) Ihres benutzerdefinierten Sprachmodells hochzuladen.

Wichtig

Wiederholen Sie die Schritte zum Hochladen von Testdatensätzen (z. B. nur Audio ), die Sie später beim Erstellen eines Tests benötigen. Sie können mehrere Datasets für Schulungen und Tests hochladen.

Melden Sie sich beim Microsoft Foundry-Portal an.
Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.
Wählen Sie die benutzerdefinierte Sprachoptimierungsaufgabe (nach Modellname) aus, die Sie gestartet haben, wie im Artikel zum Starten der benutzerdefinierten Sprachoptimierung beschrieben.
Wählen Sie „Daten verwalten“>„Datensatz hinzufügen“ aus.
Wählen Sie im Assistenten Daten hinzufügen die Art der Trainingsdaten aus, die Sie hinzufügen möchten. In diesem Beispiel wählen wir Audiodaten + von Menschen beschriftetes Transkript aus. Wählen Sie dann Weiter aus.
Wählen Sie auf der Seite Daten hochladen lokale Dateien, Azure Blob Storage oder andere freigegebene Webspeicherorte aus. Wählen Sie dann Weiter aus.

Wenn Sie einen Remotespeicherort auswählen und keinen vertrauenswürdigen Azure Services-Sicherheitsmechanismus verwenden, sollte der Remotespeicherort eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.

Hinweis

Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datasetdateien. Ausführlichere Informationen finden Sie hier.
Geben Sie einen Namen und eine Beschreibung für die Daten ein. Wählen Sie dann Weiter aus.
Überprüfen Sie die Daten, und wählen Sie Hochladen aus. Sie gelangen zurück zur Seite Daten verwalten. Der Status der Daten ist Wird verarbeitet.
Wiederholen Sie die Schritte zum Hochladen von Testdatensätzen (z. B. nur Audio ), die Sie später beim Erstellen eines Tests benötigen. Sie können mehrere Datasets für Schulungen und Tests hochladen.
Wiederholen Sie die vorherigen Schritte, um Audiodaten hochzuladen , die Sie später zum Testen verwenden. Wählen Sie im Assistenten zum Hinzufügen von DatenAudio für den Datentyp aus, den Sie hinzufügen möchten.

Führen Sie die folgenden Schritte aus, um Ihre eigenen Datasets in Speech Studio hochzuladen:

Melden Sie sich in Speech Studio an.
Wählen Sie Custom Speech> Ihr Projektname >Speech-Datasets>Daten hochladen aus.
Wählen Sie die Registerkarte Trainingsdaten oder Testdaten aus.
Wählen Sie einen Datasettyp und dann Weiter aus.
Geben Sie den Speicherort des Datasets an, und wählen Sie dann Weiter aus. Sie können eine lokale Datei auswählen oder einen Remotespeicherort eingeben, z. B. eine URL einer Azure Blob-Instanz. Wenn Sie einen Remotespeicherort auswählen und keinen vertrauenswürdigen Azure Services-Sicherheitsmechanismus verwenden, sollte der Remotespeicherort eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.

Hinweis

Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datensatzdateien. Ausführlichere Informationen finden Sie hier.
Geben Sie den Namen und eine Beschreibung des Datasets ein, und wählen Sie dann Weiter aus.
Überprüfen Sie Ihre Einstellungen, und wählen Sie anschließend Speichern und schließen aus.

Nachdem Ihr Dataset hochgeladen wurde, wechseln Sie zur Seite Trainieren benutzerdefinierter Modelle, um ein benutzerdefiniertes Modell zu trainieren.

Bevor Sie fortfahren, stellen Sie sicher, dass die Speech CLI installiert und konfiguriert ist.

Mit der Sprach-CLI - und Spracherkennungs-REST-API können Sie im Gegensatz zum Microsoft Foundry-Portal und Speech Studio nicht auswählen, ob ein Dataset zum Zeitpunkt des Uploads getestet oder trainiert werden soll. Die Verwendung eines Datasets wird beim Trainieren eines Modells oder beim Ausführen eines Tests angegeben.

Die Art des Datasets muss allerdings trotzdem angegeben werden, auch wenn Sie nicht festlegen, ob das Dataset zum Testen oder zum Trainieren verwendet werden soll. Die Art des Datasets wird verwendet, um zu bestimmen, welcher Datasettyp erstellt wird. In manchen Fällen wird eine Datasetart nur zum Testen oder Trainieren verwendet. Dies sollte jedoch nicht als Abhängigkeit verwendet werden. Die Werte der Speech CLI- und REST-API kind entsprechen den Optionen im Microsoft Foundry-Portal und Speech Studio , wie in der folgenden Tabelle beschrieben:

CLI- und API-Art	Portaloptionen
Akustik	Trainingsdaten: Audiodaten + von Menschen beschriftetes Transkript Testdaten: Transkript (automatische Audiosynthese) Testdaten: Audiodaten + von Menschen beschriftetes Transkript
Audiodateien	Testdaten: Audio
Sprache	Trainingsdaten: Nur-Text
LanguageMarkdown	Trainingsdaten: Strukturierter Text in Markdownformat
Aussprache	Trainingsdaten: Aussprache
Ausgabeformatierung	Schulungsdaten: Ausgabeformat

Wichtig

Sie verwenden nicht die Speech CLI oder REST-API, um Datendateien direkt hochzuladen. Zuerst speichern Sie die Trainings- oder Testdataset-Dateien unter einer URL, auf die die Speech CLI oder REST-API zugreifen kann. Nachdem Sie die Datendateien hochgeladen haben, können Sie die Speech CLI oder REST-API verwenden, um ein Dataset für benutzerdefinierte Sprachtests oder Trainings zu erstellen.

Verwenden Sie den Befehl spx csr dataset create, um ein Dataset zu erstellen und eine Verbindung mit einem vorhandenen Projekt herzustellen. Erstellen Sie die Anforderungsparameter gemäß den folgenden Anweisungen:

Legen Sie die project Eigenschaft auf die ID eines vorhandenen Projekts fest. Die project Eigenschaft wird empfohlen, damit Sie auch die Feinabstimmung für benutzerdefinierte Spracherkennung im Microsoft Foundry-Portal verwalten können. Informationen zum Abrufen der Projekt-ID finden Sie in der Dokumentation unter Projekt-ID für die REST API abrufen.
Legen Sie die erforderliche kind-Eigenschaft fest. Die möglichen Werte für eine Trainingsdataset-Variante sind: „Acoustic“, „AudioFiles“, „Language“, „LanguageMarkdown“ und „Pronunciation“.
Legen Sie die erforderliche contentUrl-Eigenschaft fest. Dieser Parameter ist der Speicherort des Datasets. Wenn Sie keinen Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste verwenden (siehe nächstes Hinweis), sollte die contentUrl Eigenschaft eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.

Hinweis

Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datensatzdateien. Ausführlichere Informationen finden Sie hier.
Legen Sie die erforderliche language-Eigenschaft fest. Das Gebietsschema des Datasets muss mit dem Gebietsschema des Projekts übereinstimmen. Das Gebietsschema kann später nicht mehr geändert werden. Die Speech CLI-Eigenschaft language entspricht der locale Eigenschaft in der JSON-Anforderung und -Antwort.
Legen Sie die erforderliche name-Eigenschaft fest. Dieser Parameter ist der Name, der im Microsoft Foundry-Portal angezeigt wird. Die Speech CLI-Eigenschaft name entspricht der displayName Eigenschaft in der JSON-Anforderung und -Antwort.

Mit dem folgenden Beispielbefehl der Speech-CLI wird ein Dataset erstellt und mit einem vorhandenen Projekt verbunden:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Wichtig

Sie müssen --api-version v3.2 festlegen. Die Speech CLI verwendet die REST-API, unterstützt aber noch keine Versionen später als v3.2.

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Die oberste self-Eigenschaft im Antworttext ist der URI des Datasets. Verwenden Sie diesen URI, um Details zum Projekt und zu den Dateien des Datasets abzurufen. Dieser URI wird auch verwendet, um ein Dataset zu aktualisieren oder zu löschen.

Mit dem folgenden Befehl erhalten Sie datasetbezogene Hilfe für die Speech-CLI:

spx help csr dataset

CLI- und API-Art	Portaloptionen
Akustik	Trainingsdaten: Audiodaten + von Menschen beschriftetes Transkript Testdaten: Transkript (automatische Audiosynthese) Testdaten: Audiodaten + von Menschen beschriftetes Transkript
Audiodateien	Testdaten: Audio
Sprache	Trainingsdaten: Nur-Text
LanguageMarkdown	Trainingsdaten: Strukturierter Text in Markdownformat
Aussprache	Trainingsdaten: Aussprache
Ausgabeformatierung	Schulungsdaten: Ausgabeformat

Wichtig

Verwenden Sie den Vorgang Datasets_Create der REST-API für die Spracherkennung, um ein Dataset zu erstellen und mit einem vorhandenen Projekt zu verbinden. Erstellen Sie den Anforderungstext wie folgt:

Legen Sie die project Eigenschaft auf die ID eines vorhandenen Projekts fest. Die project Eigenschaft wird empfohlen, damit Sie auch die Feinabstimmung für benutzerdefinierte Spracherkennung im Microsoft Foundry-Portal verwalten können. Informationen zum Abrufen der Projekt-ID finden Sie in der Dokumentation unter Projekt-ID für die REST API abrufen.
Legen Sie die erforderliche kind-Eigenschaft fest. Die möglichen Werte für eine Trainingsdataset-Variante sind: „Acoustic“, „AudioFiles“, „Language“, „LanguageMarkdown“ und „Pronunciation“.
Legen Sie die erforderliche contentUrl-Eigenschaft fest. Diese Eigenschaft ist der Speicherort des Datasets. Wenn Sie keinen Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste verwenden (siehe nächstes Hinweis), sollte die contentUrl Eigenschaft eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.

Hinweis

Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datensatzdateien. Ausführlichere Informationen finden Sie hier.
Legen Sie die erforderliche locale-Eigenschaft fest. Das Gebietsschema des Datasets muss mit dem Gebietsschema des Projekts übereinstimmen. Das Gebietsschema kann später nicht mehr geändert werden.
Legen Sie die erforderliche displayName-Eigenschaft fest. Diese Eigenschaft ist der Name, der im Microsoft Foundry-Portal angezeigt wird.

Erstellen Sie eine HTTP POST-Anforderung, und verwenden Sie dabei den URI, wie im folgenden Beispiel gezeigt. Ersetzen Sie YourSpeechResoureKey durch Ihren Speech-Ressourcenschlüssel, ersetzen Sie YourServiceRegion durch die Region der Speech-Ressource, und legen Sie die Anforderungstexteigenschaften wie zuvor beschrieben fest.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

Wichtig

Die Verbindung eines Datasets mit einem Custom Speech-Projekt ist nicht erforderlich, um ein benutzerdefiniertes Modell über die REST-API oder die Speech CLI zu trainieren und zu testen. Wenn das Dataset jedoch nicht mit einem Projekt verbunden ist, können Sie es nicht für Schulungen oder Tests im Microsoft Foundry-Portal auswählen.

Nächste Schritte

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-18

Freigeben über

Hochladen von Trainings- und Testdatasets für Custom Speech

Hochladen von Datasets

Nächste Schritte

Feedback

Zusätzliche Ressourcen