Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Sie benötigen Audio- oder Textdaten, um die Genauigkeit der Spracherkennung von zu testen oder Ihre benutzerdefinierten Modelle zu trainieren. Informationen zu den zum Testen oder Trainieren von Modellen verfügbaren Datentypen finden Sie unter Trainieren und Testen von Datasets.
Tipp
Sie können auch mithilfe des Editors für Onlinetranskriptionen bezeichnete Audiodatasets erstellen und optimieren.
Hochladen von Datasets
Führen Sie die folgenden Schritte aus, um Datasets für Schulungen (Feinabstimmung) Ihres benutzerdefinierten Sprachmodells hochzuladen.
Wichtig
Wiederholen Sie die Schritte zum Hochladen von Testdatensätzen (z. B. nur Audio ), die Sie später beim Erstellen eines Tests benötigen. Sie können mehrere Datasets für Schulungen und Tests hochladen.
Melden Sie sich beim Microsoft Foundry-Portal an.
Wählen Sie Feinabstimmung im linken Bereich und dann KI Service Feinabstimmung aus.
Wählen Sie die benutzerdefinierte Sprachoptimierungsaufgabe (nach Modellname) aus, die Sie gestartet haben, wie im Artikel zum Starten der benutzerdefinierten Sprachoptimierung beschrieben.
Wählen Sie „Daten verwalten“>„Datensatz hinzufügen“ aus.
Wählen Sie im Assistenten Daten hinzufügen die Art der Trainingsdaten aus, die Sie hinzufügen möchten. In diesem Beispiel wählen wir Audiodaten + von Menschen beschriftetes Transkript aus. Wählen Sie dann Weiter aus.
Wählen Sie auf der Seite Daten hochladen lokale Dateien, Azure Blob Storage oder andere freigegebene Webspeicherorte aus. Wählen Sie dann Weiter aus.
Wenn Sie einen Remotespeicherort auswählen und keinen vertrauenswürdigen Azure Services-Sicherheitsmechanismus verwenden, sollte der Remotespeicherort eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.
Hinweis
Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datasetdateien. Ausführlichere Informationen finden Sie hier.
Geben Sie einen Namen und eine Beschreibung für die Daten ein. Wählen Sie dann Weiter aus.
Überprüfen Sie die Daten, und wählen Sie Hochladen aus. Sie gelangen zurück zur Seite Daten verwalten. Der Status der Daten ist Wird verarbeitet.
Wiederholen Sie die Schritte zum Hochladen von Testdatensätzen (z. B. nur Audio ), die Sie später beim Erstellen eines Tests benötigen. Sie können mehrere Datasets für Schulungen und Tests hochladen.
Wiederholen Sie die vorherigen Schritte, um Audiodaten hochzuladen , die Sie später zum Testen verwenden. Wählen Sie im Assistenten zum Hinzufügen von DatenAudio für den Datentyp aus, den Sie hinzufügen möchten.
Führen Sie die folgenden Schritte aus, um Ihre eigenen Datasets in Speech Studio hochzuladen:
Melden Sie sich in Speech Studio an.
Wählen Sie Custom Speech> Ihr Projektname >Speech-Datasets>Daten hochladen aus.
Wählen Sie die Registerkarte Trainingsdaten oder Testdaten aus.
Wählen Sie einen Datasettyp und dann Weiter aus.
Geben Sie den Speicherort des Datasets an, und wählen Sie dann Weiter aus. Sie können eine lokale Datei auswählen oder einen Remotespeicherort eingeben, z. B. eine URL einer Azure Blob-Instanz. Wenn Sie einen Remotespeicherort auswählen und keinen vertrauenswürdigen Azure Services-Sicherheitsmechanismus verwenden, sollte der Remotespeicherort eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.
Hinweis
Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datensatzdateien. Ausführlichere Informationen finden Sie hier.
Geben Sie den Namen und eine Beschreibung des Datasets ein, und wählen Sie dann Weiter aus.
Überprüfen Sie Ihre Einstellungen, und wählen Sie anschließend Speichern und schließen aus.
Nachdem Ihr Dataset hochgeladen wurde, wechseln Sie zur Seite Trainieren benutzerdefinierter Modelle, um ein benutzerdefiniertes Modell zu trainieren.
Bevor Sie fortfahren, stellen Sie sicher, dass die Speech CLI installiert und konfiguriert ist.
Mit der Sprach-CLI - und Spracherkennungs-REST-API können Sie im Gegensatz zum Microsoft Foundry-Portal und Speech Studio nicht auswählen, ob ein Dataset zum Zeitpunkt des Uploads getestet oder trainiert werden soll. Die Verwendung eines Datasets wird beim Trainieren eines Modells oder beim Ausführen eines Tests angegeben.
Die Art des Datasets muss allerdings trotzdem angegeben werden, auch wenn Sie nicht festlegen, ob das Dataset zum Testen oder zum Trainieren verwendet werden soll. Die Art des Datasets wird verwendet, um zu bestimmen, welcher Datasettyp erstellt wird. In manchen Fällen wird eine Datasetart nur zum Testen oder Trainieren verwendet. Dies sollte jedoch nicht als Abhängigkeit verwendet werden. Die Werte der Speech CLI- und REST-API kind entsprechen den Optionen im Microsoft Foundry-Portal und Speech Studio , wie in der folgenden Tabelle beschrieben:
| CLI- und API-Art | Portaloptionen |
|---|---|
| Akustik | Trainingsdaten: Audiodaten + von Menschen beschriftetes Transkript Testdaten: Transkript (automatische Audiosynthese) Testdaten: Audiodaten + von Menschen beschriftetes Transkript |
| Audiodateien | Testdaten: Audio |
| Sprache | Trainingsdaten: Nur-Text |
| LanguageMarkdown | Trainingsdaten: Strukturierter Text in Markdownformat |
| Aussprache | Trainingsdaten: Aussprache |
| Ausgabeformatierung | Schulungsdaten: Ausgabeformat |
Wichtig
Sie verwenden nicht die Speech CLI oder REST-API, um Datendateien direkt hochzuladen. Zuerst speichern Sie die Trainings- oder Testdataset-Dateien unter einer URL, auf die die Speech CLI oder REST-API zugreifen kann. Nachdem Sie die Datendateien hochgeladen haben, können Sie die Speech CLI oder REST-API verwenden, um ein Dataset für benutzerdefinierte Sprachtests oder Trainings zu erstellen.
Verwenden Sie den Befehl spx csr dataset create, um ein Dataset zu erstellen und eine Verbindung mit einem vorhandenen Projekt herzustellen. Erstellen Sie die Anforderungsparameter gemäß den folgenden Anweisungen:
Legen Sie die
projectEigenschaft auf die ID eines vorhandenen Projekts fest. DieprojectEigenschaft wird empfohlen, damit Sie auch die Feinabstimmung für benutzerdefinierte Spracherkennung im Microsoft Foundry-Portal verwalten können. Informationen zum Abrufen der Projekt-ID finden Sie in der Dokumentation unter Projekt-ID für die REST API abrufen.Legen Sie die erforderliche
kind-Eigenschaft fest. Die möglichen Werte für eine Trainingsdataset-Variante sind: „Acoustic“, „AudioFiles“, „Language“, „LanguageMarkdown“ und „Pronunciation“.Legen Sie die erforderliche
contentUrl-Eigenschaft fest. Dieser Parameter ist der Speicherort des Datasets. Wenn Sie keinen Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste verwenden (siehe nächstes Hinweis), sollte diecontentUrlEigenschaft eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.Hinweis
Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datensatzdateien. Ausführlichere Informationen finden Sie hier.
Legen Sie die erforderliche
language-Eigenschaft fest. Das Gebietsschema des Datasets muss mit dem Gebietsschema des Projekts übereinstimmen. Das Gebietsschema kann später nicht mehr geändert werden. Die Speech CLI-Eigenschaftlanguageentspricht derlocaleEigenschaft in der JSON-Anforderung und -Antwort.Legen Sie die erforderliche
name-Eigenschaft fest. Dieser Parameter ist der Name, der im Microsoft Foundry-Portal angezeigt wird. Die Speech CLI-Eigenschaftnameentspricht derdisplayNameEigenschaft in der JSON-Anforderung und -Antwort.
Mit dem folgenden Beispielbefehl der Speech-CLI wird ein Dataset erstellt und mit einem vorhandenen Projekt verbunden:
spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"
Wichtig
Sie müssen --api-version v3.2 festlegen. Die Speech CLI verwendet die REST-API, unterstützt aber noch keine Versionen später als v3.2.
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Die oberste self-Eigenschaft im Antworttext ist der URI des Datasets. Verwenden Sie diesen URI, um Details zum Projekt und zu den Dateien des Datasets abzurufen. Dieser URI wird auch verwendet, um ein Dataset zu aktualisieren oder zu löschen.
Mit dem folgenden Befehl erhalten Sie datasetbezogene Hilfe für die Speech-CLI:
spx help csr dataset
Mit der Sprach-CLI - und Spracherkennungs-REST-API können Sie im Gegensatz zum Microsoft Foundry-Portal und Speech Studio nicht auswählen, ob ein Dataset zum Zeitpunkt des Uploads getestet oder trainiert werden soll. Die Verwendung eines Datasets wird beim Trainieren eines Modells oder beim Ausführen eines Tests angegeben.
Die Art des Datasets muss allerdings trotzdem angegeben werden, auch wenn Sie nicht festlegen, ob das Dataset zum Testen oder zum Trainieren verwendet werden soll. Die Art des Datasets wird verwendet, um zu bestimmen, welcher Datasettyp erstellt wird. In manchen Fällen wird eine Datasetart nur zum Testen oder Trainieren verwendet. Dies sollte jedoch nicht als Abhängigkeit verwendet werden. Die Werte der Speech CLI- und REST-API kind entsprechen den Optionen im Microsoft Foundry-Portal und Speech Studio , wie in der folgenden Tabelle beschrieben:
| CLI- und API-Art | Portaloptionen |
|---|---|
| Akustik | Trainingsdaten: Audiodaten + von Menschen beschriftetes Transkript Testdaten: Transkript (automatische Audiosynthese) Testdaten: Audiodaten + von Menschen beschriftetes Transkript |
| Audiodateien | Testdaten: Audio |
| Sprache | Trainingsdaten: Nur-Text |
| LanguageMarkdown | Trainingsdaten: Strukturierter Text in Markdownformat |
| Aussprache | Trainingsdaten: Aussprache |
| Ausgabeformatierung | Schulungsdaten: Ausgabeformat |
Wichtig
Sie verwenden nicht die Speech CLI oder REST-API, um Datendateien direkt hochzuladen. Zuerst speichern Sie die Trainings- oder Testdataset-Dateien unter einer URL, auf die die Speech CLI oder REST-API zugreifen kann. Nachdem Sie die Datendateien hochgeladen haben, können Sie die Speech CLI oder REST-API verwenden, um ein Dataset für benutzerdefinierte Sprachtests oder Trainings zu erstellen.
Verwenden Sie den Vorgang Datasets_Create der REST-API für die Spracherkennung, um ein Dataset zu erstellen und mit einem vorhandenen Projekt zu verbinden. Erstellen Sie den Anforderungstext wie folgt:
Legen Sie die
projectEigenschaft auf die ID eines vorhandenen Projekts fest. DieprojectEigenschaft wird empfohlen, damit Sie auch die Feinabstimmung für benutzerdefinierte Spracherkennung im Microsoft Foundry-Portal verwalten können. Informationen zum Abrufen der Projekt-ID finden Sie in der Dokumentation unter Projekt-ID für die REST API abrufen.Legen Sie die erforderliche
kind-Eigenschaft fest. Die möglichen Werte für eine Trainingsdataset-Variante sind: „Acoustic“, „AudioFiles“, „Language“, „LanguageMarkdown“ und „Pronunciation“.Legen Sie die erforderliche
contentUrl-Eigenschaft fest. Diese Eigenschaft ist der Speicherort des Datasets. Wenn Sie keinen Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste verwenden (siehe nächstes Hinweis), sollte diecontentUrlEigenschaft eine URL sein, die mit einer einfachen anonymen GET-Anforderung abgerufen werden kann. Beispielsweise eine SAS-URL oder eine öffentlich zugängliche URL. URLs, die eine zusätzliche Autorisierung erfordern oder eine Benutzerinteraktion erwarten, werden nicht unterstützt.Hinweis
Wenn Sie eine Azure-Blob-URL verwenden, können Sie mithilfe des Sicherheitsmechanismus vertrauenswürdiger Azure-Dienste eine maximale Sicherheit Ihrer Datasetdateien gewährleisten. Sie verwenden die gleichen Techniken wie für die Batchtranskription und einfache Speicherkonto-URLs für Ihre Datensatzdateien. Ausführlichere Informationen finden Sie hier.
Legen Sie die erforderliche
locale-Eigenschaft fest. Das Gebietsschema des Datasets muss mit dem Gebietsschema des Projekts übereinstimmen. Das Gebietsschema kann später nicht mehr geändert werden.Legen Sie die erforderliche
displayName-Eigenschaft fest. Diese Eigenschaft ist der Name, der im Microsoft Foundry-Portal angezeigt wird.
Erstellen Sie eine HTTP POST-Anforderung, und verwenden Sie dabei den URI, wie im folgenden Beispiel gezeigt. Ersetzen Sie YourSpeechResoureKey durch Ihren Speech-Ressourcenschlüssel, ersetzen Sie YourServiceRegion durch die Region der Speech-Ressource, und legen Sie die Anforderungstexteigenschaften wie zuvor beschrieben fest.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
"kind": "Acoustic",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
},
"contentUrl": "https://contoso.com/mydatasetlocation",
"locale": "en-US",
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
"kind": "Acoustic",
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
},
"project": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
},
"properties": {
"textNormalizationKind": "Default",
"acceptedLineCount": 2,
"rejectedLineCount": 0,
"duration": "PT59S"
},
"lastActionDateTime": "2024-07-14T17:36:30Z",
"status": "Succeeded",
"createdDateTime": "2024-07-14T17:36:14Z",
"locale": "en-US",
"displayName": "My Acoustic Dataset",
"description": "My Acoustic Dataset Description",
"customProperties": {
"PortalAPIVersion": "3"
}
}
Die oberste self-Eigenschaft im Antworttext ist der URI des Datasets. Verwenden Sie diesen URI, um Details zum Projekt und zu den Dateien des Datasets abzurufen. Dieser URI wird auch verwendet, um das Dataset zu aktualisieren oder zu löschen.
Wichtig
Die Verbindung eines Datasets mit einem Custom Speech-Projekt ist nicht erforderlich, um ein benutzerdefiniertes Modell über die REST-API oder die Speech CLI zu trainieren und zu testen. Wenn das Dataset jedoch nicht mit einem Projekt verbunden ist, können Sie es nicht für Schulungen oder Tests im Microsoft Foundry-Portal auswählen.