Azure Batch de Reconhecimento de Fala em Lote
Transcreva com precisão áudio para texto em mais de 100 idiomas e variantes. Como parte do serviço Azure AI Speech, a Transcrição em lote permite transcrever uma grande quantidade de áudio no armazenamento. Pode apontar para ficheiros de áudio com um URI de assinatura de acesso partilhado (SAS) e receber os resultados de transcrição de forma assíncrona.
Este conector está disponível nos seguintes produtos e regiões:
| Serviço | Class | Regiões |
|---|---|---|
| Estúdio Copiloto | Standard | Todas as regiões do Power Automatic , exceto as seguintes: - China Cloud operado pela 21Vianet |
| Aplicações Lógicas | Standard | Todas as regiões do Logic Apps , exceto as seguintes: - Regiões do Azure China |
| Aplicações Power | Standard | Todas as regiões do Power Apps , exceto as seguintes: - China Cloud operado pela 21Vianet |
| Automatize o poder | Standard | Todas as regiões do Power Automatic , exceto as seguintes: - China Cloud operado pela 21Vianet |
| Contato | |
|---|---|
| Nome | Equipe de Plataforma de Energia do Serviço de Fala |
| URL | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
| speechpowerplatform@microsoft.com |
| Metadados do conector | |
|---|---|
| Editora | Microsoft |
| Sítio Web | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
| Política de privacidade | https://privacy.microsoft.com |
| Categorias | IA; Sítio Web |
A API de transcrição em lote dos Serviços de Fala é um serviço baseado em nuvem que fornece processamento assíncrono de reconhecimento de fala em lote sobre o conteúdo de áudio fornecido. Este conector expõe essas funções como operações no Microsoft Power Automate e Power Apps.
Pre-requisites
Você precisará do seguinte para prosseguir:
- Subscrição do Azure - Criar uma gratuitamente
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves. Para obter mais informações sobre os recursos dos Serviços Cognitivos, consulte Obter as chaves para o seu recurso.
- Carregue seus próprios dados ou use arquivos de áudio existentes via URI público ou URI de assinatura de acesso compartilhado (SAS). Saiba mais aqui
A criar uma ligação
O conector suporta os seguintes tipos de autenticação:
| Chave Api | ApiKey | Todas as regiões | Compartilhável |
| Microsoft Entra ID Integrado | Use o Microsoft Entra ID para acessar seu serviço de fala. | Todas as regiões, exceto o Azure Government e o Department of Defense (DoD) no Azure Government e no US Government (GCC-High) | Não compartilhável |
| Microsoft Entra ID Integrated (Azure Government) | Use o Microsoft Entra ID para acessar seu serviço de fala. | Azure Government and Department of Defense (DoD) no Azure Government e US Government (GCC-High) apenas | Não compartilhável |
| Padrão [DEPRECATED] | Esta opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores. | Todas as regiões | Não compartilhável |
Chave Api
ID de autenticação: keyBasedAuth
Aplicável: Todas as regiões
ApiKey
Esta é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, a conexão também será compartilhada. Para obter mais informações, consulte a Visão geral de conectores para aplicativos de tela - Power Apps | Documentos Microsoft
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave da conta | securestring | Chave do serviço de fala | Verdade |
| Região | cadeia (de caracteres) | Região do serviço de fala (Exemplo: eastus) | Verdade |
ID do Microsoft Entra Integrado
ID de autenticação: tokenBasedAuth
Aplicável: Todas as regiões, exceto o Azure Government e o Department of Defense (DoD) no Azure Government e no US Government (GCC-High)
Use o Microsoft Entra ID para acessar seu serviço de fala.
Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Subdomínio personalizado | cadeia (de caracteres) | URL do ponto de extremidade do subdomínio personalizado (Exemplo: contoso) | Verdade |
Microsoft Entra ID Integrated (Azure Government)
ID de autenticação: tokenBasedAuth
Aplicável: Azure Government e Department of Defense (DoD) apenas no Azure Government e no US Government (GCC-High)
Use o Microsoft Entra ID para acessar seu serviço de fala.
Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Subdomínio personalizado | cadeia (de caracteres) | URL do ponto de extremidade do subdomínio personalizado (Exemplo: contoso) | Verdade |
Padrão [DEPRECATED]
Aplicável: Todas as regiões
Esta opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.
Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave da conta | securestring | Serviços Cognitivos do Azure para Chave de Conta de Fala em Lote para texto | Verdade |
| Região | cadeia (de caracteres) | Região do serviço de fala (Exemplo: eastus) | Verdade |
Limites de Limitação
| Name | Chamadas | Período de Renovação |
|---|---|---|
| Chamadas de API por conexão | 100 | 60 segundos |
Ações
| Criar transcrição (V3.1) |
Cria uma nova transcrição. |
| Excluir transcrição (V3.1) |
Exclui a tarefa de transcrição especificada. |
| Obter arquivo de transcrição (V3.1) |
Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id). |
| Obter arquivos de lista de transcrições (V3.1) |
Obtém os arquivos da transcrição identificados pelo ID fornecido. |
| Obter lista de transcrições (V3.1) |
Obtém uma lista de transcrições para a assinatura autenticada. |
| Obter localidades suportadas (V3.1) |
Obtém uma lista de localidades suportadas para transcrições offline. |
| Obter transcrições (V3.1) |
Obtém a transcrição identificada pelo ID fornecido. |
| Transcrição de atualização (V3.1) |
Atualiza os detalhes mutáveis da transcrição identificada pelo seu ID. |
Criar transcrição (V3.1)
Cria uma nova transcrição.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Você pode fornecer uma lista de urls de conteúdo para obter arquivos de áudio para transcrever. Até 1000 urls são permitidos. Esta propriedade não será devolvida em resposta. |
|
|
contentContainerUrl
|
contentContainerUrl | uri |
Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner pode ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. O SAS do contêiner deve conter as permissões 'r' (leitura) e 'l' (lista). Esta propriedade não será devolvida em resposta. |
|
|
região
|
locale | True | string |
A localidade dos dados contidos. Se a Identificação de Idioma for usada, essa localidade será usada para transcrever fala para a qual nenhum idioma pôde ser detetado. |
|
nome de exibição
|
displayName | True | string |
O nome para exibição do objeto. |
|
modelo
|
self | uri |
A localização da entidade referenciada. |
|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Um valor que indica se a diarização (identificação do orador) é solicitada. O valor padrão é |
|
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora no nível da palavra são solicitados. O valor padrão é |
|
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora no nível da palavra para o formulário de exibição são solicitados. O valor predefinido é |
|
|
channels
|
channels | array of integer |
Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados. |
|
|
destinationContainerUrl
|
destinationContainerUrl | uri |
O contêiner de destino solicitado.### Comentários ###When um contêiner de destino for usado em combinação com um |
|
|
pontuaçãoModo de pontuação
|
punctuationMode | string |
O modo usado para pontuação. |
|
|
profanityFilterMode
|
profanityFilterMode | string |
Modo de filtragem de palavrões. |
|
|
timeToLive
|
timeToLive | string |
Por quanto tempo a transcrição será mantida no sistema após sua conclusão. Uma vez que a transcrição atinja o tempo de vida após a conclusão (bem-sucedida ou reprovada), ela será automaticamente excluída. Não definir esse valor ou defini-lo como 0 desativará a exclusão automática. A duração suportada mais longa é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
|
minCount
|
minCount | integer |
Uma dica para o número mínimo de falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers. |
|
|
maxCount
|
maxCount | integer |
O número máximo de falantes para diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers. |
|
|
candidatoLocalidades
|
candidateLocales | True | array of string |
As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição, são suportados. |
|
speechModelMapping
|
speechModelMapping | object |
Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for fornecido para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respetivas localidades. |
|
|
e-mail
|
string |
O endereço de e-mail para o qual enviar notificações por e-mail caso a operação seja concluída. O valor será removido após o envio bem-sucedido do e-mail. |
Devoluções
- Body
- Transcription
Excluir transcrição (V3.1)
Exclui a tarefa de transcrição especificada.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
O identificador da transcrição. |
Obter arquivo de transcrição (V3.1)
Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
O identificador da transcrição. |
|
ID do arquivo
|
fileId | True | uuid |
O identificador do arquivo. |
|
Validade do Sas em segundos
|
sasValidityInSeconds | integer |
A duração em segundos que um URL SAS deve ser válido. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): Um valor de 0 significa que um URI de blob simples sem token SAS será gerado. |
Devoluções
- Body
- File
Obter arquivos de lista de transcrições (V3.1)
Obtém os arquivos da transcrição identificados pelo ID fornecido.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
O identificador da transcrição. |
|
Validade do Sas em segundos
|
sasValidityInSeconds | integer |
A duração em segundos que um URL SAS deve ser válido. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): Um valor de 0 significa que um URI de blob simples sem token SAS será gerado. |
|
|
Pular
|
skip | integer |
Número de conjuntos de dados que serão ignorados. |
|
|
Início
|
top | integer |
Número de conjuntos de dados que serão incluídos depois de ignorar. |
|
|
Filter
|
filter | string |
Uma expressão de filtragem para selecionar um subconjunto dos arquivos disponíveis.
|
Devoluções
- Body
- PaginatedFiles
Obter lista de transcrições (V3.1)
Obtém uma lista de transcrições para a assinatura autenticada.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Pular
|
skip | integer |
Número de conjuntos de dados que serão ignorados. |
|
|
Início
|
top | integer |
Número de conjuntos de dados que serão incluídos depois de ignorar. |
|
|
Filter
|
filter | string |
Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis.
|
Devoluções
Obter localidades suportadas (V3.1)
Obtém uma lista de localidades suportadas para transcrições offline.
Devoluções
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
|
array of string |
Obter transcrições (V3.1)
Obtém a transcrição identificada pelo ID fornecido.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
O identificador da transcrição. |
Devoluções
- Body
- Transcription
Transcrição de atualização (V3.1)
Atualiza os detalhes mutáveis da transcrição identificada pelo seu ID.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
O identificador da transcrição. |
|
Eu mesmo
|
self | True | uri |
A localização da entidade referenciada. |
|
nome de exibição
|
displayName | string |
O nome do objeto. |
|
|
descrição
|
description | string |
A descrição do objeto. |
|
|
customProperties
|
customProperties | object |
As propriedades personalizadas desta entidade. O comprimento máximo permitido da chave é de 64 caracteres, o comprimento máximo do valor permitido é de 256 caracteres e a contagem de entradas permitidas é de 10. |
Devoluções
- Body
- Transcription
Definições
DiarizaçãoPropriedades
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
falantes
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
minCount
|
minCount | integer |
Uma dica para o número mínimo de falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers. |
|
maxCount
|
maxCount | integer |
O número máximo de falantes para diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers. |
Ficheiro
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
tipo
|
kind | FileKind |
Tipo de dados. |
|
links
|
links | FileLinks | |
|
createdDateTime
|
createdDateTime | date-time |
A hora de criação deste ficheiro. O carimbo de data/hora é codificado como formato de data e hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations). |
|
propriedades
|
properties | FileProperties | |
|
nome
|
name | string |
O nome deste ficheiro. |
FileKind
Links de arquivo
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
contentUrl
|
contentUrl | uri |
A url para recuperar o conteúdo deste arquivo. |
Propriedades do arquivo
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
size
|
size | integer |
O tamanho dos dados em bytes. |
|
duration
|
duration | string |
A duração no caso deste arquivo é um arquivo de áudio. A duração é codificada como ISO 8601duration ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations). |
LanguageIdentificationProperties
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
candidatoLocalidades
|
candidateLocales | array of string |
As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição, são suportados. |
|
speechModelMapping
|
speechModelMapping | object |
Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for fornecido para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respetivas localidades. |
PaginatedFiles
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
values
|
values | array of File |
Uma lista de entidades limitadas pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar através de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. Recomenda-se criar uma lista no cliente e excluir após a busca da lista completa. |
|
@nextLink
|
@nextLink | uri |
Um link para o próximo conjunto de resultados paginados, se houver mais entidades disponíveis; caso contrário, null. |
Transcrições paginadasTranscrições
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
values
|
values | array of Transcription |
Uma lista de entidades limitadas pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar através de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. Recomenda-se criar uma lista no cliente e excluir após a busca da lista completa. |
|
@nextLink
|
@nextLink | uri |
Um link para o próximo conjunto de resultados paginados, se houver mais entidades disponíveis; caso contrário, null. |
ProfanityFilterMode
PontuaçãoModo de Pontuação
Transcrição
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Você pode fornecer uma lista de urls de conteúdo para obter arquivos de áudio para transcrever. Até 1000 urls são permitidos. Esta propriedade não será devolvida em resposta. |
|
contentContainerUrl
|
contentContainerUrl | uri |
Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner pode ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. O SAS do contêiner deve conter as permissões 'r' (leitura) e 'l' (lista). Esta propriedade não será devolvida em resposta. |
|
região
|
locale | string |
A localidade dos dados contidos. Se a Identificação de Idioma for usada, essa localidade será usada para transcrever fala para a qual nenhum idioma pôde ser detetado. |
|
nome de exibição
|
displayName | string |
O nome para exibição do objeto. |
|
modelo
|
model.self | uri |
A localização da entidade referenciada. |
|
propriedades
|
properties | TranscriptionProperties |
TranscriçãoPropriedades
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Um valor que indica se a diarização (identificação do orador) é solicitada. O valor padrão é |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora no nível da palavra são solicitados. O valor padrão é |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora no nível da palavra para o formulário de exibição são solicitados. O valor predefinido é |
|
channels
|
channels | array of integer |
Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados. |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
O contêiner de destino solicitado.### Comentários ###When um contêiner de destino for usado em combinação com um |
|
pontuaçãoModo de pontuação
|
punctuationMode | PunctuationMode |
O modo usado para pontuação. |
|
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
Modo de filtragem de palavrões. |
|
timeToLive
|
timeToLive | string |
Por quanto tempo a transcrição será mantida no sistema após sua conclusão. Uma vez que a transcrição atinja o tempo de vida após a conclusão (bem-sucedida ou reprovada), ela será automaticamente excluída. Não definir esse valor ou defini-lo como 0 desativará a exclusão automática. A duração suportada mais longa é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
diarização
|
diarization | DiarizationProperties | |
|
Identificação da Língua -
|
languageIdentification | LanguageIdentificationProperties | |
|
e-mail
|
string |
O endereço de e-mail para o qual enviar notificações por e-mail caso a operação seja concluída. O valor será removido após o envio bem-sucedido do e-mail. |