Partilhar via


Azure Batch de Reconhecimento de Fala em Lote

Transcreva com precisão áudio para texto em mais de 100 idiomas e variantes. Como parte do serviço Azure AI Speech, a Transcrição em lote permite transcrever uma grande quantidade de áudio no armazenamento. Pode apontar para ficheiros de áudio com um URI de assinatura de acesso partilhado (SAS) e receber os resultados de transcrição de forma assíncrona.

Este conector está disponível nos seguintes produtos e regiões:

Serviço Class Regiões
Estúdio Copiloto Standard Todas as regiões do Power Automatic , exceto as seguintes:
     - China Cloud operado pela 21Vianet
Aplicações Lógicas Standard Todas as regiões do Logic Apps , exceto as seguintes:
     - Regiões do Azure China
Aplicações Power Standard Todas as regiões do Power Apps , exceto as seguintes:
     - China Cloud operado pela 21Vianet
Automatize o poder Standard Todas as regiões do Power Automatic , exceto as seguintes:
     - China Cloud operado pela 21Vianet
Contato
Nome Equipe de Plataforma de Energia do Serviço de Fala
URL https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email speechpowerplatform@microsoft.com
Metadados do conector
Editora Microsoft
Sítio Web https://docs.microsoft.com/azure/cognitive-services/speech-service/
Política de privacidade https://privacy.microsoft.com
Categorias IA; Sítio Web

A API de transcrição em lote dos Serviços de Fala é um serviço baseado em nuvem que fornece processamento assíncrono de reconhecimento de fala em lote sobre o conteúdo de áudio fornecido. Este conector expõe essas funções como operações no Microsoft Power Automate e Power Apps.

Pre-requisites

Você precisará do seguinte para prosseguir:

A criar uma ligação

O conector suporta os seguintes tipos de autenticação:

Chave Api ApiKey Todas as regiões Compartilhável
Microsoft Entra ID Integrado Use o Microsoft Entra ID para acessar seu serviço de fala. Todas as regiões, exceto o Azure Government e o Department of Defense (DoD) no Azure Government e no US Government (GCC-High) Não compartilhável
Microsoft Entra ID Integrated (Azure Government) Use o Microsoft Entra ID para acessar seu serviço de fala. Azure Government and Department of Defense (DoD) no Azure Government e US Government (GCC-High) apenas Não compartilhável
Padrão [DEPRECATED] Esta opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores. Todas as regiões Não compartilhável

Chave Api

ID de autenticação: keyBasedAuth

Aplicável: Todas as regiões

ApiKey

Esta é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, a conexão também será compartilhada. Para obter mais informações, consulte a Visão geral de conectores para aplicativos de tela - Power Apps | Documentos Microsoft

Nome Tipo Description Obrigatório
Chave da conta securestring Chave do serviço de fala Verdade
Região cadeia (de caracteres) Região do serviço de fala (Exemplo: eastus) Verdade

ID do Microsoft Entra Integrado

ID de autenticação: tokenBasedAuth

Aplicável: Todas as regiões, exceto o Azure Government e o Department of Defense (DoD) no Azure Government e no US Government (GCC-High)

Use o Microsoft Entra ID para acessar seu serviço de fala.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Subdomínio personalizado cadeia (de caracteres) URL do ponto de extremidade do subdomínio personalizado (Exemplo: contoso) Verdade

Microsoft Entra ID Integrated (Azure Government)

ID de autenticação: tokenBasedAuth

Aplicável: Azure Government e Department of Defense (DoD) apenas no Azure Government e no US Government (GCC-High)

Use o Microsoft Entra ID para acessar seu serviço de fala.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Subdomínio personalizado cadeia (de caracteres) URL do ponto de extremidade do subdomínio personalizado (Exemplo: contoso) Verdade

Padrão [DEPRECATED]

Aplicável: Todas as regiões

Esta opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Chave da conta securestring Serviços Cognitivos do Azure para Chave de Conta de Fala em Lote para texto Verdade
Região cadeia (de caracteres) Região do serviço de fala (Exemplo: eastus) Verdade

Limites de Limitação

Name Chamadas Período de Renovação
Chamadas de API por conexão 100 60 segundos

Ações

Criar transcrição (V3.1)

Cria uma nova transcrição.

Excluir transcrição (V3.1)

Exclui a tarefa de transcrição especificada.

Obter arquivo de transcrição (V3.1)

Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).

Obter arquivos de lista de transcrições (V3.1)

Obtém os arquivos da transcrição identificados pelo ID fornecido.

Obter lista de transcrições (V3.1)

Obtém uma lista de transcrições para a assinatura autenticada.

Obter localidades suportadas (V3.1)

Obtém uma lista de localidades suportadas para transcrições offline.

Obter transcrições (V3.1)

Obtém a transcrição identificada pelo ID fornecido.

Transcrição de atualização (V3.1)

Atualiza os detalhes mutáveis da transcrição identificada pelo seu ID.

Criar transcrição (V3.1)

Cria uma nova transcrição.

Parâmetros

Name Chave Necessário Tipo Description
contentUrls
contentUrls array of uri

Você pode fornecer uma lista de urls de conteúdo para obter arquivos de áudio para transcrever. Até 1000 urls são permitidos. Esta propriedade não será devolvida em resposta.

contentContainerUrl
contentContainerUrl uri

Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner pode ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. O SAS do contêiner deve conter as permissões 'r' (leitura) e 'l' (lista). Esta propriedade não será devolvida em resposta.

região
locale True string

A localidade dos dados contidos. Se a Identificação de Idioma for usada, essa localidade será usada para transcrever fala para a qual nenhum idioma pôde ser detetado.

nome de exibição
displayName True string

O nome para exibição do objeto.

modelo
self uri

A localização da entidade referenciada.

diarizationEnabled
diarizationEnabled boolean

Um valor que indica se a diarização (identificação do orador) é solicitada. O valor padrão é false. Se apenas este campo for definido como true e o sistema de diarização melhorado não for ativado especificandoDiarizationProperties, um sistema de diarização básico distinguirá entre até dois alto-falantes. Neste caso, não são aplicadas taxas adicionais. O sistema de diarização melhorado fornece diarização para uma gama configurável de altifalantes. Pode ser configurado no DiarizationProperties campo. DEPRECATED: O sistema básico de diarização foi preterido e será removido junto com adiarizationEnabled configuração na próxima versão principal da API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora no nível da palavra são solicitados. O valor padrão éfalse.

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora no nível da palavra para o formulário de exibição são solicitados. O valor predefinido é false.

channels
channels array of integer

Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.

destinationContainerUrl
destinationContainerUrl uri

O contêiner de destino solicitado.### Comentários ###When um contêiner de destino for usado em combinação com um timeToLive, os metadados da transcrição serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados da transcrição, permanecerão intocados, porque nenhuma permissão de exclusão é necessária para esse contêiner.
Para dar suporte à limpeza automática, configure o tempo de vida do blob no contêiner ou use "Bring your own Storage (BYOS)" em vez de destinationContainerUrl, onde os blobs podem ser limpos.

pontuaçãoModo de pontuação
punctuationMode string

O modo usado para pontuação.

profanityFilterMode
profanityFilterMode string

Modo de filtragem de palavrões.

timeToLive
timeToLive string

Por quanto tempo a transcrição será mantida no sistema após sua conclusão. Uma vez que a transcrição atinja o tempo de vida após a conclusão (bem-sucedida ou reprovada), ela será automaticamente excluída. Não definir esse valor ou defini-lo como 0 desativará a exclusão automática. A duração suportada mais longa é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations).

minCount
minCount integer

Uma dica para o número mínimo de falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.

maxCount
maxCount integer

O número máximo de falantes para diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.

candidatoLocalidades
candidateLocales True array of string

As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição, são suportados.

speechModelMapping
speechModelMapping object

Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for fornecido para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respetivas localidades.

e-mail
email string

O endereço de e-mail para o qual enviar notificações por e-mail caso a operação seja concluída. O valor será removido após o envio bem-sucedido do e-mail.

Devoluções

Excluir transcrição (V3.1)

Exclui a tarefa de transcrição especificada.

Parâmetros

Name Chave Necessário Tipo Description
Id
id True uuid

O identificador da transcrição.

Obter arquivo de transcrição (V3.1)

Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).

Parâmetros

Name Chave Necessário Tipo Description
Id
id True uuid

O identificador da transcrição.

ID do arquivo
fileId True uuid

O identificador do arquivo.

Validade do Sas em segundos
sasValidityInSeconds integer

A duração em segundos que um URL SAS deve ser válido. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): Um valor de 0 significa que um URI de blob simples sem token SAS será gerado.

Devoluções

Body
File

Obter arquivos de lista de transcrições (V3.1)

Obtém os arquivos da transcrição identificados pelo ID fornecido.

Parâmetros

Name Chave Necessário Tipo Description
Id
id True uuid

O identificador da transcrição.

Validade do Sas em segundos
sasValidityInSeconds integer

A duração em segundos que um URL SAS deve ser válido. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): Um valor de 0 significa que um URI de blob simples sem token SAS será gerado.

Pular
skip integer

Número de conjuntos de dados que serão ignorados.

Início
top integer

Número de conjuntos de dados que serão incluídos depois de ignorar.

Filter
filter string

Uma expressão de filtragem para selecionar um subconjunto dos arquivos disponíveis.

  • Propriedades suportadas: name, createdDateTime, kind.
  • Operadores:
    - eq, ne são suportados para todas as propriedades.
    - gt, ge, lt, le são suportados para createdDateTime.
    - e, ou, não são suportados.
  • Exemplo: filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'

Devoluções

Obter lista de transcrições (V3.1)

Obtém uma lista de transcrições para a assinatura autenticada.

Parâmetros

Name Chave Necessário Tipo Description
Pular
skip integer

Número de conjuntos de dados que serão ignorados.

Início
top integer

Número de conjuntos de dados que serão incluídos depois de ignorar.

Filter
filter string

Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis.

  • Propriedades suportadas: displayName, description, createdDateTime, lastActionDateTime, status, locale.
  • Operadores:
    - eq, ne são suportados para todas as propriedades.
    - gt, ge, lt, le são suportados para createdDateTime e lastActionDateTime.
    - e, ou, não são suportados.
  • Exemplo: filter=createdDateTime gt 2022-02-01T11:00:00Z

Devoluções

Obter localidades suportadas (V3.1)

Obtém uma lista de localidades suportadas para transcrições offline.

Devoluções

Name Caminho Tipo Description
array of string

Obter transcrições (V3.1)

Obtém a transcrição identificada pelo ID fornecido.

Parâmetros

Name Chave Necessário Tipo Description
Id
id True uuid

O identificador da transcrição.

Devoluções

Transcrição de atualização (V3.1)

Atualiza os detalhes mutáveis da transcrição identificada pelo seu ID.

Parâmetros

Name Chave Necessário Tipo Description
Id
id True uuid

O identificador da transcrição.

Eu mesmo
self True uri

A localização da entidade referenciada.

nome de exibição
displayName string

O nome do objeto.

descrição
description string

A descrição do objeto.

customProperties
customProperties object

As propriedades personalizadas desta entidade. O comprimento máximo permitido da chave é de 64 caracteres, o comprimento máximo do valor permitido é de 256 caracteres e a contagem de entradas permitidas é de 10.

Devoluções

Definições

DiarizaçãoPropriedades

Name Caminho Tipo Description
falantes
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

Name Caminho Tipo Description
minCount
minCount integer

Uma dica para o número mínimo de falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.

maxCount
maxCount integer

O número máximo de falantes para diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.

Ficheiro

Name Caminho Tipo Description
tipo
kind FileKind

Tipo de dados.

links
links FileLinks
createdDateTime
createdDateTime date-time

A hora de criação deste ficheiro. O carimbo de data/hora é codificado como formato de data e hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).

propriedades
properties FileProperties
nome
name string

O nome deste ficheiro.

FileKind

Tipo de dados.

Tipo de dados.

Name Caminho Tipo Description
contentUrl
contentUrl uri

A url para recuperar o conteúdo deste arquivo.

Propriedades do arquivo

Name Caminho Tipo Description
size
size integer

O tamanho dos dados em bytes.

duration
duration string

A duração no caso deste arquivo é um arquivo de áudio. A duração é codificada como ISO 8601duration ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations).

LanguageIdentificationProperties

Name Caminho Tipo Description
candidatoLocalidades
candidateLocales array of string

As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição, são suportados.

speechModelMapping
speechModelMapping object

Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for fornecido para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respetivas localidades.

PaginatedFiles

Name Caminho Tipo Description
values
values array of File

Uma lista de entidades limitadas pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar através de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. Recomenda-se criar uma lista no cliente e excluir após a busca da lista completa.

@nextLink
@nextLink uri

Um link para o próximo conjunto de resultados paginados, se houver mais entidades disponíveis; caso contrário, null.

Transcrições paginadasTranscrições

Name Caminho Tipo Description
values
values array of Transcription

Uma lista de entidades limitadas pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar através de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. Recomenda-se criar uma lista no cliente e excluir após a busca da lista completa.

@nextLink
@nextLink uri

Um link para o próximo conjunto de resultados paginados, se houver mais entidades disponíveis; caso contrário, null.

ProfanityFilterMode

Modo de filtragem de palavrões.

Modo de filtragem de palavrões.

PontuaçãoModo de Pontuação

O modo usado para pontuação.

O modo usado para pontuação.

Transcrição

Name Caminho Tipo Description
contentUrls
contentUrls array of uri

Você pode fornecer uma lista de urls de conteúdo para obter arquivos de áudio para transcrever. Até 1000 urls são permitidos. Esta propriedade não será devolvida em resposta.

contentContainerUrl
contentContainerUrl uri

Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner pode ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. O SAS do contêiner deve conter as permissões 'r' (leitura) e 'l' (lista). Esta propriedade não será devolvida em resposta.

região
locale string

A localidade dos dados contidos. Se a Identificação de Idioma for usada, essa localidade será usada para transcrever fala para a qual nenhum idioma pôde ser detetado.

nome de exibição
displayName string

O nome para exibição do objeto.

modelo
model.self uri

A localização da entidade referenciada.

propriedades
properties TranscriptionProperties

TranscriçãoPropriedades

Name Caminho Tipo Description
diarizationEnabled
diarizationEnabled boolean

Um valor que indica se a diarização (identificação do orador) é solicitada. O valor padrão é false. Se apenas este campo for definido como true e o sistema de diarização melhorado não for ativado especificandoDiarizationProperties, um sistema de diarização básico distinguirá entre até dois alto-falantes. Neste caso, não são aplicadas taxas adicionais. O sistema de diarização melhorado fornece diarização para uma gama configurável de altifalantes. Pode ser configurado no DiarizationProperties campo. DEPRECATED: O sistema básico de diarização foi preterido e será removido junto com adiarizationEnabled configuração na próxima versão principal da API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora no nível da palavra são solicitados. O valor padrão éfalse.

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora no nível da palavra para o formulário de exibição são solicitados. O valor predefinido é false.

channels
channels array of integer

Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.

destinationContainerUrl
destinationContainerUrl uri

O contêiner de destino solicitado.### Comentários ###When um contêiner de destino for usado em combinação com um timeToLive, os metadados da transcrição serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados da transcrição, permanecerão intocados, porque nenhuma permissão de exclusão é necessária para esse contêiner.
Para dar suporte à limpeza automática, configure o tempo de vida do blob no contêiner ou use "Bring your own Storage (BYOS)" em vez de destinationContainerUrl, onde os blobs podem ser limpos.

pontuaçãoModo de pontuação
punctuationMode PunctuationMode

O modo usado para pontuação.

profanityFilterMode
profanityFilterMode ProfanityFilterMode

Modo de filtragem de palavrões.

timeToLive
timeToLive string

Por quanto tempo a transcrição será mantida no sistema após sua conclusão. Uma vez que a transcrição atinja o tempo de vida após a conclusão (bem-sucedida ou reprovada), ela será automaticamente excluída. Não definir esse valor ou defini-lo como 0 desativará a exclusão automática. A duração suportada mais longa é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations).

diarização
diarization DiarizationProperties
Identificação da Língua -
languageIdentification LanguageIdentificationProperties
e-mail
email string

O endereço de e-mail para o qual enviar notificações por e-mail caso a operação seja concluída. O valor será removido após o envio bem-sucedido do e-mail.