Azure Batch de Reconhecimento de Fala em Lote

Transcreva com precisão áudio para texto em mais de 100 idiomas e variantes. Como parte do serviço Azure AI Speech, a Transcrição em lote permite transcrever uma grande quantidade de áudio no armazenamento. Pode apontar para ficheiros de áudio com um URI de assinatura de acesso partilhado (SAS) e receber os resultados de transcrição de forma assíncrona.

Este conector está disponível nos seguintes produtos e regiões:

Serviço	Class	Regiões
Estúdio Copiloto	Standard	Todas as regiões do Power Automatic , exceto as seguintes: - China Cloud operado pela 21Vianet
Aplicações Lógicas	Standard	Todas as regiões do Logic Apps , exceto as seguintes: - Regiões do Azure China
Aplicações Power	Standard	Todas as regiões do Power Apps , exceto as seguintes: - China Cloud operado pela 21Vianet
Automatize o poder	Standard	Todas as regiões do Power Automatic , exceto as seguintes: - China Cloud operado pela 21Vianet

Contato
Nome	Equipe de Plataforma de Energia do Serviço de Fala
URL	https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email	speechpowerplatform@microsoft.com

Metadados do conector
Editora	Microsoft
Sítio Web	https://docs.microsoft.com/azure/cognitive-services/speech-service/
Política de privacidade	https://privacy.microsoft.com
Categorias	IA; Sítio Web

A API de transcrição em lote dos Serviços de Fala é um serviço baseado em nuvem que fornece processamento assíncrono de reconhecimento de fala em lote sobre o conteúdo de áudio fornecido. Este conector expõe essas funções como operações no Microsoft Power Automate e Power Apps.

Pre-requisites

Você precisará do seguinte para prosseguir:

Subscrição do Azure - Criar uma gratuitamente
Crie um recurso de Fala no portal do Azure.
Obtenha a chave de recurso de Fala e a região. Depois que o recurso de Fala for implantado, selecione Ir para o recurso para exibir e gerenciar chaves. Para obter mais informações sobre os recursos dos Serviços Cognitivos, consulte Obter as chaves para o seu recurso.
Carregue seus próprios dados ou use arquivos de áudio existentes via URI público ou URI de assinatura de acesso compartilhado (SAS). Saiba mais aqui

A criar uma ligação

O conector suporta os seguintes tipos de autenticação:


Chave Api	ApiKey	Todas as regiões	Compartilhável
Microsoft Entra ID Integrado	Use o Microsoft Entra ID para acessar seu serviço de fala.	Todas as regiões, exceto o Azure Government e o Department of Defense (DoD) no Azure Government e no US Government (GCC-High)	Não compartilhável
Microsoft Entra ID Integrated (Azure Government)	Use o Microsoft Entra ID para acessar seu serviço de fala.	Azure Government and Department of Defense (DoD) no Azure Government e US Government (GCC-High) apenas	Não compartilhável
Padrão [DEPRECATED]	Esta opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.	Todas as regiões	Não compartilhável

Chave Api

ID de autenticação: keyBasedAuth

Aplicável: Todas as regiões

ApiKey

Esta é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, a conexão também será compartilhada. Para obter mais informações, consulte a Visão geral de conectores para aplicativos de tela - Power Apps | Documentos Microsoft

Nome	Tipo	Description	Obrigatório
Chave da conta	securestring	Chave do serviço de fala	Verdade
Região	cadeia (de caracteres)	Região do serviço de fala (Exemplo: eastus)	Verdade

ID do Microsoft Entra Integrado

ID de autenticação: tokenBasedAuth

Aplicável: Todas as regiões, exceto o Azure Government e o Department of Defense (DoD) no Azure Government e no US Government (GCC-High)

Use o Microsoft Entra ID para acessar seu serviço de fala.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Subdomínio personalizado	cadeia (de caracteres)	URL do ponto de extremidade do subdomínio personalizado (Exemplo: contoso)	Verdade

Microsoft Entra ID Integrated (Azure Government)

ID de autenticação: tokenBasedAuth

Aplicável: Azure Government e Department of Defense (DoD) apenas no Azure Government e no US Government (GCC-High)

Use o Microsoft Entra ID para acessar seu serviço de fala.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Subdomínio personalizado	cadeia (de caracteres)	URL do ponto de extremidade do subdomínio personalizado (Exemplo: contoso)	Verdade

Padrão [DEPRECATED]

Aplicável: Todas as regiões

Esta opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Chave da conta	securestring	Serviços Cognitivos do Azure para Chave de Conta de Fala em Lote para texto	Verdade
Região	cadeia (de caracteres)	Região do serviço de fala (Exemplo: eastus)	Verdade

Limites de Limitação

Name	Chamadas	Período de Renovação
Chamadas de API por conexão	100	60 segundos

Ações

Criar transcrição (V3.1)	Cria uma nova transcrição.
Excluir transcrição (V3.1)	Exclui a tarefa de transcrição especificada.
Obter arquivo de transcrição (V3.1)	Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).
Obter arquivos de lista de transcrições (V3.1)	Obtém os arquivos da transcrição identificados pelo ID fornecido.
Obter lista de transcrições (V3.1)	Obtém uma lista de transcrições para a assinatura autenticada.
Obter localidades suportadas (V3.1)	Obtém uma lista de localidades suportadas para transcrições offline.
Obter transcrições (V3.1)	Obtém a transcrição identificada pelo ID fornecido.
Transcrição de atualização (V3.1)	Atualiza os detalhes mutáveis da transcrição identificada pelo seu ID.

Criar transcrição (V3.1)

ID da Operação:: CreateTranscriptions

Cria uma nova transcrição.

Parâmetros

Name	Chave	Necessário	Tipo	Description
contentUrls	contentUrls		array of uri	Você pode fornecer uma lista de urls de conteúdo para obter arquivos de áudio para transcrever. Até 1000 urls são permitidos. Esta propriedade não será devolvida em resposta.
contentContainerUrl	contentContainerUrl		uri	Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner pode ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. O SAS do contêiner deve conter as permissões 'r' (leitura) e 'l' (lista). Esta propriedade não será devolvida em resposta.
região	locale	True	string	A localidade dos dados contidos. Se a Identificação de Idioma for usada, essa localidade será usada para transcrever fala para a qual nenhum idioma pôde ser detetado.
nome de exibição	displayName	True	string	O nome para exibição do objeto.
modelo	self		uri	A localização da entidade referenciada.
diarizationEnabled	diarizationEnabled		boolean	Um valor que indica se a diarização (identificação do orador) é solicitada. O valor padrão é `false`. Se apenas este campo for definido como true e o sistema de diarização melhorado não for ativado especificando`DiarizationProperties`, um sistema de diarização básico distinguirá entre até dois alto-falantes. Neste caso, não são aplicadas taxas adicionais. O sistema de diarização melhorado fornece diarização para uma gama configurável de altifalantes. Pode ser configurado no `DiarizationProperties` campo. DEPRECATED: O sistema básico de diarização foi preterido e será removido junto com a`diarizationEnabled` configuração na próxima versão principal da API.
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled		boolean	Um valor que indica se os carimbos de data/hora no nível da palavra são solicitados. O valor padrão é`false`.
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled		boolean	Um valor que indica se os carimbos de data/hora no nível da palavra para o formulário de exibição são solicitados. O valor predefinido é `false`.
channels	channels		array of integer	Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.
destinationContainerUrl	destinationContainerUrl		uri	O contêiner de destino solicitado.### Comentários ###When um contêiner de destino for usado em combinação com um `timeToLive`, os metadados da transcrição serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados da transcrição, permanecerão intocados, porque nenhuma permissão de exclusão é necessária para esse contêiner. Para dar suporte à limpeza automática, configure o tempo de vida do blob no contêiner ou use "Bring your own Storage (BYOS)" em vez de `destinationContainerUrl`, onde os blobs podem ser limpos.
pontuaçãoModo de pontuação	punctuationMode		string	O modo usado para pontuação.
profanityFilterMode	profanityFilterMode		string	Modo de filtragem de palavrões.
timeToLive	timeToLive		string	Por quanto tempo a transcrição será mantida no sistema após sua conclusão. Uma vez que a transcrição atinja o tempo de vida após a conclusão (bem-sucedida ou reprovada), ela será automaticamente excluída. Não definir esse valor ou defini-lo como 0 desativará a exclusão automática. A duração suportada mais longa é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations).
minCount	minCount		integer	Uma dica para o número mínimo de falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.
maxCount	maxCount		integer	O número máximo de falantes para diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.
candidatoLocalidades	candidateLocales	True	array of string	As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição, são suportados.
speechModelMapping	speechModelMapping		object	Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for fornecido para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respetivas localidades.
e-mail	email		string	O endereço de e-mail para o qual enviar notificações por e-mail caso a operação seja concluída. O valor será removido após o envio bem-sucedido do e-mail.

Devoluções

Body: Transcription

Excluir transcrição (V3.1)

ID da Operação:: DeleteTranscriptions

Exclui a tarefa de transcrição especificada.

Parâmetros

Name	Chave	Necessário	Tipo	Description
Id	id	True	uuid	O identificador da transcrição.

Obter arquivo de transcrição (V3.1)

ID da Operação:: GetTranscriptionsFile

Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).

Parâmetros

Name	Chave	Necessário	Tipo	Description
Id	id	True	uuid	O identificador da transcrição.
ID do arquivo	fileId	True	uuid	O identificador do arquivo.
Validade do Sas em segundos	sasValidityInSeconds		integer	A duração em segundos que um URL SAS deve ser válido. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): Um valor de 0 significa que um URI de blob simples sem token SAS será gerado.

Devoluções

Body: File

Obter arquivos de lista de transcrições (V3.1)

ID da Operação:: TranscriptionsListFiles

Obtém os arquivos da transcrição identificados pelo ID fornecido.

Parâmetros

Name	Chave	Necessário	Tipo	Description
Id	id	True	uuid	O identificador da transcrição.
Validade do Sas em segundos	sasValidityInSeconds		integer	A duração em segundos que um URL SAS deve ser válido. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): Um valor de 0 significa que um URI de blob simples sem token SAS será gerado.
Pular	skip		integer	Número de conjuntos de dados que serão ignorados.
Início	top		integer	Número de conjuntos de dados que serão incluídos depois de ignorar.
Filter	filter		string	Uma expressão de filtragem para selecionar um subconjunto dos arquivos disponíveis. Propriedades suportadas: name, createdDateTime, kind. Operadores: - eq, ne são suportados para todas as propriedades. - gt, ge, lt, le são suportados para createdDateTime. - e, ou, não são suportados. Exemplo: `filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'`

Devoluções

Body: PaginatedFiles

Obter lista de transcrições (V3.1)

ID da Operação:: TranscriptionsList

Obtém uma lista de transcrições para a assinatura autenticada.

Parâmetros

Name Chave Necessário Tipo Description

Name	Chave	Tipo	Description
Pular	skip	integer	Número de conjuntos de dados que serão ignorados.
Início	top	integer	Número de conjuntos de dados que serão incluídos depois de ignorar.
Filter	filter	string	Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis. Propriedades suportadas: displayName, description, createdDateTime, lastActionDateTime, status, locale. Operadores: - eq, ne são suportados para todas as propriedades. - gt, ge, lt, le são suportados para createdDateTime e lastActionDateTime. - e, ou, não são suportados. Exemplo: `filter=createdDateTime gt 2022-02-01T11:00:00Z`

Pular

skip

integer

Número de conjuntos de dados que serão ignorados.

Início

top

integer

Número de conjuntos de dados que serão incluídos depois de ignorar.

Filter

filter

string

Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis.

Propriedades suportadas: displayName, description, createdDateTime, lastActionDateTime, status, locale.
Operadores:
- eq, ne são suportados para todas as propriedades.
- gt, ge, lt, le são suportados para createdDateTime e lastActionDateTime.
- e, ou, não são suportados.
Exemplo: filter=createdDateTime gt 2022-02-01T11:00:00Z

Devoluções

Body: PaginatedTranscriptions

Obter localidades suportadas (V3.1)

ID da Operação:: SupportedTranscriptionLocalesList

Obtém uma lista de localidades suportadas para transcrições offline.

Devoluções

Name	Caminho	Tipo	Description
		array of string

Obter transcrições (V3.1)

ID da Operação:: GetTranscriptions

Obtém a transcrição identificada pelo ID fornecido.

Parâmetros

Name	Chave	Necessário	Tipo	Description
Id	id	True	uuid	O identificador da transcrição.

Devoluções

Body: Transcription

Transcrição de atualização (V3.1)

ID da Operação:: UpdateTranscriptions

Atualiza os detalhes mutáveis da transcrição identificada pelo seu ID.

Parâmetros

Name	Chave	Necessário	Tipo	Description
Id	id	True	uuid	O identificador da transcrição.
Eu mesmo	self	True	uri	A localização da entidade referenciada.
nome de exibição	displayName		string	O nome do objeto.
descrição	description		string	A descrição do objeto.
customProperties	customProperties		object	As propriedades personalizadas desta entidade. O comprimento máximo permitido da chave é de 64 caracteres, o comprimento máximo do valor permitido é de 256 caracteres e a contagem de entradas permitidas é de 10.

Devoluções

Body: Transcription

Definições

DiarizaçãoPropriedades

Name	Caminho	Tipo	Description
falantes	speakers	DiarizationSpeakersProperties

DiarizationSpeakersProperties

Name	Caminho	Tipo	Description
minCount	minCount	integer	Uma dica para o número mínimo de falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.
maxCount	maxCount	integer	O número máximo de falantes para diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.

Ficheiro

Name	Caminho	Tipo	Description
tipo	kind	FileKind	Tipo de dados.
links	links	FileLinks
createdDateTime	createdDateTime	date-time	A hora de criação deste ficheiro. O carimbo de data/hora é codificado como formato de data e hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).
propriedades	properties	FileProperties
nome	name	string	O nome deste ficheiro.

FileKind

Tipo de dados.

: string

Links de arquivo

Name	Caminho	Tipo	Description
contentUrl	contentUrl	uri	A url para recuperar o conteúdo deste arquivo.

Propriedades do arquivo

Name	Caminho	Tipo	Description
size	size	integer	O tamanho dos dados em bytes.
duration	duration	string	A duração no caso deste arquivo é um arquivo de áudio. A duração é codificada como ISO 8601duration ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations).

LanguageIdentificationProperties

Name	Caminho	Tipo	Description
candidatoLocalidades	candidateLocales	array of string	As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição, são suportados.
speechModelMapping	speechModelMapping	object	Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for fornecido para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respetivas localidades.

PaginatedFiles

Name	Caminho	Tipo	Description
values	values	array of File	Uma lista de entidades limitadas pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar através de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. Recomenda-se criar uma lista no cliente e excluir após a busca da lista completa.
@nextLink	@nextLink	uri	Um link para o próximo conjunto de resultados paginados, se houver mais entidades disponíveis; caso contrário, null.

Transcrições paginadasTranscrições

Name	Caminho	Tipo	Description
values	values	array of Transcription	Uma lista de entidades limitadas pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar através de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. Recomenda-se criar uma lista no cliente e excluir após a busca da lista completa.
@nextLink	@nextLink	uri	Um link para o próximo conjunto de resultados paginados, se houver mais entidades disponíveis; caso contrário, null.

ProfanityFilterMode

Modo de filtragem de palavrões.

: string

PontuaçãoModo de Pontuação

O modo usado para pontuação.

: string

Transcrição

Name	Caminho	Tipo	Description
contentUrls	contentUrls	array of uri	Você pode fornecer uma lista de urls de conteúdo para obter arquivos de áudio para transcrever. Até 1000 urls são permitidos. Esta propriedade não será devolvida em resposta.
contentContainerUrl	contentContainerUrl	uri	Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner pode ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. O SAS do contêiner deve conter as permissões 'r' (leitura) e 'l' (lista). Esta propriedade não será devolvida em resposta.
região	locale	string	A localidade dos dados contidos. Se a Identificação de Idioma for usada, essa localidade será usada para transcrever fala para a qual nenhum idioma pôde ser detetado.
nome de exibição	displayName	string	O nome para exibição do objeto.
modelo	model.self	uri	A localização da entidade referenciada.
propriedades	properties	TranscriptionProperties

TranscriçãoPropriedades

Name	Caminho	Tipo	Description
diarizationEnabled	diarizationEnabled	boolean	Um valor que indica se a diarização (identificação do orador) é solicitada. O valor padrão é `false`. Se apenas este campo for definido como true e o sistema de diarização melhorado não for ativado especificando`DiarizationProperties`, um sistema de diarização básico distinguirá entre até dois alto-falantes. Neste caso, não são aplicadas taxas adicionais. O sistema de diarização melhorado fornece diarização para uma gama configurável de altifalantes. Pode ser configurado no `DiarizationProperties` campo. DEPRECATED: O sistema básico de diarização foi preterido e será removido junto com a`diarizationEnabled` configuração na próxima versão principal da API.
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled	boolean	Um valor que indica se os carimbos de data/hora no nível da palavra são solicitados. O valor padrão é`false`.
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled	boolean	Um valor que indica se os carimbos de data/hora no nível da palavra para o formulário de exibição são solicitados. O valor predefinido é `false`.
channels	channels	array of integer	Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.
destinationContainerUrl	destinationContainerUrl	uri	O contêiner de destino solicitado.### Comentários ###When um contêiner de destino for usado em combinação com um `timeToLive`, os metadados da transcrição serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados da transcrição, permanecerão intocados, porque nenhuma permissão de exclusão é necessária para esse contêiner. Para dar suporte à limpeza automática, configure o tempo de vida do blob no contêiner ou use "Bring your own Storage (BYOS)" em vez de `destinationContainerUrl`, onde os blobs podem ser limpos.
pontuaçãoModo de pontuação	punctuationMode	PunctuationMode	O modo usado para pontuação.
profanityFilterMode	profanityFilterMode	ProfanityFilterMode	Modo de filtragem de palavrões.
timeToLive	timeToLive	string	Por quanto tempo a transcrição será mantida no sistema após sua conclusão. Uma vez que a transcrição atinja o tempo de vida após a conclusão (bem-sucedida ou reprovada), ela será automaticamente excluída. Não definir esse valor ou defini-lo como 0 desativará a exclusão automática. A duração suportada mais longa é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", ver https://en.wikipedia.org/wiki/ISO_8601#Durations).
diarização	diarization	DiarizationProperties
Identificação da Língua -	languageIdentification	LanguageIdentificationProperties
e-mail	email	string	O endereço de e-mail para o qual enviar notificações por e-mail caso a operação seja concluída. O valor será removido após o envio bem-sucedido do e-mail.

Partilhar via

Azure Batch de Reconhecimento de Fala em Lote

Pre-requisites

A criar uma ligação

Chave Api

ID do Microsoft Entra Integrado

Microsoft Entra ID Integrated (Azure Government)

Padrão [DEPRECATED]

Limites de Limitação

Ações

Criar transcrição (V3.1)

Parâmetros

Devoluções

Excluir transcrição (V3.1)

Parâmetros

Obter arquivo de transcrição (V3.1)

Parâmetros

Devoluções

Obter arquivos de lista de transcrições (V3.1)

Parâmetros

Devoluções

Obter lista de transcrições (V3.1)

Parâmetros

Devoluções

Obter localidades suportadas (V3.1)

Devoluções

Obter transcrições (V3.1)

Parâmetros

Devoluções

Transcrição de atualização (V3.1)

Parâmetros

Devoluções

Definições

DiarizaçãoPropriedades

DiarizationSpeakersProperties

Ficheiro

FileKind

Links de arquivo

Propriedades do arquivo

LanguageIdentificationProperties

PaginatedFiles

Transcrições paginadasTranscrições

ProfanityFilterMode

PontuaçãoModo de Pontuação

Transcrição

TranscriçãoPropriedades