AssemblyAI (Pré-visualização)

Transcreva e extraia dados de áudio usando a IA de fala da AssemblyAI.

Este conector está disponível nos seguintes produtos e regiões:

Serviço	Class	Regiões
Estúdio Copiloto	Premium	Todas as regiões do Power Automatic , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD)
Aplicações Lógicas	Standard	Todas as regiões do Logic Apps , exceto as seguintes: - Regiões do Azure Government - Regiões do Azure China - Departamento de Defesa dos EUA (DoD)
Aplicações Power	Premium	Todas as regiões do Power Apps , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD)
Automatize o poder	Premium	Todas as regiões do Power Automatic , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD)

Contato
Nome	Support
URL	https://www.assemblyai.com/docs/
Email	support@assemblyai.com

Metadados do conector
Editora	AssemblyAI
Sítio Web	https://www.assemblyai.com
Política de privacidade	https://www.assemblyai.com/legal/privacy-policy
Categorias	IA

Com o AssemblyAI Connector, você pode usar os modelos do AssemblyAI para processar dados de áudio transcrevendo-os com modelos de reconhecimento de fala, analisando-os com modelos de inteligência de áudio e criando recursos generativos sobre eles com LLMs.

Speech-To-Text incluindo muitos recursos configuráveis, como diarização do alto-falante, ortografia personalizada, vocabulário personalizado, etc.
Os Modelos de Inteligência de Áudio são modelos adicionais de IA disponíveis e configurados através da configuração de transcrição.
O LeMUR permite que você aplique vários modelos LLM às suas transcrições sem a necessidade de construir sua própria infraestrutura RAG para transcrições muito grandes.

Pré-requisitos

Você precisará do seguinte para prosseguir:

Uma chave de API AssemblyAI (obtenha uma gratuitamente)

Como obter credenciais

Você pode obter uma chave de API AssemblyAI gratuitamente inscrevendo-se em uma conta e copiando a chave de API do painel.

Introdução ao conector

Siga estas etapas para transcrever áudio usando o conector AssemblyAI.

Carregar um ficheiro

Para transcrever um arquivo de áudio usando AssemblyAI, o arquivo precisa estar acessível ao AssemblyAI. Se o seu ficheiro de áudio já estiver acessível através de um URL, pode utilizar o URL existente.

Caso contrário, você pode usar a Upload a File ação para carregar um arquivo para AssemblyAI. Você receberá de volta um URL para o seu arquivo que só pode ser usado para transcrever usando sua chave de API. Depois de transcrever o arquivo, o arquivo será removido dos servidores do AssemblyAI.

Transcrever áudio

Para transcrever o áudio, configure o parâmetro usando o URL do Audio URL arquivo de áudio. Em seguida, configure os parâmetros adicionais para habilitar mais recursos de Reconhecimento de Fala e modelos de Inteligência de Áudio .

O resultado da ação Transcrever áudio é uma transcrição em fila que começará a ser processada imediatamente. Para obter a transcrição completa, você tem duas opções:

Manipular o Webhook Pronto para Transcrição
Sondar o status da transcrição

Manipular o Webhook Pronto para Transcrição

Se você não quiser lidar com o webhook usando Aplicativos Lógicos ou Power Automate, configure o Webhook URL parâmetro em sua Transcribe Audio ação e implemente seu webhook seguindo a documentação do webhook da AssemblyAI.

Para manipular o webhook usando Aplicativos Lógicos ou Power Automate, siga estas etapas:

Criar um aplicativo lógico separado ou Power Automate Flow
Configure When an HTTP request is received como o gatilho:
- Defina Who Can Trigger The Flow? como Anyone
- Definido Request Body JSON Schema para:
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- Defina Method como POST
Adicione uma ação AssemblyAI Get Transcript , passando o do gatilho transcript_id para o Transcript ID parâmetro.
Antes de fazer qualquer outra coisa, você deve verificar se o Status é completed ou error. Adicione uma Condition ação que verifique se a StatusGet Transcript saída erroré :
- True Na ramificação, adicione uma Terminate ação
  - Defina o Status como Failed
  - Defina o Code como Transcript Error
  - Passe o Error da Get Transcript saída para o Message parâmetro.
- Você pode deixar a False filial vazia.
Agora você pode adicionar qualquer ação depois Condition de saber que o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da Get Transcript ação.
Salve seu aplicativo lógico ou fluxo. O HTTP URL será gerado para o When an HTTP request is received gatilho. Copie o HTTP URL e volte para o seu Logic App ou Flow original.
No seu Logic App ou Flow original, atualize a Transcribe Audio ação. Cole o HTTP URL que você copiou anteriormente no Webhook URL parâmetro e salve.

Quando o status da transcrição se tornar completed ou error, o AssemblyAI enviará uma solicitação HTTP POST para a URL do webhook, que será manipulada pelo seu outro Aplicativo Lógico ou Fluxo.

Como alternativa ao uso do webhook, você pode pesquisar o status da transcrição, conforme explicado na próxima seção.

Sondar o status da transcrição

Você pode pesquisar o status da transcrição usando as seguintes etapas:

Adicionar uma Initialize variable ação
- Defina Name como transcript_status
- Defina Type como String
- Armazene o Status da Transcribe Audio saída no Value parâmetro
Adicionar uma Do until ação
- Configure o Loop Until parâmetro com o seguinte código Fx:
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  Este código verifica se a transcript_status variável é completed ou error.
- Configure o Count parâmetro para 86400
- Configure o Timeout parâmetro para PT24H
Dentro da Do until ação, adicione as seguintes ações:
- Adicionar uma Delay ação que aguarda um segundo
- Adicione uma Get Transcript ação e passe o ID da Transcribe Audio saída para o Transcript ID parâmetro.
- Adicionar uma Set variable ação
  - Defina Name como transcript_status
  - Passe a StatusGet Transcript saída para o Value parâmetro
O Do until loop continuará até que a transcrição seja concluída ou ocorra um erro.
Adicione outra Get Transcript ação, como antes, mas adicione-a após o Do until loop para que sua saída fique disponível fora do escopo da Do until ação.

Antes de fazer qualquer outra coisa, você deve verificar se a transcrição Status é completed ou error. Adicione uma Condition ação que verifique se o transcript_status é error:

True Na ramificação, adicione uma Terminate ação
- Defina Status como Failed
- Defina Code como Transcript Error
- Passe o Error da Get Transcript saída para o Message parâmetro.
Você pode deixar a False filial vazia.

Agora você pode adicionar qualquer ação depois Condition de saber que o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da Get Transcript ação.

Adicionar mais ações

Agora que você tem uma transcrição completa, você pode usar muitas outras ações passando na ID transcrição, como

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

Problemas conhecidos e limitações

Nenhum problema conhecido atualmente. Não suportamos Streaming de FalaTo-Text (em tempo real), pois não é possível usar Conectores Personalizados.

Erros e soluções comuns

Você pode encontrar mais informações sobre erros na documentação do AssemblyAI.

FAQ

Você pode encontrar perguntas frequentes em nossa documentação.

A criar uma ligação

O conector suporta os seguintes tipos de autenticação:


Predefinição	Parâmetros para criar conexão.	Todas as regiões	Não compartilhável

Padrão

Aplicável: Todas as regiões

Parâmetros para criar conexão.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Chave da API AssemblyAI	securestring	A chave da API AssemblyAI para autenticar a API AssemblyAI.	Verdade

Limites de Limitação

Name	Chamadas	Período de Renovação
Chamadas de API por conexão	100	60 segundos

Ações

Carregar um ficheiro multimédia	Carregue um arquivo de mídia para os servidores do AssemblyAI.
Excluir transcrição	Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.
Executar uma tarefa usando o LeMUR	Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.
Limpar dados de solicitação do LeMUR	Exclua os dados de uma solicitação LeMUR enviada anteriormente. Os dados de resposta do LLM, bem como qualquer contexto fornecido na solicitação original serão removidos.
Listar transcrições	Recupere uma lista de transcrições que você criou. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.
Obter frases na transcrição	Obtenha a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em frases para criar transcrições mais fáceis de ler.
Obter legendas para transcrição	Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas ocultas.
Obter parágrafos na transcrição	Obtenha a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais fáceis de ler.
Obter transcrição	Obtenha o recurso de transcrição. A transcrição fica pronta quando o "status" é "concluído".
Obter áudio editado	Recupere o objeto de áudio editado que contém o status e a URL para o áudio editado.
Pesquisar palavras na transcrição	Pesquise palavras-chave na transcrição. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.
Recuperar resposta do LeMUR	Recupere uma resposta LeMUR que foi gerada anteriormente.
Transcrever áudio	Crie uma transcrição a partir de um arquivo de mídia acessível por meio de uma URL.

Carregar um ficheiro multimédia

ID da Operação:: UploadFile

Carregue um arquivo de mídia para os servidores do AssemblyAI.

Parâmetros

Name	Chave	Necessário	Tipo	Description
Conteúdo do Ficheiro	file	True	binary	O ficheiro a carregar.

Devoluções

Body: UploadedFile

Excluir transcrição

ID da Operação:: DeleteTranscript

Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Devoluções

Um objeto de transcrição

Body: Transcript

Executar uma tarefa usando o LeMUR

ID da Operação:: LemurTask

Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.

Parâmetros

Name	Chave	Necessário	Tipo	Description
Pronta	prompt	True	string	Seu texto para solicitar que o modelo produza uma saída desejada, incluindo qualquer contexto que você queira passar para o modelo.
IDs de transcrição	transcript_ids		array of uuid	Uma lista de transcrições concluídas com texto. Até um máximo de 100 ficheiros ou 100 horas, o que for menor. Use transcript_ids ou input_text como entrada no LeMUR.
Texto de entrada	input_text		string	Dados de transcrição formatados personalizados. Tamanho máximo é o limite de contexto do modelo selecionado, cujo padrão é 100000. Use transcript_ids ou input_text como entrada no LeMUR.
Context	context		string	Contexto para fornecer o modelo. Isso pode ser uma cadeia de caracteres ou um valor JSON de forma livre.
Modelo Final	final_model		string	O modelo que é usado para o prompt final após a compactação é executada.
Tamanho máximo de saída	max_output_size		integer	Tamanho máximo de saída em tokens, até 4000
Temperatura	temperature		float	A temperatura a ser usada para o modelo. Valores mais altos resultam em respostas mais criativas, valores mais baixos são mais conservadores. Pode ser qualquer valor entre 0,0 e 1,0 inclusive.

Devoluções

Body: LemurTaskResponse

Limpar dados de solicitação do LeMUR

ID da Operação:: PurgeLemurRequestData

Exclua os dados de uma solicitação LeMUR enviada anteriormente. Os dados de resposta do LLM, bem como qualquer contexto fornecido na solicitação original serão removidos.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID de solicitação LeMUR	request_id	True	string	O ID da solicitação LeMUR cujos dados você deseja excluir. Tal consta da resposta ao pedido inicial.

Devoluções

Body: PurgeLemurRequestDataResponse

Listar transcrições

ID da Operação:: ListTranscripts

Recupere uma lista de transcrições que você criou. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Parâmetros

Name	Chave	Tipo	Description
Limite	limit	integer	Quantidade máxima de transcrições a recuperar
Situação	status	string	O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro.
Criado em	created_on	date	Só obtenha transcrições criadas nesta data
Antes da ID	before_id	uuid	Obter transcrições que foram criadas antes deste ID de transcrição
Após a identificação	after_id	uuid	Obter transcrições que foram criadas após este ID de transcrição
Apenas acelerado	throttled_only	boolean	Obtém apenas transcrições limitadas, substitui o filtro de status

Devoluções

Uma lista de transcrições. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Body: TranscriptList

Obter frases na transcrição

ID da Operação:: GetTranscriptSentences

Obtenha a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em frases para criar transcrições mais fáceis de ler.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Devoluções

Body: SentencesResponse

Obter legendas para transcrição

ID da Operação:: GetSubtitles

Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas ocultas.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição
Formato das legendas	subtitle_format	True	string	Formato das legendas
Número de caracteres por legenda	chars_per_caption		integer	O número máximo de caracteres por legenda

Devoluções

response: string

Obter parágrafos na transcrição

ID da Operação:: GetTranscriptParagraphs

Obtenha a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais fáceis de ler.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Devoluções

Body: ParagraphsResponse

Obter transcrição

ID da Operação:: GetTranscript

Obtenha o recurso de transcrição. A transcrição fica pronta quando o "status" é "concluído".

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Devoluções

Um objeto de transcrição

Body: Transcript

Obter áudio editado

ID da Operação:: GetRedactedAudio

Recupere o objeto de áudio editado que contém o status e a URL para o áudio editado.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Devoluções

Body: RedactedAudioResponse

Pesquisar palavras na transcrição

ID da Operação:: WordSearch

Pesquise palavras-chave na transcrição. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição
Palavras	words	True	array	Palavras-chave a procurar

Devoluções

Body: WordSearchResponse

Recuperar resposta do LeMUR

ID da Operação:: GetLemurResponse

Recupere uma resposta LeMUR que foi gerada anteriormente.

Parâmetros

Name	Chave	Necessário	Tipo	Description
ID de solicitação LeMUR	request_id	True	string	O ID da solicitação LeMUR que você fez anteriormente. Tal consta da resposta ao pedido inicial.

Devoluções

Body: LemurResponse

Transcrever áudio

ID da Operação:: CreateTranscript

Crie uma transcrição a partir de um arquivo de mídia acessível por meio de uma URL.

Parâmetros

Name	Chave	Necessário	Tipo	Description
URL de áudio	audio_url	True	string	O URL do ficheiro de áudio ou vídeo a transcrever.
Código do Idioma	language_code		string	O idioma do seu ficheiro de áudio. Os valores possíveis são encontrados em Idiomas suportados. O valor padrão é 'en_us'.
Deteção de Idioma	language_detection		boolean	Habilite a deteção automática de idioma, verdadeiro ou falso.
Modelo de Fala	speech_model		string	O modelo de fala a utilizar para a transcrição.
Pontuar	punctuate		boolean	Ativar Pontuação Automática, pode ser verdadeiro ou falso
Formatar texto	format_text		boolean	Ativar formatação de texto, pode ser verdadeiro ou falso
Disfluências	disfluencies		boolean	Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser verdadeiro ou falso
Canal duplo	dual_channel		boolean	Ativar transcrição de canal duplo, pode ser verdadeiro ou falso.
Webhook URL	webhook_url		string	O URL para o qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falhou e uma solicitação quando o áudio editado está pronto se redact_pii_audio estiver habilitado.
Nome do cabeçalho Webhook Auth	webhook_auth_header_name		string	O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha
Valor do cabeçalho de autenticação Webhook	webhook_auth_header_value		string	O valor do cabeçalho a ser enviado de volta com a transcrição concluída ou solicitações de webhook com falha para maior segurança
Frases-chave	auto_highlights		boolean	Ativar frases-chave, verdadeiras ou falsas
Áudio a partir de	audio_start_from		integer	O ponto no tempo, em milissegundos, para começar a transcrever em seu arquivo de mídia
Áudio termina em	audio_end_at		integer	O ponto no tempo, em milissegundos, para parar de transcrever em seu arquivo de mídia
Aumento de palavras	word_boost		array of string	A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para
Nível de Aumento de Palavras	boost_param		string	Quanto aumentar as palavras especificadas
Filtrar palavrões	filter_profanity		boolean	Filtrar palavrões do texto transcrito, podem ser verdadeiros ou falsos
Redação de PII	redact_pii		boolean	Redigir PII do texto transcrito usando o modelo Redact PII, pode ser verdadeiro ou falso
Redact PII Audio	redact_pii_audio		boolean	Gere uma cópia do arquivo de mídia original com PII falado "apitado", pode ser verdadeiro ou falso. Consulte Redação de PII para obter mais detalhes.
Redact Qualidade de áudio PII	redact_pii_audio_quality		string	Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente suporta mp3 (padrão) e wav. Consulte Redação de PII para obter mais detalhes.
Redact PII Condições	redact_pii_policies		array of string	A lista de políticas de PII Redaction a serem habilitadas. Consulte Redação de PII para obter mais detalhes.
Substituição de PII de redação	redact_pii_sub		string	A lógica de substituição para PII detetada pode ser "entity_name" ou "hash". Consulte Redação de PII para obter mais detalhes.
Etiquetas dos altifalantes	speaker_labels		boolean	Ativar a diarização do alto-falante, pode ser verdadeiro ou falso
Oradores esperados	speakers_expected		integer	Informa ao modelo de etiqueta do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte Diarização do alto-falante para obter mais detalhes.
Moderação de conteúdo	content_safety		boolean	Ativar moderação de conteúdo, pode ser verdadeiro ou falso
Confiança na moderação de conteúdo	content_safety_confidence		integer	O limiar de confiança para o modelo de moderação de conteúdo. Os valores devem estar entre 25 e 100.
Deteção de Tópicos	iab_categories		boolean	Ativar a Deteção de Tópicos, pode ser verdadeiro ou falso
De	from	True	array of string	Palavras ou frases a substituir
Para	to	True	string	Palavra ou frase a substituir por
Análise de Sentimentos	sentiment_analysis		boolean	Ativar Análise de Sentimento, pode ser verdadeiro ou falso
Capítulos Automáticos	auto_chapters		boolean	Ativar capítulos automáticos, pode ser verdadeiro ou falso
Deteção de entidades	entity_detection		boolean	Ativar Deteção de Entidade, pode ser verdadeiro ou falso
Limiar de fala	speech_threshold		float	Rejeite arquivos de áudio que contenham menos do que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.
Ativar Sumarização	summarization		boolean	Ativar Sumarização, pode ser verdadeiro ou falso
Modelo de resumo	summary_model		string	O modelo para resumir a transcrição
Tipo de resumo	summary_type		string	O tipo de resumo
Ativar tópicos personalizados	custom_topics		boolean	Ativar tópicos personalizados, verdadeiros ou falsos
Tópicos personalizados	topics		array of string	A lista de tópicos personalizados

Devoluções

Um objeto de transcrição

Body: Transcript

Definições

RedactedAudioResponse

Name	Caminho	Tipo	Description
Situação	status	string	O status do áudio editado
URL de áudio editado	redacted_audio_url	string	O URL do arquivo de áudio editado

WordSearchResponse

Name	Caminho	Tipo	Description
ID da transcrição	id	uuid	O ID da transcrição
Contagem total de partidas	total_count	integer	A contagem total de todas as instâncias correspondentes. Por exemplo, a palavra 1 correspondeu 2 vezes, e a palavra 2 correspondeu 3 vezes, total_count será igual a 5.
Correspondências	matches	array of object	As correspondências da pesquisa
Texto	matches.text	string	A palavra correspondente
Contar	matches.count	integer	A quantidade total de vezes que a palavra está na transcrição
Carimbos de data/hora	matches.timestamps	array of array	Uma matriz de carimbos de data/hora
Data e Hora	matches.timestamps	array of integer	Uma matriz de carimbos de data/hora estruturados como [start_time, end_time] em milissegundos
Indexes	matches.indexes	array of integer	Uma matriz de todos os locais de índice para essa palavra dentro da matriz de palavras da transcrição concluída

Transcrever

Um objeto de transcrição

Name	Caminho	Tipo	Description
ID	id	uuid	O identificador exclusivo da sua transcrição
URL de áudio	audio_url	string	O URL da mídia que foi transcrita
Situação	status	string	O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro.
Código do Idioma	language_code	string	O idioma do seu ficheiro de áudio. Os valores possíveis são encontrados em Idiomas suportados. O valor padrão é 'en_us'.
Deteção de Idioma	language_detection	boolean	Se a deteção automática de idioma está ativada, verdadeiro ou falso
Modelo de Fala	speech_model	string	O modelo de fala a utilizar para a transcrição.
Texto	text	string	A transcrição textual do seu ficheiro multimédia
Palavras	words	array of object	Uma matriz de objetos de palavras temporalmente sequenciais, um para cada palavra na transcrição. Consulte Reconhecimento de fala para obter mais informações.
Confiança	words.confidence	double
Start	words.start	integer
Fim	words.end	integer
Texto	words.text	string
Palestrante	words.speaker	string	O orador da frase se a Diarização do orador estiver ativada, caso contrário null
Enunciados	utterances	array of object	Quando dual_channel ou speaker_labels estiver habilitado, uma lista de objetos de emissão passo a passo. Consulte Diarização de alto-falante para obter mais informações.
Confiança	utterances.confidence	double	A pontuação de confiança para a transcrição deste enunciado
Start	utterances.start	integer	O tempo de início, em milissegundos, da emissão no arquivo de áudio
Fim	utterances.end	integer	O tempo de término, em milissegundos, da emissão no arquivo de áudio
Texto	utterances.text	string	O texto para este enunciado
Palavras	utterances.words	array of object	As palavras no enunciado.
Confiança	utterances.words.confidence	double
Start	utterances.words.start	integer
Fim	utterances.words.end	integer
Texto	utterances.words.text	string
Palestrante	utterances.words.speaker	string	O orador da frase se a Diarização do orador estiver ativada, caso contrário null
Palestrante	utterances.speaker	string	O orador deste enunciado, onde a cada orador é atribuída uma letra maiúscula sequencial - por exemplo, "A" para o orador A, "B" para o orador B, etc.
Confiança	confidence	double	O escore de confiança para o transcrito, entre 0,0 (baixa confiança) e 1,0 (alta confiança)
Duração do Áudio	audio_duration	integer	A duração do arquivo de mídia deste objeto de transcrição, em segundos
Pontuar	punctuate	boolean	Se a Pontuação Automática está ativada, verdadeira ou falsa
Formatar texto	format_text	boolean	Se a Formatação de Texto está ativada, verdadeira ou falsa
Disfluências	disfluencies	boolean	Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser verdadeiro ou falso
Canal duplo	dual_channel	boolean	Se a transcrição de canal duplo foi habilitada na solicitação de transcrição, verdadeira ou falsa
Webhook URL	webhook_url	string	O URL para o qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falhou e uma solicitação quando o áudio editado está pronto se redact_pii_audio estiver habilitado.
Código de status HTTP Webhook	webhook_status_code	integer	O código de status que recebemos do seu servidor ao entregar a transcrição concluída ou falha na solicitação de webhook, se um URL de webhook foi fornecido
Webhook Auth ativado	webhook_auth	boolean	Se os detalhes de autenticação do webhook foram fornecidos
Nome do cabeçalho Webhook Auth	webhook_auth_header_name	string	O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha
Aumento de velocidade	speed_boost	boolean	Se o aumento de velocidade está ativado
Frases-chave	auto_highlights	boolean	Se as Frases-chave estão habilitadas, verdadeiras ou falsas
Situação	auto_highlights_result.status	string	Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou
Results	auto_highlights_result.results	array of object	Uma matriz temporalmente sequencial de frases-chave
Contar	auto_highlights_result.results.count	integer	O número total de vezes que a frase-chave aparece no arquivo de áudio
Classificação	auto_highlights_result.results.rank	float	A relevância total para o arquivo de áudio geral desta frase-chave - um número maior significa mais relevante
Texto	auto_highlights_result.results.text	string	O próprio texto da frase-chave
Carimbos de data/hora	auto_highlights_result.results.timestamps	array of object	O carimbo de data/hora da frase-chave
Start	auto_highlights_result.results.timestamps.start	integer	A hora de início em milissegundos
Fim	auto_highlights_result.results.timestamps.end	integer	O tempo final em milissegundos
Áudio a partir de	audio_start_from	integer	O ponto no tempo, em milissegundos, no arquivo em que a transcrição foi iniciada
Áudio termina em	audio_end_at	integer	O ponto no tempo, em milissegundos, no arquivo em que a transcrição foi encerrada
Aumento de palavras	word_boost	array of string	A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para
Impulso	boost_param	string	O valor do parâmetro boost da palavra
Filtrar palavrões	filter_profanity	boolean	Se a Filtragem de palavrões está ativada, verdadeira ou falsa
Redação de PII	redact_pii	boolean	Se a Redação de PII está habilitada, verdadeira ou falsa
Redact PII Audio	redact_pii_audio	boolean	Se uma versão editada do arquivo de áudio foi gerada, verdadeira ou falsa. Consulte Redação de PII para obter mais informações.
Redact Qualidade de áudio PII	redact_pii_audio_quality	string	Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente suporta mp3 (padrão) e wav. Consulte Redação de PII para obter mais detalhes.
Redact PII Condições	redact_pii_policies	array of string	A lista de políticas de Redação de PII que foram habilitadas, se a Redação de PII estiver habilitada. Consulte Redação de PII para obter mais informações.
Substituição de PII de redação	redact_pii_sub	string	A lógica de substituição para PII detetada pode ser "entity_name" ou "hash". Consulte Redação de PII para obter mais detalhes.
Etiquetas dos altifalantes	speaker_labels	boolean	Se a diarização do alto-falante está ativada, pode ser verdadeira ou falsa
Oradores esperados	speakers_expected	integer	Informe ao modelo de etiqueta do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte Diarização do alto-falante para obter mais detalhes.
Moderação de conteúdo	content_safety	boolean	Se a moderação de conteúdo está ativada, pode ser verdadeira ou falsa
Situação	content_safety_labels.status	string	Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou
Results	content_safety_labels.results	array of object
Texto	content_safety_labels.results.text	string	A transcrição da seção sinalizada pelo modelo de moderação de conteúdo
Rótulos / Etiquetas	content_safety_labels.results.labels	array of object	Uma série de rótulos de segurança, um por tópico sensível que foi detetado na seção
Etiqueta	content_safety_labels.results.labels.label	string	O rótulo do tema sensível
Confiança	content_safety_labels.results.labels.confidence	double	O índice de confiança para o tema em discussão, de 0 a 1
Severity	content_safety_labels.results.labels.severity	double	Quão severamente o tópico é discutido na seção, de 0 a 1
Início do índice de frases	content_safety_labels.results.sentences_idx_start	integer	O índice de frases no qual a seção começa
Fim do Índice de Sentenças	content_safety_labels.results.sentences_idx_end	integer	O índice de frases no qual a seção termina
Start	content_safety_labels.results.timestamp.start	integer	A hora de início em milissegundos
Fim	content_safety_labels.results.timestamp.end	integer	O tempo final em milissegundos
Resumo	content_safety_labels.summary	object	Um resumo dos resultados de confiança da moderação de conteúdo para todo o arquivo de áudio
Resumo da pontuação de gravidade	content_safety_labels.severity_score_summary	object	Um resumo dos resultados da severidade da moderação de conteúdo para todo o arquivo de áudio
Deteção de Tópicos	iab_categories	boolean	Se a Deteção de Tópicos está ativada, pode ser verdadeira ou falsa
Situação	iab_categories_result.status	string	Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou
Results	iab_categories_result.results	array of object	Uma matriz de resultados para o modelo de deteção de tópicos
Texto	iab_categories_result.results.text	string	O texto na transcrição em que ocorre um tópico detetado
Rótulos / Etiquetas	iab_categories_result.results.labels	array of object
Pertinência	iab_categories_result.results.labels.relevance	double	Quão relevante é o tópico detetado de um tópico detetado
Etiqueta	iab_categories_result.results.labels.label	string	O rótulo taxonômico IAB para o rótulo do tópico detetado, onde > denota relação supertópico/subtópico
Start	iab_categories_result.results.timestamp.start	integer	A hora de início em milissegundos
Fim	iab_categories_result.results.timestamp.end	integer	O tempo final em milissegundos
Resumo	iab_categories_result.summary	object	A relevância geral do tópico para todo o arquivo de áudio
Ortografia personalizada	custom_spelling	array of object	Personalizar como as palavras são escritas e formatadas usando valores de e para
De	custom_spelling.from	array of string	Palavras ou frases a substituir
Para	custom_spelling.to	string	Palavra ou frase a substituir por
Capítulos automáticos ativados	auto_chapters	boolean	Se os Capítulos Automáticos estão ativados, podem ser verdadeiros ou falsos
Capítulos	chapters	array of object	Uma matriz de capítulos temporalmente sequenciais para o arquivo de áudio
Essência	chapters.gist	string	Um resumo ultracurto (apenas algumas palavras) do conteúdo falado no capítulo
Manchete	chapters.headline	string	Um resumo de uma única frase do conteúdo falado durante o capítulo
Resumo	chapters.summary	string	Um resumo de um parágrafo do conteúdo falado durante o capítulo
Start	chapters.start	integer	O tempo de início, em milissegundos, para o capítulo
Fim	chapters.end	integer	O tempo de início, em milissegundos, para o capítulo
Sumarização ativada	summarization	boolean	Se a Sumarização está ativada, verdadeira ou falsa
Tipo de resumo	summary_type	string	O tipo de resumo gerado, se a Sumarização estiver habilitada
Modelo de resumo	summary_model	string	O modelo de Sumarização usado para gerar o resumo, se a Sumarização estiver habilitada
Resumo	summary	string	O resumo gerado do arquivo de mídia, se a Sumarização estiver habilitada
Tópicos personalizados ativados	custom_topics	boolean	Se os tópicos personalizados estão habilitados, verdadeiro ou falso
Tópicos	topics	array of string	A lista de tópicos personalizados fornecida se os tópicos personalizados estiverem habilitados
Análise de Sentimentos	sentiment_analysis	boolean	Se a Análise de Sentimento está ativada, pode ser verdadeira ou falsa
Resultados da Análise de Sentimento	sentiment_analysis_results	array of object	Uma matriz de resultados para o modelo de Análise de Sentimento, se ele estiver habilitado. Consulte Análise de sentimento para obter mais informações.
Texto	sentiment_analysis_results.text	string	A transcrição da sentença
Start	sentiment_analysis_results.start	integer	O tempo de início, em milissegundos, da frase
Fim	sentiment_analysis_results.end	integer	O tempo de término, em milissegundos, da frase
Sentimento	sentiment_analysis_results.sentiment		O sentimento detetado para a frase, um de POSITIVO, NEUTRO, NEGATIVO
Confiança	sentiment_analysis_results.confidence	double	O escore de confiança para o sentimento detetado da sentença, de 0 a 1
Palestrante	sentiment_analysis_results.speaker	string	O orador da frase se a Diarização do orador estiver ativada, caso contrário null
Deteção de entidades	entity_detection	boolean	Se a Deteção de Entidade está habilitada, pode ser verdadeira ou falsa
Entities	entities	array of object	Uma matriz de resultados para o modelo de Deteção de Entidade, se ele estiver habilitado. Consulte Deteção de entidade para obter mais informações.
Tipo de Entidade	entities.entity_type	string	O tipo de entidade para a entidade detetada
Texto	entities.text	string	O texto para a entidade detetada
Start	entities.start	integer	A hora de início, em milissegundos, na qual a entidade detetada aparece no arquivo de áudio
Fim	entities.end	integer	O tempo de término, em milissegundos, para a entidade detetada no arquivo de áudio
Limiar de fala	speech_threshold	float	O padrão é null. Rejeite arquivos de áudio que contenham menos do que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.
Limitado	throttled	boolean	True enquanto uma solicitação é limitada e false quando uma solicitação não é mais limitada
Erro	error	string	Mensagem de erro do motivo da falha na transcrição
Modelo de linguagem	language_model	string	O modelo de linguagem que foi usado para a transcrição
Modelo Acústico	acoustic_model	string	O modelo acústico utilizado para a transcrição

FrasesResposta

Name	Caminho	Tipo	Description
ID da transcrição	id	uuid
Confiança	confidence	double
Duração do Áudio	audio_duration	number
Frases	sentences	array of object
Texto	sentences.text	string
Start	sentences.start	integer
Fim	sentences.end	integer
Confiança	sentences.confidence	double
Palavras	sentences.words	array of object
Confiança	sentences.words.confidence	double
Start	sentences.words.start	integer
Fim	sentences.words.end	integer
Texto	sentences.words.text	string
Palestrante	sentences.words.speaker	string	O orador da frase se a Diarização do orador estiver ativada, caso contrário null
Palestrante	sentences.speaker	string	O orador da frase se a Diarização do orador estiver ativada, caso contrário null

ParágrafosResposta

Name	Caminho	Tipo	Description
ID da transcrição	id	uuid
Confiança	confidence	double
Duração do Áudio	audio_duration	number
Parágrafos	paragraphs	array of object
Texto	paragraphs.text	string
Start	paragraphs.start	integer
Fim	paragraphs.end	integer
Confiança	paragraphs.confidence	double
Palavras	paragraphs.words	array of object
Confiança	paragraphs.words.confidence	double
Start	paragraphs.words.start	integer
Fim	paragraphs.words.end	integer
Texto	paragraphs.words.text	string
Palestrante	paragraphs.words.speaker	string	O orador da frase se a Diarização do orador estiver ativada, caso contrário null
Palestrante	paragraphs.speaker	string	O orador da frase se a Diarização do orador estiver ativada, caso contrário null

Lista de transcrições

Uma lista de transcrições. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Name	Caminho	Tipo	Description
Limite	page_details.limit	integer	O número de resultados a que esta página está limitada
Contagem de resultados	page_details.result_count	integer	O número real de resultados na página
URL atual	page_details.current_url	string	O URL usado para recuperar a página atual de transcrições
URL anterior	page_details.prev_url	string	O URL para a próxima página de transcrições. O URL anterior aponta sempre para uma página com transcrições mais antigas.
Próximo URL	page_details.next_url	string	O URL para a próxima página de transcrições. O URL seguinte aponta sempre para uma página com transcrições mais recentes.
Transcripts	transcripts	array of object
ID	transcripts.id	uuid
URL do Recurso	transcripts.resource_url	string
Situação	transcripts.status	string	O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro.
Criado	transcripts.created	string
Concluído	transcripts.completed	string
URL de áudio	transcripts.audio_url	string
Erro	transcripts.error	string	Mensagem de erro do motivo da falha na transcrição

Ficheiro Carregado

Name	Caminho	Tipo	Description
URL do ficheiro carregado	upload_url	string	Um URL que aponta para o seu arquivo de áudio, acessível apenas pelos servidores do AssemblyAI

PurgeLemurRequestDataResponse

Name	Caminho	Tipo	Description
ID da solicitação de limpeza	request_id	uuid	O ID do pedido de eliminação do pedido LeMUR
ID de solicitação do LeMUR para limpar	request_id_to_purge	uuid	O ID da solicitação LeMUR para limpar os dados para
Suprimido	deleted	boolean	Se os dados da solicitação foram excluídos

LemurTaskResponse

Name	Caminho	Tipo	Description
Resposta	response	string	A resposta gerada pelo LeMUR.
ID de solicitação LeMUR	request_id	uuid	O ID do pedido LeMUR
Tokens de entrada	usage.input_tokens	integer	O número de tokens de entrada usados pelo modelo
Tokens de saída	usage.output_tokens	integer	O número de tokens de saída gerados pelo modelo

LemurResposta

Name	Caminho	Tipo	Description
Resposta	response	string	A resposta gerada pelo LeMUR.
ID de solicitação LeMUR	request_id	uuid	O ID do pedido LeMUR
Tokens de entrada	usage.input_tokens	integer	O número de tokens de entrada usados pelo modelo
Tokens de saída	usage.output_tokens	integer	O número de tokens de saída gerados pelo modelo

cadeia (de caracteres)

Este é o tipo de dados básico 'string'.

Partilhar via

AssemblyAI (Pré-visualização)

Pré-requisitos

Como obter credenciais

Introdução ao conector

Carregar um ficheiro

Transcrever áudio

Manipular o Webhook Pronto para Transcrição

Sondar o status da transcrição

Adicionar mais ações

Problemas conhecidos e limitações

Erros e soluções comuns

FAQ

A criar uma ligação

Padrão

Limites de Limitação

Ações

Carregar um ficheiro multimédia

Parâmetros

Devoluções

Excluir transcrição

Parâmetros

Devoluções

Executar uma tarefa usando o LeMUR

Parâmetros

Devoluções

Limpar dados de solicitação do LeMUR

Parâmetros

Devoluções

Listar transcrições

Parâmetros

Devoluções

Obter frases na transcrição

Parâmetros

Devoluções

Obter legendas para transcrição

Parâmetros

Devoluções

Obter parágrafos na transcrição

Parâmetros

Devoluções

Obter transcrição

Parâmetros

Devoluções

Obter áudio editado

Parâmetros

Devoluções

Pesquisar palavras na transcrição

Parâmetros

Devoluções

Recuperar resposta do LeMUR

Parâmetros

Devoluções

Transcrever áudio

Parâmetros

Devoluções

Definições

RedactedAudioResponse

WordSearchResponse

Transcrever

FrasesResposta

ParágrafosResposta

Lista de transcrições

Ficheiro Carregado

PurgeLemurRequestDataResponse

LemurTaskResponse

LemurResposta

cadeia (de caracteres)