AssemblyAI (Pré-visualização)
Transcreva e extraia dados de áudio usando a IA de fala da AssemblyAI.
Este conector está disponível nos seguintes produtos e regiões:
| Serviço | Class | Regiões |
|---|---|---|
| Estúdio Copiloto | Premium | Todas as regiões do Power Automatic , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Aplicações Lógicas | Standard | Todas as regiões do Logic Apps , exceto as seguintes: - Regiões do Azure Government - Regiões do Azure China - Departamento de Defesa dos EUA (DoD) |
| Aplicações Power | Premium | Todas as regiões do Power Apps , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Automatize o poder | Premium | Todas as regiões do Power Automatic , exceto as seguintes: - Governo dos EUA (CCG) - Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Contato | |
|---|---|
| Nome | Support |
| URL | https://www.assemblyai.com/docs/ |
| support@assemblyai.com |
| Metadados do conector | |
|---|---|
| Editora | AssemblyAI |
| Sítio Web | https://www.assemblyai.com |
| Política de privacidade | https://www.assemblyai.com/legal/privacy-policy |
| Categorias | IA |
Com o AssemblyAI Connector, você pode usar os modelos do AssemblyAI para processar dados de áudio transcrevendo-os com modelos de reconhecimento de fala, analisando-os com modelos de inteligência de áudio e criando recursos generativos sobre eles com LLMs.
- Speech-To-Text incluindo muitos recursos configuráveis, como diarização do alto-falante, ortografia personalizada, vocabulário personalizado, etc.
- Os Modelos de Inteligência de Áudio são modelos adicionais de IA disponíveis e configurados através da configuração de transcrição.
- O LeMUR permite que você aplique vários modelos LLM às suas transcrições sem a necessidade de construir sua própria infraestrutura RAG para transcrições muito grandes.
Pré-requisitos
Você precisará do seguinte para prosseguir:
- Uma chave de API AssemblyAI (obtenha uma gratuitamente)
Como obter credenciais
Você pode obter uma chave de API AssemblyAI gratuitamente inscrevendo-se em uma conta e copiando a chave de API do painel.
Introdução ao conector
Siga estas etapas para transcrever áudio usando o conector AssemblyAI.
Carregar um ficheiro
Para transcrever um arquivo de áudio usando AssemblyAI, o arquivo precisa estar acessível ao AssemblyAI. Se o seu ficheiro de áudio já estiver acessível através de um URL, pode utilizar o URL existente.
Caso contrário, você pode usar a Upload a File ação para carregar um arquivo para AssemblyAI.
Você receberá de volta um URL para o seu arquivo que só pode ser usado para transcrever usando sua chave de API.
Depois de transcrever o arquivo, o arquivo será removido dos servidores do AssemblyAI.
Transcrever áudio
Para transcrever o áudio, configure o parâmetro usando o URL do Audio URL arquivo de áudio.
Em seguida, configure os parâmetros adicionais para habilitar mais recursos de Reconhecimento de Fala e modelos de Inteligência de Áudio .
O resultado da ação Transcrever áudio é uma transcrição em fila que começará a ser processada imediatamente. Para obter a transcrição completa, você tem duas opções:
Manipular o Webhook Pronto para Transcrição
Se você não quiser lidar com o webhook usando Aplicativos Lógicos ou Power Automate, configure o Webhook URL parâmetro em sua Transcribe Audio ação e implemente seu webhook seguindo a documentação do webhook da AssemblyAI.
Para manipular o webhook usando Aplicativos Lógicos ou Power Automate, siga estas etapas:
Criar um aplicativo lógico separado ou Power Automate Flow
Configure
When an HTTP request is receivedcomo o gatilho:- Defina
Who Can Trigger The Flow?comoAnyone - Definido
Request Body JSON Schemapara:{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - Defina
MethodcomoPOST
- Defina
Adicione uma ação AssemblyAI
Get Transcript, passando o do gatilhotranscript_idpara oTranscript IDparâmetro.Antes de fazer qualquer outra coisa, você deve verificar se o
Statusécompletedouerror. Adicione umaConditionação que verifique se aStatusGet Transcriptsaídaerroré :-
TrueNa ramificação, adicione umaTerminateação- Defina o
StatuscomoFailed - Defina o
CodecomoTranscript Error - Passe o
ErrordaGet Transcriptsaída para oMessageparâmetro.
- Defina o
- Você pode deixar a
Falsefilial vazia.
Agora você pode adicionar qualquer ação depois
Conditionde saber que o status da transcrição écompleted, e você pode recuperar qualquer uma das propriedades de saída daGet Transcriptação.-
Salve seu aplicativo lógico ou fluxo. O
HTTP URLserá gerado para oWhen an HTTP request is receivedgatilho. Copie oHTTP URLe volte para o seu Logic App ou Flow original.No seu Logic App ou Flow original, atualize a
Transcribe Audioação. Cole oHTTP URLque você copiou anteriormente noWebhook URLparâmetro e salve.
Quando o status da transcrição se tornar completed ou error, o AssemblyAI enviará uma solicitação HTTP POST para a URL do webhook, que será manipulada pelo seu outro Aplicativo Lógico ou Fluxo.
Como alternativa ao uso do webhook, você pode pesquisar o status da transcrição, conforme explicado na próxima seção.
Sondar o status da transcrição
Você pode pesquisar o status da transcrição usando as seguintes etapas:
Adicionar uma
Initialize variableação- Defina
Namecomotranscript_status - Defina
TypecomoString - Armazene o
StatusdaTranscribe Audiosaída noValueparâmetro
- Defina
Adicionar uma
Do untilação- Configure o
Loop Untilparâmetro com o seguinte código Fx:
Este código verifica se aor(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))transcript_statusvariável écompletedouerror. - Configure o
Countparâmetro para86400 - Configure o
Timeoutparâmetro paraPT24H
Dentro da
Do untilação, adicione as seguintes ações:- Adicionar uma
Delayação que aguarda um segundo - Adicione uma
Get Transcriptação e passe oIDdaTranscribe Audiosaída para oTranscript IDparâmetro. - Adicionar uma
Set variableação- Defina
Namecomotranscript_status - Passe a
StatusGet Transcriptsaída para oValueparâmetro
- Defina
O
Do untilloop continuará até que a transcrição seja concluída ou ocorra um erro.- Configure o
Adicione outra
Get Transcriptação, como antes, mas adicione-a após oDo untilloop para que sua saída fique disponível fora do escopo daDo untilação.
Antes de fazer qualquer outra coisa, você deve verificar se a transcrição Status é completed ou error.
Adicione uma Condition ação que verifique se o transcript_status é error:
-
TrueNa ramificação, adicione umaTerminateação- Defina
StatuscomoFailed - Defina
CodecomoTranscript Error - Passe o
ErrordaGet Transcriptsaída para oMessageparâmetro.
- Defina
- Você pode deixar a
Falsefilial vazia.
Agora você pode adicionar qualquer ação depois Condition de saber que o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da Get Transcript ação.
Adicionar mais ações
Agora que você tem uma transcrição completa, você pode usar muitas outras ações passando na ID transcrição, como
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
Problemas conhecidos e limitações
Nenhum problema conhecido atualmente. Não suportamos Streaming de FalaTo-Text (em tempo real), pois não é possível usar Conectores Personalizados.
Erros e soluções comuns
Você pode encontrar mais informações sobre erros na documentação do AssemblyAI.
FAQ
Você pode encontrar perguntas frequentes em nossa documentação.
A criar uma ligação
O conector suporta os seguintes tipos de autenticação:
| Predefinição | Parâmetros para criar conexão. | Todas as regiões | Não compartilhável |
Padrão
Aplicável: Todas as regiões
Parâmetros para criar conexão.
Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave da API AssemblyAI | securestring | A chave da API AssemblyAI para autenticar a API AssemblyAI. | Verdade |
Limites de Limitação
| Name | Chamadas | Período de Renovação |
|---|---|---|
| Chamadas de API por conexão | 100 | 60 segundos |
Ações
| Carregar um ficheiro multimédia |
Carregue um arquivo de mídia para os servidores do AssemblyAI. |
| Excluir transcrição |
Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos. |
| Executar uma tarefa usando o LeMUR |
Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM. |
| Limpar dados de solicitação do LeMUR |
Exclua os dados de uma solicitação LeMUR enviada anteriormente. Os dados de resposta do LLM, bem como qualquer contexto fornecido na solicitação original serão removidos. |
| Listar transcrições |
Recupere uma lista de transcrições que você criou. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas. |
| Obter frases na transcrição |
Obtenha a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em frases para criar transcrições mais fáceis de ler. |
| Obter legendas para transcrição |
Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas ocultas. |
| Obter parágrafos na transcrição |
Obtenha a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais fáceis de ler. |
| Obter transcrição |
Obtenha o recurso de transcrição. A transcrição fica pronta quando o "status" é "concluído". |
| Obter áudio editado |
Recupere o objeto de áudio editado que contém o status e a URL para o áudio editado. |
| Pesquisar palavras na transcrição |
Pesquise palavras-chave na transcrição. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números. |
| Recuperar resposta do LeMUR |
Recupere uma resposta LeMUR que foi gerada anteriormente. |
| Transcrever áudio |
Crie uma transcrição a partir de um arquivo de mídia acessível por meio de uma URL. |
Carregar um ficheiro multimédia
Carregue um arquivo de mídia para os servidores do AssemblyAI.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Conteúdo do Ficheiro
|
file | True | binary |
O ficheiro a carregar. |
Devoluções
- Body
- UploadedFile
Excluir transcrição
Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Devoluções
Um objeto de transcrição
- Body
- Transcript
Executar uma tarefa usando o LeMUR
Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Pronta
|
prompt | True | string |
Seu texto para solicitar que o modelo produza uma saída desejada, incluindo qualquer contexto que você queira passar para o modelo. |
|
IDs de transcrição
|
transcript_ids | array of uuid |
Uma lista de transcrições concluídas com texto. Até um máximo de 100 ficheiros ou 100 horas, o que for menor. Use transcript_ids ou input_text como entrada no LeMUR. |
|
|
Texto de entrada
|
input_text | string |
Dados de transcrição formatados personalizados. Tamanho máximo é o limite de contexto do modelo selecionado, cujo padrão é 100000. Use transcript_ids ou input_text como entrada no LeMUR. |
|
|
Context
|
context | string |
Contexto para fornecer o modelo. Isso pode ser uma cadeia de caracteres ou um valor JSON de forma livre. |
|
|
Modelo Final
|
final_model | string |
O modelo que é usado para o prompt final após a compactação é executada. |
|
|
Tamanho máximo de saída
|
max_output_size | integer |
Tamanho máximo de saída em tokens, até 4000 |
|
|
Temperatura
|
temperature | float |
A temperatura a ser usada para o modelo. Valores mais altos resultam em respostas mais criativas, valores mais baixos são mais conservadores. Pode ser qualquer valor entre 0,0 e 1,0 inclusive. |
Devoluções
- Body
- LemurTaskResponse
Limpar dados de solicitação do LeMUR
Exclua os dados de uma solicitação LeMUR enviada anteriormente. Os dados de resposta do LLM, bem como qualquer contexto fornecido na solicitação original serão removidos.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID de solicitação LeMUR
|
request_id | True | string |
O ID da solicitação LeMUR cujos dados você deseja excluir. Tal consta da resposta ao pedido inicial. |
Devoluções
Listar transcrições
Recupere uma lista de transcrições que você criou. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
Limite
|
limit | integer |
Quantidade máxima de transcrições a recuperar |
|
|
Situação
|
status | string |
O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro. |
|
|
Criado em
|
created_on | date |
Só obtenha transcrições criadas nesta data |
|
|
Antes da ID
|
before_id | uuid |
Obter transcrições que foram criadas antes deste ID de transcrição |
|
|
Após a identificação
|
after_id | uuid |
Obter transcrições que foram criadas após este ID de transcrição |
|
|
Apenas acelerado
|
throttled_only | boolean |
Obtém apenas transcrições limitadas, substitui o filtro de status |
Devoluções
Uma lista de transcrições. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.
- Body
- TranscriptList
Obter frases na transcrição
Obtenha a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em frases para criar transcrições mais fáceis de ler.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Devoluções
- Body
- SentencesResponse
Obter legendas para transcrição
Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas ocultas.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
|
Formato das legendas
|
subtitle_format | True | string |
Formato das legendas |
|
Número de caracteres por legenda
|
chars_per_caption | integer |
O número máximo de caracteres por legenda |
Devoluções
- response
- string
Obter parágrafos na transcrição
Obtenha a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais fáceis de ler.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Devoluções
- Body
- ParagraphsResponse
Obter transcrição
Obtenha o recurso de transcrição. A transcrição fica pronta quando o "status" é "concluído".
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Devoluções
Um objeto de transcrição
- Body
- Transcript
Obter áudio editado
Recupere o objeto de áudio editado que contém o status e a URL para o áudio editado.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Devoluções
Pesquisar palavras na transcrição
Pesquise palavras-chave na transcrição. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
|
Palavras
|
words | True | array |
Palavras-chave a procurar |
Devoluções
- Body
- WordSearchResponse
Recuperar resposta do LeMUR
Recupere uma resposta LeMUR que foi gerada anteriormente.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
ID de solicitação LeMUR
|
request_id | True | string |
O ID da solicitação LeMUR que você fez anteriormente. Tal consta da resposta ao pedido inicial. |
Devoluções
- Body
- LemurResponse
Transcrever áudio
Crie uma transcrição a partir de um arquivo de mídia acessível por meio de uma URL.
Parâmetros
| Name | Chave | Necessário | Tipo | Description |
|---|---|---|---|---|
|
URL de áudio
|
audio_url | True | string |
O URL do ficheiro de áudio ou vídeo a transcrever. |
|
Código do Idioma
|
language_code | string |
O idioma do seu ficheiro de áudio. Os valores possíveis são encontrados em Idiomas suportados. O valor padrão é 'en_us'. |
|
|
Deteção de Idioma
|
language_detection | boolean |
Habilite a deteção automática de idioma, verdadeiro ou falso. |
|
|
Modelo de Fala
|
speech_model | string |
O modelo de fala a utilizar para a transcrição. |
|
|
Pontuar
|
punctuate | boolean |
Ativar Pontuação Automática, pode ser verdadeiro ou falso |
|
|
Formatar texto
|
format_text | boolean |
Ativar formatação de texto, pode ser verdadeiro ou falso |
|
|
Disfluências
|
disfluencies | boolean |
Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser verdadeiro ou falso |
|
|
Canal duplo
|
dual_channel | boolean |
Ativar transcrição de canal duplo, pode ser verdadeiro ou falso. |
|
|
Webhook URL
|
webhook_url | string |
O URL para o qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falhou e uma solicitação quando o áudio editado está pronto se redact_pii_audio estiver habilitado. |
|
|
Nome do cabeçalho Webhook Auth
|
webhook_auth_header_name | string |
O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha |
|
|
Valor do cabeçalho de autenticação Webhook
|
webhook_auth_header_value | string |
O valor do cabeçalho a ser enviado de volta com a transcrição concluída ou solicitações de webhook com falha para maior segurança |
|
|
Frases-chave
|
auto_highlights | boolean |
Ativar frases-chave, verdadeiras ou falsas |
|
|
Áudio a partir de
|
audio_start_from | integer |
O ponto no tempo, em milissegundos, para começar a transcrever em seu arquivo de mídia |
|
|
Áudio termina em
|
audio_end_at | integer |
O ponto no tempo, em milissegundos, para parar de transcrever em seu arquivo de mídia |
|
|
Aumento de palavras
|
word_boost | array of string |
A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para |
|
|
Nível de Aumento de Palavras
|
boost_param | string |
Quanto aumentar as palavras especificadas |
|
|
Filtrar palavrões
|
filter_profanity | boolean |
Filtrar palavrões do texto transcrito, podem ser verdadeiros ou falsos |
|
|
Redação de PII
|
redact_pii | boolean |
Redigir PII do texto transcrito usando o modelo Redact PII, pode ser verdadeiro ou falso |
|
|
Redact PII Audio
|
redact_pii_audio | boolean |
Gere uma cópia do arquivo de mídia original com PII falado "apitado", pode ser verdadeiro ou falso. Consulte Redação de PII para obter mais detalhes. |
|
|
Redact Qualidade de áudio PII
|
redact_pii_audio_quality | string |
Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente suporta mp3 (padrão) e wav. Consulte Redação de PII para obter mais detalhes. |
|
|
Redact PII Condições
|
redact_pii_policies | array of string |
A lista de políticas de PII Redaction a serem habilitadas. Consulte Redação de PII para obter mais detalhes. |
|
|
Substituição de PII de redação
|
redact_pii_sub | string |
A lógica de substituição para PII detetada pode ser "entity_name" ou "hash". Consulte Redação de PII para obter mais detalhes. |
|
|
Etiquetas dos altifalantes
|
speaker_labels | boolean |
Ativar a diarização do alto-falante, pode ser verdadeiro ou falso |
|
|
Oradores esperados
|
speakers_expected | integer |
Informa ao modelo de etiqueta do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte Diarização do alto-falante para obter mais detalhes. |
|
|
Moderação de conteúdo
|
content_safety | boolean |
Ativar moderação de conteúdo, pode ser verdadeiro ou falso |
|
|
Confiança na moderação de conteúdo
|
content_safety_confidence | integer |
O limiar de confiança para o modelo de moderação de conteúdo. Os valores devem estar entre 25 e 100. |
|
|
Deteção de Tópicos
|
iab_categories | boolean |
Ativar a Deteção de Tópicos, pode ser verdadeiro ou falso |
|
|
De
|
from | True | array of string |
Palavras ou frases a substituir |
|
Para
|
to | True | string |
Palavra ou frase a substituir por |
|
Análise de Sentimentos
|
sentiment_analysis | boolean |
Ativar Análise de Sentimento, pode ser verdadeiro ou falso |
|
|
Capítulos Automáticos
|
auto_chapters | boolean |
Ativar capítulos automáticos, pode ser verdadeiro ou falso |
|
|
Deteção de entidades
|
entity_detection | boolean |
Ativar Deteção de Entidade, pode ser verdadeiro ou falso |
|
|
Limiar de fala
|
speech_threshold | float |
Rejeite arquivos de áudio que contenham menos do que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive. |
|
|
Ativar Sumarização
|
summarization | boolean |
Ativar Sumarização, pode ser verdadeiro ou falso |
|
|
Modelo de resumo
|
summary_model | string |
O modelo para resumir a transcrição |
|
|
Tipo de resumo
|
summary_type | string |
O tipo de resumo |
|
|
Ativar tópicos personalizados
|
custom_topics | boolean |
Ativar tópicos personalizados, verdadeiros ou falsos |
|
|
Tópicos personalizados
|
topics | array of string |
A lista de tópicos personalizados |
Devoluções
Um objeto de transcrição
- Body
- Transcript
Definições
RedactedAudioResponse
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
Situação
|
status | string |
O status do áudio editado |
|
URL de áudio editado
|
redacted_audio_url | string |
O URL do arquivo de áudio editado |
WordSearchResponse
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da transcrição
|
id | uuid |
O ID da transcrição |
|
Contagem total de partidas
|
total_count | integer |
A contagem total de todas as instâncias correspondentes. Por exemplo, a palavra 1 correspondeu 2 vezes, e a palavra 2 correspondeu 3 vezes, total_count será igual a 5. |
|
Correspondências
|
matches | array of object |
As correspondências da pesquisa |
|
Texto
|
matches.text | string |
A palavra correspondente |
|
Contar
|
matches.count | integer |
A quantidade total de vezes que a palavra está na transcrição |
|
Carimbos de data/hora
|
matches.timestamps | array of array |
Uma matriz de carimbos de data/hora |
|
Data e Hora
|
matches.timestamps | array of integer |
Uma matriz de carimbos de data/hora estruturados como [start_time, end_time] em milissegundos |
|
Indexes
|
matches.indexes | array of integer |
Uma matriz de todos os locais de índice para essa palavra dentro da matriz de palavras da transcrição concluída |
Transcrever
Um objeto de transcrição
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
ID
|
id | uuid |
O identificador exclusivo da sua transcrição |
|
URL de áudio
|
audio_url | string |
O URL da mídia que foi transcrita |
|
Situação
|
status | string |
O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro. |
|
Código do Idioma
|
language_code | string |
O idioma do seu ficheiro de áudio. Os valores possíveis são encontrados em Idiomas suportados. O valor padrão é 'en_us'. |
|
Deteção de Idioma
|
language_detection | boolean |
Se a deteção automática de idioma está ativada, verdadeiro ou falso |
|
Modelo de Fala
|
speech_model | string |
O modelo de fala a utilizar para a transcrição. |
|
Texto
|
text | string |
A transcrição textual do seu ficheiro multimédia |
|
Palavras
|
words | array of object |
Uma matriz de objetos de palavras temporalmente sequenciais, um para cada palavra na transcrição. Consulte Reconhecimento de fala para obter mais informações. |
|
Confiança
|
words.confidence | double | |
|
Start
|
words.start | integer | |
|
Fim
|
words.end | integer | |
|
Texto
|
words.text | string | |
|
Palestrante
|
words.speaker | string |
O orador da frase se a Diarização do orador estiver ativada, caso contrário null |
|
Enunciados
|
utterances | array of object |
Quando dual_channel ou speaker_labels estiver habilitado, uma lista de objetos de emissão passo a passo. Consulte Diarização de alto-falante para obter mais informações. |
|
Confiança
|
utterances.confidence | double |
A pontuação de confiança para a transcrição deste enunciado |
|
Start
|
utterances.start | integer |
O tempo de início, em milissegundos, da emissão no arquivo de áudio |
|
Fim
|
utterances.end | integer |
O tempo de término, em milissegundos, da emissão no arquivo de áudio |
|
Texto
|
utterances.text | string |
O texto para este enunciado |
|
Palavras
|
utterances.words | array of object |
As palavras no enunciado. |
|
Confiança
|
utterances.words.confidence | double | |
|
Start
|
utterances.words.start | integer | |
|
Fim
|
utterances.words.end | integer | |
|
Texto
|
utterances.words.text | string | |
|
Palestrante
|
utterances.words.speaker | string |
O orador da frase se a Diarização do orador estiver ativada, caso contrário null |
|
Palestrante
|
utterances.speaker | string |
O orador deste enunciado, onde a cada orador é atribuída uma letra maiúscula sequencial - por exemplo, "A" para o orador A, "B" para o orador B, etc. |
|
Confiança
|
confidence | double |
O escore de confiança para o transcrito, entre 0,0 (baixa confiança) e 1,0 (alta confiança) |
|
Duração do Áudio
|
audio_duration | integer |
A duração do arquivo de mídia deste objeto de transcrição, em segundos |
|
Pontuar
|
punctuate | boolean |
Se a Pontuação Automática está ativada, verdadeira ou falsa |
|
Formatar texto
|
format_text | boolean |
Se a Formatação de Texto está ativada, verdadeira ou falsa |
|
Disfluências
|
disfluencies | boolean |
Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser verdadeiro ou falso |
|
Canal duplo
|
dual_channel | boolean |
Se a transcrição de canal duplo foi habilitada na solicitação de transcrição, verdadeira ou falsa |
|
Webhook URL
|
webhook_url | string |
O URL para o qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falhou e uma solicitação quando o áudio editado está pronto se redact_pii_audio estiver habilitado. |
|
Código de status HTTP Webhook
|
webhook_status_code | integer |
O código de status que recebemos do seu servidor ao entregar a transcrição concluída ou falha na solicitação de webhook, se um URL de webhook foi fornecido |
|
Webhook Auth ativado
|
webhook_auth | boolean |
Se os detalhes de autenticação do webhook foram fornecidos |
|
Nome do cabeçalho Webhook Auth
|
webhook_auth_header_name | string |
O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha |
|
Aumento de velocidade
|
speed_boost | boolean |
Se o aumento de velocidade está ativado |
|
Frases-chave
|
auto_highlights | boolean |
Se as Frases-chave estão habilitadas, verdadeiras ou falsas |
|
Situação
|
auto_highlights_result.status | string |
Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou |
|
Results
|
auto_highlights_result.results | array of object |
Uma matriz temporalmente sequencial de frases-chave |
|
Contar
|
auto_highlights_result.results.count | integer |
O número total de vezes que a frase-chave aparece no arquivo de áudio |
|
Classificação
|
auto_highlights_result.results.rank | float |
A relevância total para o arquivo de áudio geral desta frase-chave - um número maior significa mais relevante |
|
Texto
|
auto_highlights_result.results.text | string |
O próprio texto da frase-chave |
|
Carimbos de data/hora
|
auto_highlights_result.results.timestamps | array of object |
O carimbo de data/hora da frase-chave |
|
Start
|
auto_highlights_result.results.timestamps.start | integer |
A hora de início em milissegundos |
|
Fim
|
auto_highlights_result.results.timestamps.end | integer |
O tempo final em milissegundos |
|
Áudio a partir de
|
audio_start_from | integer |
O ponto no tempo, em milissegundos, no arquivo em que a transcrição foi iniciada |
|
Áudio termina em
|
audio_end_at | integer |
O ponto no tempo, em milissegundos, no arquivo em que a transcrição foi encerrada |
|
Aumento de palavras
|
word_boost | array of string |
A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para |
|
Impulso
|
boost_param | string |
O valor do parâmetro boost da palavra |
|
Filtrar palavrões
|
filter_profanity | boolean |
Se a Filtragem de palavrões está ativada, verdadeira ou falsa |
|
Redação de PII
|
redact_pii | boolean |
Se a Redação de PII está habilitada, verdadeira ou falsa |
|
Redact PII Audio
|
redact_pii_audio | boolean |
Se uma versão editada do arquivo de áudio foi gerada, verdadeira ou falsa. Consulte Redação de PII para obter mais informações. |
|
Redact Qualidade de áudio PII
|
redact_pii_audio_quality | string |
Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente suporta mp3 (padrão) e wav. Consulte Redação de PII para obter mais detalhes. |
|
Redact PII Condições
|
redact_pii_policies | array of string |
A lista de políticas de Redação de PII que foram habilitadas, se a Redação de PII estiver habilitada. Consulte Redação de PII para obter mais informações. |
|
Substituição de PII de redação
|
redact_pii_sub | string |
A lógica de substituição para PII detetada pode ser "entity_name" ou "hash". Consulte Redação de PII para obter mais detalhes. |
|
Etiquetas dos altifalantes
|
speaker_labels | boolean |
Se a diarização do alto-falante está ativada, pode ser verdadeira ou falsa |
|
Oradores esperados
|
speakers_expected | integer |
Informe ao modelo de etiqueta do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte Diarização do alto-falante para obter mais detalhes. |
|
Moderação de conteúdo
|
content_safety | boolean |
Se a moderação de conteúdo está ativada, pode ser verdadeira ou falsa |
|
Situação
|
content_safety_labels.status | string |
Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou |
|
Results
|
content_safety_labels.results | array of object | |
|
Texto
|
content_safety_labels.results.text | string |
A transcrição da seção sinalizada pelo modelo de moderação de conteúdo |
|
Rótulos / Etiquetas
|
content_safety_labels.results.labels | array of object |
Uma série de rótulos de segurança, um por tópico sensível que foi detetado na seção |
|
Etiqueta
|
content_safety_labels.results.labels.label | string |
O rótulo do tema sensível |
|
Confiança
|
content_safety_labels.results.labels.confidence | double |
O índice de confiança para o tema em discussão, de 0 a 1 |
|
Severity
|
content_safety_labels.results.labels.severity | double |
Quão severamente o tópico é discutido na seção, de 0 a 1 |
|
Início do índice de frases
|
content_safety_labels.results.sentences_idx_start | integer |
O índice de frases no qual a seção começa |
|
Fim do Índice de Sentenças
|
content_safety_labels.results.sentences_idx_end | integer |
O índice de frases no qual a seção termina |
|
Start
|
content_safety_labels.results.timestamp.start | integer |
A hora de início em milissegundos |
|
Fim
|
content_safety_labels.results.timestamp.end | integer |
O tempo final em milissegundos |
|
Resumo
|
content_safety_labels.summary | object |
Um resumo dos resultados de confiança da moderação de conteúdo para todo o arquivo de áudio |
|
Resumo da pontuação de gravidade
|
content_safety_labels.severity_score_summary | object |
Um resumo dos resultados da severidade da moderação de conteúdo para todo o arquivo de áudio |
|
Deteção de Tópicos
|
iab_categories | boolean |
Se a Deteção de Tópicos está ativada, pode ser verdadeira ou falsa |
|
Situação
|
iab_categories_result.status | string |
Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou |
|
Results
|
iab_categories_result.results | array of object |
Uma matriz de resultados para o modelo de deteção de tópicos |
|
Texto
|
iab_categories_result.results.text | string |
O texto na transcrição em que ocorre um tópico detetado |
|
Rótulos / Etiquetas
|
iab_categories_result.results.labels | array of object | |
|
Pertinência
|
iab_categories_result.results.labels.relevance | double |
Quão relevante é o tópico detetado de um tópico detetado |
|
Etiqueta
|
iab_categories_result.results.labels.label | string |
O rótulo taxonômico IAB para o rótulo do tópico detetado, onde > denota relação supertópico/subtópico |
|
Start
|
iab_categories_result.results.timestamp.start | integer |
A hora de início em milissegundos |
|
Fim
|
iab_categories_result.results.timestamp.end | integer |
O tempo final em milissegundos |
|
Resumo
|
iab_categories_result.summary | object |
A relevância geral do tópico para todo o arquivo de áudio |
|
Ortografia personalizada
|
custom_spelling | array of object |
Personalizar como as palavras são escritas e formatadas usando valores de e para |
|
De
|
custom_spelling.from | array of string |
Palavras ou frases a substituir |
|
Para
|
custom_spelling.to | string |
Palavra ou frase a substituir por |
|
Capítulos automáticos ativados
|
auto_chapters | boolean |
Se os Capítulos Automáticos estão ativados, podem ser verdadeiros ou falsos |
|
Capítulos
|
chapters | array of object |
Uma matriz de capítulos temporalmente sequenciais para o arquivo de áudio |
|
Essência
|
chapters.gist | string |
Um resumo ultracurto (apenas algumas palavras) do conteúdo falado no capítulo |
|
Manchete
|
chapters.headline | string |
Um resumo de uma única frase do conteúdo falado durante o capítulo |
|
Resumo
|
chapters.summary | string |
Um resumo de um parágrafo do conteúdo falado durante o capítulo |
|
Start
|
chapters.start | integer |
O tempo de início, em milissegundos, para o capítulo |
|
Fim
|
chapters.end | integer |
O tempo de início, em milissegundos, para o capítulo |
|
Sumarização ativada
|
summarization | boolean |
Se a Sumarização está ativada, verdadeira ou falsa |
|
Tipo de resumo
|
summary_type | string |
O tipo de resumo gerado, se a Sumarização estiver habilitada |
|
Modelo de resumo
|
summary_model | string |
O modelo de Sumarização usado para gerar o resumo, se a Sumarização estiver habilitada |
|
Resumo
|
summary | string |
O resumo gerado do arquivo de mídia, se a Sumarização estiver habilitada |
|
Tópicos personalizados ativados
|
custom_topics | boolean |
Se os tópicos personalizados estão habilitados, verdadeiro ou falso |
|
Tópicos
|
topics | array of string |
A lista de tópicos personalizados fornecida se os tópicos personalizados estiverem habilitados |
|
Análise de Sentimentos
|
sentiment_analysis | boolean |
Se a Análise de Sentimento está ativada, pode ser verdadeira ou falsa |
|
Resultados da Análise de Sentimento
|
sentiment_analysis_results | array of object |
Uma matriz de resultados para o modelo de Análise de Sentimento, se ele estiver habilitado. Consulte Análise de sentimento para obter mais informações. |
|
Texto
|
sentiment_analysis_results.text | string |
A transcrição da sentença |
|
Start
|
sentiment_analysis_results.start | integer |
O tempo de início, em milissegundos, da frase |
|
Fim
|
sentiment_analysis_results.end | integer |
O tempo de término, em milissegundos, da frase |
|
Sentimento
|
sentiment_analysis_results.sentiment |
O sentimento detetado para a frase, um de POSITIVO, NEUTRO, NEGATIVO |
|
|
Confiança
|
sentiment_analysis_results.confidence | double |
O escore de confiança para o sentimento detetado da sentença, de 0 a 1 |
|
Palestrante
|
sentiment_analysis_results.speaker | string |
O orador da frase se a Diarização do orador estiver ativada, caso contrário null |
|
Deteção de entidades
|
entity_detection | boolean |
Se a Deteção de Entidade está habilitada, pode ser verdadeira ou falsa |
|
Entities
|
entities | array of object |
Uma matriz de resultados para o modelo de Deteção de Entidade, se ele estiver habilitado. Consulte Deteção de entidade para obter mais informações. |
|
Tipo de Entidade
|
entities.entity_type | string |
O tipo de entidade para a entidade detetada |
|
Texto
|
entities.text | string |
O texto para a entidade detetada |
|
Start
|
entities.start | integer |
A hora de início, em milissegundos, na qual a entidade detetada aparece no arquivo de áudio |
|
Fim
|
entities.end | integer |
O tempo de término, em milissegundos, para a entidade detetada no arquivo de áudio |
|
Limiar de fala
|
speech_threshold | float |
O padrão é null. Rejeite arquivos de áudio que contenham menos do que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive. |
|
Limitado
|
throttled | boolean |
True enquanto uma solicitação é limitada e false quando uma solicitação não é mais limitada |
|
Erro
|
error | string |
Mensagem de erro do motivo da falha na transcrição |
|
Modelo de linguagem
|
language_model | string |
O modelo de linguagem que foi usado para a transcrição |
|
Modelo Acústico
|
acoustic_model | string |
O modelo acústico utilizado para a transcrição |
FrasesResposta
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da transcrição
|
id | uuid | |
|
Confiança
|
confidence | double | |
|
Duração do Áudio
|
audio_duration | number | |
|
Frases
|
sentences | array of object | |
|
Texto
|
sentences.text | string | |
|
Start
|
sentences.start | integer | |
|
Fim
|
sentences.end | integer | |
|
Confiança
|
sentences.confidence | double | |
|
Palavras
|
sentences.words | array of object | |
|
Confiança
|
sentences.words.confidence | double | |
|
Start
|
sentences.words.start | integer | |
|
Fim
|
sentences.words.end | integer | |
|
Texto
|
sentences.words.text | string | |
|
Palestrante
|
sentences.words.speaker | string |
O orador da frase se a Diarização do orador estiver ativada, caso contrário null |
|
Palestrante
|
sentences.speaker | string |
O orador da frase se a Diarização do orador estiver ativada, caso contrário null |
ParágrafosResposta
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da transcrição
|
id | uuid | |
|
Confiança
|
confidence | double | |
|
Duração do Áudio
|
audio_duration | number | |
|
Parágrafos
|
paragraphs | array of object | |
|
Texto
|
paragraphs.text | string | |
|
Start
|
paragraphs.start | integer | |
|
Fim
|
paragraphs.end | integer | |
|
Confiança
|
paragraphs.confidence | double | |
|
Palavras
|
paragraphs.words | array of object | |
|
Confiança
|
paragraphs.words.confidence | double | |
|
Start
|
paragraphs.words.start | integer | |
|
Fim
|
paragraphs.words.end | integer | |
|
Texto
|
paragraphs.words.text | string | |
|
Palestrante
|
paragraphs.words.speaker | string |
O orador da frase se a Diarização do orador estiver ativada, caso contrário null |
|
Palestrante
|
paragraphs.speaker | string |
O orador da frase se a Diarização do orador estiver ativada, caso contrário null |
Lista de transcrições
Uma lista de transcrições. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
Limite
|
page_details.limit | integer |
O número de resultados a que esta página está limitada |
|
Contagem de resultados
|
page_details.result_count | integer |
O número real de resultados na página |
|
URL atual
|
page_details.current_url | string |
O URL usado para recuperar a página atual de transcrições |
|
URL anterior
|
page_details.prev_url | string |
O URL para a próxima página de transcrições. O URL anterior aponta sempre para uma página com transcrições mais antigas. |
|
Próximo URL
|
page_details.next_url | string |
O URL para a próxima página de transcrições. O URL seguinte aponta sempre para uma página com transcrições mais recentes. |
|
Transcripts
|
transcripts | array of object | |
|
ID
|
transcripts.id | uuid | |
|
URL do Recurso
|
transcripts.resource_url | string | |
|
Situação
|
transcripts.status | string |
O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro. |
|
Criado
|
transcripts.created | string | |
|
Concluído
|
transcripts.completed | string | |
|
URL de áudio
|
transcripts.audio_url | string | |
|
Erro
|
transcripts.error | string |
Mensagem de erro do motivo da falha na transcrição |
Ficheiro Carregado
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
URL do ficheiro carregado
|
upload_url | string |
Um URL que aponta para o seu arquivo de áudio, acessível apenas pelos servidores do AssemblyAI |
PurgeLemurRequestDataResponse
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da solicitação de limpeza
|
request_id | uuid |
O ID do pedido de eliminação do pedido LeMUR |
|
ID de solicitação do LeMUR para limpar
|
request_id_to_purge | uuid |
O ID da solicitação LeMUR para limpar os dados para |
|
Suprimido
|
deleted | boolean |
Se os dados da solicitação foram excluídos |
LemurTaskResponse
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
Resposta
|
response | string |
A resposta gerada pelo LeMUR. |
|
ID de solicitação LeMUR
|
request_id | uuid |
O ID do pedido LeMUR |
|
Tokens de entrada
|
usage.input_tokens | integer |
O número de tokens de entrada usados pelo modelo |
|
Tokens de saída
|
usage.output_tokens | integer |
O número de tokens de saída gerados pelo modelo |
LemurResposta
| Name | Caminho | Tipo | Description |
|---|---|---|---|
|
Resposta
|
response | string |
A resposta gerada pelo LeMUR. |
|
ID de solicitação LeMUR
|
request_id | uuid |
O ID do pedido LeMUR |
|
Tokens de entrada
|
usage.input_tokens | integer |
O número de tokens de entrada usados pelo modelo |
|
Tokens de saída
|
usage.output_tokens | integer |
O número de tokens de saída gerados pelo modelo |
cadeia (de caracteres)
Este é o tipo de dados básico 'string'.