Partilhar via


AssemblyAI (Pré-visualização)

Transcreva e extraia dados de áudio usando a IA de fala da AssemblyAI.

Este conector está disponível nos seguintes produtos e regiões:

Serviço Class Regiões
Estúdio Copiloto Premium Todas as regiões do Power Automatic , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Aplicações Lógicas Standard Todas as regiões do Logic Apps , exceto as seguintes:
     - Regiões do Azure Government
     - Regiões do Azure China
     - Departamento de Defesa dos EUA (DoD)
Aplicações Power Premium Todas as regiões do Power Apps , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Automatize o poder Premium Todas as regiões do Power Automatic , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Contato
Nome Support
URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
Metadados do conector
Editora AssemblyAI
Sítio Web https://www.assemblyai.com
Política de privacidade https://www.assemblyai.com/legal/privacy-policy
Categorias IA

Com o AssemblyAI Connector, você pode usar os modelos do AssemblyAI para processar dados de áudio transcrevendo-os com modelos de reconhecimento de fala, analisando-os com modelos de inteligência de áudio e criando recursos generativos sobre eles com LLMs.

  • Speech-To-Text incluindo muitos recursos configuráveis, como diarização do alto-falante, ortografia personalizada, vocabulário personalizado, etc.
  • Os Modelos de Inteligência de Áudio são modelos adicionais de IA disponíveis e configurados através da configuração de transcrição.
  • O LeMUR permite que você aplique vários modelos LLM às suas transcrições sem a necessidade de construir sua própria infraestrutura RAG para transcrições muito grandes.

Pré-requisitos

Você precisará do seguinte para prosseguir:

Como obter credenciais

Você pode obter uma chave de API AssemblyAI gratuitamente inscrevendo-se em uma conta e copiando a chave de API do painel.

Introdução ao conector

Siga estas etapas para transcrever áudio usando o conector AssemblyAI.

Carregar um ficheiro

Para transcrever um arquivo de áudio usando AssemblyAI, o arquivo precisa estar acessível ao AssemblyAI. Se o seu ficheiro de áudio já estiver acessível através de um URL, pode utilizar o URL existente.

Caso contrário, você pode usar a Upload a File ação para carregar um arquivo para AssemblyAI. Você receberá de volta um URL para o seu arquivo que só pode ser usado para transcrever usando sua chave de API. Depois de transcrever o arquivo, o arquivo será removido dos servidores do AssemblyAI.

Transcrever áudio

Para transcrever o áudio, configure o parâmetro usando o URL do Audio URL arquivo de áudio. Em seguida, configure os parâmetros adicionais para habilitar mais recursos de Reconhecimento de Fala e modelos de Inteligência de Áudio .

O resultado da ação Transcrever áudio é uma transcrição em fila que começará a ser processada imediatamente. Para obter a transcrição completa, você tem duas opções:

  1. Manipular o Webhook Pronto para Transcrição
  2. Sondar o status da transcrição

Manipular o Webhook Pronto para Transcrição

Se você não quiser lidar com o webhook usando Aplicativos Lógicos ou Power Automate, configure o Webhook URL parâmetro em sua Transcribe Audio ação e implemente seu webhook seguindo a documentação do webhook da AssemblyAI.

Para manipular o webhook usando Aplicativos Lógicos ou Power Automate, siga estas etapas:

  1. Criar um aplicativo lógico separado ou Power Automate Flow

  2. Configure When an HTTP request is received como o gatilho:

    • Defina Who Can Trigger The Flow? como Anyone
    • Definido Request Body JSON Schema para:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Defina Method como POST
  3. Adicione uma ação AssemblyAI Get Transcript , passando o do gatilho transcript_id para o Transcript ID parâmetro.

  4. Antes de fazer qualquer outra coisa, você deve verificar se o Status é completed ou error. Adicione uma Condition ação que verifique se a StatusGet Transcript saída erroré :

    • True Na ramificação, adicione uma Terminate ação
      • Defina o Status como Failed
      • Defina o Code como Transcript Error
      • Passe o Error da Get Transcript saída para o Message parâmetro.
    • Você pode deixar a False filial vazia.

    Agora você pode adicionar qualquer ação depois Condition de saber que o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da Get Transcript ação.

  5. Salve seu aplicativo lógico ou fluxo. O HTTP URL será gerado para o When an HTTP request is received gatilho. Copie o HTTP URL e volte para o seu Logic App ou Flow original.

  6. No seu Logic App ou Flow original, atualize a Transcribe Audio ação. Cole o HTTP URL que você copiou anteriormente no Webhook URL parâmetro e salve.

Quando o status da transcrição se tornar completed ou error, o AssemblyAI enviará uma solicitação HTTP POST para a URL do webhook, que será manipulada pelo seu outro Aplicativo Lógico ou Fluxo.

Como alternativa ao uso do webhook, você pode pesquisar o status da transcrição, conforme explicado na próxima seção.

Sondar o status da transcrição

Você pode pesquisar o status da transcrição usando as seguintes etapas:

  • Adicionar uma Initialize variable ação

    • Defina Name como transcript_status
    • Defina Type como String
    • Armazene o Status da Transcribe Audio saída no Value parâmetro
  • Adicionar uma Do until ação

    • Configure o Loop Until parâmetro com o seguinte código Fx:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Este código verifica se a transcript_status variável é completed ou error.
    • Configure o Count parâmetro para 86400
    • Configure o Timeout parâmetro para PT24H

    Dentro da Do until ação, adicione as seguintes ações:

    • Adicionar uma Delay ação que aguarda um segundo
    • Adicione uma Get Transcript ação e passe o ID da Transcribe Audio saída para o Transcript ID parâmetro.
    • Adicionar uma Set variable ação
      • Defina Name como transcript_status
      • Passe a StatusGet Transcript saída para o Value parâmetro

    O Do until loop continuará até que a transcrição seja concluída ou ocorra um erro.

  • Adicione outra Get Transcript ação, como antes, mas adicione-a após o Do until loop para que sua saída fique disponível fora do escopo da Do until ação.

Antes de fazer qualquer outra coisa, você deve verificar se a transcrição Status é completed ou error. Adicione uma Condition ação que verifique se o transcript_status é error:

  • True Na ramificação, adicione uma Terminate ação
    • Defina Status como Failed
    • Defina Code como Transcript Error
    • Passe o Error da Get Transcript saída para o Message parâmetro.
  • Você pode deixar a False filial vazia.

Agora você pode adicionar qualquer ação depois Condition de saber que o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da Get Transcript ação.

Adicionar mais ações

Agora que você tem uma transcrição completa, você pode usar muitas outras ações passando na ID transcrição, como

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Problemas conhecidos e limitações

Nenhum problema conhecido atualmente. Não suportamos Streaming de FalaTo-Text (em tempo real), pois não é possível usar Conectores Personalizados.

Erros e soluções comuns

Você pode encontrar mais informações sobre erros na documentação do AssemblyAI.

FAQ

Você pode encontrar perguntas frequentes em nossa documentação.

A criar uma ligação

O conector suporta os seguintes tipos de autenticação:

Predefinição Parâmetros para criar conexão. Todas as regiões Não compartilhável

Padrão

Aplicável: Todas as regiões

Parâmetros para criar conexão.

Esta conexão não é compartilhável. Se o aplicativo avançado for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Chave da API AssemblyAI securestring A chave da API AssemblyAI para autenticar a API AssemblyAI. Verdade

Limites de Limitação

Name Chamadas Período de Renovação
Chamadas de API por conexão 100 60 segundos

Ações

Carregar um ficheiro multimédia

Carregue um arquivo de mídia para os servidores do AssemblyAI.

Excluir transcrição

Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.

Executar uma tarefa usando o LeMUR

Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.

Limpar dados de solicitação do LeMUR

Exclua os dados de uma solicitação LeMUR enviada anteriormente. Os dados de resposta do LLM, bem como qualquer contexto fornecido na solicitação original serão removidos.

Listar transcrições

Recupere uma lista de transcrições que você criou. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Obter frases na transcrição

Obtenha a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em frases para criar transcrições mais fáceis de ler.

Obter legendas para transcrição

Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas ocultas.

Obter parágrafos na transcrição

Obtenha a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais fáceis de ler.

Obter transcrição

Obtenha o recurso de transcrição. A transcrição fica pronta quando o "status" é "concluído".

Obter áudio editado

Recupere o objeto de áudio editado que contém o status e a URL para o áudio editado.

Pesquisar palavras na transcrição

Pesquise palavras-chave na transcrição. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.

Recuperar resposta do LeMUR

Recupere uma resposta LeMUR que foi gerada anteriormente.

Transcrever áudio

Crie uma transcrição a partir de um arquivo de mídia acessível por meio de uma URL.

Carregar um ficheiro multimédia

Carregue um arquivo de mídia para os servidores do AssemblyAI.

Parâmetros

Name Chave Necessário Tipo Description
Conteúdo do Ficheiro
file True binary

O ficheiro a carregar.

Devoluções

Excluir transcrição

Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.

Parâmetros

Name Chave Necessário Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Devoluções

Um objeto de transcrição

Body
Transcript

Executar uma tarefa usando o LeMUR

Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.

Parâmetros

Name Chave Necessário Tipo Description
Pronta
prompt True string

Seu texto para solicitar que o modelo produza uma saída desejada, incluindo qualquer contexto que você queira passar para o modelo.

IDs de transcrição
transcript_ids array of uuid

Uma lista de transcrições concluídas com texto. Até um máximo de 100 ficheiros ou 100 horas, o que for menor. Use transcript_ids ou input_text como entrada no LeMUR.

Texto de entrada
input_text string

Dados de transcrição formatados personalizados. Tamanho máximo é o limite de contexto do modelo selecionado, cujo padrão é 100000. Use transcript_ids ou input_text como entrada no LeMUR.

Context
context string

Contexto para fornecer o modelo. Isso pode ser uma cadeia de caracteres ou um valor JSON de forma livre.

Modelo Final
final_model string

O modelo que é usado para o prompt final após a compactação é executada.

Tamanho máximo de saída
max_output_size integer

Tamanho máximo de saída em tokens, até 4000

Temperatura
temperature float

A temperatura a ser usada para o modelo. Valores mais altos resultam em respostas mais criativas, valores mais baixos são mais conservadores. Pode ser qualquer valor entre 0,0 e 1,0 inclusive.

Devoluções

Limpar dados de solicitação do LeMUR

Exclua os dados de uma solicitação LeMUR enviada anteriormente. Os dados de resposta do LLM, bem como qualquer contexto fornecido na solicitação original serão removidos.

Parâmetros

Name Chave Necessário Tipo Description
ID de solicitação LeMUR
request_id True string

O ID da solicitação LeMUR cujos dados você deseja excluir. Tal consta da resposta ao pedido inicial.

Devoluções

Listar transcrições

Recupere uma lista de transcrições que você criou. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Parâmetros

Name Chave Necessário Tipo Description
Limite
limit integer

Quantidade máxima de transcrições a recuperar

Situação
status string

O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro.

Criado em
created_on date

Só obtenha transcrições criadas nesta data

Antes da ID
before_id uuid

Obter transcrições que foram criadas antes deste ID de transcrição

Após a identificação
after_id uuid

Obter transcrições que foram criadas após este ID de transcrição

Apenas acelerado
throttled_only boolean

Obtém apenas transcrições limitadas, substitui o filtro de status

Devoluções

Uma lista de transcrições. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Obter frases na transcrição

Obtenha a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em frases para criar transcrições mais fáceis de ler.

Parâmetros

Name Chave Necessário Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Devoluções

Obter legendas para transcrição

Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas ocultas.

Parâmetros

Name Chave Necessário Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Formato das legendas
subtitle_format True string

Formato das legendas

Número de caracteres por legenda
chars_per_caption integer

O número máximo de caracteres por legenda

Devoluções

response
string

Obter parágrafos na transcrição

Obtenha a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais fáceis de ler.

Parâmetros

Name Chave Necessário Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Devoluções

Obter transcrição

Obtenha o recurso de transcrição. A transcrição fica pronta quando o "status" é "concluído".

Parâmetros

Name Chave Necessário Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Devoluções

Um objeto de transcrição

Body
Transcript

Obter áudio editado

Recupere o objeto de áudio editado que contém o status e a URL para o áudio editado.

Parâmetros

Name Chave Necessário Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Devoluções

Pesquisar palavras na transcrição

Pesquise palavras-chave na transcrição. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.

Parâmetros

Name Chave Necessário Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Palavras
words True array

Palavras-chave a procurar

Devoluções

Recuperar resposta do LeMUR

Recupere uma resposta LeMUR que foi gerada anteriormente.

Parâmetros

Name Chave Necessário Tipo Description
ID de solicitação LeMUR
request_id True string

O ID da solicitação LeMUR que você fez anteriormente. Tal consta da resposta ao pedido inicial.

Devoluções

Transcrever áudio

Crie uma transcrição a partir de um arquivo de mídia acessível por meio de uma URL.

Parâmetros

Name Chave Necessário Tipo Description
URL de áudio
audio_url True string

O URL do ficheiro de áudio ou vídeo a transcrever.

Código do Idioma
language_code string

O idioma do seu ficheiro de áudio. Os valores possíveis são encontrados em Idiomas suportados. O valor padrão é 'en_us'.

Deteção de Idioma
language_detection boolean

Habilite a deteção automática de idioma, verdadeiro ou falso.

Modelo de Fala
speech_model string

O modelo de fala a utilizar para a transcrição.

Pontuar
punctuate boolean

Ativar Pontuação Automática, pode ser verdadeiro ou falso

Formatar texto
format_text boolean

Ativar formatação de texto, pode ser verdadeiro ou falso

Disfluências
disfluencies boolean

Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser verdadeiro ou falso

Canal duplo
dual_channel boolean

Ativar transcrição de canal duplo, pode ser verdadeiro ou falso.

Webhook URL
webhook_url string

O URL para o qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falhou e uma solicitação quando o áudio editado está pronto se redact_pii_audio estiver habilitado.

Nome do cabeçalho Webhook Auth
webhook_auth_header_name string

O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha

Valor do cabeçalho de autenticação Webhook
webhook_auth_header_value string

O valor do cabeçalho a ser enviado de volta com a transcrição concluída ou solicitações de webhook com falha para maior segurança

Frases-chave
auto_highlights boolean

Ativar frases-chave, verdadeiras ou falsas

Áudio a partir de
audio_start_from integer

O ponto no tempo, em milissegundos, para começar a transcrever em seu arquivo de mídia

Áudio termina em
audio_end_at integer

O ponto no tempo, em milissegundos, para parar de transcrever em seu arquivo de mídia

Aumento de palavras
word_boost array of string

A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para

Nível de Aumento de Palavras
boost_param string

Quanto aumentar as palavras especificadas

Filtrar palavrões
filter_profanity boolean

Filtrar palavrões do texto transcrito, podem ser verdadeiros ou falsos

Redação de PII
redact_pii boolean

Redigir PII do texto transcrito usando o modelo Redact PII, pode ser verdadeiro ou falso

Redact PII Audio
redact_pii_audio boolean

Gere uma cópia do arquivo de mídia original com PII falado "apitado", pode ser verdadeiro ou falso. Consulte Redação de PII para obter mais detalhes.

Redact Qualidade de áudio PII
redact_pii_audio_quality string

Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente suporta mp3 (padrão) e wav. Consulte Redação de PII para obter mais detalhes.

Redact PII Condições
redact_pii_policies array of string

A lista de políticas de PII Redaction a serem habilitadas. Consulte Redação de PII para obter mais detalhes.

Substituição de PII de redação
redact_pii_sub string

A lógica de substituição para PII detetada pode ser "entity_name" ou "hash". Consulte Redação de PII para obter mais detalhes.

Etiquetas dos altifalantes
speaker_labels boolean

Ativar a diarização do alto-falante, pode ser verdadeiro ou falso

Oradores esperados
speakers_expected integer

Informa ao modelo de etiqueta do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte Diarização do alto-falante para obter mais detalhes.

Moderação de conteúdo
content_safety boolean

Ativar moderação de conteúdo, pode ser verdadeiro ou falso

Confiança na moderação de conteúdo
content_safety_confidence integer

O limiar de confiança para o modelo de moderação de conteúdo. Os valores devem estar entre 25 e 100.

Deteção de Tópicos
iab_categories boolean

Ativar a Deteção de Tópicos, pode ser verdadeiro ou falso

De
from True array of string

Palavras ou frases a substituir

Para
to True string

Palavra ou frase a substituir por

Análise de Sentimentos
sentiment_analysis boolean

Ativar Análise de Sentimento, pode ser verdadeiro ou falso

Capítulos Automáticos
auto_chapters boolean

Ativar capítulos automáticos, pode ser verdadeiro ou falso

Deteção de entidades
entity_detection boolean

Ativar Deteção de Entidade, pode ser verdadeiro ou falso

Limiar de fala
speech_threshold float

Rejeite arquivos de áudio que contenham menos do que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.

Ativar Sumarização
summarization boolean

Ativar Sumarização, pode ser verdadeiro ou falso

Modelo de resumo
summary_model string

O modelo para resumir a transcrição

Tipo de resumo
summary_type string

O tipo de resumo

Ativar tópicos personalizados
custom_topics boolean

Ativar tópicos personalizados, verdadeiros ou falsos

Tópicos personalizados
topics array of string

A lista de tópicos personalizados

Devoluções

Um objeto de transcrição

Body
Transcript

Definições

RedactedAudioResponse

Name Caminho Tipo Description
Situação
status string

O status do áudio editado

URL de áudio editado
redacted_audio_url string

O URL do arquivo de áudio editado

WordSearchResponse

Name Caminho Tipo Description
ID da transcrição
id uuid

O ID da transcrição

Contagem total de partidas
total_count integer

A contagem total de todas as instâncias correspondentes. Por exemplo, a palavra 1 correspondeu 2 vezes, e a palavra 2 correspondeu 3 vezes, total_count será igual a 5.

Correspondências
matches array of object

As correspondências da pesquisa

Texto
matches.text string

A palavra correspondente

Contar
matches.count integer

A quantidade total de vezes que a palavra está na transcrição

Carimbos de data/hora
matches.timestamps array of array

Uma matriz de carimbos de data/hora

Data e Hora
matches.timestamps array of integer

Uma matriz de carimbos de data/hora estruturados como [start_time, end_time] em milissegundos

Indexes
matches.indexes array of integer

Uma matriz de todos os locais de índice para essa palavra dentro da matriz de palavras da transcrição concluída

Transcrever

Um objeto de transcrição

Name Caminho Tipo Description
ID
id uuid

O identificador exclusivo da sua transcrição

URL de áudio
audio_url string

O URL da mídia que foi transcrita

Situação
status string

O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro.

Código do Idioma
language_code string

O idioma do seu ficheiro de áudio. Os valores possíveis são encontrados em Idiomas suportados. O valor padrão é 'en_us'.

Deteção de Idioma
language_detection boolean

Se a deteção automática de idioma está ativada, verdadeiro ou falso

Modelo de Fala
speech_model string

O modelo de fala a utilizar para a transcrição.

Texto
text string

A transcrição textual do seu ficheiro multimédia

Palavras
words array of object

Uma matriz de objetos de palavras temporalmente sequenciais, um para cada palavra na transcrição. Consulte Reconhecimento de fala para obter mais informações.

Confiança
words.confidence double
Start
words.start integer
Fim
words.end integer
Texto
words.text string
Palestrante
words.speaker string

O orador da frase se a Diarização do orador estiver ativada, caso contrário null

Enunciados
utterances array of object

Quando dual_channel ou speaker_labels estiver habilitado, uma lista de objetos de emissão passo a passo. Consulte Diarização de alto-falante para obter mais informações.

Confiança
utterances.confidence double

A pontuação de confiança para a transcrição deste enunciado

Start
utterances.start integer

O tempo de início, em milissegundos, da emissão no arquivo de áudio

Fim
utterances.end integer

O tempo de término, em milissegundos, da emissão no arquivo de áudio

Texto
utterances.text string

O texto para este enunciado

Palavras
utterances.words array of object

As palavras no enunciado.

Confiança
utterances.words.confidence double
Start
utterances.words.start integer
Fim
utterances.words.end integer
Texto
utterances.words.text string
Palestrante
utterances.words.speaker string

O orador da frase se a Diarização do orador estiver ativada, caso contrário null

Palestrante
utterances.speaker string

O orador deste enunciado, onde a cada orador é atribuída uma letra maiúscula sequencial - por exemplo, "A" para o orador A, "B" para o orador B, etc.

Confiança
confidence double

O escore de confiança para o transcrito, entre 0,0 (baixa confiança) e 1,0 (alta confiança)

Duração do Áudio
audio_duration integer

A duração do arquivo de mídia deste objeto de transcrição, em segundos

Pontuar
punctuate boolean

Se a Pontuação Automática está ativada, verdadeira ou falsa

Formatar texto
format_text boolean

Se a Formatação de Texto está ativada, verdadeira ou falsa

Disfluências
disfluencies boolean

Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser verdadeiro ou falso

Canal duplo
dual_channel boolean

Se a transcrição de canal duplo foi habilitada na solicitação de transcrição, verdadeira ou falsa

Webhook URL
webhook_url string

O URL para o qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falhou e uma solicitação quando o áudio editado está pronto se redact_pii_audio estiver habilitado.

Código de status HTTP Webhook
webhook_status_code integer

O código de status que recebemos do seu servidor ao entregar a transcrição concluída ou falha na solicitação de webhook, se um URL de webhook foi fornecido

Webhook Auth ativado
webhook_auth boolean

Se os detalhes de autenticação do webhook foram fornecidos

Nome do cabeçalho Webhook Auth
webhook_auth_header_name string

O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha

Aumento de velocidade
speed_boost boolean

Se o aumento de velocidade está ativado

Frases-chave
auto_highlights boolean

Se as Frases-chave estão habilitadas, verdadeiras ou falsas

Situação
auto_highlights_result.status string

Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou

Results
auto_highlights_result.results array of object

Uma matriz temporalmente sequencial de frases-chave

Contar
auto_highlights_result.results.count integer

O número total de vezes que a frase-chave aparece no arquivo de áudio

Classificação
auto_highlights_result.results.rank float

A relevância total para o arquivo de áudio geral desta frase-chave - um número maior significa mais relevante

Texto
auto_highlights_result.results.text string

O próprio texto da frase-chave

Carimbos de data/hora
auto_highlights_result.results.timestamps array of object

O carimbo de data/hora da frase-chave

Start
auto_highlights_result.results.timestamps.start integer

A hora de início em milissegundos

Fim
auto_highlights_result.results.timestamps.end integer

O tempo final em milissegundos

Áudio a partir de
audio_start_from integer

O ponto no tempo, em milissegundos, no arquivo em que a transcrição foi iniciada

Áudio termina em
audio_end_at integer

O ponto no tempo, em milissegundos, no arquivo em que a transcrição foi encerrada

Aumento de palavras
word_boost array of string

A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para

Impulso
boost_param string

O valor do parâmetro boost da palavra

Filtrar palavrões
filter_profanity boolean

Se a Filtragem de palavrões está ativada, verdadeira ou falsa

Redação de PII
redact_pii boolean

Se a Redação de PII está habilitada, verdadeira ou falsa

Redact PII Audio
redact_pii_audio boolean

Se uma versão editada do arquivo de áudio foi gerada, verdadeira ou falsa. Consulte Redação de PII para obter mais informações.

Redact Qualidade de áudio PII
redact_pii_audio_quality string

Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente suporta mp3 (padrão) e wav. Consulte Redação de PII para obter mais detalhes.

Redact PII Condições
redact_pii_policies array of string

A lista de políticas de Redação de PII que foram habilitadas, se a Redação de PII estiver habilitada. Consulte Redação de PII para obter mais informações.

Substituição de PII de redação
redact_pii_sub string

A lógica de substituição para PII detetada pode ser "entity_name" ou "hash". Consulte Redação de PII para obter mais detalhes.

Etiquetas dos altifalantes
speaker_labels boolean

Se a diarização do alto-falante está ativada, pode ser verdadeira ou falsa

Oradores esperados
speakers_expected integer

Informe ao modelo de etiqueta do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte Diarização do alto-falante para obter mais detalhes.

Moderação de conteúdo
content_safety boolean

Se a moderação de conteúdo está ativada, pode ser verdadeira ou falsa

Situação
content_safety_labels.status string

Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou

Results
content_safety_labels.results array of object
Texto
content_safety_labels.results.text string

A transcrição da seção sinalizada pelo modelo de moderação de conteúdo

Rótulos / Etiquetas
content_safety_labels.results.labels array of object

Uma série de rótulos de segurança, um por tópico sensível que foi detetado na seção

Etiqueta
content_safety_labels.results.labels.label string

O rótulo do tema sensível

Confiança
content_safety_labels.results.labels.confidence double

O índice de confiança para o tema em discussão, de 0 a 1

Severity
content_safety_labels.results.labels.severity double

Quão severamente o tópico é discutido na seção, de 0 a 1

Início do índice de frases
content_safety_labels.results.sentences_idx_start integer

O índice de frases no qual a seção começa

Fim do Índice de Sentenças
content_safety_labels.results.sentences_idx_end integer

O índice de frases no qual a seção termina

Start
content_safety_labels.results.timestamp.start integer

A hora de início em milissegundos

Fim
content_safety_labels.results.timestamp.end integer

O tempo final em milissegundos

Resumo
content_safety_labels.summary object

Um resumo dos resultados de confiança da moderação de conteúdo para todo o arquivo de áudio

Resumo da pontuação de gravidade
content_safety_labels.severity_score_summary object

Um resumo dos resultados da severidade da moderação de conteúdo para todo o arquivo de áudio

Deteção de Tópicos
iab_categories boolean

Se a Deteção de Tópicos está ativada, pode ser verdadeira ou falsa

Situação
iab_categories_result.status string

Ou bem-sucedido, ou indisponível no caso raro em que o modelo falhou

Results
iab_categories_result.results array of object

Uma matriz de resultados para o modelo de deteção de tópicos

Texto
iab_categories_result.results.text string

O texto na transcrição em que ocorre um tópico detetado

Rótulos / Etiquetas
iab_categories_result.results.labels array of object
Pertinência
iab_categories_result.results.labels.relevance double

Quão relevante é o tópico detetado de um tópico detetado

Etiqueta
iab_categories_result.results.labels.label string

O rótulo taxonômico IAB para o rótulo do tópico detetado, onde > denota relação supertópico/subtópico

Start
iab_categories_result.results.timestamp.start integer

A hora de início em milissegundos

Fim
iab_categories_result.results.timestamp.end integer

O tempo final em milissegundos

Resumo
iab_categories_result.summary object

A relevância geral do tópico para todo o arquivo de áudio

Ortografia personalizada
custom_spelling array of object

Personalizar como as palavras são escritas e formatadas usando valores de e para

De
custom_spelling.from array of string

Palavras ou frases a substituir

Para
custom_spelling.to string

Palavra ou frase a substituir por

Capítulos automáticos ativados
auto_chapters boolean

Se os Capítulos Automáticos estão ativados, podem ser verdadeiros ou falsos

Capítulos
chapters array of object

Uma matriz de capítulos temporalmente sequenciais para o arquivo de áudio

Essência
chapters.gist string

Um resumo ultracurto (apenas algumas palavras) do conteúdo falado no capítulo

Manchete
chapters.headline string

Um resumo de uma única frase do conteúdo falado durante o capítulo

Resumo
chapters.summary string

Um resumo de um parágrafo do conteúdo falado durante o capítulo

Start
chapters.start integer

O tempo de início, em milissegundos, para o capítulo

Fim
chapters.end integer

O tempo de início, em milissegundos, para o capítulo

Sumarização ativada
summarization boolean

Se a Sumarização está ativada, verdadeira ou falsa

Tipo de resumo
summary_type string

O tipo de resumo gerado, se a Sumarização estiver habilitada

Modelo de resumo
summary_model string

O modelo de Sumarização usado para gerar o resumo, se a Sumarização estiver habilitada

Resumo
summary string

O resumo gerado do arquivo de mídia, se a Sumarização estiver habilitada

Tópicos personalizados ativados
custom_topics boolean

Se os tópicos personalizados estão habilitados, verdadeiro ou falso

Tópicos
topics array of string

A lista de tópicos personalizados fornecida se os tópicos personalizados estiverem habilitados

Análise de Sentimentos
sentiment_analysis boolean

Se a Análise de Sentimento está ativada, pode ser verdadeira ou falsa

Resultados da Análise de Sentimento
sentiment_analysis_results array of object

Uma matriz de resultados para o modelo de Análise de Sentimento, se ele estiver habilitado. Consulte Análise de sentimento para obter mais informações.

Texto
sentiment_analysis_results.text string

A transcrição da sentença

Start
sentiment_analysis_results.start integer

O tempo de início, em milissegundos, da frase

Fim
sentiment_analysis_results.end integer

O tempo de término, em milissegundos, da frase

Sentimento
sentiment_analysis_results.sentiment

O sentimento detetado para a frase, um de POSITIVO, NEUTRO, NEGATIVO

Confiança
sentiment_analysis_results.confidence double

O escore de confiança para o sentimento detetado da sentença, de 0 a 1

Palestrante
sentiment_analysis_results.speaker string

O orador da frase se a Diarização do orador estiver ativada, caso contrário null

Deteção de entidades
entity_detection boolean

Se a Deteção de Entidade está habilitada, pode ser verdadeira ou falsa

Entities
entities array of object

Uma matriz de resultados para o modelo de Deteção de Entidade, se ele estiver habilitado. Consulte Deteção de entidade para obter mais informações.

Tipo de Entidade
entities.entity_type string

O tipo de entidade para a entidade detetada

Texto
entities.text string

O texto para a entidade detetada

Start
entities.start integer

A hora de início, em milissegundos, na qual a entidade detetada aparece no arquivo de áudio

Fim
entities.end integer

O tempo de término, em milissegundos, para a entidade detetada no arquivo de áudio

Limiar de fala
speech_threshold float

O padrão é null. Rejeite arquivos de áudio que contenham menos do que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.

Limitado
throttled boolean

True enquanto uma solicitação é limitada e false quando uma solicitação não é mais limitada

Erro
error string

Mensagem de erro do motivo da falha na transcrição

Modelo de linguagem
language_model string

O modelo de linguagem que foi usado para a transcrição

Modelo Acústico
acoustic_model string

O modelo acústico utilizado para a transcrição

FrasesResposta

Name Caminho Tipo Description
ID da transcrição
id uuid
Confiança
confidence double
Duração do Áudio
audio_duration number
Frases
sentences array of object
Texto
sentences.text string
Start
sentences.start integer
Fim
sentences.end integer
Confiança
sentences.confidence double
Palavras
sentences.words array of object
Confiança
sentences.words.confidence double
Start
sentences.words.start integer
Fim
sentences.words.end integer
Texto
sentences.words.text string
Palestrante
sentences.words.speaker string

O orador da frase se a Diarização do orador estiver ativada, caso contrário null

Palestrante
sentences.speaker string

O orador da frase se a Diarização do orador estiver ativada, caso contrário null

ParágrafosResposta

Name Caminho Tipo Description
ID da transcrição
id uuid
Confiança
confidence double
Duração do Áudio
audio_duration number
Parágrafos
paragraphs array of object
Texto
paragraphs.text string
Start
paragraphs.start integer
Fim
paragraphs.end integer
Confiança
paragraphs.confidence double
Palavras
paragraphs.words array of object
Confiança
paragraphs.words.confidence double
Start
paragraphs.words.start integer
Fim
paragraphs.words.end integer
Texto
paragraphs.words.text string
Palestrante
paragraphs.words.speaker string

O orador da frase se a Diarização do orador estiver ativada, caso contrário null

Palestrante
paragraphs.speaker string

O orador da frase se a Diarização do orador estiver ativada, caso contrário null

Lista de transcrições

Uma lista de transcrições. As transcrições são classificadas do mais recente para o mais antigo. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Name Caminho Tipo Description
Limite
page_details.limit integer

O número de resultados a que esta página está limitada

Contagem de resultados
page_details.result_count integer

O número real de resultados na página

URL atual
page_details.current_url string

O URL usado para recuperar a página atual de transcrições

URL anterior
page_details.prev_url string

O URL para a próxima página de transcrições. O URL anterior aponta sempre para uma página com transcrições mais antigas.

Próximo URL
page_details.next_url string

O URL para a próxima página de transcrições. O URL seguinte aponta sempre para uma página com transcrições mais recentes.

Transcripts
transcripts array of object
ID
transcripts.id uuid
URL do Recurso
transcripts.resource_url string
Situação
transcripts.status string

O estado da sua transcrição. Os valores possíveis são enfileirados, processados, concluídos ou com erro.

Criado
transcripts.created string
Concluído
transcripts.completed string
URL de áudio
transcripts.audio_url string
Erro
transcripts.error string

Mensagem de erro do motivo da falha na transcrição

Ficheiro Carregado

Name Caminho Tipo Description
URL do ficheiro carregado
upload_url string

Um URL que aponta para o seu arquivo de áudio, acessível apenas pelos servidores do AssemblyAI

PurgeLemurRequestDataResponse

Name Caminho Tipo Description
ID da solicitação de limpeza
request_id uuid

O ID do pedido de eliminação do pedido LeMUR

ID de solicitação do LeMUR para limpar
request_id_to_purge uuid

O ID da solicitação LeMUR para limpar os dados para

Suprimido
deleted boolean

Se os dados da solicitação foram excluídos

LemurTaskResponse

Name Caminho Tipo Description
Resposta
response string

A resposta gerada pelo LeMUR.

ID de solicitação LeMUR
request_id uuid

O ID do pedido LeMUR

Tokens de entrada
usage.input_tokens integer

O número de tokens de entrada usados pelo modelo

Tokens de saída
usage.output_tokens integer

O número de tokens de saída gerados pelo modelo

LemurResposta

Name Caminho Tipo Description
Resposta
response string

A resposta gerada pelo LeMUR.

ID de solicitação LeMUR
request_id uuid

O ID do pedido LeMUR

Tokens de entrada
usage.input_tokens integer

O número de tokens de entrada usados pelo modelo

Tokens de saída
usage.output_tokens integer

O número de tokens de saída gerados pelo modelo

cadeia (de caracteres)

Este é o tipo de dados básico 'string'.