Partilhar via


Nutriente - Extrato de PDF (Pré-visualização)

Desbloqueie texto PDF poderoso e extração de dados com ações Nutrient Document Converter Extract. Recupere facilmente texto, dados, extraia pares chave-valor e aproveite a tecnologia OCR para processar documentos digitalizados. Ideal para indexação, pesquisa, análise de conteúdo e fluxos de trabalho de dados estruturados.

Este conector está disponível nos seguintes produtos e regiões:

Serviço Class Regiões
Estúdio Copiloto Premium Todas as regiões do Power Automatic , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Aplicações Lógicas Standard Todas as regiões do Logic Apps , exceto as seguintes:
     - Regiões do Azure Government
     - Regiões do Azure China
     - Departamento de Defesa dos EUA (DoD)
Aplicações Power Premium Todas as regiões do Power Apps , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Automatize o poder Premium Todas as regiões do Power Automatic , exceto as seguintes:
     - Governo dos EUA (CCG)
     - Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Contato
Nome Suporte de nutrientes (anteriormente Muhimbi)
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
Metadados do conector
Editora Muhimbi negociando como Nutriente
Sítio Web https://www.nutrient.io/low-code/
Política de privacidade https://www.nutrient.io/legal/privacy/
Categorias Colaboração; Conteúdo e Ficheiros

Extrair texto e dados de PDFs

O Nutrient Document Converter permite-lhe extrair texto, dados ou páginas específicas de ficheiros PDF como parte de fluxos de trabalho automatizados no Power Automate. Você também pode extrair texto de imagens usando OCR.

Ações disponíveis

Consulte os guias vinculados para obter instruções passo a passo sobre como implementar essas ações em seus fluxos de trabalho.

Pré-requisitos

Para usar o Nutrient Document Converter, você precisa de uma conta gratuita ou de avaliação . Consulte o guia de comparação para entender as diferenças entre esses tipos de conta.

Como Começar

Siga os passos abaixo para começar a usar o conector Nutrient Document Converter:

Problemas conhecidos e limitações

Os documentos protegidos com soluções IRM, DRM, RMS ou AIP não podem ser processados devido a restrições de segurança.

Em caso de dúvidas ou assistência, entre em contato com nossa equipe de suporte.

Limites de Limitação

Name Chamadas Período de Renovação
Chamadas de API por conexão 100 60 segundos

Ações

Extrair pares de valores de chave de um documento PDF

Identifique e extraia pares chave-valor de documentos para processar formulários ou fluxos de trabalho de dados estruturados.

Extrair texto de um arquivo PDF usando OCR

Extraia texto de documentos ou imagens digitalizadas usando a tecnologia OCR, tornando-os pesquisáveis e editáveis.

Extrair texto de um documento PDF

Recupere conteúdo de texto de documentos PDF para facilitar a indexação, pesquisa ou análise de conteúdo.

Extrair pares de valores de chave de um documento PDF

Identifique e extraia pares chave-valor de documentos para processar formulários ou fluxos de trabalho de dados estruturados.

Parâmetros

Name Chave Necessário Tipo Description
Nome do arquivo de origem
source_file_name True string

Nome do ficheiro de origem, incluindo a extensão

Conteúdo do ficheiro de origem
source_file_content True byte

Conteúdo do ficheiro a converter

Linguagem OCR
ocr_language string

Os códigos de idioma para extração de OCR e KVP, separados por '+'. Por exemplo, 'eng+deu+fra' adicionaria inglês, alemão e francês.

DPI
dpi enum

Remover as páginas em branco no PDF

Formato de saída KVP
kvp_format enum

Os formatos de saída separados por vírgulas. Os dados KVP podem ser enviados em JSON, CSV e XML. e.g. json,csv,xml

Intervalo de páginas
page_range string

As páginas a serem processadas pelo KVP. Use a cadeia de caracteres de '1 - 5' para as páginas 1 a 5, ou use a cadeia de caracteres de '1, 5, 6' para especificar as páginas 1 e 5 e 6.

Rotação automática
autorotate enum

Definir isso como 'Sim' girará automaticamente as páginas se o texto não tiver a orientação correta.

Símbolos de corte
trim_symbols enum

Definir isso como 'Sim' removerá todos os símbolos do início/fim dos valores, com exceção dos símbolos hash '#' ou ponto '.

Incluir caixa delimitadora de chave
include_key_bounding_box enum

Incluir os valores da caixa delimitadora para a chave na saída

Incluir caixa delimitadora de valor
include_value_bounding_box enum

Incluir os valores da caixa delimitadora para o valor na saída

Incluir número de página
include_page_number enum

Inclua o número da página para o par de valores de chave na saída

Incluir Confiança
include_confidence enum

Inclua a pontuação de confiança para o par de valores-chave na saída. A confiança é medida entre 0 (sem confiança) e 100 (confiança total).

Limiar de Confiança
confidence_threshold integer

O limiar de confiança que um par de valores-chave deve atingir para ser incluído na saída. Os resultados abaixo do limite são descartados.

Incluir tipo
include_type enum

Incluir o tipo de dados para o par de valores de chave na saída

Chaves esperadas
expected_keys string

A cadeia de caracteres JSON que contém as chaves esperadas e sinônimos

Falha no erro
fail_on_error boolean

Falha no erro

Devoluções

Dados de resposta para todas as operações

Extrair texto de um arquivo PDF usando OCR

Extraia texto de documentos ou imagens digitalizadas usando a tecnologia OCR, tornando-os pesquisáveis e editáveis.

Parâmetros

Name Chave Necessário Tipo Description
Nome do arquivo de origem
source_file_name True string

Nome do ficheiro de origem, incluindo a extensão

Conteúdo do ficheiro de origem
source_file_content True byte

Conteúdo do ficheiro para OCR

Linguagem
language enum

Linguagem

Coordenada X
x string

Coordenada X (em Pts, 1/72 de polegada)

Coordenada Y
y string

Coordenada Y (em Pts, 1/72 de polegada)

Largura
width string

Largura da área OCR (em Pts, 1/72 de polegada)

Altura
height string

Altura da área OCR (em Pts, 1/72 de polegada)

Número da página
page_number string

Número da página (deixar em branco para OCR todas as páginas)

Performance
performance enum

Desempenho ()

Lista negra / lista branca
characters_option enum

Opção de caracteres

Personagens
characters string

Caracteres para a lista negra ou lista branca

Usar paginação
paginate boolean

Paginato

Falha no erro
fail_on_error boolean

Falha no erro

Devoluções

Dados de resposta para operação OCRText

Extrair texto de um documento PDF

Recupere conteúdo de texto de documentos PDF para facilitar a indexação, pesquisa ou análise de conteúdo.

Parâmetros

Name Chave Necessário Tipo Description
Nome do arquivo de origem
source_file_name True string

Nome do ficheiro de origem, incluindo a extensão

Conteúdo do ficheiro de origem
source_file_content True byte

Conteúdo do ficheiro a converter

Intervalo de páginas
page_range string

O intervalo de páginas para extrair texto, por exemplo, 1,5,8-12

Falha no erro
fail_on_error boolean

Falha no erro

Devoluções

Dados de resposta para todas as operações

Definições

ocr_operation_response

Dados de resposta para operação OCRText

Name Caminho Tipo Description
Texto de saída
out_text string

Texto OCRed extraído em texto simples.

Nome do ficheiro base
base_file_name string

Nome do arquivo de entrada sem a extensão.

Código do resultado
result_code enum

Código do resultado da operação.

Detalhes do resultado
result_details string

Detalhes do resultado da operação.

operation_response

Dados de resposta para todas as operações

Name Caminho Tipo Description
Conteúdo do arquivo processado
processed_file_content byte

Arquivo gerado pelo conversor Muhimbi.

Nome do ficheiro base
base_file_name string

Nome do arquivo de entrada sem a extensão.

Código do resultado
result_code enum

Código do resultado da operação.

Detalhes do resultado
result_details string

Detalhes do resultado da operação.