Usar Agent Bricks: Extração de Informação

Important

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página descreve como criar um agente de IA generativo para extração de informações usando Agent Bricks: Information Extraction.

A Agent Bricks oferece uma abordagem simples para construir sistemas de agentes de IA de alta qualidade e específicos de domínio para casos de uso comuns de IA.

O que é Agent Bricks: Information Extraction?

O Agent Bricks suporta a extração de informações e simplifica o processo de transformação de um grande volume de documentos de texto sem rótulo em uma tabela estruturada com informações extraídas para cada documento.

Exemplos de extração de informações incluem:

Extração de preços e informações de locação de contratos.
Organização de dados a partir de notas de clientes.
Obter detalhes importantes de artigos de notícias.

Blocos de Agente: Extração de Informações aproveita os recursos de avaliação automatizada, incluindo MLflow e Avaliação de agentes, para permitir uma avaliação rápida do trade-off custo-qualidade para a sua tarefa específica de extração. Essa avaliação permite que você tome decisões informadas sobre o equilíbrio entre precisão e investimento de recursos.

O Agent Bricks usa o armazenamento padrão para armazenar transformações de dados temporárias, pontos de verificação de modelo e metadados internos que alimentam cada agente. Na exclusão do agente, todos os dados associados ao agente são removidos do armazenamento padrão.

Requirements

Um espaço de trabalho que inclui o seguinte:
- Mosaic AI Agent Bricks Preview (Beta) ativado. Consulte Gerenciar visualizações do Azure Databricks.
- Computação sem servidor habilitada. Consulte Requisitos de computação sem servidor.
- Catálogo Unity ativado. Consulte Habilitar um espaço de trabalho para o Unity Catalog.
- Um espaço de trabalho em uma das regiões suportadas: centralus, eastus, eastus2, northcentralus, southcentralus. westus, ou westus2.
- Acesso a modelos de base no Unity Catalog por meio do esquema system.ai.
- Acesso a uma política de orçamento sem servidor com um orçamento diferente de zero.
Capacidade de usar a ai_query função SQL.
Arquivos dos quais você deseja extrair dados. Os arquivos devem estar em um volume ou tabela do Catálogo Unity.
- Se você quiser usar PDFs, converta-os em uma tabela do Catálogo Unity primeiro. Consulte Utilizar PDFs em Agent Bricks.
- Para criar seu agente, você precisa de pelo menos 1 documento sem rótulo no volume do Catálogo Unity ou 1 linha na tabela.

Criar um agente de extração de informações

Vá para o ícone Agentes. Agentes no painel de navegação esquerdo do seu espaço de trabalho. No bloco Extração de Informações , clique em Compilar.

Etapa 1: Configurar o agente

Configure seu agente:

No campo Nome , insira um nome para seu agente.
Selecione o tipo de dados que deseja fornecer. Você pode escolher Conjunto de dados sem rótulo ou Conjunto de dados rotulado.
Selecione o conjunto de dados a ser fornecido.

Conjunto de dados sem rótulo

Se você selecionar Conjunto de dados sem rótulo:
1. No campo Local do conjunto de dados , selecione a pasta ou tabela que deseja usar no volume do Catálogo Unity. Se você selecionar uma pasta, a pasta deverá conter documentos em um formato de documento compatível.
  
  Segue-se um exemplo de volume:
  
  /Volumes/main/info-extraction/bbc_articles/
2. Se você estiver fornecendo uma tabela, selecione a coluna que contém os seus dados de texto no menu drop-down. A coluna da tabela deve conter dados em um formato de dados suportado.
  
  Se você quiser usar PDFs, converta-os em uma tabela do Catálogo Unity primeiro. Consulte Utilizar PDFs em Agent Bricks.
3. O Agent Bricks infere e gera automaticamente uma amostra de saída JSON contendo dados extraídos do seu conjunto de dados no campo de saída Sample JSON . Você pode aceitar a saída de exemplo, editá-la ou substituí-la por um exemplo da saída JSON desejada. O agente retorna informações extraídas usando esse formato.
Conjunto de dados rotulado

Se você selecionar Conjunto de dados rotulado:
1. No campo do conjunto de dados de verdades no terreno , selecione a tabela do Catálogo Unity que contém os seus dados de verdade no terreno.
2. No campo Coluna de entrada , selecione a coluna que contém o texto que você deseja que o agente processe. Os dados nesta coluna devem estar no str formato.
3. No campo da coluna de resposta de verdade fundamental , selecione a coluna que contém as respostas ideais esperadas. Os dados nesta coluna devem ser uma cadeia de caracteres JSON. Cada linha nesta coluna deve seguir o mesmo formato JSON. Linhas contendo chaves adicionais ou ausentes não são aceitáveis.
4. No campo de saída Sample JSON , o Agent Bricks gera automaticamente uma saída de amostra JSON usando a primeira linha de dados da coluna de resposta de verdade fundamental. Verifique se essa saída JSON corresponde ao formato esperado.

Verifique se o campo de saída Sample JSON corresponde ao formato de resposta desejado. Editar conforme necessário.

Por exemplo, a seguinte saída JSON de exemplo pode ser usada para extrair informações de um conjunto de artigos de notícias:

{
  "title": "Economy Slides to Recession",
  "category": "Politics",
  "paragraphs": [
    {
      "summary": "GDP fell by 0.1% in the last three months of 2004.",
      "word_count": 38
    },
    {
      "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
      "word_count": 42
    }
  ],
  "tags": ["Recession", "Economy", "Consumer Spending"],
  "estimate_time_to_read_min": 1,
  "published_date": "2005-01-15",
  "needs_review": false
}

Em Escolha de Modelo, selecione o melhor modelo para o seu agente de extração de informação:
- Otimizar para Escala (predefinido): Escolha esta opção se estiver a processar grandes volumes de dados ou preferir um agente económico. Este modelo foi concebido para alto rendimento e tempos de resposta mais rápidos, sendo adequado para a maioria das tarefas de extração de informação.
- Otimize para Complexidade: Escolha esta opção se precisar de raciocínio complexo e priorize a precisão em vez de velocidade e custo. Este modelo oferece capacidades de raciocínio superiores para documentos mais longos (como submissões financeiras) e pode lidar com extrações mais complexas (como extrair 40+ campos de esquema).
Clique em Criar agente.

Formatos de documentos suportados

A tabela a seguir mostra os tipos de arquivo de documento suportados para seus documentos de origem se você fornecer um volume do Catálogo Unity.

Arquivos de código	Ficheiros de documentos	Ficheiros de registo
`.c` `.cc` `.cpp` `.cs` `.css` `.cxx` `.go` `.h` `.hpp` `.htm` `.html` `.java` `.js` `.json` `.jsonl` `.jsx` `.lua` `.md` `.php` `.pl` `.py` `.rb` `.sh` `.swift` `.tex` `.ts` `.tsx`	`.md` `.rst` `.tex` `.txt` `.xml` `.xsd` `.xsl`	`.diff` `.err` `.log` `.out` `.patch`

Formatos de dados suportados

Agent Bricks: Information Extraction suporta os seguintes tipos de dados e esquemas para seus documentos de origem se você fornecer uma tabela do Catálogo Unity. O Agent Bricks também pode extrair esses tipos de dados de cada documento.

str
int
float
boolean
enum (utilizado para tarefas de classificação em que o agente só deve selecionar entre categorias predefinidas)
Objeto
Matrizes

enum (adequado para tarefas de classificação em que queremos que o agente produza apenas a partir de um conjunto de categorias predefinidas) objeto (no lugar de "campos aninhados personalizados") array

Passo 2: Melhore o seu agente

No separador Build, reveja resultados de amostra para o ajudar a refinar a definição do seu esquema e adicione instruções para otimizar os resultados.

À esquerda, analise exemplos de respostas e dê feedback para ajustar melhor o seu agente. Esses exemplos são baseados na configuração atual do agente.
1. Clique numa linha para rever a entrada e a resposta completas.
2. Na parte inferior, ao lado de Está esta resposta correta?, dê feedback selecionando um Sim ou Corrija isto. Para o Fix it feedabck, forneça detalhes adicionais sobre como o agente deve alterar a sua resposta e depois clique Guardar.
3. Depois de terminar de rever todas as respostas, clique no Sim, agente de atualização. Em alternativa, pode clicar em Guardar comentários e atualizar depois de rever pelo menos três respostas.
À direita, em campos de Saída, refine as descrições dos campos do esquema de extração. Essas descrições são nas quais o agente se baseia para entender o que você deseja extrair. Use as respostas de exemplo à esquerda para ajudá-lo a refinar a definição de esquema.
1. Para cada campo, revise e edite a definição de esquema conforme necessário. Use as respostas de exemplo à esquerda para ajudá-lo a refinar essas descrições.
2. Para editar o nome e o tipo do campo, clique no Editar campo.
3. Para adicionar um novo campo, clique no Adicionar novo campo. Insira o nome, o tipo e a descrição e clique em Confirmar.
4. Para remover um campo, clique no Remover campo.
5. Clique em Salvar e atualizar para atualizar a configuração do agente.
(Opcional) À direita, em Instruções, insira todas as instruções globais para seu agente. Estas instruções aplicam-se a todos os elementos extraídos. Clique em Salvar e atualizar para aplicar as instruções.
Novas respostas de amostra são geradas no lado esquerdo. Revise essas respostas atualizadas e continue a refinar a configuração do agente até que as respostas sejam satisfatórias.

Passo 3: Use o seu agente

Você pode usar seu agente em fluxos de trabalho no Databricks. Por defeito, os endpoints do Agent Bricks escalam para zero após três dias de inatividade, por isso só és cobrado pelo tempo de atividade.

Para começar a usar seu agente, clique em Usar. Você pode optar por usar seu agente de várias maneiras:

Extrair dados para todos os documentos: Clique em Iniciar extração para abrir o editor SQL e usar ai_query para enviar solicitações ao seu novo agente de extração de informações.
Criar pipeline ETL: Clique em Criar pipeline para implantar um pipeline que opera em intervalos agendados, aplicando o seu agente a novos dados. Consulte Lakeflow Spark Declarative Pipelines para obter mais informações sobre pipelines.
Teste seu agente: Clique em Abrir no Playground para experimentar seu agente em um ambiente de teste para ver como ele funciona. Veja Converse com LLMs e crie protótipos de aplicações de IA generativa usando o AI Playground para saber mais sobre o AI Playground.

(Opcional) Passo 4: Avalie o seu agente

Para garantir que você criou um agente de alta qualidade, execute uma avaliação e analise o relatório de qualidade resultante.

Muda para a aba Qualidade.
Fazer avaliação.
No painel Nova Avaliação que desliza para fora, configure a avaliação:
1. Selecione o nome da execução da avaliação. Você pode optar por usar um nome gerado ou fornecer um nome personalizado.
2. Selecione o conjunto de dados de avaliação. Você pode optar por usar o mesmo conjunto de dados de origem usado para criar seu agente ou fornecer um conjunto de dados de avaliação personalizado usando dados rotulados ou não rotulados.
Clique em Iniciar avaliação.
Depois de concluir a sua avaliação, reveja o relatório de qualidade:
- A vista Resumo é mostrada como padrão. Revise a qualidade global, o custo, o rendimento e o relatório resumo das métricas de avaliação. Ao lado do campo de esquema para veres como esse campo é avaliado.
- Mude para a vista Detalhada para mais detalhes. Esta vista mostra cada pedido e a pontuação de avaliação para cada métrica. Clique numa solicitação para ver detalhes adicionais, como a entrada, saída, avaliações, rastros e prompts ligados. Também pode editar as avaliações do pedido e fornecer feedback adicional.

Consultar o ponto de extremidade do agente

Na página do agente, clique Consulte o estado do Agente no canto superior direito para obter o endpoint do seu agente implementado e ver os detalhes do endpoint.

Existem várias formas de consultar o endpoint do agente criado. Use os exemplos de código fornecidos no AI Playground como ponto de partida:

Na página do agente, clique em Usar.
Clica em Abrir no parque infantil.
No Playground, clique em Obter código.
Escolha como deseja usar o ponto de extremidade:
- Selecione Aplicar em dados para criar uma consulta SQL que aplique o agente a uma coluna de tabela específica.
- Selecione Curl API para obter um exemplo de código para consultar o ponto de extremidade usando curl.
- Selecione Python API para um exemplo de código para interagir com o endpoint usando Python.

Gerenciar permissões

Por padrão, apenas os autores do Agent Bricks e os administradores do espaço de trabalho têm permissões para o agente. Para permitir que outros usuários editem ou consultem seu agente, você precisa conceder explicitamente a eles permissão.

Para gerenciar permissões em seu agente:

Abra o seu agente no Agent Bricks.
Na parte superior, clique no
Clique em Gerenciar permissões.
Na janela Configurações de Permissão , selecione o usuário, grupo ou entidade de serviço.
Selecione a permissão para conceder:
- Pode gerir: Permite gerir os Agent Bricks, incluindo a configuração de permissões, editar a configuração do agente e a melhoria da sua qualidade.
- Can Query: Permite consultar o endpoint Agent Bricks no AI Playground e através da API. Os usuários com apenas essa permissão não podem visualizar ou editar o agente no Agent Bricks.
Clique em Adicionar.
Clique em Salvar.

Observação

Para pontos de extremidade de agente criados antes de 16 de setembro de 2025, pode conceder permissões de Pode Consultar ao ponto de extremidade na página Pontos de Extremidade de Serviço.

Utilizar PDFs no Agent Bricks

Os PDFs ainda não são suportados nativamente no Agent Bricks: Information Extraction e Custom LLM. No entanto, você pode usar o fluxo de trabalho da interface do usuário do Agent Brick para converter uma pasta de arquivos PDF em markdown e, em seguida, usar a tabela resultante do Unity Catalog como entrada ao criar seu agente. Este fluxo de trabalho utiliza ai_parse_document para a conversão. Siga estes passos:

Clique em Agentes no painel de navegação esquerdo para abrir Blocos de Agente no Databricks.
Nos casos de uso de Extração de Informações ou LLM Personalizado, clique em Usar PDFs.
No painel lateral que se abre, insira os seguintes campos para criar um novo fluxo de trabalho para converter seus PDFs:
1. Selecionar pasta com PDFs ou imagens: Selecione a pasta Unity Catalog que contém os PDFs que você deseja usar.
2. Selecionar tabela de destino: selecione o esquema de destino para a tabela de marcação convertida e, opcionalmente, ajuste o nome da tabela no campo abaixo.
3. Selecione o SQL warehouse ativo: selecione o SQL warehouse para executar o fluxo de trabalho.
Clique em Iniciar importação.
Você será redirecionado para a guia Todos os fluxos de trabalho , que lista todos os seus fluxos de trabalho em PDF. Use esta guia para monitorar o status de seus trabalhos.

Se o fluxo de trabalho falhar, clique no nome do trabalho para abri-lo e exibir mensagens de erro para ajudá-lo a depurar.
Quando o fluxo de trabalho for concluído com êxito, clique no nome do trabalho para abrir a tabela no Gerenciador de Catálogos para explorar e entender as colunas.
Use a tabela Unity Catalog como dados de entrada no Agent Bricks ao configurar seu agente.

Limitations

Os agentes de extração de informações têm um contexto de token com um comprimento máximo de 128k.
Não há suporte para espaços de trabalho com Segurança Reforçada e Conformidade habilitadas.
Não há suporte para tipos de esquema de união.

Feedback

Esta página foi útil?

Last updated on 2025-12-22