Compartir a través de


Consulte Uso de Agent Bricks: extracción de información

Important

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

En esta página se describe cómo crear un agente de IA generativo para la extracción de información usando Agent Bricks: Information Extraction.

Agent Bricks proporciona un enfoque sencillo para crear sistemas de agentes de inteligencia artificial comunes específicos de un dominio y de alta calidad para casos de uso comunes de inteligencia artificial.

¿Qué es Agent Bricks: Extracción de información?

Agent Bricks admite la extracción de información y simplifica el proceso de transformar un gran volumen de documentos de texto sin etiquetar en una tabla estructurada con información extraída para cada documento.

Entre los ejemplos de extracción de información se incluyen:

  • Extracción de precios e información de arrendamiento desde contratos.
  • Organización de datos de notas del cliente.
  • Obtener detalles importantes de los artículos de noticias.

Agent Bricks: La extracción de información aprovecha las funcionalidades de evaluación automatizadas, como MLflow y Evaluación del agente, para permitir una evaluación rápida del equilibrio de calidad de los costos para la tarea de extracción específica. Esta evaluación le permite tomar decisiones fundamentadas sobre el equilibrio entre la precisión y la inversión de recursos.

Agent Bricks usa el almacenamiento predeterminado para almacenar transformaciones de datos temporales, puntos de control de modelo y metadatos internos que potencian a cada agente. En la eliminación del agente, todos los datos asociados al agente se quitan del almacenamiento predeterminado.

Requirements

Creación de un agente de extracción de información

Vaya al icono Agentes.Agentes en el panel de navegación izquierdo del área de trabajo. En el icono Extracción de información , haga clic en Compilar.

Paso 1: Configurar el agente

Configure su agente:

  1. En el campo Nombre , escriba un nombre para el agente.

  2. Seleccione el tipo de datos que desea proporcionar. Puede elegir un conjunto de datos sin etiquetar o un conjunto de datos etiquetado.

  3. Seleccione el conjunto de datos que se va a proporcionar.

    Conjunto de datos sin etiquetar

    Si selecciona Conjunto de datos sin etiquetar:

    1. En el campo Ubicación del conjunto de datos , seleccione la carpeta o tabla que desea usar en el volumen del catálogo de Unity. Si selecciona una carpeta, la carpeta debe contener documentos en un formato de documento compatible.

      A continuación se muestra un volumen de ejemplo:

      /Volumes/main/info-extraction/bbc_articles/

    2. Si va a proporcionar una tabla, seleccione la columna que contiene los datos de texto en la lista desplegable. La columna de tabla debe contener datos en un formato de datos compatible.

      Si quiere usar archivos PDF, conviértalos primero en una tabla de catálogo de Unity. Consulte Uso de PDFs en Agent Bricks.

    3. Agent Bricks deduce automáticamente y genera una salida JSON de ejemplo que contiene los datos extraídos del conjunto de datos en el campo Salida JSON de ejemplo. Puede aceptar la salida de ejemplo, editarla o reemplazarla por un ejemplo de la salida JSON deseada. El agente devuelve información extraída con este formato.

    Conjunto de datos etiquetado

    Si selecciona Conjunto de datos etiquetado:

    1. En el campo Conjunto de datos de verdades del suelo, seleccione la tabla del catálogo de Unity que contiene los datos de verdades del terreno.
    2. En el campo Columna de entrada , seleccione la columna que contiene el texto que desea que procese el agente. Los datos de esta columna deben estar en str formato.
    3. En el campo Columna de respuesta de la verdad de terreno, seleccione la columna que contiene las respuestas ideales esperadas. Los datos de esta columna deben ser una cadena JSON. Cada fila de esta columna debe seguir el mismo formato JSON. Las filas que contienen claves adicionales o que faltan no son aceptables.
    4. En el campo Ejemplo de salida JSON, Agent Bricks genera automáticamente una salida JSON de ejemplo utilizando la primera fila de datos de la columna de respuesta del ground truth. Compruebe que esta salida JSON coincide con el formato esperado.
  4. Verifique que el campo salida JSON de ejemplo coincida con el formato de respuesta deseado. Edite según sea necesario.

    Por ejemplo, la siguiente salida JSON de ejemplo podría usarse para extraer información de un conjunto de artículos de noticias:

    {
      "title": "Economy Slides to Recession",
      "category": "Politics",
      "paragraphs": [
        {
          "summary": "GDP fell by 0.1% in the last three months of 2004.",
          "word_count": 38
        },
        {
          "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
          "word_count": 42
        }
      ],
      "tags": ["Recession", "Economy", "Consumer Spending"],
      "estimate_time_to_read_min": 1,
      "published_date": "2005-01-15",
      "needs_review": false
    }
    
  5. En Opción de modelo, seleccione el mejor modelo para el agente de extracción de información:

    • Optimizar para escala (valor predeterminado): elija esta opción si está procesando grandes volúmenes de datos o prefiere un agente rentable. Este modelo está diseñado para un alto rendimiento y un tiempo de respuesta más rápido y es adecuado para la mayoría de las tareas de extracción de información.
    • Optimizar para complejidad: elija esta opción si necesita un razonamiento complejo y dé prioridad a la precisión sobre la velocidad y el costo. Este modelo ofrece funcionalidades de razonamiento más altas para documentos más largos (como las presentaciones financieras) y puede controlar extracciones más complejas (como extraer más de 40 campos de esquema).
  6. Haga clic en Crear agente.

Formatos de documento admitidos

En la tabla siguiente se muestran los tipos de archivo de documento admitidos para los documentos de origen si proporciona un volumen de Catálogo de Unity.

Archivos de código Archivos de documentos Archivos de registro
  • .c
  • .cc
  • .cpp
  • .cs
  • .css
  • .cxx
  • .go
  • .h
  • .hpp
  • .htm
  • .html
  • .java
  • .js
  • .json
  • .jsonl
  • .jsx
  • .lua
  • .md
  • .php
  • .pl
  • .py
  • .rb
  • .sh
  • .swift
  • .tex
  • .ts
  • .tsx
  • .md
  • .rst
  • .tex
  • .txt
  • .xml
  • .xsd
  • .xsl
  • .diff
  • .err
  • .log
  • .out
  • .patch

Formatos de datos admitidos

Agent Bricks: La extracción de información admite los siguientes tipos de datos y esquemas para los documentos de origen si proporciona una tabla de catálogo de Unity. Agent Bricks también puede extraer estos tipos de datos de cada documento.

  • str
  • int
  • float
  • boolean
  • enum (se usa para las tareas de clasificación donde el agente solo debe seleccionar entre categorías predefinidas)
  • Objeto
  • Matrices

enumeración (adecuada para las tareas de clasificación en las que queremos que el agente emita solo a partir de un conjunto de categorías predefinidas) objeto (en lugar de "campos anidados personalizados") matriz

Paso 2: Mejorar su agente

En la pestaña Compilar , revise las salidas de ejemplo para ayudarle a refinar la definición del esquema y agregar instrucciones para obtener mejores resultados.

  1. A la izquierda, revise las muestras de respuestas y proporcione comentarios para ajustar su agente. Estos ejemplos se basan en la configuración actual del agente.

    1. Haga clic en una fila para revisar la entrada y la respuesta completas.
    2. En la parte inferior, junto a ¿esta respuesta es correcta?, proporcione comentarios seleccionando el icono Pulgar hacia arriba. Icono Sí o Pulgar hacia abajo. Corrijalo. En Fix it feedback, proporcione detalles adicionales sobre cómo el agente debe cambiar su respuesta y, a continuación, haga clic en Icono de verificación. Guardar.
    3. Cuando haya terminado de revisar todas las respuestas, haga clic en el icono Comprobar. Sí, actualice el agente. O bien, puede hacer clic en Guardar comentarios y actualizar después de revisar al menos tres respuestas.
  2. A la derecha, en Campos de salida, afina las descripciones de los campos de esquema de extracción. Para comprender lo que desea extraer, estas descripciones son en lo que se basa el agente. Use las respuestas de ejemplo de la izquierda para ayudarle a refinar la definición del esquema.

    1. Para cada campo, revise y edite la definición de esquema según sea necesario. Use las respuestas de ejemplo de la izquierda para ayudarle a refinar estas descripciones.
    2. Para editar el nombre y el tipo del campo, haga clic en Icono de lápiz. Editar campo.
    3. Para agregar un nuevo campo, haga clic en el icono Más. Agregue un nuevo campo. Escriba el nombre, tipo y la descripción y haga clic en Confirmar.
    4. Para quitar un campo, haga clic en el icono de la papelera. Quitar campo.
    5. Haga clic en Guardar y actualizar para actualizar la configuración del agente.
  3. (Opcional) A la derecha, en Instrucciones, escriba las instrucciones globales del agente. Estas instrucciones se aplican a todos los elementos extraídos. Haga clic en Guardar y actualizar para aplicar las instrucciones.

  4. Las nuevas respuestas de ejemplo se generan en el lado izquierdo. Revise estas respuestas actualizadas y continúe refinando la configuración del agente hasta que las respuestas sean satisfactorias.

Paso 3: Uso del agente

Puede usar su agente en flujos de trabajo en Databricks. De forma predeterminada, los puntos de conexión de Agent Bricks se reducen a cero después de tres días de inactividad, por lo que únicamente se factura el tiempo de actividad.

Para empezar a usar el agente, haga clic en Usar. Puede optar por usar su agente de varias maneras:

(Opcional) Paso 4: Evaluación del agente

Para asegurarse de que ha creado un agente de alta calidad, ejecute una evaluación y revise el informe de calidad resultante.

  1. Cambie a la pestaña Calidad .

  2. Haga clic en el icono Más. Ejecutar evaluación.

  3. En el panel Nueva evaluación que se desliza hacia fuera, configure la evaluación:

    1. Seleccione el nombre de la ejecución de la evaluación. Puede optar por usar un nombre generado o para proporcionar un nombre personalizado.
    2. Seleccione el conjunto de datos de evaluación. Puede optar por usar el mismo conjunto de datos de origen que se usa para compilar el agente o proporcionar un conjunto de datos de evaluación personalizado mediante datos etiquetados o sin etiquetar.
  4. Haga clic en Iniciar evaluación.

  5. Una vez que se complete la ejecución de la evaluación, revise el informe de calidad.

    • De forma predeterminada, se muestra una vista Resumen . Revise el informe general de calidad, costo, rendimiento y resumen de las métricas de evaluación. Haga clic en el icono de la libreta de información. Junto al campo de esquema para ver cómo se evalúa ese campo.

      Vista de resumen del informe de evaluación.

    • Cambie a la vista Detallada para obtener más detalles. Esta vista muestra cada solicitud y la puntuación de evaluación de cada métrica. Haga clic en una solicitud para ver detalles adicionales, como la entrada, la salida, las evaluaciones, los seguimientos y los mensajes vinculados. También puede editar las evaluaciones de la solicitud y proporcionar comentarios adicionales.

      Vista detallada del informe de evaluación.

Consulta el punto de conexión del agente

En la página del agente, haga clic en el icono Modelo de servicio. Consulte Estado del agente en la esquina superior derecha para obtener el punto de conexión del agente implementado y ver los detalles del punto de conexión.

Hay varias maneras de consultar el punto de conexión del agente creado. Use los ejemplos de código proporcionados en AI Playground como punto de partida:

  1. En la página del agente, haga clic en Usar.
  2. Haga clic en Abrir en el área de juegos.
  3. En Parque infantil, haga clic en Obtener código.
  4. Elija cómo desea usar el punto de conexión:
    • Seleccione Aplicar en los datos para crear una consulta SQL que aplique el agente a una columna de tabla específica.
    • Seleccione Curl API para ver un ejemplo de código para consultar el punto de conexión mediante curl.
    • Seleccione API de Python para ver un ejemplo de código para interactuar con el punto de conexión mediante Python.

Administración de permisos

De forma predeterminada, solo los autores de Agent Bricks y los administradores del área de trabajo tienen permisos para el agente. Para permitir que otros usuarios editen o consulten el agente, debe concederles explícitamente permiso.

Para administrar permisos de tu agente:

  1. Abra su agente en Agent Bricks.
  2. En la parte superior, haga clic en el icono de menú Kebab. Menú kebab.
  3. Haga clic en Administrar permisos.
  4. En la ventana Configuración de permisos , seleccione el usuario, el grupo o la entidad de servicio.
  5. Seleccione el permiso para conceder:
    • Puede administrar: permite gestionar los Agent Bricks, incluida la configuración de permisos, la edición de la configuración del agente y la mejora de su calidad.
    • Can Query: permite consultar el punto de conexión de Agent Bricks en AI Playground y a través de la API. Los usuarios con solo este permiso no pueden ver ni editar el agente en Agent Bricks.
  6. Haga clic en Agregar.
  7. Haz clic en Guardar.

Nota:

En el caso de los puntos de conexión del agente creados antes del 16 de septiembre de 2025, puede conceder permisos can Query al punto de conexión desde la página Puntos de conexión de servicio.

Uso de archivos PDF en Agent Bricks

Los archivos PDF aún no se admiten de forma nativa en Agent Bricks: extracción de información y LLM personalizado. Sin embargo, puede usar el flujo de trabajo de la interfaz de usuario de Agent Brick para convertir una carpeta de archivos PDF en Markdown y, a continuación, usar la tabla de catálogo de Unity resultante como entrada al compilar el agente. Este flujo de trabajo usa ai_parse_document para la conversión. Siga estos pasos:

  1. Haga clic en Agentes en el panel de navegación izquierdo para abrir Agent Bricks en Databricks.

  2. En los casos de uso de extracción de información o LLM personalizado, haga clic en Usar archivos PDF.

  3. En el panel lateral que se abre, escriba los siguientes campos para crear un nuevo flujo de trabajo para convertir los archivos PDF:

    1. Seleccionar carpeta con archivos PDF o imágenes: seleccione la carpeta catálogo de Unity que contiene los archivos PDF que desea usar.
    2. Seleccionar tabla de destino: seleccione el esquema de destino de la tabla markdown convertida y, opcionalmente, ajuste el nombre de la tabla en el campo siguiente.
    3. Seleccionar el SQL Warehouse activo: seleccione el SQL Warehouse para ejecutar el flujo de trabajo.

    Configurar el flujo de trabajo para usar archivos PDF en Agent Bricks.

  4. Haga clic en Iniciar importación.

  5. Se le redirigirá a la pestaña Todos los flujos de trabajo , que enumera todos los flujos de trabajo de PDF. Use esta pestaña para supervisar el estado de los trabajos.

    Revise el estado del flujo de trabajo para usar PDFs en Agent Bricks.

    Si se produce un error en el flujo de trabajo, haga clic en el nombre del trabajo para abrirlo y ver los mensajes de error que le ayudarán a depurar.

  6. Cuando el flujo de trabajo se haya completado correctamente, haga clic en el nombre del trabajo para abrir la tabla en el Explorador de catálogos para explorar y comprender las columnas.

  7. Utiliza la tabla de Unity Catalog como datos de entrada en Agent Bricks al configurar tu agente.

Limitations

  • Los agentes de extracción de información tienen una longitud máxima de contexto del token de 128k.
  • No se admiten las áreas de trabajo que tienen habilitada la seguridad y el cumplimiento mejorados .
  • No se admiten los tipos de esquema de unión.