Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo explica o conceito de tabelas do sistema no Azure Databricks e realça os recursos que você pode usar para aproveitar ao máximo os dados das tabelas do sistema.
O que são tabelas do sistema?
As tabelas do sistema são um armazenamento analítico hospedado no Azure Databricks dos dados operacionais de sua conta, encontrados no catálogo system. As tabelas do sistema podem ser usadas para observabilidade histórica em sua conta.
Observação
As tabelas de esquema de informações (system.information_schema) funcionam de forma diferente de outras tabelas do sistema. Consulte Esquema de informações.
Requisitos
- Para acessar as tabelas do sistema, seu workspace deve estar habilitado para o Catálogo do Unity. Para obter mais informações, consulte Habilitar tabelas do sistema.
- As tabelas do sistema não estão disponíveis nas seguintes regiões:
- Regiões do Azure na China
- Regiões do Azure Governamental
- Índia Ocidental
- Oeste da Suíça
Quais tabelas do sistema estão disponíveis?
Atualmente, o Azure Databricks hospeda as seguintes tabelas do sistema:
| Tabela | Descrição | Dá suporte ao streaming | Período de retenção gratuito | Inclui dados globais ou regionais |
|---|---|---|---|---|
| Logs de auditoria (versão preliminar pública) | Inclui registros para todos os eventos de auditoria de workspaces em sua região. Para obter uma lista dos eventos de auditoria disponíveis, confira Referência do log de diagnóstico. Caminho da tabela: system.access.audit |
Sim | 365 dias | Regional para eventos no nível do workspace. Global para eventos de nível de conta. |
| Uso faturável | Inclui registros de todo o uso faturável em sua conta. Caminho da tabela: system.billing.usage |
Sim | 365 dias | Global |
| Eventos do Clean room (versão preliminar pública) | Captura eventos relacionados ao clean rooms. Caminho da tabela: system.access.clean_room_events |
Sim | 365 dias | Regional |
| Clusters | Uma tabela de dimensões de alteração lenta que contém o histórico completo de configurações de computação ao longo do tempo para qualquer cluster. | Sim | 365 dias | Regional |
| Linhagem de coluna | Inclui um registro para cada evento de leitura ou gravação em uma coluna do Catálogo do Unity (mas não inclui eventos que não têm uma origem). Caminho da tabela: system.access.column_lineage |
Sim | 365 dias | Regional |
| Resultados da classificação de dados (Beta) | Armazena detecções em nível de coluna de classes de dados confidenciais em catálogos habilitados em seu metastore. Caminho da tabela: system.data_classification.results |
Não | 365 dias | Regional |
| Resultados do monitoramento da qualidade dos dados (Beta) | Armazena resultados de verificações de monitoramento de qualidade de dados (recência, integridade) e informações de incidentes, incluindo análise de impacto em processos subsequentes e causa raiz, em todas as tabelas habilitadas em seu "metastore". Caminho da tabela: system.data_quality_monitoring.table_results |
Não | Indefinida | Regional |
| Eventos do Assistente do Databricks (versão preliminar pública) | Rastreia as mensagens do usuário enviadas ao Assistente do Databricks. Caminho da tabela: system.access.assistant_events |
Não | 365 dias | Regional |
| Eventos de materialização de dados do Delta Sharing | Captura eventos de materialização de dados criados a partir de exibição, exibição materializada e compartilhamento de tabelas de streaming. Caminho da tabela: system.sharing.materialization_history |
Sim | 365 dias | Regional para eventos no nível do workspace. |
| Linha do tempo de execução do trabalho (versão preliminar pública) | Rastreia os horários de início e término das execuções de trabalhos. Caminho da tabela: system.lakeflow.job_run_timeline |
Sim | 365 dias | Regional |
| Linha do tempo da tarefa de trabalho (versão preliminar pública) | Rastreia os horários de início e término e calcula os recursos usados para execuções de tarefas de trabalho. Caminho da tabela: system.lakeflow.job_task_run_timeline |
Sim | 365 dias | Regional |
| Tarefas de trabalho (versão preliminar pública) | Rastreia todas as tarefas de trabalho executadas na conta. Caminho da tabela: system.lakeflow.job_tasks |
Sim | 365 dias | Regional |
| Trabalhos (versão preliminar pública) | Rastreia todos os trabalhos criados na conta. Caminho da tabela: system.lakeflow.jobs |
Sim | 365 dias | Regional |
| Eventos de pipeline do Marketplace (versão preliminar pública) | Inclui a impressão do consumidor e os dados de funil para suas listagens. Caminho da tabela: system.marketplace.listing_funnel_events |
Sim | 365 dias | Regional |
| Acesso à listagem do Marketplace (versão preliminar pública) | Inclui informações do consumidor para eventos solicitar dados ou obter dados concluídos em suas listagens. Caminho da tabela: system.marketplace.listing_access_events |
Sim | 365 dias | Regional |
| Metadados do experimento de acompanhamento do MLflow (versão prévia pública) | Cada linha representa um experimento criado no sistema MLflow gerenciado pelo Databricks. Caminho da tabela: system.mlflow.experiments_latest |
Sim | 180 dias | Regional |
| Metadados de execução de acompanhamento do MLflow (versão prévia pública) | Cada linha representa uma execução criada no sistema MLflow gerenciado pelo Databricks. Caminho da tabela: system.mlflow.runs_latest |
Sim | 180 dias | Regional |
| Métricas de execução de acompanhamento do MLflow (Visualização Pública) | Mantém as métricas de timeseries registradas no MLflow associadas a um determinado treinamento de modelo, avaliação ou desenvolvimento de agente. Caminho da tabela: system.mlflow.run_metrics_history |
Sim | 180 dias | Regional |
| Dados do ponto de extremidade de serviço do modelo (versão preliminar pública) | Uma tabela de dimensões de alteração lenta que armazena metadados para cada modelo de fundação servido em um endpoint de serviço de modelo. Caminho da tabela: system.serving.served_entities |
Sim | 365 dias | Regional |
| Uso do ponto de extremidade de serviço do modelo (versão preliminar pública) | Captura contagens de tokens para cada solicitação a um endpoint de serviço do modelo e as respostas dele. Para capturar o uso do endpoint nesta tabela, você deve habilitar o acompanhamento de uso no endpoint de serviço. Caminho da tabela: system.serving.endpoint_usage |
Sim | 90 dias | Regional |
| Eventos de acesso à rede (Entrante) (Versão Pública) | Uma tabela que registra um evento para cada vez que o acesso de entrada a um workspace é negado por uma política de entrada. Caminho da tabela: system.access.inbound_network |
Sim | 30 dias | Regional |
| Eventos de acesso à rede (saída) (Visualização Pública) | Uma tabela que registra um evento sempre que o acesso à Internet de saída é negado para sua conta. Caminho da tabela: system.access.outbound_network |
Sim | 365 dias | Regional |
| Linha do tempo do nó | Captura as métricas de utilização dos recursos de computação de todos os seus trabalhos e para todos os fins. Caminho da tabela: system.compute.node_timeline |
Sim | 90 dias | Regional |
| Tipos de nós | Captura os tipos de nós atualmente disponíveis com suas informações básicas de hardware. Caminho da tabela: system.compute.node_types |
Não | Indefinida | Regional |
| Cronograma de atualização do pipeline (Prévia Pública) | Acompanha os horários de início e término e os recursos de computação usados para atualizações de pipeline. Caminho da tabela: system.lakeflow.pipeline_update_timeline |
Sim | 365 dias | Regional |
| Pipelines (versão prévia pública) | Rastreia todos os pipelines criados na conta. Caminho da tabela: system.lakeflow.pipelines |
Sim | 365 dias | Regional |
| Otimização preditiva (versão preliminar pública) | Controla o histórico de operações do recurso de otimização preditiva. Caminho da tabela: system.storage.predictive_optimization_operations_history |
Não | 180 dias | Regional |
| Preços | Um log histórico de preços de SKU. Um registro é adicionado sempre que há uma alteração em um preço de SKU. Caminho da tabela: system.billing.list_prices |
Não | Indefinida | Global |
| Histórico de consultas (versão preliminar pública) | Captura registros de todas as consultas executadas em SQL warehouses e na computação sem servidor para blocos de anotações e trabalhos. Caminho da tabela: system.query.history |
Não | 365 dias | Regional |
| Eventos do SQL warehouse (versão preliminar pública) | Captura eventos relacionados a SQL warehouses. Por exemplo, iniciar, parar, executar, escalar verticalmente e reduzir verticalmente. Caminho da tabela: system.compute.warehouse_events |
Sim | 365 dias | Regional |
| SQL Warehouses (Visualização Pública) | Contém o histórico completo de configurações ao longo do tempo para qualquer SQL warehouse. Caminho da tabela: system.compute.warehouses |
Sim | 365 dias | Regional |
| Linhagem de tabela | Inclui um registro para cada evento de leitura ou gravação em uma tabela ou caminho do Unity Catalog. Caminho da tabela: system.access.table_lineage |
Sim | 365 dias | Regional |
| Workspaces (visualização pública) | A tabela workspaces_latest é uma tabela de dimensão de metadados de mudança lenta para todos os espaços de trabalho na conta. Caminho da tabela: system.access.workspaces_latest |
Não | Indefinida | Global |
| Ingestão de Zerobus (Fluxos) (Beta) | Uma tabela que armazena todos os dados relacionados a eventos de transmissão incorridos pelo uso do Zerobus Ingest. Caminho da tabela: system.lakeflow.zerobus_stream |
Sim | 365 dias | Regional |
| Zerobus Ingestão (Ingestão) (Beta) | Uma tabela que armazena todos os dados relacionados aos registros ingeridos usando o Zerobus Ingest. Caminho da tabela: system.lakeflow.zerobus_ingest |
Sim | 365 dias | Regional |
As tabelas de uso passível de faturamento e de preços são gratuitas para uso. As tabelas na Visualização Pública também são gratuitas para usar durante a visualização, mas podem incorrer em um custo no futuro.
Observação
Você pode ver outras tabelas do sistema em sua conta, além das listadas acima. Essas tabelas estão atualmente em Versão Prévia Privada e estão vazias por padrão. Se você estiver interessado em usar qualquer uma dessas tabelas, entre em contato com sua equipe de conta do Databricks.
Relações de tabelas do sistema
O diagrama de relação de entidade a seguir descreve como as tabelas do sistema atualmente disponíveis se relacionam entre si. Este diagrama realça as chaves primárias e estrangeiras de cada tabela.
Habilitar tabelas do sistema
Como as tabelas do sistema são governadas pelo Catálogo do Unity, você precisa ter pelo menos um workspace habilitado para Catálogo do Unity em sua conta para habilitar as tabelas do sistema da sua conta. As tabelas do sistema incluem dados de todos os espaços de trabalho da sua conta, mas só podem ser acessadas a partir de um espaço de trabalho habilitado para o Unity Catalog.
O metastore precisa estar no Modelo de Privilégio do Catálogo do Unity versão 1.0 para acessar tabelas do sistema. Consulte Atualizar para a herança de privilégios.
Conceder acesso a tabelas do sistema
O acesso às tabelas do sistema é regido pelo Catálogo do Unity. Nenhum usuário tem acesso às tabelas do sistema por padrão. Para permitir que um usuário consulte tabelas do sistema, um administrador do metastore que também é um administrador de conta deve conceder a esse usuário USE e SELECT permissões nos esquemas do sistema. Consulte Gerenciar privilégios no Catálogo do Unity.
As tabelas do sistema são somente leitura e não podem ser modificadas.
Observação
Se a sua conta foi criada após 9 de novembro de 2023, talvez você não tenha um administrador de metastore por padrão. Para obter mais informações, consulte Introdução ao Catálogo do Unity.
As tabelas do sistema contêm dados de todos os workspaces na sua conta?
As tabelas do sistema contêm dados operacionais para todos os workspaces em sua conta implantados na mesma região de nuvem. Algumas tabelas incluem dados globais. Para obter detalhes, consulte a lista de tabelas disponíveis.
Embora as tabelas do sistema só possam ser acessadas por meio de um espaço de trabalho do Unity Catalog, elas incluem dados operacionais de espaços de trabalho que não são do Unity Catalog em sua conta.
Onde os dados da tabela do sistema são armazenados?
Os dados da tabela do sistema da sua conta são armazenados em uma conta de armazenamento hospedada no Azure Databricks localizada na mesma região que o metastore. Os dados são compartilhados em segurança com o uso do Compartilhamento Delta.
Cada tabela tem um período de retenção de dados gratuito. Para obter detalhes, consulte a coluna Período de retenção gratuito em Quais tabelas do sistema estão disponíveis?.
Onde estão as tabelas do sistema localizadas no Gerenciador de Catálogos?
As tabelas do sistema em sua conta estão localizadas em um catálogo chamado system, que está incluído em cada metastore do Unity Catalog.
system No catálogo, você verá esquemas como access e billing que contêm as tabelas do sistema.
Considerações sobre tabelas do sistema de streaming
O Azure Databricks usa o compartilhamento Delta para compartilhar dados da tabela do sistema com os clientes. Esteja ciente das seguintes considerações ao transmitir com o Compartilhamento Delta:
- Se você estiver usando streaming com tabelas do sistema, defina a opção
skipChangeCommitscomotrue. Isso garante que o trabalho de streaming não seja interrompido por exclusões nas tabelas do sistema. Consulte Ignorar atualizações e exclusões. -
Trigger.AvailableNownão é suportado com o streaming do Compartilhamento Delta. Ele será convertido emTrigger.Once.
Se você usar um gatilho em seu trabalho de streaming e descobrir que ele não está atualizando a versão mais recente da tabela do sistema, o Databricks recomenda aumentar a frequência agendada do trabalho.
Ler alterações incrementais de tabelas do sistema de streaming
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Problemas conhecidos
- Novas colunas podem ser adicionadas às tabelas do sistema existentes a qualquer momento. As consultas que dependem de um esquema fixo poderão ser interrompidas se novas colunas forem introduzidas. As colunas existentes não serão alteradas nem removidas. Se você estiver escrevendo dados de tabela do sistema em outra tabela de destino, considere habilitar a evolução do esquema.
- Não há suporte para monitoramento em tempo real. Os dados são atualizados ao longo do dia. Se não vir um log para um evento recente, verifique novamente depois.
- O esquema de tabela do sistema
__internal_loggingdá suporte ao registro de payload usando tabelas de inferência habilitadas para Gateway de IA para modelos externos e workloads com taxa de transferência provisionada. Esse esquema é visível para administradores de conta, mas não pode ser habilitado e não deve ser usado para fluxos de trabalho do cliente.
- Para habilitar tabelas do sistema, talvez seja necessário conceder acesso à rede para o ponto de extremidade de armazenamento de blobs das tabelas do sistema. Para visualizar uma lista dos pontos de extremidade de armazenamento das tabelas do sistema de cada região, consulte Endereços IP dos pontos de extremidade de armazenamento.
- Os esquemas
system.operational_datasystem.lineagedo sistema são preteridos e conterão tabelas vazias.