Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo explica o conceito de tabelas do sistema no Azure Databricks e destaca os recursos que você pode usar para aproveitar ao máximo os dados das tabelas do sistema.
O que são tabelas do sistema?
As tabelas do sistema são um armazenamento analítico gerido pelo Azure Databricks que contém os dados operacionais da sua conta encontrados no system catálogo. As tabelas do sistema podem ser usadas para observabilidade histórica em toda a sua conta.
Nota
As tabelas de esquema de informação (system.information_schema) funcionam de forma diferente de outras tabelas de sistema. Consulte Esquema de informações.
Requisitos
- Para acessar as tabelas do sistema, seu espaço de trabalho deve estar habilitado para o Catálogo Unity. Para mais informações, consulte Ativar tabelas do sistema.
- As tabelas do sistema não estão disponíveis nas seguintes regiões:
- Regiões do Azure China
- Regiões do Azure Government
- Índia Ocidental
- Oeste da Suíça
Que tabelas de sistema estão disponíveis?
Atualmente, o Azure Databricks hospeda as seguintes tabelas do sistema:
| Tabela | Descrição | Suporta streaming | Período de retenção gratuito | Inclui dados globais ou regionais |
|---|---|---|---|---|
| Registos de Auditoria (Pré-visualização pública) | Inclui registros para todos os eventos de auditoria de espaços de trabalho em sua região. Para obter uma lista de eventos de auditoria disponíveis, consulte Referência de registo de diagnóstico. Caminho da tabela: system.access.audit |
Sim | 365 dias | Regional para eventos no nível do espaço de trabalho. Global para eventos no nível da conta. |
| Utilização faturável | Inclui registos de todo o uso faturável na sua conta. Caminho da tabela: system.billing.usage |
Sim | 365 dias | A nível mundial |
| Eventos de sala limpa (Pré-visualização pública) | Captura eventos relacionados com salas limpas. Caminho da tabela: system.access.clean_room_events |
Sim | 365 dias | Regionais |
| Aglomerados | Uma tabela de dimensões de mudança lenta que contém o histórico completo de configurações de computação ao longo do tempo para qualquer cluster. | Sim | 365 dias | Regionais |
| Linhagem de colunas | Inclui um registro para cada evento de leitura ou gravação em uma coluna do Catálogo Unity (mas não inclui eventos que não têm uma fonte). Caminho da tabela: system.access.column_lineage |
Sim | 365 dias | Regionais |
| Resultados da classificação de dados (Beta) | Armazena deteções em nível de coluna de classes de dados confidenciais em catálogos habilitados em seu metastore. Caminho da tabela: system.data_classification.results |
Não | 365 dias | Regionais |
| Resultados da monitorização da qualidade dos dados (Beta) | Armazena resultados de verificações de monitoramento de qualidade de dados (atualização, integridade) e informações de incidentes, incluindo impacto downstream e análise de causa raiz, em tabelas habilitadas em seu metastore. Caminho da tabela: system.data_quality_monitoring.table_results |
Não | Indefinido | Regionais |
| Eventos do Databricks Assistant (Visualização pública) | Rastreia as mensagens do usuário enviadas para o Assistente do Databricks. Caminho da tabela: system.access.assistant_events |
Não | 365 dias | Regionais |
| Eventos de materialização de dados do Delta Sharing | Captura eventos de materialização de dados criados a partir de vistas, vistas materializadas e do compartilhamento de tabelas de streaming. Caminho da tabela: system.sharing.materialization_history |
Sim | 365 dias | Regional para eventos no nível do espaço de trabalho. |
| Cronograma de execução de tarefas (Visualização pública) | Rastreia os horários de início e término das tarefas. Caminho da tabela: system.lakeflow.job_run_timeline |
Sim | 365 dias | Regionais |
| Linha temporal da tarefa (Visualização pública) | Rastreia as horas de início e término e os recursos de computação usados para execuções de tarefas de trabalho. Caminho da tabela: system.lakeflow.job_task_run_timeline |
Sim | 365 dias | Regionais |
| Tarefas de trabalho (Visualização pública) | Rastreia todas as tarefas de trabalho executadas na conta. Caminho da tabela: system.lakeflow.job_tasks |
Sim | 365 dias | Regionais |
| Empregos (Versão Preliminar Pública) | Rastreia todos os trabalhos criados na conta. Caminho da tabela: system.lakeflow.jobs |
Sim | 365 dias | Regionais |
| Eventos do funil de Marketplace (Visualização pública) | Inclui dados de impressões e funil de vendas do consumidor para os seus anúncios. Caminho da tabela: system.marketplace.listing_funnel_events |
Sim | 365 dias | Regionais |
| Acesso à listagem de Marketplace (Pré-visualização pública) | Inclui informações do consumidor para eventos de dados concluídos de solicitar dados ou obter dados nos seus anúncios. Caminho da tabela: system.marketplace.listing_access_events |
Sim | 365 dias | Regionais |
| Metadados do experimento de rastreamento MLflow (Visualização pública) | Cada linha representa um experimento criado no sistema MLflow gerenciado pelo Databricks. Caminho da tabela: system.mlflow.experiments_latest |
Sim | 180 dias | Regionais |
| Metadados de execução de rastreamento de fluxo de MLflow (Visualização pública) | Cada linha representa uma execução criada no sistema MLflow gerenciado por Databricks. Caminho da tabela: system.mlflow.runs_latest |
Sim | 180 dias | Regionais |
| Métricas de execução de rastreamento de MLflow (Visualização pública) | Contém as métricas de séries cronológicas registradas no MLflow associadas a um determinado modelo de treinamento, avaliação ou desenvolvimento de agentes. Caminho da tabela: system.mlflow.run_metrics_history |
Sim | 180 dias | Regionais |
| Modelo que serve dados de ponto final (Visualização pública) | Uma tabela de dimensões de mudança lenta que armazena metadados para cada modelo de base servido em um ponto de extremidade de serviço de modelo. Caminho da tabela: system.serving.served_entities |
Sim | 365 dias | Regionais |
| Uso do endpoint para servir modelos (Pré-visualização pública) | Captura contagens de tokens para cada solicitação a um endpoint de serviço de modelo e suas respostas. Para capturar o uso do ponto de extremidade nesta tabela, você deve habilitar o rastreamento de uso no seu ponto de extremidade de serviço. Caminho da tabela: system.serving.endpoint_usage |
Sim | 90 dias | Regionais |
| Eventos de acesso à rede (Entrada) (Visualização Pública) | Uma tabela que registra um evento para cada vez que o acesso de entrada a um espaço de trabalho é negado por uma política de entrada. Caminho da tabela: system.access.inbound_network |
Sim | 30 dias | Regionais |
| Eventos de acesso à rede (Saída) (Pré-visualização Pública) | Uma tabela que regista um evento sempre que o acesso de saída à Internet é negado na sua conta. Caminho da tabela: system.access.outbound_network |
Sim | 365 dias | Regionais |
| Linha temporal de nós | Captura as métricas de utilização dos seus recursos de computação geral e de trabalhos. Caminho da tabela: system.compute.node_timeline |
Sim | 90 dias | Regionais |
| Tipos de nós | Captura os tipos de nós atualmente disponíveis com as suas informações básicas de hardware. Caminho da tabela: system.compute.node_types |
Não | Indefinido | Regionais |
| Cronograma de atualização do pipeline (Visualização pública) | Rastreia as horas de início e término e os recursos de computação usados para atualizações de pipeline. Caminho da tabela: system.lakeflow.pipeline_update_timeline |
Sim | 365 dias | Regionais |
| Pipelines (Visualização pública) | Monitoriza todos os pipelines criados nesta conta. Caminho da tabela: system.lakeflow.pipelines |
Sim | 365 dias | Regionais |
| Otimização preditiva (Visualização pública) | Rastreia o histórico de operações do recurso de otimização preditiva. Caminho da tabela: system.storage.predictive_optimization_operations_history |
Não | 180 dias | Regionais |
| Preços | Um registro histórico de preços de SKU. Um registro é adicionado cada vez que há uma alteração no preço de uma SKU. Caminho da tabela: system.billing.list_prices |
Não | Indefinido | A nível mundial |
| Histórico de consultas (Pré-visualização Pública) | Captura registros para todas as consultas executadas em armazéns SQL e computação sem servidor para notebooks e trabalhos. Caminho da tabela: system.query.history |
Não | 365 dias | Regionais |
| Eventos do SQL warehouse (Visualização Pública) | Captura eventos relacionados a armazéns SQL. Por exemplo, iniciar, parar, executar, aumentar e reduzir. Caminho da tabela: system.compute.warehouse_events |
Sim | 365 dias | Regionais |
| Armazéns SQL (Visualização Pública) | Contém o histórico completo de configurações ao longo do tempo para qualquer SQL warehouse. Caminho da tabela: system.compute.warehouses |
Sim | 365 dias | Regionais |
| Linhagem de mesa | Inclui um registro para cada evento de leitura ou gravação em uma tabela ou caminho do Catálogo Unity. Caminho da tabela: system.access.table_lineage |
Sim | 365 dias | Regionais |
| Espaços de trabalho (Pré-visualização pública) | A tabela workspaces_latest é uma tabela de dimensão de mudança lenta de metadados para todos os espaços de trabalho na conta. Caminho da tabela: system.access.workspaces_latest |
Não | Indefinido | A nível mundial |
| Ingestão Zerobus (Streams) (Beta) | Uma tabela que armazena todos os dados relacionados com eventos de fluxo decorrentes do uso do Zerobus Ingest. Caminho da tabela: system.lakeflow.zerobus_stream |
Sim | 365 dias | Regionais |
| Ingesta Zerobus (Ingestão) (Beta) | Uma tabela que armazena todos os dados relacionados com registos ingeridos usando o Zerobus Ingest. Caminho da tabela: system.lakeflow.zerobus_ingest |
Sim | 365 dias | Regionais |
O uso faturável e as tabelas de preços são gratuitos. As tabelas na pré-visualização pública também são gratuitas durante a fase de pré-visualização, mas poderá haver custos no futuro.
Nota
Você pode ver outras tabelas do sistema em sua conta, além das listadas acima. Essas tabelas estão atualmente em Visualização Privada e estão vazias por padrão. Se você estiver interessado em usar qualquer uma dessas tabelas, entre em contato com sua equipe de conta Databricks.
Relações de tabelas do sistema
O diagrama entidade-relacionamento a seguir descreve como as tabelas de sistema atualmente disponíveis se relacionam entre si. Este diagrama destaca as chaves primária e estrangeira de cada tabela.
Ativar tabelas do sistema
Como as tabelas do sistema são governadas pelo Unity Catalog, precisa de ter pelo menos um espaço de trabalho com Unity Catalog na sua conta para ativar as tabelas do sistema da sua conta. As tabelas do sistema incluem dados de todos os espaços de trabalho em sua conta, mas eles só podem ser acessados a partir de um espaço de trabalho habilitado para Catálogo Unity.
O metastore precisa estar no Unity Catalog Privilege Model na versão 1.0 para acessar as tabelas do sistema. Consulte Atualização para herança de privilégios.
Conceder acesso às tabelas do sistema
O acesso às tabelas do sistema é regido pelo Unity Catalog. Nenhum utilizador tem acesso às tabelas do sistema por defeito. Para permitir que um utilizador consulte tabelas do sistema, um administrador do metastore que também seja administrador de conta deve conceder a esse utilizador permissões USE e SELECT nos esquemas do sistema. Consulte Gerenciar privilégios no Catálogo Unity.
As tabelas do sistema são somente leitura e não podem ser modificadas.
Nota
Se sua conta foi criada após 9 de novembro de 2023, talvez você não tenha um administrador de metastore por padrão. Para obter mais informações, consulte Introdução ao catálogo Unity.
As tabelas do sistema contêm dados para todos os espaços de trabalho da sua conta?
As tabelas do sistema contêm dados operacionais para todos os espaços de trabalho da sua conta implantados na mesma região de nuvem. Algumas tabelas incluem dados globais. Para obter detalhes, consulte a lista de tabelas disponíveis.
Embora as tabelas do sistema só possam ser acessadas por meio de um espaço de trabalho do Catálogo Unity, elas incluem dados operacionais de espaços de trabalho que não sejam do Catálogo Unity em sua conta.
Onde os dados da tabela do sistema são armazenados?
Os dados da tabela do sistema da sua conta são armazenados em uma conta de armazenamento hospedada pelo Azure Databricks localizada na mesma região do seu metastore. Os dados são compartilhados com segurança com você usando o Delta Sharing.
Cada tabela tem um período de retenção de dados gratuito. Para obter detalhes, consulte a coluna Período de retenção gratuito em Quais tabelas do sistema estão disponíveis?.
Onde estão localizadas as tabelas do sistema no Catalog Explorer?
As tabelas do sistema na sua conta estão localizadas num catálogo chamado system, incluído em cada metastore do Catálogo Unity.
system No catálogo, você verá esquemas como access e billing que contêm as tabelas do sistema.
Considerações para tabelas do sistema de streaming
O Azure Databricks usa o Compartilhamento Delta para compartilhar dados da tabela do sistema com os clientes. Esteja ciente das seguintes considerações ao transmitir com o Delta Sharing:
- Se você estiver usando streaming com tabelas do sistema, defina a opção
skipChangeCommitscomotrue. Isso garante que o trabalho de streaming não seja interrompido por exclusões nas tabelas do sistema. Consulte Ignorar atualizações e exclusões. -
Trigger.AvailableNownão é compatível com o streaming Delta Sharing. Será convertido emTrigger.Once.
Se utilizares um gatilho no teu processo de streaming e constatares que não está a alcançar a versão atualizada mais recente da tabela de sistema, a Databricks recomenda aumentar a frequência agendada do processo.
Ler alterações incrementais a partir das tabelas do sistema de streaming
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Problemas conhecidos
- Novas colunas podem ser adicionadas às tabelas do sistema existentes a qualquer momento. As consultas que dependem de um esquema fixo podem ser interrompidas se novas colunas forem introduzidas. As colunas existentes não serão alteradas ou removidas. Se você estiver gravando dados da tabela do sistema em outra tabela de destino, considere habilitar a evolução do esquema.
- Sem suporte para monitoramento em tempo real. Os dados são atualizados ao longo do dia. Se não encontrar um registo de um evento recente, volte a verificar mais tarde.
- O
__internal_loggingesquema da tabela do sistema suporta o registro de carga útil usando tabelas de inferência habilitadas para AI Gateway para modelos externos e cargas de trabalho de taxa de transferência provisionadas. Esse esquema é visível para administradores de conta, mas não pode ser habilitado e não deve ser usado para fluxos de trabalho de clientes.
- Para habilitar as tabelas do sistema, pode ser necessário conceder acesso à rede ao ponto de extremidade do armazenamento de blobs das tabelas do sistema. Para exibir uma lista dos pontos de extremidade de armazenamento das tabelas do sistema de cada região, consulte Endereços IP do ponto de extremidade de armazenamento.
- Os esquemas do sistema
system.operational_dataesystem.lineageforam preteridos e conterão tabelas vazias.