Partilhar via


Metadados compartilhados do Azure Synapse Analytics

O Azure Synapse Analytics permite que os diferentes mecanismos computacionais de espaço de trabalho compartilhem bancos de dados e tabelas entre pools do Apache Spark e pool SQL sem servidor.

O compartilhamento suporta o chamado padrão moderno de data warehouse e dá aos mecanismos SQL do espaço de trabalho acesso a bancos de dados e tabelas criadas com o Spark. Ele também permite que os mecanismos SQL criem seus próprios objetos que não estão sendo compartilhados com os outros mecanismos.

Apoie o armazém de dados moderno

O modelo de metadados compartilhados oferece suporte ao padrão moderno de data warehouse da seguinte maneira:

  1. Os dados do data lake são preparados e estruturados de forma eficiente com o Spark, armazenando os dados preparados em tabelas suportadas por Parquet, possivelmente particionadas, que podem estar contidas em vários bancos de dados.

  2. Os bancos de dados criados pelo Spark e todas as suas tabelas ficam visíveis em qualquer uma das instâncias do pool Spark do espaço de trabalho do Azure Synapse e podem ser usadas em qualquer um dos trabalhos do Spark. Esse recurso está sujeito às permissões , já que todos os pools do Spark em um espaço de trabalho compartilham o mesmo metastore de catálogo subjacente.

  3. The Spark created databases and their Parquet-backed or CSV-backed tables become visible in the workspace serverless SQL pool. Os bancos de dados são criados automaticamente nos metadados do pool SQL sem servidor, e as tabelas externas e gerenciadas criadas por um trabalho do Spark são disponibilizadas como tabelas externas nos metadados do pool SQL sem servidor no dbo esquema do banco de dados correspondente.

A sincronização de objetos ocorre de forma assíncrona. Os objetos terão um ligeiro atraso de alguns segundos até aparecerem no contexto SQL. Uma vez que eles aparecem, eles podem ser consultados, mas não atualizados nem alterados pelos mecanismos SQL que têm acesso a eles.

Objetos de metadados compartilhados

O Spark permite criar bancos de dados, tabelas externas, tabelas gerenciadas e exibições. Since Spark views require a Spark engine to process the defining Spark SQL statement, and cannot be processed by a SQL engine, only databases and their contained external and managed tables that use the Parquet or CSV storage format are shared with the workspace SQL engine. As visualizações do Spark são partilhadas apenas entre o pool de instâncias do Spark.

O modelo de segurança num relance

Os bancos de dados e tabelas do Spark, juntamente com suas representações sincronizadas no mecanismo SQL, são protegidos no nível de armazenamento subjacente. When the table is queried by any of the engines that the query submitter has the right to use, the query submitter's security principal is being passed through to the underlying files. As permissões são verificadas ao nível do sistema de ficheiros.

Para obter mais informações, consulte Banco de dados compartilhado do Azure Synapse Analytics.

Change maintenance

Se um objeto de metadados for excluído ou alterado com o Spark, as alterações serão coletadas e propagadas para o pool SQL sem servidor. A sincronização é assíncrona e as alterações são refletidas no mecanismo SQL após um pequeno atraso.

Próximos passos