Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo apresenta o Unity Catalog, uma solução de governança unificada para dados e ativos de IA no Azure Databricks. Ele explica os principais conceitos e fornece uma visão geral de como usar o Unity Catalog para controlar dados.
Unity Catalog também está disponível como uma implementação de código aberto. Veja o blog de anúncio e o repositório público do Unity Catalog GitHub.
Visão geral do catálogo Unity
O Unity Catalog é um catálogo de dados centralizado que fornece controle de acesso, auditoria, linhagem, monitoramento de qualidade e recursos de descoberta de dados nos espaços de trabalho do Azure Databricks.
Os principais recursos do Catálogo Unity incluem:
- Defina uma vez, seguro em todos os lugares: o Unity Catalog oferece um único local para administrar políticas de acesso a dados que se aplicam a todos os espaços de trabalho de uma região.
- Modelo de segurança compatível com padrões: o modelo de segurança do Unity Catalog é baseado no padrão ANSI SQL e permite que os administradores concedam permissões em seu data lake existente usando sintaxe familiar.
- Auditoria e linhagem integradas: o Unity Catalog capta automaticamente registos de auditoria ao nível do utilizador que registam o acesso aos seus dados. O Unity Catalog também captura dados de linhagem que rastreiam como os ativos de dados são criados e usados em todos os idiomas.
- Descoberta de dados: o Unity Catalog permite marcar e documentar ativos de dados e fornece uma interface de pesquisa para ajudar os consumidores de dados a encontrar dados.
- Tabelas do sistema: o Unity Catalog permite que você acesse e consulte facilmente os dados operacionais da sua conta, incluindo logs de auditoria, uso faturável e linhagem.
Metaloja
O metastore é o contêiner de nível superior para metadados no Unity Catalog. Ele registra metadados sobre dados e ativos de IA e as permissões que regem o acesso a eles. Para que um espaço de trabalho use o Unity Catalog, ele deve ter um metastore do Unity Catalog anexado. Você deve ter um metastore para cada região em que você tem espaços de trabalho.
Ao contrário do metastore do Hive, o metastore do Unity Catalog não é um limite de serviço: ele é executado em um ambiente multilocatário e representa um limite lógico para a segregação de dados por região para uma determinada conta do Azure Databricks.
O modelo de objeto do Unity Catalog
Em um metastore do Unity Catalog, a hierarquia de objetos de banco de dados de três níveis consiste em catálogos que contêm esquemas, que, por sua vez, contêm dados e objetos de IA, como tabelas e modelos. Essa hierarquia é representada como um namespace de três níveis (catalog.schema.table-etc) quando você faz referência a tabelas, exibições, volumes, modelos e funções.
Nível um:
- Os catálogos são usados para organizar seus ativos de dados e normalmente são usados como o nível superior em seu esquema de isolamento de dados. Os catálogos geralmente espelham unidades organizacionais ou escopos do ciclo de vida de desenvolvimento de software. Consulte O que são catálogos no Azure Databricks?.
- Objetos não protegíveis de dados, como credenciais de armazenamento e locais externos, são usados para gerenciar seu modelo de governança de dados no Unity Catalog. Estes também vivem diretamente abaixo do metastore. Eles são descritos com mais detalhes em Objetos protegíveis que o Unity Catalog usa para gerenciar o acesso a fontes de dados externas.
Nível dois:
- Os esquemas (também conhecidos como bancos de dados) contêm tabelas, exibições, volumes, modelos de IA e funções. Os esquemas organizam dados e ativos de IA em categorias lógicas que são mais granulares do que os catálogos. Normalmente, um esquema representa um único caso de uso, projeto ou ambiente de teste de equipe. Consulte O que são esquemas no Azure Databricks?.
Nível três:
- As tabelas são coleções de dados organizados por linhas e colunas. As tabelas podem ser gerenciadas, com o Unity Catalog gerenciando o ciclo de vida completo da tabela, ou externas, com o Unity Catalog gerenciando o acesso aos dados de dentro do Azure Databricks, mas não gerenciando o acesso aos dados no armazenamento em nuvem de outros clientes. Consulte Tabelas do Azure Databricks e Tabelas e volumes gerenciados versus externos.
- As visualizações são consultas salvas em uma ou mais tabelas. Ver O que é uma vista?.
- Os volumes representam volumes lógicos de dados no armazenamento de objetos na nuvem. Você pode usar volumes para armazenar, organizar e acessar arquivos em qualquer formato, incluindo dados estruturados, semiestruturados e não estruturados. Normalmente, eles são usados para dados não tabulares. Os volumes podem ser gerenciados, com o Unity Catalog gerenciando o ciclo de vida completo e o layout dos dados no armazenamento, ou externos, com o Unity Catalog gerenciando o acesso aos dados de dentro do Azure Databricks, mas não gerenciando o acesso aos dados no armazenamento em nuvem de outros clientes. Consulte O que são volumes do Catálogo Unity? e Tabelas e volumes gerenciados versus externos.
- As funções são unidades de lógica salva que retornam um valor escalar ou um conjunto de linhas. Consulte Funções definidas pelo usuário (UDFs) no Catálogo Unity.
- Os modelos são modelos de IA empacotados com MLflow e registrados no Unity Catalog como funções. Consulte Gerenciar o ciclo de vida do modelo no Catálogo Unity.
Objetos protegíveis que o Unity Catalog usa para gerenciar o acesso a fontes de dados externas
Além dos objetos de banco de dados e ativos de IA contidos em esquemas, o Unity Catalog também usa os seguintes objetos protegíveis para gerenciar o acesso ao armazenamento em nuvem e outras fontes de dados e serviços externos:
- Credenciais de armazenamento, que encapsulam uma credencial de nuvem de longo prazo que fornece acesso ao armazenamento em nuvem. Consulte Visão geral das credenciais de armazenamento.
- Locais externos, que fazem referência a um caminho de armazenamento em nuvem e à credencial de armazenamento necessária para acessá-lo. Os locais externos podem ser usados para criar tabelas externas ou para atribuir um local de armazenamento gerenciado para tabelas e volumes gerenciados. Consulte Visão geral de locais externos, Armazenamento em nuvem e isolamento de dados e Especificar um local de armazenamento gerenciado no Catálogo Unity.
- Conexões, que representam credenciais que dão acesso somente leitura a um banco de dados externo em um sistema de banco de dados como o MySQL usando a Lakehouse Federation. Veja O que é Lakehouse Federation?.
- Credenciais de serviço, que encapsulam uma credencial de nuvem de longo prazo que fornece acesso a um serviço externo. Consulte Criar credenciais de serviço.
Objetos protegíveis que o Unity Catalog usa para gerenciar o acesso a ativos compartilhados
O Unity Catalog usa os seguintes objetos protegíveis para gerenciar dados e compartilhamento de ativos de IA entre metastore ou limites organizacionais:
- Salas limpas, que representam um ambiente gerenciado por Databricks onde vários participantes podem colaborar em projetos sem compartilhar dados subjacentes uns com os outros. Consulte O que é o Azure Databricks Clean Rooms?.
- Compartilhamentos, que são objetos Delta Sharing que representam uma coleção somente leitura de dados e ativos de IA que um provedor de dados compartilha com um ou mais destinatários.
- Destinatários, que são objetos de Compartilhamento Delta que representam uma entidade que recebe compartilhamentos de um provedor de dados.
- Provedores, que são objetos de Compartilhamento Delta que representam uma entidade que compartilha dados com um destinatário.
Para obter mais informações sobre os objetos protegíveis Delta Sharing, consulte O que é Delta Sharing?.
Funções de administração
As seguintes funções de administrador do Azure Databricks têm muitos privilégios do Catálogo Unity por padrão:
- Administradores de conta: podem criar metastores, vincular espaços de trabalho a metastores, adicionar usuários e atribuir privilégios em metastores.
- Administradores de espaço de trabalho: podem adicionar usuários a um espaço de trabalho e gerenciar muitos objetos específicos do espaço de trabalho, como trabalhos e blocos de anotações. Dependendo do espaço de trabalho, os administradores do espaço de trabalho também podem ter muitos privilégios no metastore anexado ao espaço de trabalho.
- Administradores de metastore: essa função opcional é necessária se você quiser gerenciar o armazenamento de tabelas e volumes no nível do metastore. Também é conveniente se você quiser gerenciar dados centralmente em vários espaços de trabalho em uma região.
Para obter mais informações, consulte Privilégios de administrador no Catálogo Unity.
Concessão e revogação de acesso a objetos protegíveis
Os usuários privilegiados podem conceder e revogar acesso a objetos protegíveis em qualquer nível da hierarquia, incluindo o próprio metastore. O acesso a um objeto concede implicitamente o mesmo acesso a todos os filhos desse objeto, a menos que o acesso seja revogado.
Você pode usar comandos ANSI SQL típicos para conceder e revogar acesso a objetos no Unity Catalog. Por exemplo:
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
Você também pode usar o Gerenciador de Catálogos, a CLI do Databricks e as APIs REST para gerenciar permissões de objeto.
Os administradores do Metastore, os proprietários de um objeto e os utilizadores com a permissão apropriada num objeto podem conceder e revogar o acesso. Para saber como gerenciar privilégios no Catálogo Unity, consulte Gerenciar privilégios no Catálogo Unity.
Acesso padrão a objetos de banco de dados no Unity Catalog
O Unity Catalog opera com base no princípio do menor privilégio, onde os usuários têm o acesso mínimo necessário para executar suas tarefas necessárias. Quando um espaço de trabalho é criado, os usuários não administradores têm acesso apenas ao catálogo de espaço de trabalho provisionado automaticamente, o que torna esse catálogo um local conveniente para os usuários experimentarem o processo de criação e acesso a objetos de banco de dados no Unity Catalog. Consulte Privilégios do catálogo do espaço de trabalho.
Trabalhando com objetos de banco de dados no Unity Catalog
Trabalhar com objetos de banco de dados no Unity Catalog é muito semelhante a trabalhar com objetos de banco de dados registrados em um metastore do Hive, com a exceção de que um metastore do Hive não inclui catálogos no namespace do objeto. Você pode usar a sintaxe ANSI familiar para criar objetos de banco de dados, gerenciar objetos de banco de dados, gerenciar permissões e trabalhar com dados no Unity Catalog. Você também pode criar objetos de banco de dados, gerenciar objetos de banco de dados e gerenciar permissões em objetos de banco de dados usando a interface do usuário do Catalog Explorer.
Para obter mais informações, consulte Objetos de banco de dados no Azure Databricks.
Tabelas e volumes gerenciados versus externos
Tabelas e volumes podem ser gerenciados ou externos.
- As tabelas gerenciadas são totalmente gerenciadas pelo Unity Catalog, o que significa que o Unity Catalog gerencia a governança e os arquivos de dados subjacentes para cada tabela gerenciada. As tabelas gerenciadas são armazenadas em um local gerenciado pelo Unity Catalog em seu armazenamento em nuvem. As tabelas gerenciadas sempre usam o formato Delta Lake. Você pode armazenar tabelas gerenciadas nos níveis de metastore, catálogo ou esquema.
- As tabelas externas são tabelas cujo acesso a partir do Azure Databricks é gerenciado pelo Unity Catalog, mas cujo ciclo de vida de dados e layout de arquivo são gerenciados usando seu provedor de nuvem e outras plataformas de dados. Normalmente, você usa tabelas externas para registrar grandes quantidades de seus dados existentes no Azure Databricks ou se também precisar de acesso de gravação aos dados usando ferramentas fora do Azure Databricks. As tabelas externas são suportadas em vários formatos de dados. Depois que uma tabela externa é registrada em um metastore do Catálogo Unity, você pode gerenciar e auditar o acesso do Azure Databricks a ela --- e trabalhar com ela --- assim como pode fazer com tabelas gerenciadas.
- Os volumes gerenciados são totalmente gerenciados pelo Unity Catalog, o que significa que o Unity Catalog gerencia o acesso ao local de armazenamento do volume em sua conta de provedor de nuvem. Quando você cria um volume gerenciado, ele é armazenado automaticamente no local de armazenamento gerenciado atribuído ao esquema que o contém.
- Os volumes externos representam dados existentes em locais de armazenamento que são gerenciados fora do Azure Databricks, mas registrados no Unity Catalog para controlar e auditar o acesso de dentro do Azure Databricks. Ao criar um volume externo no Azure Databricks, você especifica seu local, que deve estar em um caminho definido em um local externo do Catálogo Unity.
O Databricks recomenda tabelas e volumes gerenciados para a maioria dos casos de uso, pois eles permitem que você aproveite ao máximo os recursos de governança e otimizações de desempenho do Unity Catalog. Para obter informações sobre casos de uso típicos para tabelas e volumes externos, consulte Tabelas gerenciadas e externas e Volumes gerenciados e externos.
Ver também:
- Tabelas gerenciadas do Unity Catalog no Azure Databricks para Delta Lake e Apache Iceberg
- Trabalhar com tabelas externas
- Volumes gerenciados versus externos.
Armazenamento na nuvem e isolamento de dados
O Unity Catalog usa o armazenamento em nuvem de duas maneiras principais:
- Armazenamento gerenciado: locais padrão para tabelas gerenciadas e volumes gerenciados (dados não estruturados e não tabulares) que você cria no Azure Databricks. Esses locais de armazenamento gerenciado podem ser definidos no nível de metastore, catálogo ou esquema. Você cria locais de armazenamento gerenciados em seu provedor de nuvem, mas seu ciclo de vida é totalmente gerenciado pelo Unity Catalog.
- Locais de armazenamento onde tabelas e volumes externos são armazenados. Essas são tabelas e volumes cujo acesso do Azure Databricks é gerenciado pelo Unity Catalog, mas cujo ciclo de vida de dados e layout de arquivo são gerenciados usando seu provedor de nuvem e outras plataformas de dados. Normalmente, você usa tabelas ou volumes externos para registrar grandes quantidades de seus dados existentes no Azure Databricks ou se também precisar de acesso de gravação aos dados usando ferramentas fora do Azure Databricks.
Controlar o acesso ao armazenamento em nuvem usando locais externos
Os locais de armazenamento gerenciado e os locais de armazenamento onde tabelas e volumes externos são armazenados usam objetos protegíveis de local externo para gerenciar o acesso do Azure Databricks. Os objetos de localização externa fazem referência a um caminho de armazenamento em nuvem e à credencial de armazenamento necessária para acessá-lo. As credenciais de armazenamento são objetos protegíveis do Unity Catalog que registram as credenciais necessárias para acessar um caminho de armazenamento específico. Juntos, estes recursos seguros garantem que o acesso ao armazenamento seja controlado e rastreado pelo Unity Catalog.
O diagrama abaixo mostra como locais externos fazem referência a credenciais de armazenamento e locais de armazenamento em nuvem.
Neste diagrama:
- Cada local externo faz referência a uma credencial de armazenamento e a um local de armazenamento em nuvem.
- Vários locais externos podem fazer referência à mesma credencial de armazenamento.
A credencial de armazenamento 1 concede acesso a tudo o que está sob o caminho
bucket/tables/*, portanto, tanto o local externo A quanto o local externo B fazem referência a ele.
Para obter mais informações, consulte Como o Unity Catalog controla o acesso ao armazenamento em nuvem?.
Hierarquia de locais de armazenamento gerenciado
O nível no qual você define o armazenamento gerenciado no Unity Catalog depende do seu modelo de isolamento de dados preferido. Sua organização pode exigir que certos tipos de dados sejam armazenados em contas ou buckets específicos em seu locatário de nuvem.
O Unity Catalog oferece a capacidade de configurar locais de armazenamento gerenciado no nível de metastore, catálogo ou esquema para atender a esses requisitos.
Por exemplo, digamos que sua organização tenha uma política de conformidade da empresa que exija que os dados de produção relacionados aos recursos humanos residam no contêiner abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net. No Unity Catalog, você pode atingir esse requisito definindo um local em um nível de catálogo, criando um catálogo chamado, por exemplo, hr_prod, e atribuindo o local abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog a ele. Isso significa que tabelas ou volumes gerenciados criados no catálogo hr_prod (por exemplo, usando CREATE TABLE hr_prod.default.table …) armazenam seus dados em abfss://mycompany-hr-prod@storage-account.dfs.core.windows.net/unity-catalog. Opcionalmente, pode fornecer locais ao nível do esquema para organizar dados dentro do hr_prod catalog a um nível mais granular.
Se o isolamento de armazenamento não for necessário para alguns catálogos, você pode, opcionalmente, definir um local de armazenamento no nível do metastore. Esse local serve como um local padrão para tabelas e volumes gerenciados em catálogos e esquemas que não têm armazenamento atribuído. Normalmente, no entanto, o Databricks recomenda que você atribua locais de armazenamento gerenciado separados para cada catálogo.
O sistema avalia a hierarquia dos locais de armazenamento, do esquema ao catálogo e ao metastore.
Por exemplo, se uma tabela myCatalog.mySchema.myTable for criada no my-region-metastore, o local de armazenamento da tabela será determinado de acordo com a seguinte regra:
- Se um local tiver sido fornecido para
mySchema, ele será armazenado lá. - Se não, e se um local tiver sido fornecido no
myCatalog, ele será armazenado lá. - Finalmente, se nenhum local tiver sido fornecido no
myCatalog, ele será armazenado no local associado aomy-region-metastore.
Para obter mais informações, consulte Especificar um local de armazenamento gerenciado no Unity Catalog.
Isolamento do ambiente usando a vinculação de catálogos de espaços de trabalho
Por padrão, os proprietários do catálogo (e os administradores do metastore, se estiverem definidos para a conta) podem tornar um catálogo acessível aos usuários em vários espaços de trabalho anexados ao mesmo metastore do Unity Catalog.
Os requisitos organizacionais e de conformidade geralmente especificam que você mantenha determinados dados, como dados pessoais, acessíveis apenas em determinados ambientes. Você também pode querer manter os dados de produção isolados dos ambientes de desenvolvimento ou garantir que determinados conjuntos de dados e domínios nunca sejam unidos.
No Azure Databricks, o espaço de trabalho é o ambiente de processamento de dados primário e os catálogos são o domínio de dados primário. O Unity Catalog permite que administradores de metalojas, proprietários de catálogos e usuários com a permissão MANAGE atribuam ou "vinculem" catálogos a espaços de trabalho específicos. Essas associações com reconhecimento de ambiente oferecem a capacidade de garantir que apenas determinados catálogos estejam disponíveis em um espaço de trabalho, independentemente dos privilégios específicos em objetos de dados concedidos a um usuário. No entanto, se você usar espaços de trabalho para isolar o acesso aos dados do usuário, convém limitar o acesso ao catálogo a espaços de trabalho específicos em sua conta, para garantir que certos tipos de dados sejam processados somente nesses espaços de trabalho. Você pode querer espaços de trabalho de produção e desenvolvimento separados, por exemplo, ou um espaço de trabalho separado para processar dados pessoais. Isso é conhecido como vinculação de catálogo de espaço de trabalho. Consulte Limitar o acesso do catálogo a espaços de trabalho específicos.
Nota
Para aumentar o isolamento de dados, você também pode vincular o acesso ao armazenamento em nuvem e o acesso ao serviço de nuvem a espaços de trabalho específicos. Consulte (Opcional) Atribuir uma credencial de armazenamento a espaços de trabalho específicos, (Opcional) Atribuir um local externo a espaços de trabalho específicos e (Opcional) Atribuir uma credencial de serviço a espaços de trabalho específicos.
Como configuro o Catálogo Unity para minha organização?
Para usar o Unity Catalog, seu espaço de trabalho do Azure Databricks deve ser habilitado para o Unity Catalog, o que significa que o espaço de trabalho está anexado a um metastore do Unity Catalog.
Como um espaço de trabalho é anexado a um metastore? Depende da conta e do espaço de trabalho:
- Normalmente, quando você cria um espaço de trabalho do Azure Databricks em uma região pela primeira vez, o metastore é criado automaticamente e anexado ao espaço de trabalho.
- Para algumas contas mais antigas, um administrador de conta deve criar o metastore e atribuir os espaços de trabalho nessa região ao metastore. Para obter instruções, consulte Criar um metastore do Unity Catalog.
- Se uma conta já tiver um metastore atribuído a uma região, um administrador de conta poderá decidir se deseja anexar o metastore automaticamente a todos os novos espaços de trabalho nessa região. Consulte Permitir que um metastore seja atribuído automaticamente a novos espaços de trabalho.
Se seu espaço de trabalho foi habilitado ou não para o Unity Catalog automaticamente, as etapas a seguir também são necessárias para começar a usar o Unity Catalog:
- Crie catálogos e esquemas para conter objetos de banco de dados, como tabelas e volumes.
- Crie locais de armazenamento gerenciado para armazenar as tabelas e volumes gerenciados nesses catálogos e esquemas.
- Conceda ao usuário acesso a catálogos, esquemas e objetos de banco de dados.
Os espaços de trabalho habilitados automaticamente para o Unity Catalog provisionam um catálogo de espaços de trabalho com amplos privilégios concedidos a todos os usuários do espaço de trabalho. Este catálogo é um ponto de partida conveniente para experimentar o Unity Catalog.
Para obter instruções detalhadas de configuração, consulte Introdução ao Catálogo Unity.
Atualizando um espaço de trabalho existente para o Unity Catalog
Para saber como atualizar um espaço de trabalho que não seja do Catálogo Unity para o Catálogo Unity, consulte Atualizar um espaço de trabalho do Azure Databricks para o Catálogo Unity.
Requisitos e restrições do Catálogo Unity
O Unity Catalog requer tipos específicos de computação e formatos de arquivo, descritos abaixo. Também estão listados abaixo alguns recursos do Azure Databricks que não são totalmente suportados no Unity Catalog em todas as versões do Databricks Runtime.
Suporte à região
Todas as regiões suportam o Unity Catalog. Para obter detalhes, consulte Regiões do Azure Databricks.
Requisitos de computação
O Unity Catalog é suportado em clusters que executam o Databricks Runtime 11.3 LTS ou superior. O Unity Catalog é suportado por padrão em todas as versões de computação do SQL warehouse .
Os clusters executados em versões anteriores do Databricks Runtime não fornecem suporte para todos os recursos e funcionalidades do Unity Catalog GA.
Para acessar dados no Unity Catalog, os clusters devem ser configurados com o modo de acesso correto. O Unity Catalog é seguro por padrão. Se um cluster não estiver configurado com o modo de acesso padrão ou dedicado, o cluster não poderá acessar dados no Unity Catalog. Consulte Modos de acesso.
Para obter informações detalhadas sobre as alterações de funcionalidade do Unity Catalog em cada versão do Databricks Runtime, consulte as notas de versão.
Suporte ao formato de ficheiro
O Unity Catalog suporta os seguintes formatos de tabela:
-
As tabelas gerenciadas devem usar o formato de
deltatabela. -
As tabelas externas podem usar
delta,CSV, ,JSONavro,parquetORC, outext.
Limitações
O Catálogo Unity tem as seguintes limitações. Alguns deles são específicos para versões mais antigas do Databricks Runtime e modos de acesso à computação.
As cargas de trabalho do Streaming estruturado têm limitações adicionais, dependendo do tempo de execução e do modo de acesso do Databricks. Consulte Requisitos e limitações de computação padrão e Requisitos e limitações de computação dedicada.
O Databricks lança uma nova funcionalidade que reduz essa lista regularmente.
Os grupos que foram criados anteriormente num espaço de trabalho (ou seja, grupos ao nível do espaço de trabalho) não podem ser usados em instruções do Catálogo Unity
GRANT. Isso é para garantir uma visão consistente de grupos que podem abranger espaços de trabalho. Para usar grupos emGRANTinstruções, crie os seus grupos ao nível da conta e atualize qualquer automação para o gerenciamento de principais ou grupos, tal como os conectores SCIM, Okta, Microsoft Entra ID e Terraform, para fazer referência a endpoints de conta em vez de endpoints de espaço de trabalho. Consulte Fontes do grupo.As cargas de trabalho em R não suportam o uso de exibições dinâmicas para segurança em nível de linha ou coluna em computação executando o Databricks Runtime 15.3 e inferior.
- Use um recurso de computação dedicado executando o Databricks Runtime 15.4 LTS ou superior para cargas de trabalho em R que consultam exibições dinâmicas. Essas cargas de trabalho também exigem um espaço de trabalho habilitado para computação sem servidor. Para obter detalhes, consulte Controle de acesso refinado em computação dedicada.
Clones superficiais não são suportados no Unity Catalog em computação que executa o Databricks Runtime 12.2 LTS ou inferior. Você pode usar clones superficiais para criar tabelas gerenciadas no Databricks Runtime 13.3 LTS e superior. Não é possível usá-los para criar tabelas externas, independentemente da versão do Databricks Runtime. Consulte Clone raso para tabelas do Catálogo Unity.
Não há suporte para o agrupamento em buckets nas tabelas do Unity Catalog. Se executar comandos que tentam criar uma tabela organizada em blocos no Unity Catalog, será gerada uma exceção.
Gravar no mesmo caminho ou na tabela Delta Lake a partir de espaços de trabalho em várias regiões pode levar a um desempenho não confiável se alguns clusters acessarem o Unity Catalog e outros não.
A manipulação de partições para tabelas externas usando comandos como
ALTER TABLE ADD PARTITIONrequer que o registro de metadados de partição seja habilitado. Consulte Descoberta de partições para tabelas externas.Ao usar o modo de substituição para tabelas que não estão no formato Delta, o usuário deve ter o privilégio CREATE TABLE no esquema pai e deve ser o proprietário do objeto existente OU ter o privilégio MODIFY no objeto.
UDFs Python não são suportados no Databricks Runtime 12.2 LTS e inferior. Isso inclui UDAFs, UDTFs e Pandas no Spark (
applyInPandasemapInPandas). UDFs escalares Python são suportados no Databricks Runtime versão 13.3 LTS e versões superiores.As Scala UDFs não são suportadas no Databricks Runtime 14.1 e anteriores em computação com modo de acesso padrão. UDFs escalares são suportados no Databricks Runtime 14.2 e superior na computação com modo de acesso padrão.
Os pools de threads padrão do Scala não são suportados. Em vez disso, use os pools de threads especiais em
org.apache.spark.util.ThreadUtils, por exemplo,org.apache.spark.util.ThreadUtils.newDaemonFixedThreadPool. No entanto, os pools de threads emThreadUtilsseguintes não são suportados:ThreadUtils.newForkJoinPoole qualquer pool de threadsScheduledExecutorService.
- Os logs de diagnóstico do Azure registram apenas eventos do Catálogo Unity no nível do espaço de trabalho. Para exibir ações no nível da conta, você deve usar a tabela do sistema de log de auditoria. Consulte Referência da tabela do sistema de log de auditoria.
Os modelos registrados no Catálogo Unity têm limitações adicionais. Consulte Limitações.
Quotas de recursos
O Unity Catalog impõe quotas de recursos em todos os objetos que podem ser protegidos. Essas cotas estão listadas em Limites de recursos. Se você espera exceder esses limites de recursos, entre em contato com sua equipe de conta do Azure Databricks.
Você pode monitorar o uso da cota usando as APIs de cotas de recursos do Unity Catalog. Consulte Monitorar o uso das cotas de recursos do Unity Catalog.