Compartilhar via


OneLake, o OneDrive para dados

O OneLake é um lago de dados único, unificado e lógico para toda a sua organização. Assim como o OneDrive, o OneLake vem automaticamente com todos os locatários do Microsoft Fabric e foi projetado para ser o único lugar para todos os seus dados de análise.

O OneLake traz clientes:

  • Um data lake para toda a organização
  • Uma cópia dos dados para uso com vários mecanismos analíticos

Um data lake para toda a organização

Antes do OneLake, muitas organizações criaram vários lagos para diferentes grupos de negócios, o que levou a uma sobrecarga extra para gerenciar vários recursos. O OneLake remove esses desafios melhorando a colaboração:

  • Cada locatário do Fabric obtém automaticamente um OneLake
  • Você não pode criar vários OneLakes ou excluir seu OneLake
  • Nenhum recurso extra para provisionar ou gerenciar

Essa simplicidade ajuda sua organização a colaborar em um único data lake unificado.

Regido por padrão com propriedade distribuída para colaboração

O nível mais alto de organização e governança dos dados do Fabric é o inquilino. Todos os dados que chegam ao OneLake são automaticamente protegidos por políticas de nível de locatário para segurança, conformidade e gerenciamento de dados.

Em um locatário, a colaboração ocorre em workspaces. Você pode criar qualquer número de workspaces para organizar seus dados. Os workspaces permitem que diferentes partes da organização distribuam políticas de propriedade e acesso. Cada workspace faz parte de uma capacidade vinculada a uma região específica e cobrada separadamente.

Diagrama mostrando a função e a estrutura do OneLake.

Em um workspace, você cria e acessa todos os dados por meio de itens de dados. Semelhante a como o Office armazena arquivos Word, Excel e PowerPoint no OneDrive, o Fabric armazena lakehouses, warehouses e outros itens no OneLake. Cada tipo de item fornece experiências personalizadas para personas diferentes, como a experiência de desenvolvedor do Apache Spark em um lakehouse.

Baseado em padrões e formatos abertos

O OneLake é construído sobre o Azure Data Lake Storage (ADLS) Gen2 e pode suportar qualquer tipo de arquivo, estruturado ou não estruturado. Todos os itens de dados do Fabric, como data warehouses e lakehouses, armazenam seus dados automaticamente no OneLake no formato Delta Parquet. Se um engenheiro de dados carregar dados em um lakehouse usando o Apache Spark e, em seguida, um desenvolvedor de SQL usar o T-SQL para carregar dados em um data warehouse totalmente transacional, ambos estarão contribuindo para o mesmo data lake. O OneLake armazena todos os dados tabulares no formato Delta Parquet.

O OneLake dá suporte às mesmas APIs e SDKs do ADLS Gen2 para ser compatível com aplicativos ADLS Gen2 existentes, incluindo o Azure Databricks. Você pode tratar os dados no OneLake como se fosse uma grande conta de armazenamento ADLS para toda a organização. Cada espaço de trabalho aparece como um contêiner dentro dessa conta de armazenamento, e diferentes itens de dados aparecem como pastas dentro desses contêineres.

Diagrama mostrando como acessar os dados do OneLake com APIs e SDKs.

Para obter mais informações sobre APIs e pontos de extremidade, confira Acesso e APIs do OneLake. Para obter exemplos de integrações do OneLake ao Azure, confira os artigos Azure Synapse Analytics, Gerenciador de armazenamento do Azure, Azure Databricks e Azure HDInsight.

Explorador de arquivos do OneLake para Windows

Você pode explorar dados do OneLake do Windows usando o gerenciador de arquivos do OneLake para Windows. Você pode navegar por todos os seus espaços de trabalho e itens de dados, carregando, baixando ou modificando arquivos com facilidade, exatamente como faz no Office. O explorador de arquivos OneLake simplifica o trabalho com lagos de dados, permitindo que até mesmo usuários comerciais não técnicos os utilizem.

Para obter mais informações, confira Explorador de arquivos do OneLake.

Uma cópia dos dados

O OneLake tem como objetivo fornecer o maior valor possível de uma única cópia de dados sem movimentação de dados ou duplicação. Você não precisa copiar dados apenas para usá-los com outro mecanismo ou analisar dados de várias fontes.

Os atalhos conectam dados entre domínios sem movimentação de dados

Um atalho é uma referência aos dados armazenados em outros locais de arquivo. Esses locais de arquivo podem estar dentro do mesmo workspace ou em workspaces diferentes, dentro do OneLake ou externo ao OneLake, como ADLS, S3 ou Dataverse. Independentemente do local, os atalhos fazem com que os arquivos e as pastas pareçam estar armazenados localmente.

Os atalhos permitem que sua organização compartilhe dados entre usuários e aplicativos sem precisar mover e duplicar informações desnecessariamente. Quando as equipes trabalham de forma independente em workspaces separados, os atalhos permitem combinar dados entre diferentes grupos de negócios e domínios em um produto de dados virtuais para atender às necessidades específicas de um usuário.

Diagrama mostrando como os atalhos conectam dados através de espaços de trabalho e itens.

Para obter mais informações sobre como usar atalhos, confira Atalhos do OneLake.

Conectar dados a vários mecanismos analíticos

Os dados geralmente são otimizados para um único mecanismo, o que dificulta a reutilização dos mesmos dados para vários aplicativos. Com o Fabric, os diferentes mecanismos analíticos (T-SQL, Apache Spark, Analysis Services e outros) armazenam dados no formato Delta Parquet aberto para permitir que você use os mesmos dados em vários mecanismos.

Você não precisa copiar dados apenas para usá-los com outro mecanismo ou se sentir preso ao uso de um mecanismo específico, pois é aí que seus dados estão. Por exemplo, imagine uma equipe de engenheiros do SQL criando um data warehouse totalmente transacional. Eles podem usar o mecanismo T-SQL e todo o poder do T-SQL para criar tabelas, transformar dados e carregar os dados nas tabelas. Se um cientista de dados quiser usar esses dados, ele não precisará passar por um driver Spark/SQL especial. O OneLake armazena todos os dados no formato Delta Parquet. O cientista de dados pode usar todo o poder do mecanismo Spark e suas bibliotecas de software livre diretamente sobre os dados.

Os usuários empresariais podem criar relatórios do Power BI diretamente sobre o OneLake usando o modo Direct Lake no mecanismo do Analysis Services. O mecanismo do Analysis Services alimenta modelos semânticos do Power BI e sempre ofereceu dois modos de acesso aos dados: importação e consulta direta. Esse terceiro modo, o modo Direct Lake, oferece aos usuários toda a velocidade de importação sem a necessidade de copiar os dados, combinando o melhor da importação e da consulta direta. Para obter mais informações, consulte Direct Lake.

Diagrama de exemplo mostrando o carregamento de dados usando o Spark, consultando usando T-SQL e exibindo os dados em um relatório do Power BI.

Próximas etapas

Pronto para começar a usar o OneLake? Veja como começar: