Partilhar via


Espelhamento do Azure Cosmos DB

O espelhamento no Microsoft Fabric proporciona uma experiência fluida sem ETL para integrar os seus dados existentes do Azure Cosmos DB com o resto dos seus dados no Microsoft Fabric para um verdadeiro Processamento Híbrido Transacional/Analítico (HTAP) com isolamento completo da carga de trabalho entre sistemas transacionais e analíticos. Seus dados do Azure Cosmos DB são replicados continuamente diretamente no Fabric OneLake quase em tempo real, sem qualquer impacto no desempenho de suas cargas de trabalho transacionais ou consumo de Unidades de Solicitação (RUs).

Os dados no OneLake são armazenados no formato delta de código aberto e disponibilizados automaticamente para todos os mecanismos analíticos no Fabric.

Você pode usar recursos internos do Power BI para acessar dados no OneLake no modo DirectLake. Com Copilot os aprimoramentos no Fabric, você pode usar o poder da IA generativa para obter informações importantes sobre seus dados de negócios. Além do Power BI, você pode usar o T-SQL para executar consultas agregadas complexas ou usar o Spark para exploração de dados. Você pode acessar perfeitamente os dados em blocos de anotações e usar a ciência de dados para criar modelos de aprendizado de máquina.

Importante

Atualmente, apenas contas do Azure Cosmos DB para NoSQL são suportadas.

Por que usar o espelhamento no Fabric?

Com o espelhamento na malha, você não precisa reunir serviços diferentes de vários fornecedores. Em vez disso, você pode desfrutar de um produto altamente integrado, completo e fácil de usar, projetado para simplificar suas necessidades de análise e criado para abertura.

Se você estiver procurando por relatórios ou análises de BI em seus dados operacionais no Azure Cosmos DB, o espelhamento fornece:

  • Sem ETL, acesso econômico quase em tempo real aos seus dados do Azure Cosmos DB sem afetar o consumo da unidade de solicitação
  • Facilidade de trazer dados de várias fontes para o Fabric OneLake
  • Otimizações de tabela delta com ordem v para leituras ultrarrápidas
  • Integração com um clique com o Power BI com Direct Lake e Copilot
  • Insights de negócios avançados unindo dados em várias fontes
  • Integração de aplicativos mais rica para acessar consultas e visualizações

Os dados do OneLake são armazenados no formato de código aberto Delta Lake, permitindo que você os use com várias soluções dentro e fora da Microsoft. Esse formato de dados ajuda a facilitar a criação de um único conjunto de dados para suas necessidades analíticas.

Que experiências analíticas são incorporadas?

Os bancos de dados espelhados são um item no Fabric Data Warehousing distinto do ponto de extremidade de análise Warehouse e SQL.

Diagrama de espelhamento de malha para o Azure Cosmos DB.

Cada item do Azure Cosmos DB espelhado cria estes itens com os quais você pode interagir em seu espaço de trabalho de malha:

  • O item de banco de dados espelhado. O espelhamento gerencia a replicação de dados no OneLake e a conversão para o Parquet, em um formato pronto para análise. Isso permite cenários downstream, como engenharia de dados, ciência de dados e muito mais.
  • Ponto de extremidade de análise SQL, que é gerado automaticamente

Base de dados espelhada

O banco de dados espelhado mostra o status da replicação e os controles para interromper ou iniciar a replicação no Fabric OneLake. Você também pode exibir seu banco de dados de origem, no modo somente leitura, usando o explorador de dados do Azure Cosmos DB. Usando o explorador de dados, você pode exibir seus contêineres no banco de dados do Azure Cosmos DB de origem e consultá-los. Essas operações consomem unidades de solicitação (RUs) da sua conta do Azure Cosmos DB. Quaisquer alterações no banco de dados de origem são refletidas imediatamente na exibição do banco de dados de origem do Fabric. Não é permitido gravar no banco de dados de origem a partir do Fabric, pois você só pode exibir os dados.

Endpoint de Análise SQL

Cada banco de dados espelhado tem um ponto de extremidade de análise SQL gerado automaticamente que fornece uma experiência analítica rica sobre as tabelas Delta do OneLake criadas pelo processo de espelhamento. Você tem acesso a comandos familiares de T-SQL que podem definir e consultar objetos de dados, mas não manipular os dados a partir do ponto de extremidade de análise SQL, uma vez que este é uma cópia de leitura única.

Você pode executar as seguintes ações no ponto de extremidade de análise SQL:

  • Explore tabelas Delta Lake usando T-SQL. Cada tabela é mapeada para um contêiner do seu banco de dados do Azure Cosmos DB.
  • Crie consultas e visualizações sem código e explore-as visualmente sem escrever uma linha de código.
  • Junte e consulte dados em outros bancos de dados espelhados, Armazéns e Lakehouses no mesmo espaço de trabalho.
  • Você pode facilmente visualizar e criar relatórios de BI com base em consultas ou exibições SQL.

Além do editor de consultas SQL, há um amplo ecossistema de ferramentas. Essas ferramentas incluem a extensão mssql com Visual Studio Code, SQL Server Management Studio (SSMS) e até mesmo GitHub Copilot. Você pode turbinar análises e geração de insights a partir da ferramenta de sua escolha.

Modelo semântico

Você pode criar um Modelo Semântico do Power BI no banco de dados para permitir que métricas de negócios sejam criadas, compartilhadas e reutilizadas. Para obter mais informações, consulte Criar um modelo semântico do Power BI.

Como funciona a replicação quase em tempo real?

Quando habilitas o espelhamento no teu banco de dados do Azure Cosmos DB, as operações de inserção, atualização e exclusão nos teus dados OLTP (processamento de transações online) são replicadas continuamente no Fabric OneLake para análise.

O recurso de backup contínuo é um pré-requisito para o espelhamento. Você pode habilitar o backup contínuo de 7 ou 30 dias em sua conta do Azure Cosmos DB. Se você estiver habilitando o backup contínuo especificamente para espelhamento, recomenda-se o backup contínuo de 7 dias, pois é gratuito.

Observação

O espelhamento não usa o repositório analítico do Azure Cosmos DB ou o feed de alterações como uma fonte de captura de dados de alteração. Você pode continuar a usar esses recursos de forma independente, juntamente com o espelhamento.

Pode levar alguns minutos para replicar seus dados do Azure Cosmos DB no Fabric OneLake. Dependendo do instantâneo inicial dos seus dados ou da frequência de atualizações e eliminações, a replicação pode, em alguns casos, demorar mais tempo. A replicação não afeta as unidades de solicitação (RUs) alocadas para suas cargas de trabalho transacionais.

O que esperar do espelhamento

Antes de efetuar o espelhamento, há algumas considerações e cenários suportados que deves considerar.

Considerações sobre a configuração

Para espelhar um banco de dados, ele já deve estar provisionado no Azure. Você deve habilitar o backup contínuo na conta como pré-requisito.

  • Você só pode espelhar cada banco de dados individualmente de cada vez. Você pode escolher qual banco de dados espelhar.
  • Você pode espelhar o mesmo banco de dados várias vezes no mesmo espaço de trabalho. Como prática recomendada, uma única cópia do banco de dados pode ser reutilizada em lakehouses, armazéns ou outros bancos de dados espelhados. Não precisas de configurar vários espelhos na mesma base de dados.
  • Você também pode espelhar o mesmo banco de dados em diferentes espaços de trabalho ou locatários do Fabric.
  • Você pode selecionar quais contêineres espelhar em seu banco de dados.
  • As alterações nos contentores do Azure Cosmos DB, como a adição de novos contentores e a exclusão dos existentes, são replicadas diretamente para o Fabric. Você pode começar a espelhar um banco de dados vazio sem contêineres, por exemplo, e o espelhamento pega perfeitamente os contêineres adicionados em um momento posterior.

Suporte para dados aninhados

Os dados aninhados são mostrados como uma cadeia de caracteres JSON em tabelas de endpoint de análise SQL. Você pode usar OPENJSON, CROSS APPLYe OUTER APPLY em consultas ou exibições T-SQL para expandir esses dados seletivamente. Se estiver a utilizar o Power Query, também pode aplicar a ToJson função para expandir estes dados.

Por meio da inferência de esquema automático, os dados aninhados podem ser nivelados OPENJSON sem a necessidade de definir explicitamente o esquema aninhado. Isso é especialmente útil para cargas de trabalho com esquemas aninhados dinâmicos ou imprevisíveis. Para obter mais informações, consulte como consultar dados aninhados.

Manipular alterações de esquema

O espelhamento replica automaticamente as propriedades dos itens do Azure Cosmos DB, incluindo alterações de esquema. Todas as novas propriedades descobertas em um item são mostradas como novas colunas e as propriedades ausentes, se houver, são representadas como nulas na Malha.

Se renomares uma propriedade num item, as tabelas Fabric manterão as colunas antiga e nova. A coluna antiga mostrará null e a nova mostrará o valor mais recente, para todos os itens replicados após a operação de renomeação.

Se você alterar o tipo de dados de uma propriedade em itens do Azure Cosmos DB, as alterações terão suporte para tipos de dados compatíveis que podem ser convertidos. Se os tipos de dados não forem compatíveis para conversão em Delta, eles serão representados como valores nulos.

As tabelas de ponto final de análise SQL convertem tipos de dados Delta em tipos de dados T-SQL.

Nomes de colunas duplicados

O Azure Cosmos DB dá suporte a nomes de coluna que não diferenciam maiúsculas de minúsculas, com base no padrão JSON. O espelhamento suporta esses nomes de coluna duplicados adicionando _n ao nome da coluna, onde n seria um valor numérico.

Por exemplo, se o item do Azure Cosmos DB tiver addressName e AddressName como propriedades exclusivas, as tabelas Fabric terão colunas addressName e AddressName_1 correspondentes. Para obter mais informações, consulte Limitações de replicação.

Suporte para cargas de trabalho de IA

O Azure Cosmos DB Mirroring dá suporte a contas que usam pesquisa vetorial e indexação, permitindo que cargas de trabalho de IA e aprendizado de máquina aproveitem ao máximo as poderosas análises do Microsoft Fabric, enquanto continuam a aproveitar os recursos vetoriais de alto desempenho do Azure Cosmos DB.

Para obter mais detalhes, explore a documentação sobre Pesquisa vetorial e indexação para Cosmos DB e Fabric Data Science and AI Experiences.

Segurança

Você pode se conectar a uma conta de origem usando o Microsoft Entra ID e controle de acesso baseado em funções ou chaves ao nível da conta.

Se usar chaves e alternar ou regenerar as chaves, precisa atualizar as conexões para garantir que a replicação funcione corretamente. Para obter mais informações, consulte conexões. As chaves de conta não ficam diretamente visíveis para outros usuários do Fabric depois que a conexão é configurada. Você pode limitar quem tem acesso às conexões criadas no Fabric. As gravações não são permitidas no banco de dados do Azure Cosmos DB, seja a partir do explorador de dados ou da interface de análise no banco de dados espelhado. Atualmente, o espelhamento não suporta a autenticação com chaves de acesso de conta em modo só leitura.

Para autenticação do Microsoft Entra ID, as seguintes permissões RBAC são necessárias: Microsoft.DocumentDB/databaseAccounts/readMetadata & Microsoft.DocumentDB/databaseAccounts/readAnalytics. Para obter mais informações, consulte a documentação de controle de acesso baseado em função do plano de dados.

Sugestão

Depois que os dados forem replicados no Fabric OneLake, você também deverá proteger o acesso a esses dados.

Recursos de proteção de dados

A segurança granular pode ser configurada no banco de dados espelhado no Microsoft Fabric. Para obter mais informações, consulte permissões granulares no Microsoft Fabric.

Você pode proteger filtros de coluna e filtros de linha baseados em predicados em tabelas para funções e usuários no Microsoft Fabric:

Você também pode mascarar dados confidenciais de usuários não administradores usando o mascaramento dinâmico de dados:

Segurança de rede

Atualmente, o espelhamento não suporta endpoints privados ou chaves gerenciadas pelo cliente (CMK) no OneLake. O espelhamento não é suportado para contas do Azure Cosmos DB com configurações de segurança de rede menos permissivas do que todas as redes, usando pontos de extremidade de serviço, usando pontos de extremidade privados, usando endereços IP ou usando quaisquer outras configurações que possam limitar o acesso à rede pública à conta. As contas do Azure Cosmos DB devem estar abertas a todas as redes para trabalhar com espelhamento.

Latência de replicação e recuperação de desastres

No Fabric, você pode implantar conteúdo em data centers em regiões diferentes da região inicial do locatário do Fabric. Para obter mais informações, consulte Suporte multigeográfico.

Para uma conta do Azure Cosmos DB com uma região de escrita primária e várias regiões de leitura, o espelhamento escolhe a região de leitura do Azure Cosmos DB mais próxima à região onde a capacidade de Fabric está configurada. Essa seleção ajuda a fornecer replicação de baixa latência para espelhamento.

Quando você alterna sua conta do Azure Cosmos DB para uma região de recuperação, o espelhamento seleciona automaticamente a região do Azure Cosmos DB mais próxima novamente.

Observação

A funcionalidade de espelhamento não suporta contas com várias regiões de gravação.

Os dados do Cosmos DB replicados para o OneLake precisam ser configurados para lidar com interrupções em toda a região. Para obter mais informações, consulte recuperação de desastres no OneLake.

Explore seus dados com espelhamento

Você pode visualizar e acessar diretamente dados espelhados no OneLake. Você também pode acessar perfeitamente os dados espelhados sem mais movimentação de dados.

Saiba mais sobre como acessar o OneLake usando APIs ou SDK do ADLS Gen2, o explorador de arquivos do OneLake e o explorador de armazenamento do Azure.

Você pode conectar-se ao endpoint de análise SQL a partir de ferramentas como o SQL Server Management Studio (SSMS) ou usando drivers como Microsoft Open Database Connectivity (ODBC) e Java Database Connectivity (JDBC). Para obter mais informações, consulte Conectividade ao endpoint de análises SQL.

Você também pode acessar dados espelhados com serviços como:

  • Serviços do Azure como Azure Databricks, Azure HDInsight ou Azure Synapse Analytics
  • Fabric Lakehouse usando atalhos para cenários de engenharia de dados e ciência de dados
  • Outros bancos de dados espelhados ou data warehouses no espaço de trabalho Fabric

Você também pode criar soluções de arquitetura em medalhão, limpando e transformando os dados que estão a ser armazenados num banco de dados espelhado, atuando como a camada de bronze. Para obter mais informações, consulte Suporte à arquitetura medallion no Fabric.

Pricing

A computação de malha usada para replicar seus dados do Cosmos DB no Fabric OneLake é gratuita. O armazenamento no OneLake é gratuito com base no tamanho da capacidade. Para obter mais informações, consulte Preços do OneLake para espelhamento. O uso de computação para consultar dados via SQL, Power BI ou Spark ainda é cobrado com base na Capacidade de Malha.

Se você estiver usando o explorador de dados no espelhamento de malha, acumulará custos típicos com base no uso da unidade de solicitação (RU) para explorar os contêineres e consultar os itens no banco de dados do Azure Cosmos DB de origem. O recurso de backup contínuo do Azure Cosmos DB é um pré-requisito para o espelhamento: aplicam-se taxas padrão para backup contínuo. Não existem taxas adicionais para o espelhamento no faturamento de backup contínuo. Para obter mais informações, consulte Preços do Azure Cosmos DB.

Próximo passo