Partilhar via


Perguntas frequentes sobre clusters de Big Data do SQL Server

Este artigo responde a perguntas frequentes sobre conceitos, funcionalidades, implantação, suporte e ferramentas dos Clusters de Big Data do SQL Server .

Práticas recomendadas

Quais são as melhores práticas recomendadas em relação aos locais de arquivo?

Há menos flexibilidade nisso em relação à configuração do SQL Server em computadores bare-metal no Windows ou Linux. No ambiente do Kubernetes, esses artefatos são abstraídos e precisam ser portáteis. Atualmente, há dois PVs (volumes persistentes), para dados e logs, fornecidos por pod que podem ser configurados. Para obter mais informações, consulte Persistência de dados com o cluster de Big Data do SQL Server no Kubernetes.

Preciso fazer backups de log de transações em Clusters de Big Data do SQL Server?

Você precisa executar backups de log apenas para bancos de dados de usuário na instância mestra do SQL Server (dependendo do modelo de recuperação ou da configuração de HA). Os bancos de dados do pool de dados usam apenas o modelo de recuperação SIMPLE. O mesmo se aplica aos bancos de dados DW* criados para o PolyBase.

Como posso monitorar se as consultas distribuídas estão realmente usando o pool de computação?

Você pode usar os DMVs do PolyBase existentes que foram aprimorados para cenários de Cluster de Big Data. Para obter mais informações, consulte Monitorar e solucionar problemas do PolyBase.

É possível configurar e gerenciar recursos do Cluster de Big Data diretamente por meio do kubectl para o Servidor de API do Kubernetes?

Embora você possa modificar algumas das configurações usando a API do Kubernetes ou o kubectl, ela não é compatível nem recomendada. Você deve executar todas as operações de gerenciamento do Cluster de Big Data por meio do azdata.

Como fazer backup de dados armazenados no HDFS?

Você pode usar qualquer solução que habilite o instantâneo de armazenamento em nível de hardware ou copie/sincronize por meio do WebHDFS. Você também pode usar azdata bdc hdfs cp, para obter mais informações, consulte azdata bdc hdfs.

Conceitos e funcionalidades

Há uma maneira de 'escalar horizontalmente' um proc armazenado? Por exemplo, tê-lo executado no pool de computação, por exemplo?

Não neste momento. Uma opção é implantar o SQL Server em um Grupo de Disponibilidade AlwaysOn. Em seguida, você pode usar réplicas secundárias legíveis para executar alguns processos (por exemplo: treinamento/pontuação de ml, atividades de manutenção etc.

Como dimensionar dinamicamente pods de um pool?

Este não é um cenário com suporte no momento.

É possível fazer backup de tabelas externas armazenadas em pools de dados?

O banco de dados na instância do pool de dados não tem metadados sobre as tabelas externas, é como qualquer banco de dados do usuário. Você pode fazer backup/restauração, mas para evitar resultados inconsistentes, você deve garantir que os metadados de tabela externa no banco de dados de metadados na instância do SQL Master estão em sincronia.

O pool de dados fornece fragmentação?

O pool de dados é um conceito de tabela distribuída. Normalmente, a fragmentação é referenciada como um conceito OLTP. No momento, não há suporte para isso.

Quando devo usar o pool de dados ou o pool de armazenamento para armazenamento de dados brutos?

O pool de termos é reservado para descrever uma coleção de aplicativos ou serviços homogêneos. Por exemplo, o pool de dados é um conjunto de armazenamento e computação do SQL Server com estado é um conjunto de serviços HDFS e Spark. O mestre do SQL Server é uma instância única ou várias instâncias que podem ser configuradas em um grupo de disponibilidade. A instância mestra do SQL Server é uma instância regular do SQL Server no Linux e você pode usar qualquer recurso disponível no Linux. Você deve começar primeiro com o modelo de dados, as entidades e serviços/aplicativos que operarão principalmente na entidade. Todos os dados não precisam ser armazenados em um só lugar, como SQL Server ou HDFS ou pool de dados. Com base na análise de dados, é possível armazenar a maioria dos dados no HDFS, processar os dados para um formato mais eficiente e expor a outros serviços. Os dados restantes seriam armazenados na instância do SQL Master.

O Cluster de Big Data do SQL Server dá suporte a bibliotecas e cálculos de aprendizado profundo baseados em GPU (PyTorch, Keras, bibliotecas de imagens específicas etc.)?

Este não é um cenário com suporte no momento.

Há uma maneira de configurar várias declarações de volume para um pool?

Cada pod pode ter apenas dois PVs (volumes persistentes). Você pode abstrair o volume no nível do sistema operacional e usá-lo para armazenamento persistente. Por exemplo, você pode criar uma partição do sistema operacional RAID 0 usando vários discos e usá-la para volume persistente usando um provisionador de armazenamento local. Não há como usar mais PVs por pod hoje. As PVs são mapeadas para diretórios dentro do contêiner e isso é corrigido. Para obter mais informações sobre volumes persistentes, consulte Volumes Persistentes na Documentação do Kubernetes.

Se configurarmos vários provedores e vários discos, a configuração do HDFS será atualizada com todas as declarações de volume de dados?

Você pode configurar o pool de armazenamento para usar uma classe de armazenamento específica no momento da implantação. Consulte a persistência de dados com o cluster de Big Data do SQL Server no Kubernetes.

Quais são as opções para acessar o armazenamento baseado em Ceph?

A camada HDFS nos permite integrar de forma transparente com protocolos baseados em S3. Para obter mais informações, se Como montar o S3 para camadas do HDFS em um cluster de Big Data.

Os dados no HDFS são preservados após uma atualização?

Sim, os dados serão preservados, pois são apoiados por volumes persistentes e a atualização apenas implanta pods existentes com novas imagens.

Como a camada do HDFS controla o cache?

Usando camadas do HDFS, os dados são armazenados em cache com o HDFS local em execução no Cluster de Big Data para permitir que os usuários anexem a grandes data lakes sem precisar trazer todos os dados. Há uma quantidade configurável de espaço alocada para o cache que é padrão para 2% hoje. Os dados são mantidos no cache, mas serão removidos se esse limite for excedido. A segurança também é mantida do lago e todas as ACLs são aplicadas. Para obter mais informações, consulte Configurar a camada do HDFS em clusters de Big Data.

Podemos usar o SQL Server 2019 para visualizar o Azure Data Lake Store Gen2? Essa integração cuidará da permissão no nível da pasta?

Sim, você pode virtualizar dados armazenados no ADLS Gen2 usando camadas HDFS. Depois que as camadas do HDFS são montadas no ADLS Gen2, os usuários obtêm a capacidade de consultar os dados do HDFS e executar trabalhos do Spark nele. O armazenamento montado será exibido no CLUSTER HDFS para Big Data no local especificado por --mount-path e os usuários podem trabalhar com esse caminho de montagem como se trabalhasse com um armazenamento local. Veja mais detalhes aqui: Configurar a camada do HDFS no Cluster de Big Data. Para obter mais informações sobre permissões de camada HDFS, consulte Gerenciar permissões HDFS para Clusters de Big Data do SQL Server.

Qual é a configuração padrão de alta disponibilidade e/ou redundância para o nó mestre no AKS (Serviço de Kubernetes do Azure)?

O painel de controle do AKS dá suporte ao SLA de tempo de atividade garante disponibilidade de 99,95%. Os nós de cluster do AKS (nós de trabalho) usam Zonas de Disponibilidade, para obter mais informações, consulte Zonas de Disponibilidade do AKS. Uma AZ (Zona de Disponibilidade) é uma oferta de alta disponibilidade do Azure que protege aplicativos e dados contra falhas de datacenter. O AKS dá suporte à disponibilidade de 99,9% para clusters que não usam Zonas de Disponibilidade. Para obter mais informações, consulte o SLA para o AKS (Serviço de Kubernetes do Azure).

Há uma maneira de reter os logs de Histórico de Trabalhos do YARN e do Spark?

Reiniciar o sparkhead não fará com que os logs sejam perdidos, esses logs estão no HDFS. Você ainda deve ver os logs de histórico do Spark na interface do usuário /gateway/default/sparkhistory. Para logs de contêiner do Yarn, você não verá esses aplicativos na interface do usuário do Yarn porque o Yarn RM é reiniciado, mas esses logs de yarn ainda estão no HDFS e você pode vinculá-los do servidor de histórico do Spark. Você sempre deve usar o servidor de histórico do Spark como ponto de entrada para diagnosticar seus aplicativos Spark.

Há uma maneira de desativar o recurso de cache para pools?

Por padrão, 1% do armazenamento total do HDFS será reservado para cache de dados montados. O cache é uma configuração global em montagens. No momento, não há uma maneira exposta de desativá-lo, no entanto, o percentual pode ser configurado por meio da configuração hdfs-site.dfs.provided.cache.capacity.fraction . Essa configuração controla a fração da capacidade total no cluster que pode ser usada para armazenar em cache dados de repositórios fornecidos. Para modificar, confira Como definir as configurações do Cluster de Big Data após a implantação. Para obter mais informações, consulte Configurar camadas do HDFS em clusters de Big Data do SQL Server.

Como agendar procedimentos armazenados do SQL no Cluster de Big Data do SQL Server 2019?

Você pode usar o serviço SQL Server Agent na instância mestra do SQL Server do cluster de Big Data.

O Cluster de Big Data dá suporte a cenários de dados de série temporal nativos, como gerados por casos de uso de IoT?

Neste momento, o InfluxDB em um Cluster de Big Data é usado apenas para armazenar dados de monitoramento coletados no Cluster de Big Data e não é exposto como um ponto de extremidade externo.

O InfluxDB fornecido pode ser usado como um banco de dados de série temporal para dados do cliente?

Neste momento, o InfluxDB em um Cluster de Big Data é usado apenas para armazenar dados de monitoramento coletados no Cluster de Big Data e não é exposto como um ponto de extremidade externo.

Como fazer para adicionar um banco de dados ao grupo de disponibilidade?

No Cluster de Big Data, a configuração de HA cria um grupo de disponibilidade chamado containedag que também inclui bancos de dados do sistema replicados entre réplicas. Os bancos de dados criados como resultado de fluxos de trabalho CREATE DATABASE ou RESTORE são adicionados automaticamente ao AG e à semente contidos. Antes do SQL Server 2019 (15.0) CU2, você precisa se conectar à instância física no Cluster de Big Data, restaurar o banco de dados e adicioná-lo ao containedag. Para obter mais informações, confira Implantar o cluster de Big Data do SQL Server com alta disponibilidade.

Posso configurar recursos de núcleo/memória para componentes em execução no Cluster de Big Data?

Neste momento, você pode definir memória para as instâncias do SQL usando sp_configure, assim como no SQL Server. Para núcleos, você pode usar ALTER SERVER CONFIGURATION SET PROCESS AFFINITY. Por padrão, os contêineres veem todas as CPUs no host e não temos uma maneira de especificar limites de recursos usando o Kubernetes no momento. Para pool de computação/pool de dados/pool de armazenamento, a configuração pode ser feita usando a instrução EXECUTE AT DATA_SOURCE da instância mestra do SQL Server.

O que acontece quando um dos nós de trabalho do Kubernetes é desligado ou tem uma interrupção?

Os pods que não são afinidades com o respectivo nó de trabalho serão movidos para outro nó no cluster do Kubernetes, desde que haja recursos suficientes. Caso contrário, os pods ficarão indisponíveis, causando interrupções.

O Cluster de Big Data será balanceado automaticamente se eu adicionar um nó ao cluster do Kubernetes?

Essa ação depende apenas do Kubernetes. Além do posicionamento do pod usando rótulos de nó, não há outro mecanismo para controlar o balanceamento de recursos do Kubernetes de dentro do Cluster de Big Data.

Qual é a consequência nos recursos do Cluster de Big Data quando removo um nó do cluster do Kubernetes?

Essa ação é equivalente ao nó de host que está sendo desligado. Há mecanismos para orquestrar isso no Kubernetes usando um processo de tainting e isso normalmente é seguido para atualização ou manutenção de nó. Para obter mais informações, consulte a documentação do Kubernetes para Taints e Tolerations.

O Hadoop empacotado com o Cluster de Big Data manipula a replicação dos dados?

Sim, o fator de replicação é uma das configurações disponíveis para HDFS. Para obter mais informações, consulte Configurar Volumes Persistentes.

O Cluster de Big Data se sobrepõe ao Synapse em termos de funcionalidade e integração?

Depende dos casos de uso e dos requisitos. O Cluster de Big Data fornece uma área de superfície completa do SQL Server, além do Spark e HDFS, com suporte da Microsoft, localmente. O Cluster de Big Data permite que o cliente do SQL Server possa se integrar à análise/big data. O Azure Synapse é puramente uma plataforma analítica que oferece uma experiência de primeira classe para clientes como um serviço gerenciado na nuvem, com foco na análise de expansão. O Azure Synapse não está direcionando uma carga de trabalho operacional como parte disso. O Cluster de Big Data tem como objetivo fornecer em cenários analíticos de banco de dados, muito mais próximos do repositório operacional.

O SQL Server está usando o HDFS como armazenamento em clusters de Big Data do SQL Server?

Os arquivos de banco de dados da instância do SQL Server não são armazenados no HDFS, no entanto, o SQL Server pode consultar o HDFS usando a interface de tabela externa.

Quais são as opções de distribuição disponíveis para armazenar dados nas tabelas distribuídas em cada pool de dados?

ROUND_ROBIN e REPLICADO. ROUND_ROBIN é o padrão. O HASH não está disponível.

O Cluster de Big Data tem o Servidor Thrift spark incluído? Em caso afirmativo, o ponto de extremidade ODBC será exposto para se conectar às tabelas metastore do Hive?

Atualmente, expõemos o HMS (Metastore do Hive) por meio do protocolo Thrift. Documentamos o protocolo, mas não abrimos um ponto de extremidade ODBC no momento.  Você pode acessá-lo por meio do protocolo HTTP Metastore do Hive, para obter mais informações, consulte o Protocolo HTTP metastore do Hive.

Carregamento de dados

É possível ingerir dados do SnowFlake em um cluster de Big Data?

O SQL Server no Linux (aplica-se à instância mestra do SQL Server no Cluster de Big Data também) não dá suporte à fonte de dados ODBC genérica que permite instalar um driver ODBC de terceiros (SnowFlake, DB2, PostgreSQL etc) e consultá-los. No momento, esse recurso está disponível apenas no SQL Server 2019 (15.0) no Windows. No Cluster de Big Data, você pode ler os dados por meio do Spark usando o JDBC e ingerir no SQL Server usando o Conector spark do MSSQL.

É possível ingerir dados usando uma fonte de dados ODBC personalizada em um Cluster de Big Data?

O SQL Server no Linux (aplica-se à instância mestra do SQL Server no Cluster de Big Data também) não dá suporte à fonte de dados ODBC genérica que permite instalar um driver ODBC de terceiros (SnowFlake, DB2, PostgreSQL etc) e consultá-los.

Como você pode importar dados para a mesma tabela usando o PolyBase CTAS em vez de criar uma tabela NEW sempre que executar o CTAS?

Você pode usar INSERT..SELECT a abordagem para evitar a necessidade de uma nova tabela a cada vez.

Qual seria a vantagem/considerações para carregar dados no pool de dados em vez de diretamente na Instância Mestra como tabelas locais?

Se a instância mestra do SQL Server tiver recursos suficientes para atender à sua carga de trabalho analítica, será sempre a opção mais rápida. O pool de dados ajuda se você quiser descarregar a execução para outras instâncias do SQL para suas consultas distribuídas. Você também pode usar o pool de dados para ingerir dados de executores do Spark em paralelo a diferentes instâncias do SQL, portanto, carregar o desempenho para grandes conjuntos de dados que estão sendo gerados do HDFS (Sistema de Arquivos Distribuído hadoop) normalmente será melhor do que entrar em uma única instância do SQL Server. No entanto, isso também é difícil de dizer, pois você ainda pode ter várias tabelas em um SQL Server e inserir em paralelo, se desejar. O desempenho depende de muitos fatores e não há nenhuma orientação ou recomendação a esse respeito.

Como posso monitorar a distribuição de dados dentro das tabelas do pool de dados?

Você pode usar EXECUTE AT para consultar DMVs como sys.dm_db_partition_stats para obter os dados em cada tabela local.

O curl é a única opção para carregar arquivos no HDFS?

Não, você pode usar azdata bdc hdfs cp. Se você fornecer o diretório raiz, o comando copiará recursivamente toda a árvore. Você pode copiar para dentro/para fora usando esse comando apenas alterando o que são os caminhos de origem/destino.

Como posso carregar dados no pool de dados?

Você pode usar a biblioteca de conectores do MSSQL Spark para ajudar na ingestão do SQL e do pool de dados. Para obter um passo a passo guiado, consulte Tutorial: Ingerir dados em um pool de dados do SQL Server com trabalhos do Spark.

Se eu tiver muitos dados em um caminho de rede (Windows), que contém muitas pastas/subpastas e arquivos de texto, como fazer para carregá-los no HDFS no cluster de Big Data?

Experimente azdata bdc hdfs cp . Se você fornecer o diretório raiz, o comando copiará recursivamente toda a árvore. Você pode copiar para dentro/para fora usando esse comando apenas alterando o que são os caminhos de origem/destino.

É possível aumentar o tamanho do pool de armazenamento em um cluster implantado?

Não há nenhuma azdata interface para executar essa operação no momento. Você tem a opção de redimensionar os PVCs desejados manualmente. O redimensionamento é uma operação complexa, consulte Volumes Persistentes na Documentação do Kubernetes.

Virtualização de dados

Quando devo usar servidores vinculados versus PolyBase?

Veja as principais diferenças e casos de uso aqui: Perguntas frequentes sobre o PolyBase.

Quais são as fontes de virtualização de dados com suporte?

O Cluster de Big Data dá suporte à virtualização de dados de fontes ODBC – SQL Server, Oracle, MongoDB, Teradata etc. Ele também dá suporte à camada de repositórios remotos, como o Azure Data Lake Store Gen2 e o armazenamento compatível com S3, bem como o AWS S3A e o ABFS (Sistema de Arquivos de Blobs do Azure).

Posso usar o PolyBase para virtualizar dados armazenados em um banco de dados SQL do Azure?

Sim, você pode usar o PolyBase no Cluster de Big Data para acessar dados no Banco de Dados SQL do Azure.

Por que as instruções CREATE TABLE incluem a palavra-chave EXTERNAL? O que EXTERNAL faz diferente da TABELA CREATE padrão?

Em geral, a palavra-chave externa implica que os dados não estão na instância do SQL Server. Por exemplo, você pode definir uma tabela de pool de armazenamento sobre um diretório HDFS. Os dados são armazenados em arquivos HDFS, não em seus arquivos de banco de dados, mas a tabela externa forneceu a interface para consultar arquivos HDFS como uma tabela relacional como se estivesse no banco de dados.
Esse conceito de acessar dados externos é chamado de virtualização de dados, para obter mais informações, confira Introdução à virtualização de dados com o PolyBase. Para obter um tutorial sobre como virtualizar dados de arquivos CSV no HDFS, consulte [Virtualizar dados CSV de clusters de Big Data do pool de armazenamento.

Quais são as diferenças entre a virtualização de dados usando o SQL Server em execução nos Clusters de Big Data do SQL Server versus o SQL Server?

Como posso dizer facilmente que uma tabela externa está apontando para o pool de dados versus o pool de armazenamento?

Você pode determinar o tipo de tabela externa examinando o prefixo de local da fonte de dados, por exemplo, sqlserver://, oracle://, sqlhdfs://, sqldatapool://.

Implantação

Falha na implantação do Cluster de Big Data. Como posso ver o que deu errado?

Há uma lista definitiva de tudo o que pode ser definido na configuração do Cluster de Big Data?

Todas as personalizações que podem ser feitas no momento da implantação são documentadas aqui em Definir configurações de implantação para recursos e serviços de cluster. Para o Spark, consulte Configurar o Apache Spark e o Apache Hadoop em clusters de Big Data.

Podemos implantar o SQL Server Analysis Services junto com clusters de Big Data do SQL Server?

Não. Especificamente, o SSAS (SQL Server Analysis Services) não tem suporte no SQL Server no Linux, portanto, você precisará instalar uma instância do SQL Server no Windows Server para executar o SSAS.

O Cluster de Big Data tem suporte para implantação no EKS ou GKS?

O Cluster de Big Data pode ser executado em qualquer pilha do Kubernetes com base na versão 1.13 e superior. No entanto, não executamos validações específicas do Cluster de Big Data no EKS ou GKS.

Qual é a versão do HDFS e do Spark em execução no Cluster de Big Data?

O Spark é 2.4 e o HDFS é 3.2.1. Para obter detalhes completos sobre o software de software livre incluído no Cluster de Big Data, consulte a referência de software livre.

Como instalar bibliotecas e pacotes no Spark?

Você pode adicionar pacotes no envio de trabalho usando as etapas no notebook de exemplo para instalar pacotes no Spark.

Preciso usar o SQL Server 2019 para usar o R e o Python para clusters de Big Data do SQL Server?

Os Serviços de ML (Machine Learning) (R e Python) estão disponíveis a partir do SQL Server 2017. Os Serviços de ML também estão disponíveis em Clusters de Big Data do SQL Server. Para obter mais informações, consulte o que são os Serviços de Machine Learning do SQL Server com Python e R?.

Licenciamento

Como as licenças do SQL Server funcionam para clusters de Big Data do SQL Server?

Consulte o guia de licenciamento que entra em muito mais detalhes, baixe o PDF.
Para obter um resumo, assista ao vídeo Licenciamento do SQL Server: Clusters de Big Data | Dados expostos.

Segurança

O Cluster de Big Data dá suporte à ID do Microsoft Entra ([anteriormente Azure Active Directory](/entra/fundamentals/new-name))?

Não neste momento.

Podemos nos conectar ao mestre do Cluster de Big Data usando a autenticação integrada?

Sim, você pode se conectar a vários serviços de Cluster de Big Data usando a autenticação integrada (com o Active Directory). Para obter mais informações, consulte Implantar o Cluster de Big Data do SQL Server no modo Active Directory. Veja também os conceitos de segurança para clusters de Big Data.

Como posso adicionar novos usuários para vários serviços no Cluster de Big Data?

No modo de autenticação básica (nome de usuário/senha), não há suporte para adicionar vários usuários para pontos de extremidade de gateway/HDFS do Knox ou controlador. O único usuário com suporte para esses pontos de extremidade é raiz. Para o SQL Server, você pode adicionar usuários usando Transact-SQL como faria para qualquer outra instância do SQL Server. Se você implantar o Cluster de Big Data com autenticação do AD para seus pontos de extremidade, há suporte para vários usuários. Consulte aqui para obter detalhes sobre como configurar os grupos do AD no momento da implantação. Para obter mais informações, consulte Implantar o Cluster de Big Data do SQL Server no modo Active Directory.

Para o Cluster de Big Data efetuar pull das imagens de contêiner mais recentes, há um intervalo de IP de saída que posso restringir?

Você pode examinar os endereços IP usados pelos vários serviços em Intervalos de IP do Azure e Marcas de Serviço – Nuvem Pública. Observe que esses endereços IP giram periodicamente.
Para que o serviço do controlador efetue pull das imagens de contêiner do MCR (Registro de Contêiner da Microsoft), você precisará conceder acesso aos endereços IP especificados na seção MicrosoftContainerRegistry . Outra opção é configurar um Registro de Contêiner do Azure privado e configurar o Cluster de Big Data para efetuar pull nela. Nesse caso, você precisará expor os endereços IP especificados na seção AzureContainerRegistry . Instruções sobre como fazer isso e um script são fornecidas na execução de uma implantação offline de um cluster de Big Data do SQL Server.

Posso implantar o Cluster de Big Data em um ambiente com gapped no ar?

O recurso "Criptografia de Armazenamento do Azure" por padrão também se aplica a clusters de Big Data baseados em AKS?

Isso depende das configurações do provisionador de armazenamento dinâmico no AKS (Serviço de Kubernetes do Azure). Veja aqui mais detalhes: Práticas recomendadas para armazenamento e backups no AKS (Serviço de Kubernetes do Azure).

Posso girar as chaves para a criptografia do SQL Server e do HDFS no cluster de Big Data?

Sim. Para obter mais informações, confira Versões de chave no cluster de Big Data.

Posso girar as senhas de objetos do Active Directory gerados automaticamente?

Sim, você pode girar facilmente as senhas de objetos do Active Directory gerados automaticamente com um novo recurso introduzido nos Clusters de Big Data do SQL Server CU13. Para obter mais informações, consulte a rotação de senha do AD.

Apoio

O Spark e o HDFS são implantados em clusters de Big Data do SQL Server com suporte da Microsoft?

Sim, a Microsoft dá suporte a todos os componentes enviados em Clusters de Big Data.

Qual é o modelo de suporte para o SparkML e o SQL Server ML Service?

A política de suporte do SQL Server ML Services é igual à do SQL Server, exceto que todas as versões principais vêm com uma nova versão de runtime. A própria biblioteca SparkML é o software de software livre (OSS). Empacotamos muitos componentes do OSS no Cluster de Big Data e isso é compatível com a Microsoft.

O Red Hat Enterprise Linux 8 (RHEL8) tem suporte para a plataforma para Clusters de Big Data do SQL Server?

Não neste momento. Veja aqui as configurações testadas.

Ferramentas

Os notebooks estão disponíveis no Azure Data Studio essencialmente jupyter notebooks?

Sim, é o mesmo kernel jupyter que acabou de aparecer no Azure Data Studio.

A ferramenta 'azdata' é de software livre?

Não, azdata não é de software livre no momento.

Recursos de treinamento

Quais opções de treinamento do Cluster de Big Data estão disponíveis?