Compartilhar via


Grupo de comandos clusters

Note

Essas informações se aplicam às versões 0.205 e superiores da CLI do Databricks. A CLI do Databricks está em Visualização Pública.

O uso da CLI do Databricks está sujeito à Licença do Databricks e ao Aviso de Privacidade do Databricks, incluindo quaisquer disposições de Dados de Uso.

O clusters grupo de comandos dentro da CLI do Databricks permite que você crie, inicie, edite, liste, encerre e exclua clusters.

Um cluster do Databricks é um conjunto de recursos de computação e configurações nos quais você executa cargas de trabalho de engenharia de dados, ciência de dados e análise de dados, como pipelines de ETL de produção, análise de streaming, análise ad hoc e aprendizado de máquina. Confira a visão geral da computação clássica.

Important

O Databricks retém informações de configuração de cluster para clusters encerrados por 30 dias. Para manter uma configuração de cluster para todos os fins mesmo depois de ter sido encerrada por mais de 30 dias, um administrador pode fixar um cluster na lista de clusters.

clusters do databricks mudar-proprietário

Alterar o proprietário do cluster. Você deve ser um administrador e o cluster deve ser encerrado para executar essa operação. O ID do aplicativo da entidade de serviço pode ser fornecido como um argumento para owner_username.

databricks clusters change-owner CLUSTER_ID OWNER_USERNAME [flags]

Arguments

CLUSTER_ID

    O ID do cluster.

OWNER_USERNAME

    Novo proprietário do cluster_id após este RPC.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

criar clusters do databricks

Crie um novo cluster. Esse comando adquire novas instâncias do provedor de nuvem, se necessário. Esse comando é assíncrono; o cluster_id retornado pode ser usado para sondar o status do cluster. Quando esse comando é retornado, o cluster está em um estado PENDENTE. O cluster é utilizável quando entra em um estado RUNNING. O Databricks pode não conseguir adquirir alguns dos nós solicitados devido a limitações do provedor de nuvem (limites de conta, preço spot etc.) ou problemas transitórios de rede.

Se o Databricks adquirir pelo menos 85% dos nós sob demanda solicitados, a criação do cluster terá êxito. Caso contrário, o cluster terminará com uma mensagem de erro informativa.

Em vez de criar a definição JSON do cluster do zero, o Databricks recomenda preencher a interface de criação de computação e copiar a definição JSON gerada pela interface do usuário.

databricks clusters create SPARK_VERSION [flags]

Arguments

SPARK_VERSION

    A versão Spark do cluster, por exemplo, 13.3.x-scala2.12. Uma lista de versões do Spark disponíveis pode ser recuperada usando a API de Listar versões disponíveis do Spark.

Opções

--apply-policy-default-values

    Quando configurado como verdadeiro, os valores fixos e padrão da política são usados para campos que são omitidos.

--autotermination-minutes int

    Encerra automaticamente o cluster depois que ele fica inativo por esse tempo em minutos.

--cluster-name string

    Nome do cluster solicitado pelo usuário.

--data-security-mode DataSecurityMode

    O modo de segurança de dados decide qual modelo de governança de dados usar ao acessar dados de um cluster. Valores com suporte: DATA_SECURITY_MODE_AUTO, , DATA_SECURITY_MODE_DEDICATED, DATA_SECURITY_MODE_STANDARD, LEGACY_PASSTHROUGH, LEGACY_SINGLE_USER, , LEGACY_SINGLE_USER_STANDARD, LEGACY_TABLE_ACL, , NONE, , SINGLE_USERUSER_ISOLATION

--driver-instance-pool-id string

    A ID opcional do pool de instâncias ao qual o cluster pertence.

--driver-node-type-id string

    O tipo de nó do driver do Spark.

--enable-elastic-disk

    Dimensionamento automático do Armazenamento Local: quando habilitado, esse cluster adquirirá dinamicamente espaço em disco adicional quando seus trabalhos do Spark estiverem com pouco espaço em disco.

--enable-local-disk-encryption

    Se deseja habilitar o LUKS nos discos locais das VMs de cluster.

--instance-pool-id string

    A ID opcional do pool de instâncias ao qual o cluster pertence.

--is-single-node

    Esse campo só pode ser usado quando tipo = CLASSIC_PREVIEW.

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--kind Kind

    O tipo de computação descrito por essa especificação de computação. Valores com suporte: CLASSIC_PREVIEW

--no-wait

    Não espere até alcançar o estado RUNNING

--node-type-id string

    Esse campo codifica, por meio de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster.

--num-workers int

    Número de nós de trabalho que esse cluster deve ter.

--policy-id string

    A ID da política de cluster usada para criar o cluster, se aplicável.

--runtime-engine RuntimeEngine

    Determina o mecanismo de execução do cluster, seja ele padrão ou Photon. Valores com suporte: NULL, PHOTON, STANDARD

--single-user-name string

    O nome de usuário único se data_security_mode for SINGLE_USER.

--timeout duration

    quantidade máxima de tempo para atingir o estado RUNNING (padrão de 20m0s)

--use-ml-runtime

    Esse campo só pode ser usado quando tipo = CLASSIC_PREVIEW.

Sinalizadores globais

exclusão de clusters do databricks

Encerre o cluster com a ID especificada. O cluster é removido de forma assíncrona. Depois que o encerramento for concluído, o cluster estará em um TERMINATED estado. Se o cluster já estiver em um estado TERMINATING ou TERMINATED, nada acontecerá.

databricks clusters delete CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster a ser encerrado.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--no-wait

    Não espere para chegar ao estado TERMINATED

--timeout duration

    A quantidade máxima de tempo para atingir o TERMINATED estado (padrão de 20m0s)

Sinalizadores globais

Edição de clusters do Databricks

Atualize a configuração de um cluster para corresponder aos atributos e ao tamanho fornecidos. Um cluster poderá ser atualizado se ele estiver em um estado EM EXECUÇÃO ou TERMINADO.

Se um cluster for atualizado em um estado RUNNING, ele será reiniciado para que os novos atributos possam entrar em vigor.

Se um cluster for atualizado enquanto estiver em um estado TERMINATED, ele permanecerá TERMINADO. Na próxima vez que ele for iniciado usando a API de clusters/inicialização, os novos atributos entrarão em vigor. Qualquer tentativa de atualizar um cluster em qualquer outro estado é rejeitada com um código de erro INVALID_STATE.

Os clusters criados pelo serviço Trabalhos do Databricks não podem ser editados.

databricks clusters edit CLUSTER_ID SPARK_VERSION [flags]

Arguments

CLUSTER_ID

    ID do cluster

SPARK_VERSION

    A versão Spark do cluster, por exemplo, 13.3.x-scala2.12. Uma lista de versões do Spark disponíveis pode ser recuperada usando a API de Listar versões disponíveis do Spark.

Opções

--apply-policy-default-values

    Use valores fixos e padrão da política para campos que são omitidos.

--autotermination-minutes int

    Encerre automaticamente o cluster após permanecer inativo por esse tempo, em minutos.

--cluster-name string

    Nome do cluster solicitado pelo usuário.

--data-security-mode DataSecurityMode

    O modo de segurança de dados decide qual modelo de governança de dados usar ao acessar dados de um cluster. Valores com suporte: DATA_SECURITY_MODE_AUTO, , DATA_SECURITY_MODE_DEDICATED``, DATA_SECURITY_MODE_STANDARD, LEGACY_PASSTHROUGH, LEGACY_SINGLE_USER, LEGACY_SINGLE_USER_STANDARD, , LEGACY_TABLE_ACL, NONE, , , SINGLE_USERUSER_ISOLATION

--driver-instance-pool-id string

    A ID opcional do pool de instâncias ao qual o cluster pertence.

--driver-node-type-id string

    O tipo de nó do driver do Spark.

--enable-elastic-disk

    Dimensionamento automático do Armazenamento Local: quando habilitado, esse cluster adquirirá dinamicamente espaço em disco adicional quando seus trabalhos do Spark estiverem com pouco espaço em disco.

--enable-local-disk-encryption

    Se deseja habilitar o LUKS nos discos locais das VMs de cluster.

--instance-pool-id string

    A ID opcional do pool de instâncias ao qual o cluster pertence.

--is-single-node

    Esse campo só pode ser usado quando tipo = CLASSIC_PREVIEW.

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--kind Kind

    O tipo de computação descrito por essa especificação de computação. Valores com suporte: CLASSIC_PREVIEW

--no-wait

    Não espere até alcançar o estado RUNNING

--node-type-id string

    Esse campo codifica, por meio de um único valor, os recursos disponíveis para cada um dos nós do Spark neste cluster.

--num-workers int

    Número de nós de trabalho que esse cluster deve ter.

--policy-id string

    A ID da política de cluster usada para criar o cluster, se aplicável.

--runtime-engine RuntimeEngine

    Determina o mecanismo de execução do cluster, seja ele padrão ou Photon. Valores com suporte: NULL, PHOTON, STANDARD

--single-user-name string

    Nome de usuário único caso o data_security_mode esteja em SINGLE_USER.

--timeout duration

    quantidade máxima de tempo para atingir o estado RUNNING (padrão de 20m0s)

--use-ml-runtime

    Esse campo só pode ser usado quando tipo = CLASSIC_PREVIEW.

Sinalizadores globais

eventos de clusters do databricks

Listar eventos sobre a atividade de um cluster. Essa API é paginada. Se houver mais eventos a serem lidos, a resposta inclui todos os parâmetros necessários para solicitar a próxima página de eventos.

databricks clusters events CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    A ID do cluster sobre o qual os eventos são recuperados.

Opções

--end-time int

    A hora de término em milissegundos de época.

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--limit int

    Preterido: use page_token em combinação com page_size.

--offset int

    Preterido: use page_token em combinação com page_size.

--order GetEventsOrder

    A ordem para listar eventos. Valores com suporte: ASC, DESC

--page-size int

    O número máximo de eventos a serem incluídos em uma página de eventos.

--page-token string

    Use next_page_token ou prev_page_token retornados da solicitação anterior para listar a próxima página de eventos ou a anterior, respectivamente.

--start-time int

    A hora de início em milissegundos de época.

Sinalizadores globais

os clusters do databricks são obtidos

Obtém informações sobre um cluster a partir de seu identificador. Os clusters podem ser descritos enquanto estão em execução ou até 60 dias após serem encerrados.

databricks clusters get CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O diretório sobre o qual as informações serão recuperadas.

Opções

Sinalizadores globais

lista de clusters do databricks

Liste informações sobre todos os clusters fixados e ativos e todos os clusters encerrados nos últimos 30 dias. Os clusters encerrados antes desse período não estão incluídos.

databricks clusters list [flags]

Arguments

None

Opções

--cluster-sources []string

    Filtrar clusters por origem

--cluster-states []string

    Filtrar clusters por estados

--is-pinned

    Filtrar clusters por status fixado

--page-size int

    Use esse campo para especificar o número máximo de resultados a serem retornados pelo servidor.

--page-token string

    Use next_page_token ou prev_page_token retornados da solicitação anterior para listar a próxima página de clusters ou a anterior, respectivamente.

--policy-id string

    Filtrar clusters por identificador de política

Sinalizadores globais

tipos de lista-nó de clusters do databricks

Listar tipos de nó Spark com suporte. Esses tipos de nós podem ser usados para iniciar um cluster.

databricks clusters list-node-types [flags]

Arguments

None

Opções

Sinalizadores globais

zonas de lista de clusters do databricks

Liste as zonas de disponibilidade em que os clusters podem ser criados (por exemplo, us-west-2a). Essas zonas podem ser usadas para iniciar um cluster.

databricks clusters list-zones [flags]

Arguments

None

Opções

Sinalizadores globais

exclusão permanente de clusters do databricks

Excluir um cluster permanentemente. Esse cluster é encerrado e os recursos são removidos de forma assíncrona.

Além disso, os usuários não verão mais clusters excluídos permanentemente na lista de clusters e os usuários de API não poderão mais executar nenhuma ação em clusters excluídos permanentemente.

databricks clusters permanent-delete CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster a ser excluído.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

fixar clusters do databricks

Fixe um cluster para garantir que ele sempre será retornado pela API ListClusters. Fixar um cluster que já está fixo não terá nenhum efeito. Essa API só pode ser chamada por administradores de workspace.

databricks clusters pin CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O ID do cluster.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

redimensionamento de clusters do Databricks

Redimensione um cluster para ter um número desejado de trabalhos. Isso falhará, a menos que o cluster esteja em um estado RUNNING.

databricks clusters resize CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster a ser redimensionado.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--no-wait

    Não espere até alcançar o estado RUNNING

--num-workers int

    Número de nós de trabalho que esse cluster deve ter.

--timeout duration

    A quantidade máxima de tempo para atingir o estado RUNNING (padrão de 20m0s)

Sinalizadores globais

Reiniciar clusters do databricks

Reinicie um cluster com a ID especificada. Se o cluster não estiver atualmente em um estado RUNNING, nada acontecerá.

databricks clusters restart CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster a ser iniciado.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--no-wait

    Não espere até alcançar o estado RUNNING

--restart-user string

    Usuário que reiniciou o cluster.

--timeout duration

    A quantidade máxima de tempo para atingir o estado RUNNING (padrão de 20m0s)

Sinalizadores globais

Clusters do Databricks versões do Spark

Liste as versões disponíveis do Spark. Essas versões podem ser usadas para iniciar um cluster.

databricks clusters spark-versions [flags]

Arguments

None

Opções

Sinalizadores globais

início dos clusters do databricks

Inicie um cluster encerrado com a ID especificada. Isso funciona de forma semelhante a createCluster, exceto: – A ID do cluster anterior e os atributos são preservados. - O cluster começa com o último tamanho de cluster especificado. - Se o cluster anterior era um cluster de dimensionamento automático, o cluster atual começa com o número mínimo de nós. - Se o cluster não estiver atualmente em um estado TERMINATED, nada acontecerá. – Os clusters iniciados para executar um trabalho não podem ser iniciados.

databricks clusters start CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster a ser iniciado.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--no-wait

    Não espere até alcançar o estado RUNNING

--timeout duration

    A quantidade máxima de tempo para atingir o estado RUNNING (padrão de 20m0s)

Sinalizadores globais

desafixar clusters do databricks

Desafixe um cluster para permitir que o cluster seja eventualmente removido da API ListClusters. A desafixação de um cluster que não está fixo não terá nenhum efeito. Essa API só pode ser chamada por administradores de workspace.

databricks clusters unpin CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O ID do cluster.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

atualização de clusters do databricks

Atualize a configuração de um cluster para corresponder ao conjunto parcial de atributos e tamanho. Denota quais campos atualizar usando o campo update_mask no corpo da solicitação. Um cluster poderá ser atualizado se ele estiver em um estado EM EXECUÇÃO ou TERMINADO. Se um cluster for atualizado em um estado RUNNING, ele será reiniciado para que os novos atributos possam entrar em vigor. Se um cluster for atualizado enquanto estiver em um estado TERMINATED, ele permanecerá TERMINATED. Os atributos atualizados entrarão em vigor na próxima vez que o cluster for iniciado usando a API de início dos clusters. As tentativas de atualizar um cluster em qualquer outro estado serão rejeitadas com um código de erro INVALID_STATE. Os clusters criados pelo serviço Trabalhos do Databricks não podem ser atualizados.

databricks clusters update CLUSTER_ID UPDATE_MASK [flags]

Arguments

CLUSTER_ID

    ID do cluster.

UPDATE_MASK

    Usado para especificar quais atributos de cluster e campos de tamanho atualizar. Confira https://google.aip.dev/161 para obter mais detalhes. A máscara de campo deve ser uma única cadeia de caracteres, com vários campos separados por vírgulas (sem espaços). O caminho do campo é relativo ao objeto de recurso, usando um ponto (.) para navegar por sub-campos (por exemplo, author.given_name). A especificação de elementos em campos de sequência ou mapa não é permitida, pois somente todo o campo de coleção pode ser especificado. Os nomes de campo devem corresponder exatamente aos nomes de campo de recurso. Uma máscara de campo de _ indica a substituição completa. É recomendável sempre listar explicitamente os campos que estão sendo atualizados e evitar o uso _ de curingas, pois isso pode levar a resultados não intencionais se a API for alterada no futuro.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

--no-wait

    Não espere até alcançar o estado RUNNING

--timeout duration

    A quantidade máxima de tempo para atingir o estado RUNNING (padrão de 20m0s)

Sinalizadores globais

níveis de permissão de obtenção de clusters do databricks

Obter níveis de permissão do cluster.

databricks clusters get-permission-levels CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster para o qual obter ou gerenciar permissões.

Opções

Sinalizadores globais

permissões de obtenção de clusters do databricks

Obtenha permissões de cluster. Os clusters podem herdar permissões de seu objeto raiz.

databricks clusters get-permissions CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster para o qual obter ou gerenciar permissões.

Opções

Sinalizadores globais

clusters databricks definir-permissões

Defina permissões de cluster, substituindo as permissões existentes se elas existirem. Excluirá todas as permissões diretas se nenhuma for especificada. Os objetos podem herdar permissões de seu objeto raiz.

databricks clusters set-permissions CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster para o qual obter ou gerenciar permissões.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

permissões de atualização de clusters do databricks

Atualize as permissões em um cluster. Os clusters podem herdar permissões de seu objeto raiz.

databricks clusters update-permissions CLUSTER_ID [flags]

Arguments

CLUSTER_ID

    O cluster para o qual obter ou gerenciar permissões.

Opções

--json JSON

    A cadeia de caracteres JSON inserida em linha ou o @path para o arquivo JSON com o corpo da solicitação

Sinalizadores globais

Sinalizadores globais

--debug

  Indica se deve habilitar o registro em log de depuração.

-h ou --help

    Exiba ajuda para a CLI do Databricks ou o grupo de comandos relacionado ou o comando relacionado.

--log-file corda

    Uma cadeia de caracteres que representa o arquivo para o qual gravar logs de saída. Se esse sinalizador não for especificado, o padrão será gravar logs de saída no stderr.

--log-format formato

    O tipo de formato de log, text ou json. O valor padrão é text.

--log-level corda

    Uma cadeia de caracteres que representa o nível de formato de log. Se não for especificado, o nível de formato de log será desabilitado.

-o, --output tipo

    O tipo de saída de comando, text ou json. O valor padrão é text.

-p, --profile corda

    O nome do perfil no arquivo ~/.databrickscfg para usar ao executar o comando. Se esse sinalizador não for especificado, se existir, o perfil nomeado DEFAULT será usado.

--progress-format formato

    O formato para exibir logs de progresso: default, append, inplace ou json

-t, --target corda

    Se aplicável, o destino do pacote a ser usado