CREATE BLOOM FILTER INDEX

Aplica-se a: marca de seleção positiva SQL do Databricks Runtime do Databricks

Cria um índice do filtro Bloom para dados novos ou reescritos; não cria filtros de Bloom para os dados existentes. O comando falhará se o nome da tabela ou uma das colunas não existir. Se a filtragem bloom estiver habilitada para uma coluna, as opções de filtro Bloom existentes serão substituídas pelas novas opções.

Sintaxe

CREATE BLOOMFILTER INDEX
ON [TABLE] table_name
FOR COLUMNS( { columnName1 [ options ] } [, ...] )
[ options ]

options
  OPTIONS ( { key1 [ = ] val1 } [, ...] )

Parâmetros

table_name

Identifica uma tabela do Delta existente. O nome não deve incluir uma especificação temporal ou especificação de opções.

Embora não seja possível criar um índice de filtro Bloom para dados já gravados, o comando OPTIMIZE atualiza filtros Bloom para dados reorganizados. Portanto, você pode fazer o backup de um filtro Bloom executando OPTIMIZE em uma tabela:

Se você ainda não otimizou a tabela.
Com um tamanho de arquivo diferente, exigindo que os arquivos de dados sejam gravados novamente.
Com um ZORDER (ou um ZORDER diferente, se estiver presente), exigindo que os arquivos de dados sejam regravados.

Você pode ajustar o filtro Bloom definindo opções no nível da coluna ou no nível da tabela:

fpp: probabilidade de falso positivo. A taxa de falsos positivos desejada por filtro Bloom gravado. Isso influencia o número de bits necessários para colocar um único item no filtro Bloom e influencia o tamanho do filtro Bloom. O valor deve ser superior a 0 e igual ou inferior a 1. O valor padrão é 0,1, que requer 5 bits por item.
numItems: número de itens distintos que o arquivo pode conter. Essa configuração é importante para a qualidade da filtragem, pois influencia o número total de bits usados no filtro Bloom (número de itens - número de bits por item). Se essa configuração estiver incorreta, o filtro Bloom será preenchido de forma esparsa, desperdiçando espaço em disco e reduzindo as consultas que devem baixar esse arquivo, ou ele ficará muito cheio e menos preciso (mais FPP). O valor deve ser superior a 0. O padrão é 1 milhão de itens.
maxExpectedFpp: a probabilidade máxima de falsos positivos esperada na qual um filtro Bloom será gravado. Se o FPP esperado for maior que esse limite, a seletividade do filtro Bloom será muito baixa; o tempo e os recursos necessários para usar o filtro Bloom superam sua utilidade. O valor deve estar entre 0 e 1. O padrão é 1.0 (desabilitado).

Essas opções desempenham uma função somente ao gravar os dados. Você pode configurar essas propriedades em vários níveis hierárquicos: operação de gravação, nível de tabela e nível de coluna. O nível da coluna tem precedência sobre a tabela e os níveis de operação e o nível da tabela tem precedência sobre o nível da operação.

Confira Índices de filtro Bloom.

REMOVER BLOOMFILTER INDEX

Comentários

Esta página foi útil?

Last updated on 2025-05-10

Compartilhar via

CREATE BLOOM FILTER INDEX

Sintaxe

Parâmetros

Artigos relacionados

Comentários

Recursos adicionais