Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Azure Databricks fornece acesso ao conjunto de dados de parâmetro de comparação TPC-DS, um parâmetro de comparação amplamente usado para testar o desempenho de sistemas criados para data warehousing e análise. O conjunto de dados está disponível em dois tamanhos por padrão em cada workspace habilitado para Catálogo do Unity. Esses conjuntos de dados são ideais para testar o desempenho do Azure Databricks em um parâmetro de comparação padronizado que simula cenários de negócios realistas de varejo e comércio eletrônico. Para saber mais sobre esse conjunto de dados, consulte a documentação de parâmetro de comparação doTPC-DS .
O que está incluído
Os conjuntos de dados TPC-DS estão disponíveis no samples catálogo com os seguintes esquemas:
-
tpcds_sf1— Conjunto de dados de pequena escala (aproximadamente 1 GB) -
tpcds_sf1000— Conjunto de dados em grande escala (aproximadamente 1 TB)
Ambos os conjuntos de dados compartilham as seguintes qualidades:
- São somente leitura e consultáveis por todos os usuários no workspace
- São compatíveis com armazéns SQL e clusters de todas as finalidades
- Siga a especificação TPC-DS para o benchmarking padronizado
Pré-requisitos
Você deve ter acesso a um SQL Warehouse ou a um cluster de todas as finalidades.
Visualizar os dados
Para explorar os dados na interface do usuário do Catalog Explorer:
- Clique no
Catálogo na barra lateral.
-
Insira tpcds na barra de pesquisa. Ambos os esquemas estão no
samplescatálogo. Clique no nome do esquema que você deseja exibir. - A guia Visão Geral lista todas as tabelas no esquema. Clique em um nome de tabela para abrir uma visão geral das colunas e tipos de dados nessa tabela.
- Use a navegação superior para exibir os Dados de Exemplo ou Detalhes da tabela.
Consultar os dados
As consultas a seguir usam o conjunto de dados de escala menor. tpcds_sf1 Para usar o conjunto de dados de escala maior, substitua o nome do esquema por tpcds_sf1000. Clique no
SQL Editor IconEditor de SQL do na barra lateral para abrir o editor do SQL. Em seguida, use as consultas a seguir para começar a explorar os dados.
Visualizar tabelas
SHOW TABLES IN samples.tpcds_sf1;
Explorar uma tabela
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Agregação e junção de exemplo
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Práticas recomendadas
- Use o histórico de consultas e o perfil de consulta para entender as características de desempenho e identificar oportunidades de otimização.
- Comece com o conjunto de dados menor
tpcds_sf1para teste inicial e, em seguida, escale verticalmente paratpcds_sf1000uma avaliação de desempenho abrangente. - Compare o desempenho da consulta entre diferentes tamanhos de sql warehouse para determinar as configurações ideais para suas cargas de trabalho.
- Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar melhorias ao longo do tempo.