Compartilhar via


Usar o conjunto de dados de exemplo TPC-DS para avaliar o desempenho do sistema

O Azure Databricks fornece acesso ao conjunto de dados de parâmetro de comparação TPC-DS, um parâmetro de comparação amplamente usado para testar o desempenho de sistemas criados para data warehousing e análise. O conjunto de dados está disponível em dois tamanhos por padrão em cada workspace habilitado para Catálogo do Unity. Esses conjuntos de dados são ideais para testar o desempenho do Azure Databricks em um parâmetro de comparação padronizado que simula cenários de negócios realistas de varejo e comércio eletrônico. Para saber mais sobre esse conjunto de dados, consulte a documentação de parâmetro de comparação doTPC-DS .

O que está incluído

Os conjuntos de dados TPC-DS estão disponíveis no samples catálogo com os seguintes esquemas:

  • tpcds_sf1 — Conjunto de dados de pequena escala (aproximadamente 1 GB)
  • tpcds_sf1000 — Conjunto de dados em grande escala (aproximadamente 1 TB)

Ambos os conjuntos de dados compartilham as seguintes qualidades:

  • São somente leitura e consultáveis por todos os usuários no workspace
  • São compatíveis com armazéns SQL e clusters de todas as finalidades
  • Siga a especificação TPC-DS para o benchmarking padronizado

Pré-requisitos

Você deve ter acesso a um SQL Warehouse ou a um cluster de todas as finalidades.

Visualizar os dados

Para explorar os dados na interface do usuário do Catalog Explorer:

  1. Clique no ícone Dados.Catálogo na barra lateral.
  2. Insira tpcds na barra de pesquisa. Ambos os esquemas estão no samples catálogo. Clique no nome do esquema que você deseja exibir.
  3. A guia Visão Geral lista todas as tabelas no esquema. Clique em um nome de tabela para abrir uma visão geral das colunas e tipos de dados nessa tabela.
  4. Use a navegação superior para exibir os Dados de Exemplo ou Detalhes da tabela.

Consultar os dados

As consultas a seguir usam o conjunto de dados de escala menor. tpcds_sf1 Para usar o conjunto de dados de escala maior, substitua o nome do esquema por tpcds_sf1000. Clique no SQL Editor IconSQL Editor IconEditor de SQL do na barra lateral para abrir o editor do SQL. Em seguida, use as consultas a seguir para começar a explorar os dados.

Visualizar tabelas

SHOW TABLES IN samples.tpcds_sf1;

Explorar uma tabela

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Agregação e junção de exemplo

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Práticas recomendadas

  • Use o histórico de consultas e o perfil de consulta para entender as características de desempenho e identificar oportunidades de otimização.
  • Comece com o conjunto de dados menor tpcds_sf1 para teste inicial e, em seguida, escale verticalmente para tpcds_sf1000 uma avaliação de desempenho abrangente.
  • Compare o desempenho da consulta entre diferentes tamanhos de sql warehouse para determinar as configurações ideais para suas cargas de trabalho.
  • Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar melhorias ao longo do tempo.