Partilhar via


Use o conjunto de dados de exemplo TPC-DS para avaliar o desempenho do sistema

O Azure Databricks fornece acesso ao conjunto de dados de referência TPC-DS, um benchmark amplamente utilizado para testar o desempenho de sistemas criados para armazenamento de dados e análises. O conjunto de dados está disponível em dois tamanhos por padrão em cada espaço de trabalho habilitado para Catálogo Unity. Esses conjuntos de dados são ideais para testar o desempenho do Azure Databricks em uma referência padronizada que simula cenários realistas de negócios de varejo e comércio eletrônico. Para saber mais sobre esse conjunto de dados, consulte a documentação de benchmarkTPC-DS .

O que está incluído

Os conjuntos de dados TPC-DS estão disponíveis no catálogo com os samples seguintes esquemas:

  • tpcds_sf1 — Conjunto de dados de pequena escala (aproximadamente 1 GB)
  • tpcds_sf1000 — Conjunto de dados em grande escala (aproximadamente 1 TB)

Ambos os conjuntos de dados compartilham as seguintes qualidades:

  • São somente leitura e consultáveis por todos os usuários no espaço de trabalho
  • São compatíveis com armazéns SQL e clusters multiusos
  • Siga a especificação TPC-DS para benchmarking padronizado

Pré-requisitos

Você deve ter acesso a um SQL warehouse ou a um cluster multiuso.

Visualizar os dados

Para explorar os dados na interface do usuário do Catalog Explorer:

  1. Clique no ícone Dados.Catálogo na barra lateral.
  2. Digite tpcds na barra de pesquisa. Ambos os samples esquemas estão no catálogo. Clique no nome do esquema que você deseja exibir.
  3. A guia Visão geral lista todas as tabelas no esquema. Clique no nome de uma tabela para abrir uma visão geral das colunas e dos tipos de dados nessa tabela.
  4. Use a navegação superior para exibir os Dados de Exemplo ou Detalhes da tabela.

Consultar os dados

As consultas a seguir usam o conjunto de dados de menor escala, tpcds_sf1. Para usar o conjunto de dados de escala maior, substitua o nome do esquema por tpcds_sf1000. Clique em Ícone do Editor SQLEditor SQL na barra lateral para abrir o editor SQL. Em seguida, use as consultas a seguir para começar a explorar os dados.

Tabelas de pré-visualização

SHOW TABLES IN samples.tpcds_sf1;

Explore uma mesa

DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Exemplo de junção e agregação

SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Melhores práticas

  • Use o histórico de consultas e o perfil de consulta para entender as características de desempenho e identificar oportunidades de otimização.
  • Comece com o conjunto de dados menor tpcds_sf1 para testes iniciais e, em seguida, aumente para uma tpcds_sf1000 avaliação de desempenho abrangente.
  • Compare o desempenho da consulta em diferentes tamanhos de SQL warehouse para determinar as configurações ideais para suas cargas de trabalho.
  • Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar melhorias ao longo do tempo.