Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O Azure Databricks fornece acesso ao conjunto de dados de referência TPC-DS, um benchmark amplamente utilizado para testar o desempenho de sistemas criados para armazenamento de dados e análises. O conjunto de dados está disponível em dois tamanhos por padrão em cada espaço de trabalho habilitado para Catálogo Unity. Esses conjuntos de dados são ideais para testar o desempenho do Azure Databricks em uma referência padronizada que simula cenários realistas de negócios de varejo e comércio eletrônico. Para saber mais sobre esse conjunto de dados, consulte a documentação de benchmarkTPC-DS .
O que está incluído
Os conjuntos de dados TPC-DS estão disponíveis no catálogo com os samples seguintes esquemas:
-
tpcds_sf1— Conjunto de dados de pequena escala (aproximadamente 1 GB) -
tpcds_sf1000— Conjunto de dados em grande escala (aproximadamente 1 TB)
Ambos os conjuntos de dados compartilham as seguintes qualidades:
- São somente leitura e consultáveis por todos os usuários no espaço de trabalho
- São compatíveis com armazéns SQL e clusters multiusos
- Siga a especificação TPC-DS para benchmarking padronizado
Pré-requisitos
Você deve ter acesso a um SQL warehouse ou a um cluster multiuso.
Visualizar os dados
Para explorar os dados na interface do usuário do Catalog Explorer:
- Clique no
Catálogo na barra lateral.
- Digite tpcds na barra de pesquisa. Ambos os
samplesesquemas estão no catálogo. Clique no nome do esquema que você deseja exibir. - A guia Visão geral lista todas as tabelas no esquema. Clique no nome de uma tabela para abrir uma visão geral das colunas e dos tipos de dados nessa tabela.
- Use a navegação superior para exibir os Dados de Exemplo ou Detalhes da tabela.
Consultar os dados
As consultas a seguir usam o conjunto de dados de menor escala, tpcds_sf1. Para usar o conjunto de dados de escala maior, substitua o nome do esquema por tpcds_sf1000. Clique em
Editor SQL na barra lateral para abrir o editor SQL. Em seguida, use as consultas a seguir para começar a explorar os dados.
Tabelas de pré-visualização
SHOW TABLES IN samples.tpcds_sf1;
Explore uma mesa
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Exemplo de junção e agregação
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Melhores práticas
- Use o histórico de consultas e o perfil de consulta para entender as características de desempenho e identificar oportunidades de otimização.
- Comece com o conjunto de dados menor
tpcds_sf1para testes iniciais e, em seguida, aumente para umatpcds_sf1000avaliação de desempenho abrangente. - Compare o desempenho da consulta em diferentes tamanhos de SQL warehouse para determinar as configurações ideais para suas cargas de trabalho.
- Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar melhorias ao longo do tempo.