Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Aplica-se a:✅ Warehouse no Microsoft Fabric
A função OPENROWSET permite que você leia o conteúdo dos arquivos Parquet ou CSV e retorne os dados como um conjunto de linhas. Os arquivos podem ser armazenados no Armazenamento de Blobs do Azure, no Azure Data Lake Storage ou no Fabric OneLake.
Important
A leitura de arquivos do armazenamento do Fabric OneLake usando a função OPENROWSET está atualmente em versão prévia.
Você pode usar esse recurso para inspecionar o conteúdo do arquivo antes de carregá-los na tabela do data warehouse. Com OPENROWSET, você pode explorar facilmente os arquivos ingeridos no Fabric Warehouse, entender as colunas que está ingerindo e determinar seus tipos.
Depois de entender seus dados, você poderá criar as tabelas que serão usadas para armazenar o conteúdo do arquivo ingerido.
Procurar arquivos Parquet usando a função OPENROWSET
No primeiro exemplo, inspecionamos dados de uma fonte Parquet.
Use o código a seguir para ler dados de amostra de um arquivo usando a função OPENROWSET(BULK) com uma origem Parquet:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet') AS data
Como esses dados estão disponíveis publicamente e não exigem autenticação, você pode copiar facilmente essa consulta para o seu armazém do Fabric e executá-la sem alterações.
Nenhum detalhe de autenticação é necessário.
Você não precisa especificar a opção FORMAT, pois a função OPENROWSET pressupõe que você esteja lendo o formato Parquet com base na extensão de arquivo .parquet no URI.
Procurar arquivos CSV usando a função OPENROWSET
No segundo exemplo, inspecionamos dados de um arquivo CSV. Use o seguinte código para ler dados de exemplo de um arquivo CSV usando a função OPENROWSET(BULK):
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv') AS data
Como esses dados estão disponíveis publicamente e não exigem autenticação, você pode copiar facilmente essa consulta para o seu armazém do Fabric e executá-la sem alterações. Nenhum detalhe de autenticação é necessário.
Você não precisa especificar a opção FORMAT, pois a função OPENROWSET pressupõe que você esteja lendo o formato CSV com base na extensão do arquivo .csv na URI.
Note
Nos resultados, você pode notar que a primeira linha neste arquivo contém os nomes de coluna em vez de dados. Nesse caso, você precisará modificar a consulta usando a opção HEADER_ROW para ignorar a linha e usá-la apenas para os nomes de coluna. Isso faz parte do processo de exploração de dados, pois você ajusta gradualmente o arquivo até que ele corresponda aos dados subjacentes.
Procurar arquivos JSONL usando a função OPENROWSET
A OPENROWSET(BULK) função permite que você navegue pelos arquivos JSON no formato delimitado por linha:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.jsonl') AS data
Se o arquivo contiver texto delimitado por linha em que cada linha representa um documento JSON válido, a OPENROWSET função poderá ser usada para lê-lo diretamente.
Você não precisa especificar a opção FORMAT explicitamente. O OPENROWSET inferirá automaticamente o formato JSONL com base em extensões de arquivo comuns, tais como .jsonl, .ldjson, ou .ndjson no URI. No entanto, se você estiver usando uma extensão de arquivo diferente para esse formato, deverá especificar FORMAT = 'jsonl' para garantir a análise correta.
Ler arquivos no Fabric OneLake
A OPENROWSET(BULK) função permite que você leia os arquivos armazenados no Fabric OneLake. Se o seu arquivo estiver armazenado na seção Arquivos de um lakehouse, você poderá ler este arquivo utilizando a seguinte sintaxe:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://onelake.dfs.fabric.microsoft.com/<workspaceId>/<lakehouseId>/Files/latest/bing_covid-19_data.jsonl') AS data
Substitua <workspaceId> e <lakehouseId> pelos GUIDs do workspace e do lakehouse que você pode encontrar no URI do workspace do Fabric. Verifique se você está referenciando os arquivos na seção /Files de um lakehouse.
Important
A leitura de arquivos do armazenamento do Fabric OneLake usando a função OPENROWSET está atualmente em versão prévia. Veja as limitações aplicáveis a COPY INTO e OPENROWSET(BULK).
Ler arquivos de texto personalizados
A OPENROWSET(BULK) função permite que você defina várias opções para ler arquivos de texto personalizados.
Por exemplo, você pode especificar valores para ROWTERMINATOR e FIELDTERMINATOR para indicar o formato de arquivo subjacente.
select *
from OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv',
FORMAT='CSV',
HEADER_ROW=True,
ROW_TERMINATOR='\n',
FIELD_TERMINATOR=','
) AS data
Neste exemplo, especificamos explicitamente que estamos lendo um arquivo no formato CSV em que cada linha é separada por uma nova linha e cada campo é separado por uma vírgula. A primeira linha contém o cabeçalho, que será usado para os nomes de coluna.
Explorar metadados de coluna
Com a função OPENROWSET, você pode exibir facilmente as colunas de arquivo e seus tipos combinando a consulta que lê dados de exemplo com o procedimento sp_describe_first_result_set:
EXEC sp_describe_first_result_set
N'SELECT TOP 0 *
FROM OPENROWSET(BULK ''https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet'') AS data';
Neste exemplo, o sp_describe_first_result_set procedimento executa a consulta com a OPENROWSET função, que não retorna nenhuma linha.
Em seguida, ele obtém o esquema de colunas dessa consulta interna e retorna o esquema de colunas como resultado do procedimento.
Você pode usar este esquema de coluna para definir a estrutura da tabela de destino na instrução em CREATE TABLE que ingere seus dados.
Como alternativa, você pode usar esses resultados para especificar tipos mais precisos para os resultados da OPENROWSET função, conforme mostrado no exemplo a seguir.
Especifique o esquema da função OPENROWSET
A função OPENROWSET(BULK) retorna tipos de coluna estimados com base em um exemplo dos dados.
Se o exemplo não for representativo, você poderá obter tipos inesperados ou seus tamanhos.
Se você souber os tipos de coluna em seus arquivos, poderá definir explicitamente o esquema das colunas usando a cláusula WITH:
SELECT TOP 10 *
FROM OPENROWSET(BULK 'https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv') AS data
WITH (updated date,
load_time datetime2,
deaths_change smallint,
id int,
confirmed int,
confirmed_change int,
deaths int,
recovered int,
recovered_change int,
latitude float,
longitude float,
iso2 varchar(8000),
iso3 varchar(8000),
country_region varchar(8000),
admin_region_1 varchar(8000),
iso_subdivision varchar(8000),
admin_region_2 varchar(8000)
) AS data;
Em vez de adivinhar os tipos de coluna, a função OPENROWSET(BULK) atribuirá explicitamente os tipos fornecidos na cláusula WITH.
Dessa forma, você pode definir tipos mais precisos, o que pode melhorar o desempenho de suas consultas.
Próximas etapas
Depois de concluir a exploração de arquivos e criar tabelas de destino, você pode continuar com a ingestão usando um dos seguintes métodos: