Usar um notebook para carregar dados em seu lakehouse

Neste tutorial, saiba como ler/gravar dados em seu Fabric Lakehouse com um notebook. O Fabric dá suporte à API do Spark e à API do Pandas para atingir essa meta.

Carregar dados com uma API do Apache Spark

Na célula de código do notebook, use o exemplo de código a seguir para ler dados da origem e carregá-los em Arquivos, Tabelas ou ambas as seções do lakehouse.

Para especificar o local do qual ler, você poderá usar o caminho relativo se os dados forem do lakehouse padrão do seu notebook atual. Ou, se os dados forem de um lakehouse diferente, você pode utilizar o caminho absoluto do Sistema de Arquivos de Blobs do Azure (ABFS). Copie esse caminho do menu de contexto dos dados.

Copiar caminho do ABFS: essa opção retorna o caminho absoluto do arquivo.

Copiar caminho relativo para Spark: Essa opção retorna o caminho relativo do arquivo em seu lakehouse padrão.

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Carregar dados com a API do Pandas

Para dar suporte à API do Pandas, o lakehouse padrão é montado automaticamente no notebook. O ponto de montagem é /lakehouse/default/. Você pode usar esse ponto de montagem para ler/gravar dados de/para o lakehouse padrão. A opção "Copiar Caminho da API de Arquivo" do menu de contexto retorna o caminho da API de Arquivo desse ponto de montagem. O caminho retornado da opção Copiar caminho do ABFS também funciona para a API do Pandas.

Importante

O /lakehouse/default/ ponto de montagem só está disponível em notebooks. Para as definições de trabalho do Spark, utilize os caminhos ABFS e consulte a documentação de definição de trabalho do Spark.

Copiar Caminho da API de Arquivo: essa opção retorna o caminho sob o ponto de montagem do lakehouse padrão.

Opção 1: Usando o ponto de montagem padrão do lakehouse (recomendado para o mesmo lakehouse)

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

Opção 2: Usando caminhos ABFS (necessários para diferentes lakehouses ou definições de trabalho do Spark)

# Path structure: abfss://WorkspaceName@msit-onelake.dfs.fabric.microsoft.com/LakehouseName.Lakehouse/Files/filename
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Dica

Para a API do Spark, use a opção de Copiar caminho do ABFS ou copiar caminho relativo para Spark para obter o caminho do arquivo. Para a API do Pandas, use a opção de copiar o caminho do ABFS ou o caminho da API de Cópia de Arquivo para obter o caminho do arquivo.

A maneira mais rápida de fazer com que o código funcione com a API do Spark ou a API do Pandas é usar a opção de Carregar dados e selecionar a API que você deseja usar. O código é gerado automaticamente em uma nova célula de código do notebook.

Explorar os dados em seu lakehouse com um notebook

Comentários

Esta página foi útil?

Last updated on 2025-11-19

Compartilhar via

Usar um notebook para carregar dados em seu lakehouse

Carregar dados com uma API do Apache Spark

Carregar dados com a API do Pandas

Conteúdo relacionado

Comentários

Recursos adicionais