Referência para APIs do Apache Spark

O Azure Databricks foi criado com base no Apache Spark, um mecanismo de análise unificado para big data e aprendizado de máquina. Para obter mais informações, consulte Visão geral do Apache Spark.

O Apache Spark tem APIs DataFrame para operar em grandes conjuntos de dados, que incluem mais de 100 operadores, em vários idiomas.

APIs PySpark para desenvolvedores Python. Consulte Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame.
- DataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte DataFrames e MLlib baseado em DataFrame.
(Preterido) APIs do SparkR para programadores de R. As classes principais incluem:
- SparkSession - SparkSession é o ponto de entrada no SparkR. Consulte Ponto de partida: SparkSession.
- SparkDataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte Datasets e DataFrames, Criando DataFrames e Criando SparkDataFrames.
APIs Scala para desenvolvedores Scala. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
- Dataset - Uma coleção fortemente tipada de objetos específicos do domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada Dataset um também tem um modo de exibição não tipado chamado DataFrame, que é um Dataset de Row. Consulte Datasets e DataFrames, Criando conjuntos de dados, Criando DataFrames e funções DataFrame.
APIs Java para desenvolvedores Java. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
- Dataset - Uma coleção fortemente tipada de objetos específicos do domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada Dataset um também tem um modo de exibição não tipado chamado DataFrame, que é um Dataset de Row. Consulte Datasets e DataFrames, Criando conjuntos de dados, Criando DataFrames e funções DataFrame.

Para saber como usar as APIs do Apache Spark no Azure Databricks, consulte:

PySpark no Azure Databricks
Azure Databricks para desenvolvedores de R
Azure Databricks para desenvolvedores do Scala
Para Java, você pode executar código Java como um trabalho JAR.

Feedback

Esta página foi útil?

Last updated on 2025-09-18

Partilhar via

Referência para APIs do Apache Spark

Feedback

Recursos adicionais