Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O Azure Databricks foi criado com base no Apache Spark, um mecanismo de análise unificado para big data e aprendizado de máquina. Para obter mais informações, consulte Visão geral do Apache Spark.
O Apache Spark tem APIs DataFrame para operar em grandes conjuntos de dados, que incluem mais de 100 operadores, em vários idiomas.
-
APIs PySpark para desenvolvedores Python. Consulte Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame.
- DataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte DataFrames e MLlib baseado em DataFrame.
- (Preterido) APIs do SparkR para programadores de R. As classes principais incluem:
- SparkSession - SparkSession é o ponto de entrada no SparkR. Consulte Ponto de partida: SparkSession.
- SparkDataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte Datasets e DataFrames, Criando DataFrames e Criando SparkDataFrames.
-
APIs Scala para desenvolvedores Scala. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
-
Dataset - Uma coleção fortemente tipada de objetos específicos do domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Datasetum também tem um modo de exibição não tipado chamado DataFrame, que é umDatasetde Row. Consulte Datasets e DataFrames, Criando conjuntos de dados, Criando DataFrames e funções DataFrame.
-
APIs Java para desenvolvedores Java. As classes principais incluem:
- SparkSession - O ponto de entrada para programar o Spark com o Dataset e a API DataFrame. Consulte Ponto de partida: SparkSession.
-
Dataset - Uma coleção fortemente tipada de objetos específicos do domínio que podem ser transformados em paralelo usando operações funcionais ou relacionais. Cada
Datasetum também tem um modo de exibição não tipado chamado DataFrame, que é umDatasetde Row. Consulte Datasets e DataFrames, Criando conjuntos de dados, Criando DataFrames e funções DataFrame.
Para saber como usar as APIs do Apache Spark no Azure Databricks, consulte:
- PySpark no Azure Databricks
- Azure Databricks para desenvolvedores de R
- Azure Databricks para desenvolvedores do Scala
- Para Java, você pode executar código Java como um trabalho JAR.