Konfigurieren von Apache Spark und Apache Hadoop in Big Data-Clustern

Important

Die Big Data Cluster von Microsoft SQL Server 2019 werden eingestellt. Der Support für SQL Server 2019 Big Data Cluster endete am 28. Februar 2025. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und den Big Data-Optionen auf der Microsoft SQL Server-Plattform.

Um Apache Spark und Apache Hadoop in Big Data Clustern zu konfigurieren, müssen Sie das Clusterprofil während der Bereitstellung ändern.

Ein Big Data-Cluster verfügt über vier Konfigurationskategorien:

sql
hdfs
spark
gateway

sql, hdfs, spark und sql sind Dienste. Jeder Dienst ist der gleichen benannten Konfigurationskategorie zugeordnet. Alle Gatewaykonfigurationen gehen zur Kategorie gateway.

Beispielsweise gehören alle Konfigurationen im Dienst hdfs zur Kategorie hdfs. Beachten Sie, dass alle Hadoop -Konfigurationen (Core-Site), HDFS und Zookeeper zur Kategorie hdfsgehören ; alle Livy, Spark, Yarn, Hive, Metastore-Konfigurationen gehören zur Kategorie spark.

Unterstützte Konfigurationen enthalten Apache Spark & Hadoop-Eigenschaften, die Sie konfigurieren können, wenn Sie einen SQL Server Big Data Cluster bereitstellen.

In den folgenden Abschnitten werden Eigenschaften aufgeführt, die Sie in einem Cluster nicht ändern können :

Konfigurationen über Clusterprofil

Im Clusterprofil gibt es Ressourcen und Dienste. Zum Zeitpunkt der Bereitstellung können wir Konfigurationen auf zwei Arten angeben:

Zuerst auf Ressourcenebene:

Die folgenden Beispiele sind die Patchdateien für das Profil:

{ 
       "op": "add", 
       "path": "spec.resources.zookeeper.spec.settings", 
       "value": { 
         "hdfs": { 
           "zoo-cfg.syncLimit": "6" 
         } 
       } 
}

Or:

{ 
       "op": "add", 
       "path": "spec.resources.gateway.spec.settings", 
       "value": { 
         "gateway": { 
           "gateway-site.gateway.httpclient.socketTimeout": "95s" 
         } 
       } 
}

Zweitens auf Dienstebene. Weisen Sie einem Dienst mehrere Ressourcen zu, und geben Sie dem Dienst Konfigurationen an.

Es folgt ein Beispiel für die Patchdatei für das Profil zum Festlegen der HDFS-Blockgröße:

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings", 
      "value": { 
        "hdfs-site.dfs.block.size": "268435456" 
     } 
}

Der Dienst hdfs wird wie folgt definiert:

{ 
  "spec": { 
   "services": { 
     "hdfs": { 
        "resources": [ 
          "nmnode-0", 
          "zookeeper", 
          "storage-0", 
          "sparkhead" 
        ], 
        "settings":{ 
          "hdfs-site.dfs.block.size": "268435456" 
        } 
      } 
    } 
  } 
}

Note

Konfigurationen auf Ressourcenebene überschreiben Konfigurationen auf Dienstebene. Eine Ressource kann mehreren Diensten zugewiesen werden.

Aktivieren von Spark im Speicherpool

Zusätzlich zu den unterstützten Apache-Konfigurationen bieten wir auch die Möglichkeit, zu konfigurieren, ob Spark-Aufträge im Speicherpool ausgeführt werden können. Dieser boolesche Wert, includeSparkbefindet sich in der bdc.json Konfigurationsdatei unter spec.resources.storage-0.spec.settings.spark.

Eine Beispieldefinition für einen Speicherpool in bdc.json kann wie folgt aussehen:

...
"storage-0": {
                "metadata": {
                    "kind": "Pool",
                    "name": "default"
                },
                "spec": {
                    "type": "Storage",
                    "replicas": 2,
                    "settings": {
                        "spark": {
                            "includeSpark": "true"
                        }
                    }
                }
            }

Limitations

Konfigurationen können nur auf Kategorieebene angegeben werden. Um mehrere Konfigurationen mit derselben Unterkategorie anzugeben, können wir das allgemeine Präfix nicht im Clusterprofil extrahieren.

{ 
      "op": "add", 
      "path": "spec.services.hdfs.settings.core-site.hadoop", 
      "value": { 
        "proxyuser.xyz.users": "*", 
        "proxyuser.abc.users": "*" 
     } 
}

Next steps

Last updated on 2020-08-04

Freigeben über

Konfigurieren von Apache Spark und Apache Hadoop in Big Data-Clustern

Konfigurationen über Clusterprofil

Aktivieren von Spark im Speicherpool

Limitations

Next steps

Zusätzliche Ressourcen