Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Important
Die Big Data Cluster von Microsoft SQL Server 2019 werden eingestellt. Der Support für SQL Server 2019 Big Data Cluster endete am 28. Februar 2025. Weitere Informationen finden Sie im Ankündigungsblogbeitrag und den Big Data-Optionen auf der Microsoft SQL Server-Plattform.
Um Apache Spark und Apache Hadoop in Big Data Clustern zu konfigurieren, müssen Sie das Clusterprofil während der Bereitstellung ändern.
Ein Big Data-Cluster verfügt über vier Konfigurationskategorien:
sqlhdfssparkgateway
sql, hdfs, spark und sql sind Dienste. Jeder Dienst ist der gleichen benannten Konfigurationskategorie zugeordnet. Alle Gatewaykonfigurationen gehen zur Kategorie gateway.
Beispielsweise gehören alle Konfigurationen im Dienst hdfs zur Kategorie hdfs. Beachten Sie, dass alle Hadoop -Konfigurationen (Core-Site), HDFS und Zookeeper zur Kategorie hdfsgehören ; alle Livy, Spark, Yarn, Hive, Metastore-Konfigurationen gehören zur Kategorie spark.
Unterstützte Konfigurationen enthalten Apache Spark & Hadoop-Eigenschaften, die Sie konfigurieren können, wenn Sie einen SQL Server Big Data Cluster bereitstellen.
In den folgenden Abschnitten werden Eigenschaften aufgeführt, die Sie in einem Cluster nicht ändern können :
-
Nicht unterstützte
sparkKonfigurationen -
Nicht unterstützte
hdfsKonfigurationen -
Nicht unterstützte
gatewayKonfigurationen
Konfigurationen über Clusterprofil
Im Clusterprofil gibt es Ressourcen und Dienste. Zum Zeitpunkt der Bereitstellung können wir Konfigurationen auf zwei Arten angeben:
Zuerst auf Ressourcenebene:
Die folgenden Beispiele sind die Patchdateien für das Profil:
{ "op": "add", "path": "spec.resources.zookeeper.spec.settings", "value": { "hdfs": { "zoo-cfg.syncLimit": "6" } } }Or:
{ "op": "add", "path": "spec.resources.gateway.spec.settings", "value": { "gateway": { "gateway-site.gateway.httpclient.socketTimeout": "95s" } } }Zweitens auf Dienstebene. Weisen Sie einem Dienst mehrere Ressourcen zu, und geben Sie dem Dienst Konfigurationen an.
Es folgt ein Beispiel für die Patchdatei für das Profil zum Festlegen der HDFS-Blockgröße:
{
"op": "add",
"path": "spec.services.hdfs.settings",
"value": {
"hdfs-site.dfs.block.size": "268435456"
}
}
Der Dienst hdfs wird wie folgt definiert:
{
"spec": {
"services": {
"hdfs": {
"resources": [
"nmnode-0",
"zookeeper",
"storage-0",
"sparkhead"
],
"settings":{
"hdfs-site.dfs.block.size": "268435456"
}
}
}
}
}
Note
Konfigurationen auf Ressourcenebene überschreiben Konfigurationen auf Dienstebene. Eine Ressource kann mehreren Diensten zugewiesen werden.
Aktivieren von Spark im Speicherpool
Zusätzlich zu den unterstützten Apache-Konfigurationen bieten wir auch die Möglichkeit, zu konfigurieren, ob Spark-Aufträge im Speicherpool ausgeführt werden können. Dieser boolesche Wert, includeSparkbefindet sich in der bdc.json Konfigurationsdatei unter spec.resources.storage-0.spec.settings.spark.
Eine Beispieldefinition für einen Speicherpool in bdc.json kann wie folgt aussehen:
...
"storage-0": {
"metadata": {
"kind": "Pool",
"name": "default"
},
"spec": {
"type": "Storage",
"replicas": 2,
"settings": {
"spark": {
"includeSpark": "true"
}
}
}
}
Limitations
Konfigurationen können nur auf Kategorieebene angegeben werden. Um mehrere Konfigurationen mit derselben Unterkategorie anzugeben, können wir das allgemeine Präfix nicht im Clusterprofil extrahieren.
{
"op": "add",
"path": "spec.services.hdfs.settings.core-site.hadoop",
"value": {
"proxyuser.xyz.users": "*",
"proxyuser.abc.users": "*"
}
}