Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Apache Spark, parte do Microsoft Fabric, habilita o aprendizado de máquina em escala. Use-o para obter insights de grandes volumes de dados estruturados, não estruturados e de streaming. Treine modelos no Microsoft Fabric com bibliotecas de software livre, como Apache Spark MLlib, SynapseML e outros.
Apache SparkML e MLLib
O Apache Spark, parte do Microsoft Fabric, é uma estrutura unificada, de software livre e de processamento de dados paralelos. Ele usa o processamento na memória para acelerar a análise de Big Data. O Spark foi criado para velocidade, facilidade de uso e análise avançada. A computação distribuída em memória do Spark é adequada para algoritmos iterativos de aprendizado de máquina e grafos.
As bibliotecas de aprendizado de máquina escalonáveis MLlib e SparkML oferecem capacidades de modelagem de algoritmo para esse ambiente distribuído. O MLlib fornece a API original baseada em RDD. O SparkML é um pacote mais recente que fornece uma API baseada em DataFrame de nível superior para a criação de pipelines de ML. Ele fornece uma API de nível superior criada com base em DataFrames para a construção de pipelines do ML. O SparkML ainda não dá suporte a todos os recursos do MLlib, mas está substituindo o MLlib como a biblioteca de machine learning padrão do Spark.
Observação
Saiba mais em Treinar modelos com Apache Spark MLlib.
Bibliotecas populares
O runtime do Microsoft Fabric para Apache Spark inclui vários pacotes de software livre populares para treinar modelos de machine learning. Essas bibliotecas fornecem código reutilizável para seus projetos. O runtime inclui estas bibliotecas de machine learning:
Scikit-learn - uma biblioteca de nó único popular para algoritmos clássicos de aprendizado de máquina. Ele dá suporte à maioria dos algoritmos supervisionados e não supervisionados e manipula a mineração de dados e a análise de dados.
XGBoost - uma biblioteca popular com algoritmos otimizados para treinar árvores de decisão e florestas aleatórias.
PyTorch e Tensorflow são bibliotecas avançadas de aprendizado profundo do Python. Com essas bibliotecas, você pode definir o número de executores na subfase como zero, para criar modelos de computador único. Embora essa configuração não ofereça suporte ao Apache Spark, é uma maneira simples e econômica de criar modelos de computador único.
SynapseML
A biblioteca de software livre SynapseML (anteriormente conhecida como MMLSpark) ajuda você a criar pipelines de ML (machine learning escalonável). Ele acelera a experimentação e permite aplicar técnicas avançadas, incluindo aprendizado profundo, a grandes conjuntos de dados.
O SynapseML fornece uma camada acima das APIs de baixo nível do SparkML ao criar modelos de ML escalonáveis. Essas APIs abrangem indexação de sequência, montagem de vetor de recursos, coerção de dados em layouts apropriados para algoritmos de aprendizado de máquina e muito mais. A biblioteca SynapseML simplifica essas e outras tarefas comuns para a criação de modelos no PySpark.
Conteúdo relacionado
Explore as opções para treinar modelos de machine learning no Apache Spark no Microsoft Fabric. Para obter mais informações, consulte:
- Use exemplos de IA para criar modelos de machine learning: Usar exemplos de IA
- Acompanhe as execuções de aprendizado de máquina usando os Experimentos: Experimentos de aprendizado de máquina