Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O Apache Spark — parte do Microsoft Fabric — permite o aprendizado de máquina em escala. Use-o para obter informações de grandes volumes de dados estruturados, não estruturados e de streaming. Treine modelos no Microsoft Fabric com bibliotecas de código aberto, como Apache Spark MLlib, SynapseML e outros.
Apache SparkML e MLlib
O Apache Spark — parte do Microsoft Fabric — é uma estrutura de processamento de dados unificada, de código aberto e paralela. Ele usa processamento na memória para acelerar a análise de big data. O Spark foi criado para velocidade, facilidade de uso e análises avançadas. A computação distribuída em memória do Spark adapta-se a algoritmos iterativos de aprendizagem automática e gráficos.
As bibliotecas de aprendizado de máquina escaláveis MLlib e SparkML trazem recursos de modelagem algorítmica para esse ambiente distribuído. MLlib fornece a API original baseada em RDD. O SparkML é um pacote mais recente que fornece uma API baseada em DataFrame de nível mais alto para a criação de pipelines de ML. Ele fornece uma API de nível superior construída sobre DataFrames para a construção de pipelines de ML. O SparkML ainda não suporta todos os recursos do MLlib, mas está substituindo o MLlib como a biblioteca padrão de aprendizado de máquina do Spark.
Nota
Saiba mais em Treinar modelos com Apache Spark MLlib.
Bibliotecas populares
O tempo de execução do Microsoft Fabric para Apache Spark inclui vários pacotes de código aberto populares para treinar modelos de aprendizado de máquina. Essas bibliotecas fornecem código reutilizável para seus projetos. O tempo de execução inclui estas bibliotecas de aprendizado de máquina:
Scikit-learn - uma biblioteca popular mononodo para algoritmos clássicos de aprendizagem automática. Ele suporta a maioria dos algoritmos supervisionados e não supervisionados e lida com mineração de dados e análise de dados.
XGBoost - uma biblioteca popular com algoritmos otimizados para treinar árvores de decisão e florestas aleatórias.
PyTorch e Tensorflow são poderosas bibliotecas de aprendizagem profunda em Python. Com essas bibliotecas, você pode definir o número de executores em seu pool como zero, para criar modelos de máquina única. Embora essa configuração não suporte o Apache Spark, é uma maneira simples e econômica de criar modelos de máquina única.
SinapseML
A biblioteca de código aberto SynapseML (anteriormente conhecida como MMLSpark) ajuda você a criar pipelines escaláveis de aprendizado de máquina (ML). Ele acelera a experimentação e permite aplicar técnicas avançadas, incluindo aprendizado profundo, a grandes conjuntos de dados.
O SynapseML fornece uma camada acima das APIs de baixo nível do SparkML ao criar modelos de ML escaláveis. Essas APIs abrangem indexação de cadeia de caracteres, montagem de vetores de recursos, coerção de dados em layouts apropriados para algoritmos de aprendizado de máquina e muito mais. A biblioteca SynapseML simplifica essas e outras tarefas comuns para a criação de modelos no PySpark.
Conteúdos relacionados
Explore opções para treinar modelos de aprendizado de máquina no Apache Spark no Microsoft Fabric. Para obter mais informações, consulte:
- Use exemplos de IA para criar modelos de aprendizado de máquina: use exemplos de IA
- Rastreie execuções de aprendizado de máquina usando Experimentos: Experimentos de aprendizado de máquina