Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Observação
Este documento refere-se ao portal do Microsoft Foundry (clássico ).
🔍 Exiba a documentação do Microsoft Foundry (novo) para saber mais sobre o novo portal.
Uma inserção é um formato especial de representação de dados que os algoritmos e modelos de machine learning podem usar facilmente. A inserção é uma representação densa de informações do significado semântico de um texto. Cada inserção é um vetor de números de ponto flutuante, de modo que a distância entre duas inserções no espaço do vetor esteja correlacionada com a similaridade semântica entre duas entradas no formato original. Por exemplo, se dois textos forem semelhantes, suas representações de vetor também deverão ser semelhantes. As inserções potencializam a pesquisa de similaridade de vetores em sistemas de recuperação, como Pesquisa de IA do Azure (recomendado) e em bancos de dados do Azure, como Azure Cosmos DB para MongoDB vCore , Banco de Dados SQL do Azure e Banco de Dados do Azure para PostgreSQL - Servidor Flexível.
Inserir modelos
As inserções facilitam o aprendizado de máquina em entradas grandes que representam palavras capturando as semelhanças semânticas em um espaço de vetor. Portanto, você poderá usar inserções para determinar se duas partes de texto estão semanticamente relacionadas ou semelhantes e fornecer uma pontuação para avaliar a similaridade.
Similaridade de cosseno
Os inserções do OpenAI do Azure frequentemente dependem da similaridade do cosseno para calcular a similaridade entre documentos e uma consulta.
Do ponto de vista matemático, a similaridade de cosseno mede o cosseno do ângulo entre dois vetores projetados em um espaço multidimensional. Essa medida é útil porque, se dois documentos estiverem distantes pela distância euclidiana devido ao tamanho, eles ainda poderão ter um ângulo menor entre eles e, portanto, uma similaridade de cosseno maior. Para obter mais informações sobre equações de similaridade de cosseno, confira Similaridade de cosseno.
Um método alternativo de identificação de documentos semelhantes é contar o número de palavras comuns entre documentos. Essa abordagem não é escalada, pois uma expansão no tamanho do documento provavelmente pode levar a um número maior de palavras comuns detectadas mesmo entre tópicos diferentes. Por esse motivo, a similaridade de cosseno pode oferecer uma alternativa mais eficaz.
Próximas etapas
- Saiba mais sobre como usar o OpenAI do Azure e inserções para executar a pesquisa de documentos com nosso tutorial sobre inserções.
- Armazene suas inserções e execute a pesquisa de vetor (similaridade) usando o Azure Cosmos DB for MongoDB vCore, Azure Cosmos DB for NoSQL, Banco de Dados SQL do Azure ou Banco de Dados do Azure para PostgreSQL – Servidor Flexível.
- Usar um eventhouse na Inteligência em Tempo Real no Microsoft Fabric como um banco de dados vetorial
- Use a função series_cosine_similarity para pesquisa de similaridade.