Partilhar via


Nota de transparência para detecção de idioma

Importante

Traduções que não sejam em inglês são fornecidas apenas por conveniência. Consulte a EN-US versão deste documento para obter a versão definitiva.

O que é uma nota de transparência?

Importante

Este artigo parte do princípio de que está familiarizado com as diretrizes e melhores práticas para a Linguagem Azure nas Foundry Tools. Para mais informações, consulte a Nota de Transparência para a Linguagem.

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente em que ela é implantada. Criar um sistema adequado ao fim a que se destina requer uma compreensão de como a tecnologia funciona, suas capacidades e limitações, e como alcançar o melhor desempenho. As Notas de Transparência da Microsoft destinam-se a ajudá-lo a compreender como funciona a nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer para influenciar o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o ambiente. Você pode usar as Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As notas de transparência da Microsoft fazem parte de um esforço mais amplo da Microsoft para colocar nossos princípios de IA em prática. Para saber mais, consulte Princípios de IA responsável da Microsoft.

Introdução à deteção de idiomas

A funcionalidade de deteção de línguas do Language deteta a língua em que um texto de entrada está escrito e reporta um único código linguístico para cada documento submetido no pedido, numa vasta gama de línguas, variantes, dialetos e algumas línguas regionais/culturais. O código do idioma é emparelhado com uma pontuação de confiança.

Certifique-se de verificar a lista de idiomas suportados para garantir que os idiomas necessários sejam suportados.

Exemplos de casos de uso

A deteção de idioma é usada em vários cenários em uma variedade de setores. Eis alguns exemplos:

  • Pré-processamento de texto de outras funcionalidades da Língua. Outras funcionalidades da Linguagem exigem que um código de linguagem seja enviado no pedido para identificar a língua de origem. Se você não souber o idioma de origem do texto, poderá usar a deteção de idioma como um pré-processador para obter o código do idioma.

  • Detete idiomas para o fluxo de trabalho empresarial. Por exemplo, se uma empresa receber e-mails de clientes em vários idiomas, ela poderá usar a deteção de idioma para encaminhar os e-mails por idioma para falantes nativos que possam se comunicar melhor com esses clientes.

Considerações ao escolher um caso de utilização

Não utilize

  • Não utilizar para ações automáticas sem intervenção humana em cenários de alto risco. Uma pessoa deve sempre rever os dados de origem quando a situação económica, a saúde ou a segurança de outra pessoa é afetada.

Considerações legais e regulatórias: As organizações precisam de avaliar potenciais obrigações legais e regulatórias específicas ao utilizar quaisquer Ferramentas e Soluções da Foundry, que podem não ser adequadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções da Foundry não foram concebidas para e não podem ser usadas de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Características e limitações

Dependendo do cenário e dos dados de entrada, você pode experimentar diferentes níveis de desempenho. A informação seguinte foi concebida para o ajudar a compreender conceitos-chave sobre desempenho tal como se aplicam à utilização da deteção de linguagem da Language.

Limitações do sistema e práticas recomendadas para melhorar o desempenho

  • Para entradas que incluem conteúdo em idiomas mistos , apenas um único idioma é retornado. Em geral, a língua com maior representação no conteúdo é devolvida, mas com uma pontuação de confiança mais baixa.
  • O serviço ainda não suporta as versões romanizadas de todos os idiomas que não usam o script latino. Por exemplo, Pinyin não é suportado para chinês e Franco-Arabic não é suportado para árabe.
  • Algumas palavras existem em vários idiomas. Por exemplo, "impossível" é comum tanto ao inglês como ao francês. Para amostras curtas que incluem palavras ambíguas, você pode não obter o idioma certo.
  • Se você tiver alguma ideia sobre o país ou região de origem do seu texto e encontrar idiomas mistos, você pode usar o countryHintparâmetro para passar um código de país/região de 2 letras.
  • Em geral, entradas mais longas são mais propensas a serem corretamente reconhecidas. Frases ou frases completas têm maior probabilidade de serem corretamente reconhecidas do que palavras ou fragmentos de frases.
  • Nem todas as línguas serão reconhecidas. Certifique-se de verificar a lista de idiomas e scripts suportados.
  • Para distinguir entre vários scripts usados para escrever determinadas linguagens, como o cazaque, o recurso de deteção de linguagem retorna um nome de script e um código de script de acordo com o padrão ISO 15924 para um conjunto limitado de scripts.
  • O serviço suporta a deteção de idioma de texto somente se ele estiver em script nativo. Por exemplo, Pinyin não é suportado para chinês e Franco-Arabic não é suportado para árabe.
  • Devido a lacunas desconhecidas em nossos dados de treinamento, certos dialetos e variedades de idiomas menos representados em dados da web podem não ser devidamente reconhecidos.

Ver também