Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Neste tutorial, você usará o portal do Azure para criar um data factory. Em seguida, irá utilizar a ferramenta Copiar Dados para criar um pipeline que copie incrementalmente apenas arquivos novos e modificados, do armazenamento Blob do Azure para outro armazenamento Blob do Azure. Ele usa LastModifiedDate para determinar quais arquivos copiar.
Depois de concluir as etapas aqui, o Azure Data Factory verificará todos os arquivos no repositório de origem, aplicará o filtro de arquivos por LastModifiedDatee copiará para o repositório de destino somente os arquivos que são novos ou foram atualizados desde a última vez. Observe que, se o Data Factory verificar um grande número de arquivos, você ainda deve esperar durações longas. A verificação de arquivos é demorada, mesmo quando a quantidade de dados copiados é reduzida.
Nota
Se não estiver familiarizado com o Data Factory, veja Introdução ao Azure Data Factory.
Neste tutorial, você concluirá estas tarefas:
- Criar uma fábrica de dados.
- Utilizar a ferramenta Copiar Dados para criar um pipeline.
- Monitorizar o pipeline e a execução das atividades.
Pré-requisitos
- Subscrição do Azure: se não tem uma subscrição do Azure, crie uma conta gratuita antes de começar.
- Conta de Armazenamento do Azure: use o armazenamento Blob para os armazenamentos de dados de origem e destino. Se você não tiver uma conta de Armazenamento do Azure, siga as instruções em Criar uma conta de armazenamento.
Criar dois contêineres no armazenamento de Blob
Prepare seu armazenamento de Blob para o tutorial concluindo estas etapas:
Crie um contêiner chamado source. Você pode usar várias ferramentas para executar essa tarefa, como o Gerenciador de Armazenamento do Azure.
Crie um contêiner chamado destino.
Criar uma fábrica de dados
No menu superior, selecione Criar um recurso>Analytics>Data Factory :
Na página Nova fábrica de dados, em Nome, introduza ADFTutorialDataFactory.
O nome da fábrica de dados tem de ser globalmente exclusivo. Poderá receber esta mensagem de erro:
Se receber uma mensagem de erro relacionada com o nome indicado, insira um nome diferente para a fábrica de dados. Por exemplo, utilize o nome oseunomeADFTutorialDataFactory. Para ter acesso às regras de nomenclatura para artefactos do Data Factory, veja Regras de nomenclatura do Data Factory.
Em Assinatura, selecione a assinatura do Azure na qual você criará o novo data factory.
Em Grupo de Recursos, siga um destes passos:
Selecione Usar existente e, em seguida, selecione um grupo de recursos existente na lista.
Selecione Criar novo e insira um nome para o grupo de recursos.
Para saber mais sobre grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.
Em Versão, selecione V2.
Em Localização, selecione a localização para a fábrica de dados. Apenas os locais suportados aparecem na lista. Os armazenamentos de dados (por exemplo, Armazenamento do Azure e Banco de Dados SQL do Azure) e cálculos (por exemplo, Azure HDInsight) que sua fábrica de dados usa podem estar em outros locais e regiões.
Selecione Criar.
Após a criação da fábrica de dados, a página inicial da fábrica de dados é exibida.
Para abrir a interface do usuário (UI) do Azure Data Factory em uma guia separada, selecione Abrir no bloco Abrir o Azure Data Factory Studio :
Utilize a ferramenta Copy Data para criar um pipeline
Na página inicial do Azure Data Factory, selecione o Bloco Ingest para abrir a ferramenta Copiar Dados.
Na página Propriedades, execute as seguintes etapas:
Em Tipo de tarefa, selecione Tarefa de cópia interna.
Em Cadência ou agenda de tarefas, selecione Janela deslizante.
Em Recorrência, insira 15 Minuto(s).
Selecione Seguinte.
Na página Armazenamento de dados de origem, conclua estas etapas:
Selecione + Nova conexão para adicionar uma conexão.
Selecione Azure Blob Storage na galeria e, em seguida, selecione Continuar:
Na página Nova conexão (Armazenamento de Blob do Azure), selecione a sua assinatura do Azure na lista de Assinaturas do Azure e a sua conta de armazenamento na lista de Nomes da Conta de Armazenamento. Teste a conexão e selecione Criar.
Selecione a conexão recém-criada no bloco Conexão .
Na seção Arquivo ou pasta, selecione Procurar e escolha a pasta de origem e, em seguida, selecione OK.
Em Comportamento de carregamento de arquivo, selecione Carga incremental: LastModifiedDate e escolha Cópia binária.
Selecione Seguinte.
Na página Armazenamento de Dados de Destino, conclua estas etapas:
Selecione a conexão AzureBlobStorage que você criou. Esta é a mesma conta de armazenamento que o armazenamento de dados de origem.
Na secção Caminho da pasta, procure e selecione a pasta de destino e, em seguida, selecione OK.
Selecione Seguinte.
Na página Configurações, em Nome da tarefa, digite DeltaCopyFromBlobPipeline e selecione Avançar. O Data Factory cria um pipeline com o nome da tarefa especificada.
Na página Resumo, revise as configurações e selecione Avançar.
Na Página de implementação, selecione Monitorizar para monitorizar o pipeline (tarefa).
Tenha em atenção que o separador Monitorização à esquerda é selecionado automaticamente. A aplicação muda para o separador Monitor. Vê o estado do pipeline. Selecione Atualizar para atualizar a lista. Selecione o link em Nome do pipeline para exibir os detalhes da execução da atividade ou para executar o pipeline novamente.
Há apenas uma atividade (a atividade de cópia) no pipeline, portanto, você vê apenas uma entrada. Para obter detalhes sobre a operação de cópia, na página Execuções de atividade, selecione o link Detalhes (o ícone de óculos) na coluna Nome da atividade. Para obter detalhes sobre as propriedades, consulte Visão geral da atividade de cópia.
Como não há arquivos no contêiner de origem em sua conta de armazenamento de Blob, você não verá nenhum arquivo copiado para o contêiner de destino na conta:
Crie um arquivo de texto vazio e nomeie-o file1.txt. Carregue este arquivo de texto para o contêiner de origem em sua conta de armazenamento. Você pode usar várias ferramentas para executar essas tarefas, como o Gerenciador de Armazenamento do Azure.
Para voltar à visualização Execuções de Pipeline, selecione o link Todas as Execuções de Pipeline no menu de trilha de navegação na página Execuções de Atividade e aguarde até que o mesmo pipeline seja acionado novamente automaticamente.
Quando a segunda execução do pipeline for concluída, siga os mesmos passos mencionados anteriormente para verificar os detalhes da execução da atividade.
Você verá que um arquivo (file1.txt) foi copiado do contêiner de origem para o contêiner de destino da sua conta de armazenamento de Blob:
Crie outro arquivo de texto vazio e nomeie-o file2.txt. Carregue este arquivo de texto para o contêiner de origem em sua conta de armazenamento de Blob.
Repita as etapas 11 e 12 para o segundo arquivo de texto. Você verá que apenas o novo arquivo (file2.txt) foi copiado do contêiner de origem para o contêiner de destino da sua conta de armazenamento durante essa execução de pipeline.
Você também pode verificar se apenas um arquivo foi copiado usando o Gerenciador de Armazenamento do Azure para verificar os arquivos:
Conteúdos relacionados
Vá para o tutorial a seguir para saber como transformar dados usando um cluster Apache Spark no Azure: