Crie designs para operações

Criar um aplicativo para equipar a equipe de operações

A mudança para a nuvem mudou fundamentalmente a função da equipe de operações. Eles não são mais responsáveis por gerenciar o hardware e a infraestrutura que hospeda o aplicativo. No entanto, as operações permanecem cruciais para executar um aplicativo de nuvem bem-sucedido. As principais funções incluem:

Implantação.
Monitorização.
Escalonamento.
Resposta a incidentes.
Auditoria de segurança.

O registro em log e o rastreamento robustos são especialmente importantes em aplicativos de nuvem. Inclua a equipe de operações no design e no planejamento para garantir que eles recebam os dados e insights necessários para o sucesso.

Recomendações

Tornar todas as coisas observáveis. Depois que uma solução é implantada e está em operação, os logs e os rastreamentos são suas informações primárias do sistema. O rastreamento registra um caminho pelo sistema. Use o rastreamento para identificar gargalos, problemas de desempenho e pontos de falha. O registro em log captura eventos individuais, como alterações de estado do aplicativo, erros e exceções. Habilite o registro em log na produção ou você pode perder insights cruciais quando precisar mais deles.

Instrumento para monitoramento. O monitoramento fornece insights sobre o desempenho de um aplicativo, incluindo disponibilidade, eficiência e integridade do sistema. Por exemplo, ele mostra se você está cumprindo seu contrato de nível de serviço. O monitoramento ocorre durante a operação normal do sistema e deve estar o mais próximo possível de tempo real. Essa abordagem ajuda a garantir que a equipe de operações possa reagir rapidamente aos problemas. O ideal é que o monitoramento eficaz ajude a evitar problemas antes que eles se transformem em falhas críticas. Para obter mais informações, consulte Monitoramento e diagnóstico.

Instrumento para análise de causa raiz. A análise de causa raiz é o processo de localizar a causa subjacente de falhas. Ela ocorre após a ocorrência de uma falha.

Use o rastreamento distribuído. Use um sistema de rastreamento distribuído projetado para simultaneidade, assíncrona e escala de nuvem. Os rastreamentos devem incluir uma ID de correlação que flua entre os limites dos serviços. Uma única operação pode incluir chamadas para vários serviços de aplicativo. Se uma operação falhar, a ID de correlação ajudará a identificar a causa da falha.

Padronizar registros e métricas. A equipe de operações precisa agregar logs de vários serviços em sua solução. Se cada serviço usa seu próprio formato de log, torna-se difícil ou impossível recuperar informações úteis. Defina um esquema comum que inclui campos como ID de correlação, nome do evento e endereço IP do remetente. Os serviços individuais podem derivar esquemas personalizados que herdam o esquema base e podem conter campos extras.

Automatizar tarefas de gerenciamento, incluindo provisionamento, implantação e monitoramento. Automatizar uma tarefa torna-a repetível e menos propensa a erros humanos.

Trate a configuração como código. Armazene arquivos de configuração em um sistema de controle de versão para que você possa controlar e ver as alterações e reverter as alterações, se necessário.

Comentários

Esta página foi útil?

Last updated on 2025-05-02

Compartilhar via

Crie designs para operações

Criar um aplicativo para equipar a equipe de operações

Recomendações

Comentários

Recursos adicionais