Engenharia de confiabilidade do site - curso 65.000 rublos. de Slurm, treinamento, data de 1º de janeiro de 2024.
Miscelânea / / November 29, 2023
PARA PESSOAS
Um engenheiro SRE pode ser engenheiro de operações ou desenvolvedor. Durante o curso intensivo, você praticará muito, e as habilidades e conhecimentos adquiridos poderão ser adaptados e implementados em qualquer área.
NEGÓCIOS
O SRE resolve os mesmos problemas do DevOps: aumenta a velocidade de lançamento de novos recursos e melhora os processos dentro da equipe. Mas a principal tarefa do SRE é garantir a estabilidade e confiabilidade dos serviços, excluindo situações em que os usuários reclamam de falhas e os engenheiros têm horários verdes.
Estamos construindo:
Nosso site de treinamento consiste em vários microsserviços. Agrega dados de espetáculos, preços e lugares disponíveis de todos os cinemas, mostra anúncios de filmes, permite selecionar cinema, espetáculo, sala e local, reservar e pagar bilhetes.
Formularemos indicadores de SLO, SLI, SLA para este site, desenvolveremos uma arquitetura e infraestrutura que irá apoiá-los, configuraremos monitoramento e alertas.
Erros de desenvolvedor, falhas de infraestrutura, fluxo de visitantes e ataques DoS levam à piora dos SLOs.
Analisamos estabilidade, orçamento de erros, prática de testes, gestão de interrupções e carga operacional.
Houve um acidente. O serviço de processamento de pagamentos está fora do ar. Como agir para restaurar a funcionalidade no menor tempo possível?
Organizamos o trabalho da equipa de resposta a emergências: envolvendo colegas, notificando as partes interessadas, definindo prioridades. Treinamos para trabalhar sob pressão em condições de tempo extremamente limitadas.
Vejamos a abordagem do site do ponto de vista do SRE. Analisamos incidentes (causas de ocorrência, progresso de eliminação). Tomamos decisões para evitá-los ainda mais: melhoramos o monitoramento, alteramos a arquitetura, a abordagem de desenvolvimento e operação e os regulamentos. Automatizamos processos.
— Temos dezenas de infraestruturas construídas e centenas de pipelines de CI/CD escritos,
— Administrador certificado do Kubernetes,
— Autor de vários cursos sobre Kubernetes e DevOps,
— Palestrante regular em conferências russas e internacionais de TI.
DIA 1: sessão inicial da AMA
Discutiremos as metas e objetivos do curso, além de contar o que é SRE e dividi-lo em equipes.
Abertura de 2 tópicos teóricos:
Tópico 1: Monitoramento
- Por que o monitoramento é necessário?
- Percentis
- Alerta
- Observabilidade
Tópico 2: Teoria SRE
- SLO, SLI, SLA
- Durabilidade
- Erro no orçamento
DIA 2: análise de práticas e casos
Prática: Fazendo um painel básico e configurando os alertas necessários
Prática: Adicionando alertas SLO/SLI + ao painel
Prática: Primeiro carregamento do sistema
Solução do caso 1: dependência downstream.
Num sistema grande, existem muitos serviços interdependentes e nem sempre funcionam igualmente bem. É especialmente irritante quando o seu serviço está em ordem, mas o vizinho, do qual você depende, cai periodicamente.
O projeto educacional se encontrará exatamente nessas condições e você garantirá que ainda produza qualidade no mais alto nível possível.
DIA 3: Sessão AMA, perguntas respondidas
O acesso ao 2º módulo teórico abre:
Resolvendo problemas com o meio ambiente e a arquitetura
O segundo módulo é construído para resolver dois casos: dependência upstream e problemas arquitetônicos. Os palestrantes falarão sobre gerenciamento de incidentes, regras para o corpo de bombeiros e trabalho com post mortem e fornecerão modelos que você pode usar em sua equipe.
Tópico 3: Gerenciamento de Incidentes
- Engenharia de Resiliência
- Como é formada uma brigada de incêndio
- Quão eficaz é sua equipe no incidente?
- 7 regras para um líder de incidentes
- 5 regras para um bombeiro
- HiPPO - opinião da pessoa mais bem paga. Líder de Comunicações
TTema 4: Ferramentas Varrum e gerenciamento de alertas.
Melhores práticas de outras empresas na organização do gerenciamento de incidentes.
DIA 4: análise de práticas e casos
Solução para o caso 2: dependência upstream.
Uma coisa é quando você depende de um serviço com SLO baixo. Outra questão é quando o seu serviço é o mesmo para outras partes do sistema. Isso acontece se os critérios de avaliação não forem consistentes: por exemplo, você responde a uma solicitação em um segundo e considera-a um sucesso, mas o serviço dependente espera apenas 500 horas, horário de Moscou, e sai com um erro.
No caso, discutiremos a importância de harmonizar as métricas e aprenderemos a olhar a qualidade pelo olhar do cliente.
Solução para o caso 3: problemas com o banco de dados.
O banco de dados também pode ser uma fonte de problemas. Por exemplo, se você não monitorar a retransmissão de replicação, a réplica ficará desatualizada e o aplicativo retornará dados antigos. Além disso, depurar esses casos é especialmente difícil: agora os dados são inconsistentes, mas depois de alguns segundos não são mais consistentes e não está claro qual é a causa do problema.
Através do case, você sentirá toda a dor da depuração e aprenderá como prevenir tais problemas.
Prática: Escrevemos um post-mortem sobre o caso anterior e discutimos com os palestrantes.
DIA 5: Sessão AMA, perguntas respondidas
Sessão AMA e respostas a perguntas sobre tópicos anteriores.
O acesso ao 3º módulo teórico abre:
Blindagem de tráfego e liberações canário
No terceiro módulo analisaremos um caso dedicado a um problema ambiental (haverá uma análise detalhada de Saúde Verificando), e também analisaremos passo a passo como implementar o SRE nas empresas e conheceremos a experiência das empresas onde os palestrantes atuam intensivo
Tópico 5: Verificação de integridade
- Verificação de integridade no Kubernetes
- Nosso serviço ainda está vivo?
- Sondas executivas
- InitialDelaySegundos
- Porto Secundário de Saúde
- Servidor Sidecar de Saúde
- Sonda sem cabeça
- Sonda de Hardware
Tópico 6: Métodos de implantação
Tópico 7: Integração do projeto SRE
As grandes empresas muitas vezes formam uma equipe SRE separada, que conta com os serviços de outros departamentos para suporte. Mas nem todo serviço está pronto para ser aceito para suporte. Diremos quais requisitos ele deve atender. Os palestrantes também compartilharão suas experiências, como implementaram o SRE e quais erros cometeram.
DIA 6: análise de práticas e casos
Solução para o caso 4: há um problema ambiental, é impossível comprar ingressos.
A tarefa do Healthcheck é detectar um serviço quebrado e bloquear o tráfego para ele. E se você acha que para isso basta fazer uma solicitação ao serviço com root e receber uma resposta, então você você está enganado: mesmo que o serviço responda, isso não garante o seu funcionamento - podem surgir problemas em arredores.
Através deste case, você aprenderá como configurar o Healthcheck correto e não permitir que o tráfego vá para onde não pode ser processado.
Resumindo