Incidentes são situações emergenciais, e é muito fácil a equipe entrar em pânico diante da necessidade de pensar em soluções rápidas e eficazes para algo que pode estar gerando prejuízos a cada minuto que passa. A organização precisa ter um plano acionável que estabeleça um war room ou um centro de controle para lidar logo com a situação. 

Quando acontece um incidente crítico, é aberta uma reunião online de emergência, e se atribui o comando a uma pessoa específica. O número de participantes deve ser limitado, para facilitar a comunicação e centralizar as ações. 

O líder de engenharia tem que estar presente e dar o tom da reação com calma para não agitar ainda mais os ânimos. Ninguém consegue pensar de maneira estratégica quando está desesperado.

Um war room de incidentes tem que ser:

  • Objetivo
  • Investigativo
  • Colaborativo
  • Sem caça às bruxas

A tranquilidade precisa prevalecer para que a solução apareça. 

No primeiro momento, na sala de situação, o importante é reduzir o impacto do problema para a empresa e para o usuário. Nessa hora até é necessário fazer algum tipo de investigação para localizar a causa imediata, mas os questionamentos mais detalhados ficam para o processo de post mortem, a ser feito depois que a emergência acabou. 

A técnica dos cinco porquês da Toyota é útil nesse sentido, já que força a equipe a desafiar repetidamente suas premissas e abre caminhos diferentes de pensar. Essa técnica investigativa para entender a origem de um problema foi inicialmente criada nas primeiras décadas do século 20 pelo inventor japonês Sakichi Toyota e aplicada na montadora de carros Toyota, de sua família. 

Normalmente a causa raiz de um incidente nem é o que se acreditava de início, ou o que se pensava no war room era uma visão deturpada da causa raiz.

Quanto mais profunda é a investigação sobre o que aconteceu, maior a chance de se chegar a uma causa raiz melhor. A causa raiz costuma ser uma combinação de elementos, e o que se deseja é alcançar a percepção desse todo.

Musculatura para incidentes

Sem incidentes, um time de engenharia não desenvolve a musculatura de mitigá-los, não aprende a fazer reunião de post-mortem, não precisa repensar seus processos e nem ajustar suas ferramentas

Ter incidentes faz parte da computação, e ninguém pode desejar que não haja incidentes em sua organização de tecnologia. Com um pouco de sorte e muito planejamento, porém, esses incidentes têm impacto baixo.

Em um paralelo com o mundo dos esportes, uma equipe sem incidentes é como aquele time que ganhou todos os jogos do campeonato, mas chegou na final e perdeu, porque não teve a chance de identificar suas fragilidades e praticar a capacidade de se reorganizar e reagir. Da mesma forma, os incidentes são momentos de aprendizado, que acabam por nutrir uma cultura de atuação proativa e consciente para todos. 

Às vezes até vale promover simulação de incidentes só para medir a reação do time. É importante a equipe estar treinada em como se comportar com profissionalismo diante da pressão de uma emergência ou de uma situação completamente nova.

Ter incidentes faz parte da computação, e ninguém pode desejar que não haja incidentes em sua organização de tecnologia. Com um pouco de sorte e muito planejamento, porém, esses incidentes têm impacto baixo.

Marcus Fontoura
Sobre o autor

Marcus Fontoura

Marcus Fontoura é atualmente technical fellow na Microsoft e CTO do Azure Core. Iniciou a carreira na área de pesquisa da IBM em 2000, depois de concluir o doutorado na PUC-Rio e o pós-doutorado na Universidade de Princeton, nos Estados Unidos. Teve passagens pelo Yahoo! e pelo Google, e promoveu uma transformação digital na fintech brasileira StoneCo, onde atuou como CTO. É autor do livro Tecnologia Intencional e publisher da plataforma com o mesmo nome.