Problemas no Azure: serviço de armazenamento da Microsoft cai no sul do Brasil

A empresa se desculpou após serviço ficar indisponível por mais de 10 horas enquanto os engenheiros trabalhavam na resolução do problema.

No último dia 24/5, na região sul do Brasil, o sistema de armazenamento na nuvem da Microsoft passou por uma queda de mais de 10 horas.

Isso decorreu de um erro de digitação no Microsoft Azure que causou a exclusão de cerca de 17 bancos de dados de produção. O erro veio de testes periódicos e foi explicado por um representante da empresa.

Gerente de engenharia de software, Eric Mattingly explicou na última sexta-feira (2) como o processo ocorreu.

Ele disse que, quando iniciam testes de melhoramento de sistema, os engenheiros fazem backups dos bancos de dados e usam um backup secundário temporariamente. Mas um erro na solicitação da exclusão dos bancos de dados resultou em um grande problema.

Armazenamento na nuvem da Microsoft fica fora do ar por 10 horas 

Por que a nuvem da Microsoft caiu por 10 horas no sul do Brasil?
Imagem: Viper IT/Reprodução

De acordo com Eric, no dia 24/5, os desenvolvedores que investigavam o sistema cometeram um erro ao substituir um pacote de dados obsoleto (Microsoft.Azure.Managment.) por outro (Azure.ResourceManager.* NuGet). Essa troca gerou uma “solicitação pull”, que exige revisão de ajustes.

Porém, nessa solicitação, houve um erro de digitação que, ao invés de excluir o backup secundário, excluiu todo o servidor SQL Azure. O erro não foi reconhecido, pois raramente o Azure DevOps executa os códigos nas mesmas condições, portanto, os testes nem consideraram essa possibilidade.

Eric explica:

“Dentro da solicitação pull estava um erro de digitação no trabalho de exclusão, que trocou uma chamada para excluir o Banco de Dados SQL do Azure por outra que exclui o Servidor SQL do Azure que hospeda todo o banco de dados.”

Por que demorou tanto para resolver?

O gerente de engenharia da Azure explica ainda que alguns processos e complicações ocorreram na busca para a resolução do problema. Por exemplo, as diferentes configurações dos backups e a falta de acesso aos próprios SQL Servers por parte dos clientes aumentaram o trabalho dos engenheiros.

Além disso, a queda constante de servidores que restaram pelo aumento do tráfego dos clientes também foi um obstáculo. Por isso, foi necessário bloquear o acesso de todos da região sul até que resolvessem o problema. Eric terminou o pronunciamento pedindo desculpas a todos os afetados.

você pode gostar também