✍️ BLOG · Operações TI

A Grande Mentira da Resolução de Incidentes: não, não perde 100K€ por cada hora de downtime

ES | EN | PT
A grande mentira do downtime
← Voltar ao blog

Abra qualquer relatório recente sobre ITSM, assista a qualquer webinar organizado por um fornecedor de software ou leia o último Quadrante Mágico do Gartner. Não vai demorar cinco minutos a encontrar a métrica do terror:

"Cada hora de inatividade dos seus sistemas custa-lhe 100.000 euros. Por vezes mais de um milhão."

Repetem-no até à exaustão. Imprimem-no em gráficos de barras coloridos. Os comerciais de software dizem-no repetidamente antes de lhe apresentar um orçamento de seis dígitos para a sua nova ferramenta de Inteligência Artificial "mágica".

Vamos dizer a verdade de uma vez: se a sua empresa perdesse 100.000 euros por cada hora que um servidor vai abaixo, não estaria a ler este artigo no LinkedIn. Estaria no seu iate em Ibiza.

A menos que seja o Banco Santander, a Amazon no meio da Black Friday, ou a rede da AENA, ter o CRM em baixo quinze minutos, o ERP a dar um erro 500 ou o gateway da intranet a não carregar não o vai levar à falência. É um incómodo, sim. É um problema de serviço, claro. Mas não é o apocalipse financeiro que lhe tentam vender para que compre licenças a preço de ouro.

Chega de terrorismo comercial.

O custo real: silencioso, humano e mensal

O problema real dos incidentes de tecnologia não é o minuto de downtime. A hemorragia real nas empresas — a que verdadeiramente custa dinheiro todos os meses — é silenciosa, não aparece nos títulos dos jornais e tem forma de folha de pagamentos e desgaste humano.

73%

dos seus programadores e engenheiros gastam pelo menos metade do seu dia de trabalho a apagar fogos — State of AI-First Operations Report, 2026

Esse é o custo real. Não são vendas perdidas por um carrinho abandonado; são os sprints de desenvolvimento que não são entregues, é talento técnico de 60K€ por ano a fazer de operador de call center, e é uma equipa de TI esgotada, desmotivada e prestes a pedir baixa por ansiedade.

Estamos a tratar a resolução de incidentes como se fôssemos uma equipa de pit lane de Fórmula 1, mas parecemo-nos mais com uma oficina de bairro a tentar arranjar um furo com um garfo.

Se de facto quer deixar de queimar dinheiro e talento, o primeiro passo é deixar de acreditar nas estatísticas de mercado e começar a olhar para como funcionam as suas entranhas operacionais. Não me recordo de uma única empresa, nos quase 25 anos que levo neste setor, que soubesse com certeza quanto lhe custava cada hora de downtime.

As 4 doses de realidade que ninguém lhe conta

Aqui chegam quatro doses de realidade sobre por que a sua gestão de incidentes não funciona, e por que nenhuma ferramenta mágica o vai salvar se não mudar o processo.

Dashboard MTTR com métricas de vaidade
Dose 1 de 4

Continua a medir o MTTR como se fosse um troféu

Se o sistema vai abaixo às 3:00 da manhã e não há utilizadores a trabalhar, o impacto no negócio é ZERO. Mas se acorda um engenheiro da cama para que o gráfico fique bonito, acabou de destruir a sua produtividade para o dia seguinte. Devemos deixar de medir cronómetros e começar a medir o desgaste da equipa.

Ler artigo
Diagrama de níveis de escalamento L1 L2 L3
Dose 2 de 4

Os níveis de escalamento são um jogo de ping-pong, não um fluxo de trabalho

O suporte L1 tornou-se um simples "router humano". O custo de um ticket com triagem manual ronda os 15€; automatizado, desce para 2€. Mas o custo real é inundar o L2 e o L3 com ruído e tarefas rotineiras que não requerem matéria cinzenta.

Ler artigo
Painel de copiloto IA para remediação TI
Dose 3 de 4

Querem IA, mas não se atrevem a deixá-la tocar em produção

A IA é fantástica para ler logs, consolidar alertas e dar contexto ao técnico. Mas resolver sozinha? De forma alguma. 44% das empresas proíbem que a IA execute passos de remediação sem um humano no circuito. Implementá-la sobre infraestrutura quebrada é como colocar piloto automático num carro com o motor reventado.

Ler artigo
Reunião de post-mortem com ticket Jira fechado
Dose 4 de 4

Fazem post-mortems apenas para cumprir o expediente

O documento é preenchido, o ticket é fechado... e nunca mais é visto. Até que três meses depois o mesmo serviço vai abaixo pela exatamente mesma razão. 100% dos líderes de TI reconhecem que a aprendizagem pós-incidente é vital. Apenas 48% a aplica realmente.

Ler artigo

A verdadeira resiliência não é o "zero downtime"

Venderam-nos uma ideia de perfeição operacional inatingível, baseada em comprar licenças a um custo ridículo para evitar que o sistema vá abaixo um único segundo.

A realidade que vi ao longo de anos a lidar com infraestruturas, escalamentos, reclamações de clientes e técnicos à beira do colapso é muito diferente. Isto é algo que os motociclistas têm muito interiorizado: há apenas dois tipos de motociclistas, os que já caíram e os que vão cair.

Os sistemas vão abaixo. Onde há código há sempre bugs. A rede falha. A verdadeira resiliência não é ter um contador de "99,999% Uptime". A resiliência real é ter uma equipa que confia nos seus processos.

Um Nível 1 automatizado que trava o lixo. Um Nível 2 apoiado pela IA que lhe dá contexto, não que lhe tira o lugar. Um Nível 3 que pode dormir tranquilo porque sabe que só o vão acordar se a casa estiver de facto a arder, não porque alguém se esqueceu da sua palavra-passe.

Não é o Banco Santander, e não precisa de o ser. Só precisa de deixar de comprar fumo e começar a organizar o caos do seu departamento de TI, respeitando o tempo, a saúde mental e o talento das pessoas que mantêm as luzes acesas.

Achou útil? Partilhe no LinkedIn

Partilhar no LinkedIn

O seu departamento de TI está a apagar os mesmos fogos todas as semanas?

Fazemos um diagnóstico rápido da sua gestão de operações e dizemos-lhe exatamente onde está a hemorragia. Sem compromisso.

Vamos falar Mais posts