Manutenção Preventiva de Servidores: Checklist Completo para Evitar Downtime
A maioria dos problemas graves em servidores pode ser evitada com manutenção preventiva regular. Um disco que falha sem aviso, uma fonte que queima, ou um servidor que superaquece — quase sempre há sinais que poderiam ter sido detectados antes.
Este checklist cobre tudo que um administrador de TI deve verificar trimestralmente para manter servidores saudáveis e evitar downtime inesperado.
Checklist de Hardware
Discos (HDs e SSDs)
Verifique o status SMART de todos os discos usando smartctl no Linux ou as ferramentas de gerenciamento do servidor (Dell OpenManage, HP iLO). Preste atenção especial a Reallocated Sectors, Current Pending Sectors e Uncorrectable Sectors — qualquer valor acima de zero e crescendo indica um disco que precisa ser substituído. Verifique também o Media Error Count na controladora RAID e confirme que não há alertas de Predictive Failure.
Fontes de alimentação
Confirme que todas as fontes redundantes estão funcionando. Muitos administradores só descobrem que uma fonte falhou quando a segunda também queima. Verifique os LEDs de status nas fontes (verde = OK, âmbar = problema) e confirme via iDRAC, iLO ou IMM que ambas estão reportando status normal. Se uma fonte está com defeito, substitua imediatamente — você está operando sem redundância.
Temperatura e ventilação
Verifique as temperaturas internas do servidor via gerenciamento remoto. Temperaturas normais de CPU ficam entre 40-70°C sob carga. Se as temperaturas estão consistentemente acima de 80°C, verifique: filtros de ar entupidos, ventiladores com defeito, pasta térmica ressecada nos processadores ou obstáculos no fluxo de ar dentro do rack.
Memória
Verifique se há erros de memória corrigidos (correctable errors) nos logs do servidor. Erros corrigidos isolados são normais — a memória ECC existe exatamente para isso. Mas se um módulo específico está gerando muitos erros corrigidos consistentemente, ele está começando a falhar e deve ser substituído preventivamente.
Checklist de Software e Firmware
Firmware e BIOS
Verifique se há atualizações de firmware disponíveis para: BIOS/UEFI do servidor, controladora RAID, iDRAC/iLO/IMM e firmware dos discos. Atualizações de firmware frequentemente corrigem bugs e melhoram estabilidade. Planeje a aplicação durante janelas de manutenção.
Logs do sistema
Revise os logs de sistema procurando por erros recorrentes: erros de hardware (memória, disco, PCI), avisos de temperatura, eventos de reinicialização inesperada e erros de driver. No Windows, use o Visualizador de Eventos. No Linux, verifique /var/log/syslog, /var/log/messages e dmesg.
Backup
Confirme que os backups estão funcionando E que podem ser restaurados. Não basta verificar que o job de backup completou com sucesso — faça um teste de restauração pelo menos uma vez por trimestre. Verifique também o espaço disponível no destino de backup.
Checklist Físico
Verifique visualmente os cabos de rede e energia (sem dobras, sem danos), confirme que os cabos estão organizados e não obstruindo o fluxo de ar, limpe os filtros de ar do servidor e do rack, verifique o aterramento elétrico e confirme que a temperatura da sala de servidores está entre 18-27°C.
Quanto custa NÃO fazer manutenção?
Para colocar em perspectiva: uma hora de downtime de um servidor crítico pode custar de R$ 5.000 a R$ 50.000+ dependendo do negócio (considerando perda de vendas, produtividade e reputação). Uma peça de reposição preventiva (HD, fonte, memória) custa uma fração disso.
Mantenha peças de reposição em estoque ("cold spare") para os componentes mais críticos: pelo menos 1 HD, 1 fonte e 1 módulo de memória compatível.
Na FoxTI, você encontra todas as peças de reposição para servidores Dell, HP e IBM — fontes, HDs, memórias, controladoras e mais. Tudo com part number conferido e garantia.
Veja nosso catálogo completo →
Precisa montar um kit de spare parts? Nosso time pode ajudar: (11) 3230-8810.
Deixe um comentário