>

Trocar Memória sem Desligar: Hot-Plug em Servidores

Trocar memória RAM em servidor de produção normalmente significa janela de manutenção noturna, derrubar VMs, abrir chamado de mudança e rezar pra subir tudo sem incidente. Mas existe uma classe de servidores empresariais que permite hot-plug de memória — você adiciona ou remove DIMMs com o servidor ligado, em produção, sem reboot. É recurso que vem dos mainframes IBM dos anos 90 e hoje está disponível em alguns x86 high-end.

Este artigo lista quais modelos suportam, mostra o procedimento real (não é simplesmente "puxar e botar"), e explica os riscos que muito admin ignora.

Hot-Plug, Hot-Add e Hot-Swap: terminologia que confunde

Os três termos são usados intercambiáveis na prática, mas tem diferença técnica:

  • Hot-Add: adicionar DIMM em slot vazio com servidor ligado. Mais simples — a memória nova aparece pro SO via mecanismo ACPI.
  • Hot-Remove: remover DIMM com servidor ligado. Mais complexo — precisa migrar conteúdo do banco antes via mirroring.
  • Hot-Replace: trocar DIMM defeituoso por outro do mesmo tamanho. Combina hot-remove + hot-add atomicamente.
  • Hot-Swap: termo genérico, usado mais pra HDs e fontes — quando aplicado a memória é sinônimo de hot-replace.

Quais servidores suportam memory hot-plug?

Lista não exaustiva dos modelos x86 que documentam suporte oficial a hot-plug de memória (não confundir com hot-spare ou memory mirroring, que são features de resiliência diferentes):

Dell PowerEdge

  • PowerEdge R940 / R940xa — 4-socket Xeon Scalable, suporta hot-add e hot-replace de DIMMs RDIMM/LRDIMM via iDRAC 9.
  • PowerEdge R840 — 4-socket 2U, suporte limitado a hot-add em configurações específicas.
  • PowerEdge R930 (geração anterior, Xeon E7 v4) — suporta hot-plug com BIOS configurado em modo Memory Mirror.

HPE ProLiant

  • DL580 Gen10 / Gen10 Plus — 4-socket, suporte completo a hot-add via iLO 5 e RAS feature "Memory Online Spare".
  • DL580 Gen9 — suporte hot-add em modo Lockstep ou Online Spare habilitado na BIOS.
  • Superdome Flex / Flex 280 — plataforma scale-up, hot-plug nativo em todos os blocos.

IBM / Lenovo

  • IBM System x3950 X6 e x3850 X6 — plataforma eXFlash com Hot Memory Add documentado.
  • Lenovo ThinkSystem SR950 — 4 a 8 sockets, sucessor do x3950, hot-add/hot-replace via XClarity Controller.

A regra empírica: servidores 4-socket (e acima) high-end da geração atual costumam ter hot-plug. Servidores 2-socket mainstream (R740, DL380, SR650) não suportam, mesmo sendo plataformas modernas. É limitação de design do board e da regulagem de voltagem dos slots.

Procedimento de troca hot-plug — passo a passo

O processo varia por fabricante, mas a sequência lógica é sempre essa. Exemplo com PowerEdge R940:

1. Validar pré-requisitos

  • BIOS/firmware atualizados pra versão que suporta hot-plug (verifique release notes).
  • Memory Operating Mode configurado como Mirror Mode ou Fault Resilient Mode na BIOS — hot-plug não funciona em Optimizer Mode (performance puro).
  • SO compatível: Windows Server 2019+, RHEL 8+, VMware ESXi 7.0+, SLES 15+.
  • Licença iDRAC Enterprise ativa (sem ela você não tem acesso à UI de hot-plug).

2. Iniciar operação no BMC

Acesse o iDRAC, vá em System → Inventory → Memory. Selecione o DIMM alvo e clique em Prepare to Remove. O BMC migra o conteúdo pra memória espelhada, marca o banco como offline e desabilita a regulagem de voltagem do slot.

3. Verificação física

O LED do slot alvo acende em âmbar/azul (depende do modelo) indicando "safe to remove". Só abra o servidor depois do LED confirmar. Em rack 2U/4U high-end isso requer puxar o servidor no trilho enquanto ligado — confira se o cabo management e os cabos de energia tem folga suficiente.

4. Troca física

Remova o air shroud, desabilite a trava do DIMM, retire o módulo. Instale o novo DIMM (mesma frequência, mesmo rank, mesmo tamanho ou maior que o original — nunca menor em modo mirror).

5. Bring online

Volte ao iDRAC, selecione o slot, clique em Bring Online. O BMC re-energiza o slot, treina o controlador de memória (alguns segundos) e o SO recebe evento ACPI de memória adicionada. Em Linux, valide com dmidecode -t memory e free -h.

Riscos e quando NUNCA fazer hot-plug

O recurso existe, funciona, mas tem cenários em que o risco não compensa:

  • Servidor com histórico de erros corrigíveis (CE log no iDRAC/iLO): a integridade do hardware já está degradada. Adicionar operação ao vivo é multiplicar chance de falha.
  • Misturar DIMM com part numbers diferentes: tecnicamente permitido, mas se um dos módulos for de fabricante não validado pelo HCL, você pode causar machine check exception (MCE) e crash do servidor inteiro.
  • Fim de tarde de sexta: regra de SRE universal — evite mudanças fora da janela formal mesmo que tecnicamente seja "hot". Se der ruim, você fica de plantão.
  • Servidor sem memória espelhada redundante: nesse caso hot-remove não tem pra onde migrar dados — a operação vai falhar.
  • VMs críticas com afinidade NUMA travada: adicionar memória muda o layout NUMA e pode forar migração de páginas com hit de performance grande.

Alternativa: agendar janela curta

Pra maioria dos ambientes, vale mais a pena janela de manutenção de 15 minutos do que assumir risco de hot-plug em servidor 2-socket sem suporte. VMware vMotion ou Hyper-V Live Migration evacuam o host em minutos, você desliga, troca memória com segurança total e retorna VMs. Se você já tem cluster com capacidade reserva, esse caminho é mais previsível que hot-plug.

Memórias compatíveis com hot-plug

Pra máxima compatibilidade, use memórias com part number original do fabricante (Dell, HPE, Lenovo) ou third-party HCL-validado. Memórias genéricas podem até funcionar em boot normal mas falhar no treinamento de hot-plug. Linhas que trabalhamos:

Conclusão

Hot-plug de memória é ferramenta poderosa pra ambientes com SLA 99.99%+ ou janela de manutenção cara, mas exige hardware de classe específica (4-socket high-end), licença BMC avançada, BIOS em modo mirror e memórias validadas. Pra 90% dos ambientes 2-socket de mercado, vMotion + janela curta é melhor estratégia.

Encontre memórias para servidor na FoxTI

Precisa de memória validada pra hot-plug ou tem dúvida de compatibilidade com seu chassi? WhatsApp (11) 3230-8810 ou formulário de contato. Envie o service tag e a configuração atual de DIMMs — retornamos opções com part numbers compatíveis.

Artigo anterior Compatibilidade Processador Intel Xeon Scalable: Gold, Silver, Bronze
Artigo seguinte iDRAC vs iLO vs IMM: Gerenciamento Remoto de Servidor

Deixe um comentário

Os comentários devem ser aprovados antes de aparecer

* Os campos obrigatórios