Recuperación de Datos de Servidores Dell PowerEdge
Los servidores Dell PowerEdge son la columna vertebral de miles de empresas en España. Cuando una controladora PERC pierde su configuración, un disco falla durante una reconstrucción RAID o el firmware de la controladora se corrompe, el impacto puede ser inmediato y catastrófico. La recuperación de datos en entornos PowerEdge requiere conocer en profundidad la arquitectura PERC, los formatos de metadatos propietarios de Dell y las herramientas de diagnóstico iDRAC/OMSA.
La controladora PERC: el corazón del almacenamiento PowerEdge
PERC (PowerEdge RAID Controller) es la familia de controladoras RAID de Dell. A diferencia de las controladoras genéricas, PERC implementa funcionalidades propietarias de gestión de discos, caché y metadatos que tienen implicaciones directas en la recuperación de datos.
La evolución de las PERC más relevantes en instalaciones activas hoy:
| Modelo | Generación | Caché | RAID soportado | Notas recuperación |
|---|---|---|---|---|
| PERC H710/H710P | PowerEdge Gen 12 | 512 MB / 1 GB | 0,1,5,6,10,50,60 | Muy común en parque instalado antiguo |
| PERC H730/H730P | PowerEdge Gen 13 | 1 GB / 2 GB | 0,1,5,6,10,50,60 | Metadatos DDF extendidos |
| PERC H740P | PowerEdge Gen 14 | 8 GB | 0,1,5,6,10,50,60 | CacheCade 2.0, mayor complejidad |
| PERC H755/H755 Front | PowerEdge Gen 15 | 8 GB | 0,1,5,6,10,50,60 | PCIe 4.0, nuevo formato metadatos |
| PERC H350/H345 | PowerEdge Gen 15 (entrada) | Sin caché dedicada | 0,1,5,10 | Basada en Broadcom MegaRAID entry |
La base de datos de configuración PERC: el punto crítico
Cada PERC mantiene una base de datos de configuración (Configuration Database) que almacena los parámetros de cada disco virtual: nivel RAID, stripe size, política de escritura (Write-Back vs Write-Through), política de lectura, estado de cada miembro físico del array y los metadatos DDF (Disk Data Format) escritos en cada disco.
Los metadatos DDF se escriben en los últimos sectores de cada disco miembro del array. Cuando la controladora PERC lee un conjunto de discos, confronta los metadatos DDF de todos ellos para reconstruir la configuración del disco virtual. Este mecanismo de redundancia debería ser robusto, pero en la práctica existen varios escenarios donde falla:
- Sustitución de controladora sin migración de configuración: al instalar una PERC de reemplazo, si el técnico inicializa la controladora antes de importar la configuración extranjera, destruye la posibilidad de importación automática. Los metadatos DDF en los discos quedan huérfanos.
- Fallo catastrófico de la controladora: un cortocircuito en la PCB de la PERC puede dañar físicamente algunos discos a través del backplane, además de perder la configuración en RAM no volátil (NVRAM) de la propia controladora.
- Disco marcado como Foreign tras evento de fallo: la PERC puede marcar todos los discos como "Foreign" si detecta incoherencias en los metadatos (por ejemplo, tras un fallo de corriente durante una reconstrucción). La importación de configuración extranjera no siempre es posible si los metadatos están parcialmente corrompidos.
- Eliminación accidental del disco virtual: un administrador puede borrar accidentalmente la configuración del disco virtual en el BIOS PERC o en OpenManage, dejando los discos físicamente intactos pero sin definición lógica.
Cache Vault y pérdida de datos en caché no vaciado
Las PERC con política de escritura Write-Back (recomendada para rendimiento) almacenan temporalmente las escrituras en la caché RAM de la controladora y las confirman al host antes de escribirlas en los discos. Esto acelera enormemente las operaciones de escritura pero introduce un riesgo: si la controladora pierde alimentación con datos pendientes en caché, esos datos podrían perderse.
Dell mitiga este riesgo con dos tecnologías:
- BBU (Battery Backup Unit): batería que mantiene la caché RAM durante cortes de corriente. Cuando el sistema se recupera, la PERC vuelca el caché pendiente a los discos antes de proceder. Sin embargo, las baterías BBU se degradan con el tiempo (vida útil típica: 2-3 años) y cuando fallan silenciosamente, la controladora puede cambiar automáticamente a Write-Through sin notificar al administrador, o mantener Write-Back con el riesgo asociado.
- Cache Vault (NVCACHE): módulo flash que sustituye a la BBU en las PERC H740P y superiores. Más fiable que la batería, pero no indestructible. Un fallo del módulo Cache Vault con datos pendientes en RAM puede resultar en pérdida parcial de datos escritos recientemente.
En laboratorio, la recuperación de datos perdidos en caché no vaciado es extremadamente compleja porque los datos nunca llegaron a los discos físicos; solo existían en la RAM volátil de la controladora, que ya no está accesible.
iDRAC y OMSA: diagnóstico antes de actuar
Antes de cualquier intervención en un servidor PowerEdge con problemas de almacenamiento, el diagnóstico correcto es fundamental. Dell ofrece dos herramientas principales:
iDRAC (Integrated Dell Remote Access Controller)
El iDRAC es un controlador de gestión independiente (BMC) integrado en la placa base del servidor. Funciona independientemente del sistema operativo y permite acceder al estado del servidor incluso cuando el SO no arranca. Para la recuperación de datos, el iDRAC proporciona:
- Estado en tiempo real de cada disco físico (predicción de fallo mediante SMART via PERC, estado de reconstrucción)
- Registro de eventos del sistema (SEL) con historial de fallos de disco, errores de la controladora y eventos de alimentación
- Consola virtual para intervención remota sin necesidad de desplazamiento físico
- Lifecycle Controller con historial de cambios de hardware y firmware
OMSA (OpenManage Server Administrator)
La suite de software de gestión local que permite administrar la PERC desde el sistema operativo. Cuando el SO todavía arranca pero el array tiene discos degradados, OMSA proporciona una visión detallada del estado de cada miembro del RAID y permite gestionar las operaciones de reconstrucción. Sin embargo, OMSA solo está disponible si el agente está instalado; muchas instalaciones en producción no lo tienen.
Dell EMC PowerVault y SC Series
Más allá de los servidores PowerEdge standalone, Dell ofrece soluciones de almacenamiento externo que presentan sus propios desafíos de recuperación:
PowerVault MD Series
Los enclosures PowerVault MD (MD3000, MD3200, MD3400, MD3600) son cabinas SAS/SATA controladas por controladoras RAID duales. En configuración dual-controller, ambas controladoras comparten la gestión del array con failover automático. Los fallos más comunes que requieren recuperación: pérdida de ambas controladoras simultáneamente (actualizaciones de firmware mal aplicadas, cortocircuito en el backplane) y pérdida de la configuración de pool de discos virtuales.
Dell EMC SC Series (Compellent)
Los sistemas SC (antes Compellent) son arrays enterprise de nivel superior con arquitectura de thin provisioning y Data Progression automática (migración de datos entre tiers de almacenamiento). Su recuperación es especialmente compleja porque la distribución de los datos entre discos no sigue los patrones estándar de RAID; el Data Progression puede haber distribuido diferentes fragmentos de un mismo archivo entre SSD, SAS 15k y SAS NL en función de la frecuencia de acceso.
Proceso de recuperación PERC en laboratorio
Cuando un conjunto de discos PowerEdge llega a un laboratorio especializado, el proceso sigue estas fases:
- Evaluación de discos individuales: cada disco se examina individualmente antes de conectarlos juntos. Un disco con sectores defectuosos puede causar que la PERC lo marque como "failed" durante el proceso de reconstrucción, empeorando el estado del array.
- Imagen forense de cada disco: se realiza una imagen bit a bit de cada miembro del array con herramientas que gestionan los errores de lectura (PC-3000 RAID, DeepSpar DDI). Esta copia es el material de trabajo; los discos originales no se tocan más.
- Análisis de metadatos DDF PERC: se leen y analizan los metadatos de configuración PERC en los últimos sectores de cada imagen. Esto permite determinar el orden correcto de los discos en el array, el stripe size, el nivel RAID y el estado reportado por cada disco en el momento del fallo.
- Reconstrucción del array: usando las imágenes y los metadatos analizados, se reconstruye el disco virtual en un entorno virtualizado. Las herramientas especializadas como ReclaiMe o el módulo RAID de PC-3000 permiten definir manualmente todos los parámetros si los metadatos están dañados.
- Recuperación del sistema de archivos: sobre el disco virtual reconstruido se aplican técnicas de recuperación de NTFS, ext4, VMFS (VMware) o el sistema de archivos correspondiente.
Casos frecuentes en entornos PowerEdge
Los escenarios más habituales que llegan a laboratorio desde entornos Dell PowerEdge son:
- RAID 5 degradado + fallo durante reconstrucción: el escenario clásico. Un disco falla, se inicia la reconstrucción y durante ese proceso (que puede durar horas o días) un segundo disco falla, dejando el array offline.
- Sustitución de PERC sin importar configuración: el técnico de mantenimiento instala la nueva controladora y la inicializa antes de intentar la importación de configuración extranjera.
- Actualización de firmware PERC fallida: especialmente en actualizaciones masivas via Dell Repository Manager, donde la PERC puede quedar en estado inconsistente si el proceso se interrumpe.
- Virtual disk degraded tras migración de VMware: en entornos donde los discos virtuales alojan datastores VMware, una corrupción del VMFS puede hacer inaccesibles todas las VMs aunque el disco virtual PERC esté técnicamente online.