Recuperación de Datos de Servidores IBM y Lenovo ThinkSystem
Los servidores IBM System x y Lenovo ThinkSystem (series SR y ST) son infraestructura crítica en entornos empresariales y de centros de datos. Cuando un fallo en el controlador ServeRAID/MegaRAID, en la caché del controlador o en múltiples discos deja el array inaccesible, la recuperación requiere conocimiento específico de la plataforma y herramientas de laboratorio especializadas.
Plataformas IBM y Lenovo ThinkSystem: evolución y continuidad
En 2014, Lenovo adquirió la división de servidores x86 de IBM (la línea System x). Desde entonces, los servidores IBM System x han evolucionado hacia la línea Lenovo ThinkSystem, manteniendo gran parte de la arquitectura y la compatibilidad con los controladores RAID y el firmware de gestión. Esto es relevante para la recuperación porque muchas instalaciones en producción todavía usan modelos IBM más antiguos (x3650 M4, x3550 M5, x3850 X6) junto a los nuevos ThinkSystem SR650, SR630, SR550 y ST550.
La cadena de continuidad de hardware significa que los controladores ServeRAID siguen siendo compatibles en las plataformas ThinkSystem más recientes, y las técnicas de recuperación se aplican de forma similar en ambas generaciones.
Controladores ServeRAID y MegaRAID: M5210, M5214 y 930-8i
El componente más crítico en la recuperación de datos de estos servidores es el controlador RAID. La familia ServeRAID de IBM y Lenovo se basa en chips LSI/Broadcom MegaRAID, con modelos específicos adaptados para la plataforma:
- ServeRAID M5210 (ThinkServer / System x): controlador SAS 12 Gb/s con caché de escritura de 2 GB y CacheVault (protección de caché por supercondensador). Soporta RAID 0, 1, 5, 6, 10, 50, 60.
- ServeRAID M5214: versión con 4 GB de caché y soporte para más unidades. Común en configuraciones de almacenamiento denso.
- ThinkSystem RAID 930-8i (ThinkSystem SR/ST): el sucesor en la línea ThinkSystem, con SAS/SATA/NVMe en algunas configuraciones. Usa caché de 2 o 4 GB con Flash Module de protección.
- ServeRAID M1215/M1210: controladoras de entrada sin caché de escritura protegida, más vulnerables ante caídas de corriente.
Estos controladores almacenan la configuración del array RAID en dos lugares: en el chip NVRAM del propio controlador y en los metadatos de configuración escritos en cada disco (DDF - Disk Data Format). Cuando el controlador falla o se sustituye, los discos conservan sus metadatos DDF, lo que en principio permite reconstruir el array con un controlador nuevo.
Escenario 1: pérdida de la base de datos de configuración RAID
Uno de los fallos más difíciles de gestionar en servidores IBM/Lenovo es la pérdida de la base de datos de configuración RAID (RAID configuration database). Esto ocurre cuando:
- El controlador falla y se sustituye por uno nuevo sin importar la configuración anterior.
- El firmware del controlador se actualiza y la configuración queda corrupta.
- Se ejecuta un clear configuration accidentalmente en la utilidad de configuración (Ctrl+R durante el arranque o Lenovo XClarity Administrator).
- Los metadatos DDF de todos los discos han sido sobrescritos (por ejemplo, tras iniciar un formato o una inicialización del array).
Si los metadatos DDF en los discos están intactos pero el controlador no los reconoce, la solución más sencilla es usar la opción Scan for foreign configurations en el BIOS del controlador o en MegaRAID Storage Manager. Si esto falla, el laboratorio lee los metadatos DDF directamente de cada disco para reconstruir manualmente los parámetros del array: nivel RAID, orden de discos (disk order/slot mapping), tamaño de franja (stripe size) y offset de datos.
Escenario 2: fallo del módulo de caché (CacheVault/Flash Module)
Los controladores MegaRAID con caché de escritura protegida usan un módulo CacheVault (supercondensador + flash) para preservar el contenido de la caché en caso de pérdida de alimentación. Si ese módulo falla:
- El controlador puede cambiar automáticamente a modo write-through (sin caché de escritura), lo que reduce el rendimiento pero mantiene la integridad.
- Si el fallo del módulo ocurre en el peor momento posible (durante una escritura con caché activa y luego caída de corriente), puede haber datos en caché no volcados al disco, lo que deja el sistema de archivos en estado inconsistente.
- En casos extremos, la corrupción afecta a metadatos del sistema de archivos o a bases de datos activas en ese momento.
La recuperación en este escenario combina la recuperación de base de datos (SQL Server, Oracle, MySQL) o del sistema de archivos (NTFS, ext4) con la imagen previa del array RAID.
IMM2 y XCC: la interfaz de gestión como herramienta de diagnóstico
Los servidores IBM y Lenovo ThinkSystem incorporan una interfaz de gestión fuera de banda: IMM2 (Integrated Management Module 2) en los modelos IBM más antiguos, y XCC (XClarity Controller) en los ThinkSystem más recientes. Esta interfaz es invaluable para el diagnóstico antes y durante la recuperación:
- Logs de eventos del sistema: el IMM2/XCC registra todos los eventos de hardware con timestamps precisos: fallos de disco, alertas SMART, cambios en el estado del array RAID, fallos del módulo de caché. Estos logs permiten reconstruir exactamente qué ocurrió y en qué orden antes del fallo.
- Estado SMART de los discos: accesible remotamente incluso si el servidor no arranca.
- Información de configuración RAID: el XCC puede mostrar el estado actual del array y la configuración del controlador sin necesidad de arrancar el servidor.
- Control de arranque remoto: permite montar imágenes ISO para iniciar herramientas de diagnóstico sin desplazamiento físico.
En nuestro laboratorio, solicitamos siempre los logs del IMM2/XCC exportados antes del traslado del servidor, ya que proporcionan información crítica para el diagnóstico.
IBM Storwize y FlashSystem: almacenamiento SAN/NAS de gama alta
Además de los servidores rack y torre, IBM/Lenovo ofrece sistemas de almacenamiento dedicados: la familia IBM Storwize (V5000, V7000, V9000) y los IBM FlashSystem (5200, 7200, 9200). Estos sistemas añaden capas adicionales de complejidad a la recuperación:
- Virtualización de almacenamiento: Storwize usa un gestor de volumen virtualizado (IBM Spectrum Virtualize) que mapea los volúmenes lógicos presentados a los hosts sobre grupos de MDisk (conjuntos de discos físicos). La pérdida de la base de datos de configuración del Storwize puede hacer inaccesibles todos los volúmenes aunque los discos estén intactos.
- Thin provisioning: los volúmenes thin-provisioned (aprovisionamiento delgado) solo asignan espacio real cuando se escribe. La reconstrucción de un volumen thin sobre discos extraídos requiere conocer el mapa de asignación, que está en la base de datos del sistema de almacenamiento.
- FlashCopy y Remote Mirror: si había copias instantáneas (FlashCopy) o mirror remoto activo, la recuperación puede apoyarse en esas copias si el sistema primario es irrecuperable.
Comparativa de enfoque de recuperación: IBM/Lenovo vs HP y Dell
| Aspecto | IBM/Lenovo ThinkSystem | HP ProLiant (Smart Array) | Dell PowerEdge (PERC) |
|---|---|---|---|
| Controlador RAID base | LSI/Broadcom MegaRAID (OEM) | Microchip (Adaptec) OEM | LSI/Broadcom MegaRAID (OEM) |
| Formato metadatos RAID en disco | DDF estándar (con extensiones) | Formato HP propietario (HPE Smart Array metadata) | DDF estándar (con extensiones Dell) |
| Interfaz de gestión | IMM2 / XClarity Controller (XCC) | iLO (Integrated Lights-Out) | iDRAC (Integrated Dell Remote Access Controller) |
| Recuperabilidad sin controlador original | Alta (DDF estándar) | Media (formato propietario complica la reconstrucción) | Alta (DDF estándar) |
| Protección de caché | CacheVault (supercondensador + flash) | FBWC (Flash-Backed Write Cache) | RAID Controller Battery / Capacitor |
Una ventaja de los controladores IBM/Lenovo basados en MegaRAID es que, al usar DDF estándar, la configuración del array puede leerse e interpretarse sin el controlador original. Esto contrasta con los sistemas HP Smart Array más antiguos (serie P400, P800), cuyo formato de metadatos propietario hace la recuperación más compleja sin el controlador exacto.
Lenovo TruScale y entornos de infraestructura como servicio
Lenovo TruScale es la oferta de infraestructura como servicio (IaaS) de Lenovo, donde el hardware se gestiona y monitoriza de forma centralizada. En estos entornos, los datos siguen estando en servidores físicos en las instalaciones del cliente o en centros de datos Lenovo. La recuperación de datos en infraestructura TruScale sigue los mismos principios que en hardware ThinkSystem estándar, pero con la ventaja adicional de que Lenovo puede proporcionar telemetría detallada del hardware desde los sistemas de monitorización XClarity, lo que facilita el diagnóstico.
Proceso de recuperación en servidores IBM/Lenovo
- Recepción y diagnóstico inicial: evaluamos el estado de cada disco con herramientas de bajo nivel y leemos los metadatos DDF. Revisamos los logs del IMM2/XCC si el cliente puede proporcionarlos.
- Imagen de cada unidad: antes de cualquier operación, creamos imágenes forenses de todos los discos del array.
- Reconstrucción virtual del array: a partir de los metadatos DDF y el análisis de los patrones de datos, reconstruimos el array RAID en software sobre las imágenes, sin tocar los discos originales.
- Recuperación del sistema de archivos o base de datos: sobre el volumen reconstruido, aplicamos las técnicas adecuadas según el sistema de archivos (NTFS, ext4, VMFS) o la base de datos (SQL Server, Oracle, Exchange).
- Verificación y entrega: entregamos los datos recuperados en un disco externo nuevo con informe técnico detallado.