Recuperación de Datos de Discos SAS y SCSI en Servidores
Los discos SAS (Serial Attached SCSI) y sus predecesores SCSI son el estándar en servidores empresariales de alta disponibilidad. Cuando fallan en entornos SAN, DAS o arrays RAID de HPE, Dell o IBM, la pérdida de datos puede paralizar operaciones críticas. La recuperación requiere equipamiento especializado y conocimiento profundo de la arquitectura SAS/SCSI.
¿Qué es SAS y por qué difiere de SATA en la recuperación de datos?
SAS (Serial Attached SCSI) es la evolución lógica del bus paralelo SCSI, diseñado desde sus cimientos para entornos de servidor donde la fiabilidad, el rendimiento y la disponibilidad continua son requisitos no negociables. A diferencia de SATA, que nació orientado al mercado de consumo, SAS incorpora características arquitectónicas que complican —pero también enriquecen— el proceso de recuperación de datos.
La diferencia más relevante para la recuperación de datos es el doble puerto SAS (dual-port). Cada unidad SAS expone dos puertos PHY independientes, permitiendo que el mismo disco sea accedido simultáneamente por dos controladores distintos. Esta redundancia de ruta (path redundancy) es una ventaja operativa enorme, pero desde el punto de vista forense obliga a conocer exactamente cómo el array enrutaba las operaciones de I/O para reconstruir el orden correcto de los datos.
Además del dual-port, los discos SAS implementan comandos SCSI completos (frente al subconjunto ATA/SATA), incluyendo reservas persistentes, control de acceso basado en iniciador y soporte nativo de I/O asíncrono. Todo esto hace que la imagen forense de un disco SAS sea un proceso más complejo que la de un disco SATA: requiere controladores de host SAS dedicados, no simples adaptadores USB genéricos.
Generaciones SAS: 3G, 6G, 12G y 24G
El estándar SAS ha evolucionado en cuatro generaciones principales, cada una duplicando el ancho de banda disponible:
| Generación | Velocidad por PHY | Velocidad dual-port | Año introducción |
|---|---|---|---|
| SAS-1 (SAS 3Gb/s) | 3 Gbit/s | 6 Gbit/s | 2004 |
| SAS-2 (SAS 6Gb/s) | 6 Gbit/s | 12 Gbit/s | 2009 |
| SAS-3 (SAS 12Gb/s) | 12 Gbit/s | 24 Gbit/s | 2013 |
| SAS-4 (SAS 24Gb/s) | 24 Gbit/s | 48 Gbit/s | 2017 |
Esta variedad de generaciones afecta directamente al proceso de recuperación: un disco SAS-3 de 12 Gbit/s no puede conectarse a un adaptador SAS-1, aunque el conector sea físicamente compatible. Nuestro laboratorio dispone de adaptadores HBA para todas las generaciones SAS, así como módulos SAS dedicados para PC-3000 UDMA que permiten conexión directa durante el proceso de imagen forense sin depender de drivers del sistema operativo.
SCSI Ultra320 y discos legados: el reto de la recuperación en hardware antiguo
Muchas empresas mantienen en producción servidores con discos SCSI paralelos: Ultra160, Ultra320 y sus variantes. Estos discos, habituales en servidores de los años 2000-2010, presentan desafíos específicos:
- Conectores SCSI de 68 y 80 pines (SCA): requieren adaptadores específicos para conectar en sistemas de recuperación modernos. El conector SCA-2 (80 pines) era común en discos hot-swap de servidores Sun y HP ProLiant.
- Terminación de bus: el bus SCSI paralelo requiere terminación activa correcta en ambos extremos; una terminación inadecuada durante la recuperación puede generar errores de paridad y lecturas corruptas.
- IDs SCSI: cada dispositivo necesita un ID único en el bus (0-15); configuraciones incorrectas impiden el acceso al disco dañado o provocan conflictos con el disco del sistema.
- Firmware propietario: fabricantes como Seagate Cheetah, IBM DDYS o HP Ultrastar tenían firmwares muy específicos con zonas de servicio distintas a las de sus equivalentes IDE/SATA. Las herramientas genéricas no funcionan con estos modelos.
El principal problema con SCSI legado no es técnico sino logístico: encontrar discos donantes con exactamente la misma revisión de firmware es extremadamente difícil. Mantenemos un inventario de discos SCSI de baja actividad (platos OK, electrónica funcional) de modelos Seagate Cheetah, IBM DDYS/DPSS, HP Ultrastar y Fujitsu MAP para facilitar transferencias de cabezas o PCB cuando es necesario.
Fallos típicos en discos SAS de entornos empresariales
Los discos SAS están diseñados para funcionar 24/7 con una MTBF (Mean Time Between Failures) de 1,2 a 2 millones de horas, pero esto no los hace inmunes al fallo. Los modos de fallo más frecuentes en entornos empresariales incluyen:
- Desgaste mecánico por uso continuo: los discos SAS en producción 24/7 acumulan millones de ciclos de cabeza y horas de rotación. El desgaste del rodamiento del motor y la degradación de los actuadores magnéticos son los fallos mecánicos más comunes tras 5-7 años de operación continua.
- Fallo de firmware en zona de servicio: la zona de servicio (SA) de un disco SAS contiene las tablas de reasignación de sectores defectuosos, los parámetros de calibración y el código ejecutable del procesador embebido. Una corrupción aquí provoca que el disco no complete su inicialización: spin-up correcto pero nunca alcanza el estado READY.
- Metadatos RAID corrompidos: en discos extraídos de arrays, los primeros y últimos sectores contienen metadatos de la controladora RAID. Leer estos sectores sin el contexto del controlador puede generar confusión en sistemas de recuperación genéricos.
- Fallo de cabezas en discos de alta densidad: los modelos de 2,5" SAS de 15.000 RPM con múltiples platos tienen un gap de vuelo extremadamente reducido. Partículas microscópicas o golpes físicos durante el transporte causan head crashes con daño severo en las superficies magnéticas.
- Corrupción lógica por RAID degradado: en discos SAS con RAID degradado que continúan en producción, las escrituras durante el modo degradado pueden generar incoherencias en el sistema de archivos que se propagan incluso tras la sustitución del disco fallido.
- Fallo en el expander SAS: los expansores SAS son puntos de fallo únicos que pueden provocar la pérdida de acceso a decenas de discos simultáneamente. Un diagnóstico incorrecto puede llevar a desmontar discos sanos innecesariamente.
SAS en entornos SAN y DAS: implicaciones para la recuperación
Los discos SAS raramente operan de forma aislada. Su entorno habitual son las SAN (Storage Area Networks) y los DAS (Direct Attached Storage), donde múltiples discos forman parte de grupos RAID gestionados por controladoras hardware de alto rendimiento.
En una SAN SAS típica con expansores (SAS expanders), un único HBA puede gestionar hasta 256 discos SAS distribuidos en múltiples enclosures. Los SAS expanders actúan como switches de nivel físico, enrutando comandos SCSI entre el iniciador (HBA) y los objetivos (discos). Cuando un expander falla —o cuando un disco dentro de un dominio de expansión falla—, la controladora RAID puede perder acceso a múltiples unidades simultáneamente, incluso si solo hay un fallo físico real.
Para la recuperación de datos en este contexto, es fundamental:
- Documentar la configuración exacta del array antes de desmontar cualquier disco: nivel RAID, orden de discos, tamaño de stripe, política de escritura (write-back vs. write-through).
- Crear imágenes forenses de todos los miembros del array antes de cualquier intervención, incluso de los discos aparentemente sanos.
- No intentar reconstruir el RAID con la controladora original si hay sospecha de fallo en la controladora misma; una reconstrucción fallida puede sobrescribir datos recuperables.
- Identificar los metadatos RAID propietarios (HPE SmartArray, Dell PERC, IBM ServeRAID) para reconstrucción manual sin dependencia de hardware original.
Arrays HPE, Dell e IBM: diferencias en la recuperación
HPE SmartArray (serie P): almacena la configuración RAID en el propio disco en los últimos sectores del drive. Si la controladora SmartArray falla pero los discos están intactos, es posible reconstruir la configuración leyendo estos metadatos. Las series P410, P420, P440 y P840 tienen formatos ligeramente distintos entre sí, y los modelos con Smart Cache añaden una capa adicional de complejidad.
Dell PERC (serie H): basado en LSI MegaRAID, almacena la configuración en una pequeña área al inicio del disco (DDF —Disk Data Format). Los discos PERC tienen habitualmente activado el cifrado de metadatos en modelos H730 y superiores, lo que añade una capa de complejidad si la controladora original no está disponible o ha fallado.
IBM ServeRAID / Lenovo ThinkSystem RAID: las antiguas controladoras IBM ServeRAID (basadas en Adaptec) y las modernas Lenovo ThinkSystem RAID 930/940 tienen formatos de configuración distintos. Los servidores IBM Power Systems con discos SAS usan arquitecturas adicionales (VIOS, PowerVM) que añaden capas de virtualización a considerar durante la recuperación.
Proceso de recuperación de datos en discos SAS: paso a paso
- Evaluación sin escritura: conexión del disco en modo solo-lectura mediante bloqueadores de escritura (write blockers) específicos para SAS. Fundamental para no contaminar la evidencia.
- Diagnóstico SMART extendido: lectura de los atributos SMART SAS mediante comandos SCSI específicos: READ DEFECT DATA, REQUEST SENSE, LOG SENSE. Estos comandos revelan el mapa de defectos y el historial de errores con más detalle que el SMART SATA.
- Imagen forense sectorial: creación de imagen completa del disco, sector a sector, con múltiples pasadas para sectores inestables. Usamos PC-3000 UDMA con módulo SAS dedicado para máxima compatibilidad con el firmware del disco.
- Reparación de zona de servicio si necesario: en casos de fallo de firmware, acceso a la zona de servicio mediante herramientas especializadas para restaurar tablas de traducción y módulos de firmware corrompidos sin afectar a los datos de usuario.
- Reconstrucción RAID: si el disco pertenece a un array, reconstrucción manual con parámetros obtenidos de la documentación del sistema o de los metadatos leídos del propio array. Trabajamos siempre sobre copias, nunca sobre los originales.
- Extracción de datos del sistema de archivos: análisis del sistema de archivos (NTFS, ext4, VMFS para VMware, GPFS para IBM Spectrum Scale, UFS para Solaris) y extracción selectiva o completa de archivos.
- Verificación de integridad: comprobación de checksums y verificación de apertura de archivos críticos antes de la entrega al cliente, en disco externo cifrado o por transferencia segura.
¿Cuándo llamar a un especialista en recuperación SAS?
La recuperación de datos en discos SAS requiere inversión en equipamiento especializado que raramente está disponible en departamentos IT internos. Contacte con un especialista sin demora cuando:
- El array reporta más discos fallidos de los que el nivel RAID puede tolerar (p. ej., dos fallos en RAID-5, tres en RAID-6).
- Un disco SAS no es reconocido por el sistema ni aparece en el inventario del enclosure tras un reinicio.
- El servidor emite ruidos mecánicos inusuales (clicks repetitivos, raspados) procedentes de la unidad SAS.
- El sistema de archivos aparece corrupto o inaccesible tras un corte de luz, un fallo de controladora o una actualización de firmware fallida.
- Necesita recuperar datos de discos SCSI Ultra320 o Ultra160 para los que no dispone de equipamiento compatible.
- El departamento IT ha intentado una reconstrucción RAID que no ha completado correctamente y ha abortado el proceso.