Reconstruction RAID : disques et systèmes

mardi 28 mai 2013 par Ontrack France

Reconstruction RAID

Que se passe-t-il si la reconstruction d'un système RAID ne se déroule pas correctement et que faire pour éviter que cela n'arrive ? Pour répondre à ces questions, vous devez comprendre comment les données sont écrites sur une matrice RAID et ce qui se passe lorsqu'un disque tombe en panne et qu'une reconstruction est lancée. Dans cet exemple, nous allons utiliser un volume NTFS Windows et une matrice RAID 5 de 4 disques.

Windows divise le volume en métadonnées et données utilisateur. Dans la figure ci-dessous, nous pouvons voir la simplification d'un volume NTFS contigu sur un même disque dur. Les métadonnées sont représentées en bleu et les données utilisateur en vert.

À présent, admettons que nous voulions protéger nos données en utilisant une matrice RAID 5. Pour comprendre l'effet sur les données et la façon dont elles sont protégées, nous devons observer de plus près la matrice RAID 5. Lorsqu'une matrice RAID 5 est créée, le contrôleur RAID divise la matrice en blocs de données appelés bandes. Chaque bande utilise tous les disques de la matrice. Pour chaque bande de données, le contrôleur ajoute également une forme de redondance appelée parité.

Lorsque notre matrice RAID est mise au format NTFS, les données du volume NTFS sont réparties en bandes à travers les disques.

Les pièges à éviter lors d'une reconstruction RAID

Vous vous demandez sûrement en quoi cela protège vos données et quels sont les pièges à éviter. En fait, en cas de panne d'un disque, le contrôleur RAID peut utiliser les informations stockées dans la parité pour recréer les données du disque manquant.

Dans notre exemple, si le disque dur 1 tombe en panne, le contrôleur RAID peut utiliser la parité pour chaque bande individuelle afin de recréer ce qui manque. Dans la bande 1, le contrôleur peut utiliser les données des disques durs 2 et 3 et la parité du disque dur 4 pour recréer les métadonnées manquantes du disque dur 1. Pour la bande 2, le contrôleur peut utiliser les données des disques durs 2 et 4 et la parité du disque dur 3 pour recréer les métadonnées manquantes du disque dur 1.

Lorsqu'un système RAID fonctionne comme prévu, il protège efficacement vos données en cas de panne d'un disque dur. À présent, examinons des scénarios où les données peuvent être endommagées si ces systèmes RAID ne sont pas utilisés correctement.

Dans le scénario ci-dessous, nous avons encore une fois une panne qui touche un seul disque dur. Normalement, un contrôleur RAID est censé gérer cette panne comme indiqué précédemment. Toutefois, des données peuvent être perdues si le mauvais type de reconstruction du système RAID a lieu, par exemple la reconstitution des données de parité à la place du nouveau disque.

Dans l'exemple ci-dessus, lorsque le système RAID est reconstruit, le contrôleur se contente de mettre à jour la parité sur les disques avec les nouvelles données. Dans ce cas, dans la bande 1, la parité est mise à jour avec les données des disques durs 2 et 3 et les données mises à zéro du nouveau disque dur 1.

Sauvegardez vos données, testez vos sauvegardes !

Comment pouvez-vous empêcher que cela ne se produise et que pouvez-vous faire si cela vous arrive ? Le meilleur moyen d'éviter la perte de données est de créer des sauvegardes saines. Testez-les fréquemment pour vous assurer que, en cas de panne d'un disque, elles vous permettront de surmonter l'échec d'une reconstruction du RAID. Si la matrice RAID montre des signes de dégradation, cessez toute activité sur le volume et procédez immédiatement à une sauvegarde pour éviter la perte de données au cas où un deuxième disque tomberait en panne et paralyserait entièrement la matrice.

Si vous ne pouvez pas réaliser une sauvegarde, clonez ou faites une image de tous les disques avant de reconstruire la matrice. Ces images préserveront les données sur les disques en cas d'échec de la reconstruction, permettant une récupération complète des données cruciales.

Si vous ne pouvez pas réaliser de sauvegarde (ou si vos sauvegardes ne sont pas exploitables) et que votre reconstruction échoue, il reste de l'espoir en ayant recours à un spécialiste de la récupération de données RAID. Une fois vos disques défaillants envoyés en laboratoire, le spécialiste fera une image de tous les disques, y compris celui en panne. Assurez-vous que le professionnel auquel vous ferez appel dispose d'une salle blanche de classe 1000 pour ce type de travail. Une fois l'image des disques créée, il doit pouvoir réassembler la matrice, vérifier s'il y a des corrections à apporter au volume logique, réparez les dégâts et, enfin, récupérer les données. Méfiez-vous des entreprises qui demandent le matériel et le contrôleur RAID pour les aider dans la récupération. Sauf si votre situation ou votre système est spécifique, c'est souvent le signe d'une entreprise inexpérimentée qui mettra vos données en péril.

Question : comment recréer la bande 4 en l'absence de parité ?

La parité est absente de la bande 4 parce qu'elle doit être sur le disque manquant ou endommagé. En d'autres termes, dans une matrice saine, elle figurerait tout en haut de la bande 4. Quant à la façon de la recréer, dans cet exemple, toutes les données sont intactes et le secteur de parité dans la bande 4 du disque dur 1 sera recréé en appliquant l'opération OU exclusif (XOR) sur les données des disques 2 à 4 (P4 = XOR (D9, D8, D7)).

Reconstructions RAID pouvant entraîner une perte de données

Il existe plusieurs types de reconstructions susceptibles d'entraîner une perte de données. En voici une liste non exhaustive.

  • Reconstitution de la parité avec un disque mis à zéro (parité écrasée),
  • Reconstitution de la parité avec un disque dégradé (forcé en ligne et parité écrasée),
  • Reconstitution de la parité avec des disques dans le désordre (parité et données écrasées),
  • Reconstruction de système RAID avec un disque manquant (parité et données écrasées),
  • Reconstruction de système RAID avec une taille de bande différente (parité et données écrasées),
  • Reconstruction de système RAID avec une configuration différente (parité et données écrasées).

Par exemple, l'un des cas de perte de données que nous rencontrons le plus souvent sur un système RAID est lorsque la parité est mise à jour avec un disque mis à zéro dans la configuration RAID (reconstruction du système RAID au lieu du disque dur). Ce type de reconstruction détruit la parité d'origine et empêche une reconstruction du disque. Une fois la parité écrasée, les données utilisateur manquantes sur le disque dur manquant ou endommagé ne peuvent plus être recréées.

Un autre scénario possible de perte de données est une matrice RAID dans le désordre, notamment durant une reconstruction de système RAID. La reconstitution de la parité sur des disques qui sont dans le désordre peut finir par écraser des données utilisateur valides.

Dans l'exemple précédent, les données qui figuraient initialement sur la bande 1 du disque dur 3 sont désormais écrasées par la nouvelle parité. La parité qui figure sur la bande 1 du disque dur 4 se retrouve traitée comme des données utilisateur plutôt que comme une parité, ce qui provoque une altération logique. En outre, les données qui se trouvent sur la bande 1 du disque dur 2 sont biaisées, contribuant également à l'altération du volume logique. Toutes les zones identifiées en rouge seront endommagées.

Même si vous ne procédez pas à la reconstitution de la parité, il restera toujours une altération du volume logique. Cette altération logique déclenche souvent l'exécution d'outils de réparation de volume (CHKDSK, FSCK, etc.). Ces utilitaires de réparation essaieront de "corriger" l'altération logique, alors que les dégâts se situent en réalité au niveau du système RAID ; ils causeront donc encore plus de dégâts, notamment en supprimant des métadonnées et en rendant le système irrécupérable.

Un autre scénario est lorsqu'un système RAID est reconstruit après la panne de deux disques en utilisant un disque dégradé qui a été forcé en ligne et un nouveau disque. Une telle reconstruction écrasera la parité valide par une nouvelle parité non valide, de sorte que le système sera souvent irrécupérable ou les données inexploitables.

Le dernier exemple est lorsque la configuration RAID change et que les zones de parité et de données sont écrasées par la nouvelle configuration.

Supposons pour les besoins de cet exemple que nous ayons une matrice RAID 5 avec une taille de bande de 64 Ko. Le système d'exploitation lira les données des bandes en commençant par le disque dur 1 et les données représentées par M1. Il enchaînera ensuite avec M2, puis D1, etc.

Si le contrôleur de matrice perd la configuration et que l'utilisateur force la mauvaise configuration, les données seront endommagées. Dans notre exemple, l'utilisateur a forcé une nouvelle configuration avec une taille de bande de 32 Ko, séparant les données en deux.

Le système d'exploitation lira la première moitié de la première section des métadonnées représentée par M1.1. Ensuite, il passera au disque suivant de la bande et lira la première moitié de la section suivante des métadonnées représentée par M2.1. Cela engendrera une altération logique, rendant les données inexploitables. Cette situation déclenchera souvent l'exécution d'outils de réparation de volume pour "réparer" les dégâts logiques, ce qui peut causer des dommages supplémentaires et même rendre le volume irrécupérable.

Conseils pour récupérer vos données RAID en toute sécurité

Comment donc vous protéger si vous vous retrouvez dans une telle situation ? Voici quelques conseils pour empêcher ce type de perte de données des disques ou systèmes RAID.

  • Faites une image des disques avant de tenter une reconstruction : Ainsi, si la reconstruction échoue, vos données sont protégées. Assurez-vous que le programme de création d'images que vous choisissez permet d'obtenir une image du disque au niveau des blocs/secteurs ou adaptée à la recherche de preuves,
  • Restaurez les sauvegardes sur un volume différent : Cela garantit que tous les fichiers importants sont corrects sur la sauvegarde avant d'écraser éventuellement les données sur le volume actif,
  • En cas de problème sur un RAID, testez la sauvegarde en la restaurant à un emplacement différent ou faites une image de chaque disque du système RAID avant de tenter une reconstruction. Il arrive en effet qu'une reconstruction d'un système RAID ne fonctionne pas correctement et aggrave le problème,
  • Ne créez aucun nouveau fichier sur le disque nécessitant une récupération et cessez d'exécuter les applications jusqu'à la récupération des données importantes. Les nouveaux fichiers peuvent écraser les fichiers nécessitant une récupération,
  • N'exécutez pas les outils de réparation du système de fichiers FSCK ou CHKDSK sur un disque virtuel à moins d'avoir vérifié qu'une sauvegarde est valide en la restaurant sur un volume différent. Ces outils de réparation partent du principe qu'il existe une sauvegarde valide des données et peuvent écraser des pointeurs de fichiers pour assurer la cohérence du système de fichiers. Le cas échéant, ces outils peuvent être exécutés en mode lecture seule pour détecter de graves altérations avant que les réparations ne soient effectuées,
  • Ne supprimez aucun autre fichier avant une récupération de données supprimées. La suppression de fichiers inclut le déplacement de fichiers de la source vers un autre volume. Un déplacement équivaut en effet à une copie suivie d'une suppression. Si vous avez besoin d'une copie des données de la source, veillez à les copier et non à les déplacer. Des fichiers supprimés supplémentaires peuvent compliquer la récupération des données,
  • N'essayez pas les logiciels de récupération de données, sauf si vous avez la certitude qu'ils n'écriront rien sur le disque à récupérer. Certains logiciels de récupération essaieront d'écrire sur le disque source et risquent de nuire aux tentatives de récupération ultérieures,
  • Contactez un spécialiste de la récupération de données RAID  avant de tenter la récupération vous-même. Un spécialiste peut identifier les répercussions qu'aura votre plan sur la possibilité de récupération des données et proposer des pistes pour vous aider à récupérer vous-même vos données.

 

Technicien Ontrack

Vous avez perdu des données ? Demandez une évaluation gratuite de votre support de stockage :
0 800 10 12 13 Evaluation gratuite