クイックマンからのお知らせ
RAIDコントローラーの故障時に「交換を行うリスク」と「保全作業の重要性」についてご説明【サーバー障害】
クイックマンでは、突然のサーバートラブルでお困りのお客様から日々多くのご依頼をいただいております。
その中でも、
「RAIDコントローラー(レイドコントローラー)の故障でサーバーがデータが見れなくなった」
とのご相談をいただくケースがあります。
本記事ではRAIDコントローラーの障害時の「交換リスク」と「保全作業の重要性」についてご説明させていただきます。
RAIDコントローラー(レイドコントローラー)とは?
RAIDコントローラーとは、
「RAIDカード」「RAIDボード」「ディスクアレイコントローラー」と呼ばれることもありますが、
すべて同じパーツのことで、サーバーに組み込まれている半導体チップや電子パーツで構成される基板のことです。
サーバーは通常、複数台のハードディスクを一台の大きなハードディスクのように構成するRAIDというシステムが構築されています。
RAIDコントローラーは、RAIDを構成するパラメーター情報をもっており、複数のハードディスクをどのような構成でRAID構築しているかを管理する役割があります。
RAIDコントローラーが損傷するとデータへのアクセスができなくなります。
RAIDコントローラーは、サーバーのデータを保存するシステムの根幹を担っていますので、RAIDコントローラーが故障すると当然サーバーは上手く動作しません。
「RAIDコントローラーが故障しているの、交換をすればサーバーは元通りに動作するようになるのでは?」
と考えるのは当然ですが、
RAIDコントローラーの交換には落とし穴があり、対処方法を間違えると最悪の場合、二度とデータを取り戻せなくなるリスクもありますので注意が必要です。
RAIDコントローラーの交換で復旧できる可能性は50%!?大切なのはデータの保全!
クイックマンへご相談いただくお客様の中で
「RAIDコントローラーに異常がありそうです」という機器が、
実際にRAIDコントローラーの損傷が疑われるサーバーは、実際のところ半分程度です。
RAIDコントローラが損傷していない場合は、交換を行ってもサーバーが正常に動作することが当然ありません。
また、実際に損傷している場合でもRAIDコントローラーを交換することでRAID構成が書き換わりデータを消失してしまうリスクがあります。
RAIDコントローラーの交換作業は、非常にリスクのある作業となります。
重要なことは交換作業前に、RAIDを構成している各ハードディスクの保全作業を行い、交換作業に失敗したとしても別手段を試すことができるように現在の状態を保全しておくことです。
ハードディスクの保全とは、ハードディスクの複製(クローン)を作成しておく、もしくはハードディスクに書き込まれている情報をイメージファイルとして保存しておくことです。
保全作業は、フリーソフトなどや、市販の機器でも行うことができますが、確実に行う為や、スピーディーに作業を完了する為には、対応可能な業者に依頼する方が良いです。
また、SAS接続のハードディスクなどは、市販の機器では対応しておりませんので専門業者への依頼が必須となります。
とにかく、データ消失のリスクのあるRAIDコントローラーの交換前には、ハードディスクの保全作業が必須です。
【RAIDコントローラー交換を失敗した例①】RAIDコントローラーの故障ではなくハードディスクの物理障害だった
【お客様からの相談内容】
会社で使用しているDELL製のサーバーが動作しなくなり、保守を依頼しているシステム会社に診てもらって結果、RAIDコントローラーの異常の可能性が高いとのことだった。同型のRAIDコントローラーがあるので交換を行ってもらったが、サーバーは起動しない。
【クイックマンでの対応内容】
サーバーに内蔵されいてるハードディスクを1台づつ専用機器で診断を行った結果、4台のハードディスクの内2台に物理的な障害が発生していた。物理的な障害の処置実施後に、データ復旧作業を行った結果、99%以上の復旧ができたが、最重要のデータベースのファイルは破損しており使用できない状態での復旧となった。
【ポイント】
最重要のデータベースファイルが破損したタイミングとして、最初のサーバー障害発生の時点で破損していた可能性もありますが、RAIDコントローラー交換後のサーバー起動を試みたタイミングで破損した可能性もあります。
事実はわかりませんが、
「RAIDコントローラーの交換を行わずにデータ復旧をしていれば、最重要ファイルが破損することがなかったのでは?」
との、疑問が残る事案となりました。
【交換を失敗した例②】RAIDコントローラーの交換でRAID情報が書き換わりデータ消失してしまった事例
【お客様からのご相談内容】
富士通製のサーバープライマジーが起動しなくなり、保守会社がRAIDコントローラーの交換を行った結果、サーバーは起動するようになったが、Dドライブのデータが消失してしまっていた。
【クイックマンでの対応内容】
内蔵ハードディスクに物理的な障害はなく、RAIDの解析を行い再構築した結果、
お客様からの相談どおり、Dドライブのデータが消失している状態でした。
各ディスクのバイナリーデータを解析すると、元々RAID5で構成されていたRAIDがRAIDコントローラーの交換でRAID0に書き換えられていることが判明しました。
元のRAID構成で仮想的にRAIDを構成し解析作業を行いましたが、データ復旧率としては75%程度しか復旧することができませんでした。
【ポイント】
このケースでは、保守会社からRAIDコントローラーの交換作業の前に、データが消失してしまうリスクを説明されていたそうですが、緊急でサーバーを復旧させる必要があった為、判断を誤ってしまったとのことでした。お客様も非常に後悔をされていました。
【まとめ】とにかくHDDの保全が大切です。ご不安な場合はクイックマンにご相談ください!
会社で毎日使用しているサーバーに突然、障害が発生した際には、いち早くサーバーを復旧させようと様々な方法と試されるかと思います。
本記事では、RAIDコントローラーを交換して失敗してしまった例を中心に紹介しましたが、もちろんRAIDコントローラーの交換作業でサーバーが正常に起動する場合もあります。
本記事でお伝えしたいこ事は、
「サーバー障害時の作業で最も重要なことは、データ消失のリスクを考えとにかくデータの保存されているハードディスクを保全してから作業を行う」
とうことです。
保全作業については、専用機器が必要な場合もあり、サーバーメーカー様や保守会社様では、対応できないケースもあります。
クイックマンでは、データ復旧で培われたノウハウでスピーディーに障害の発生しているハードディスクの保全作業を行うことができます。
もちろん、手を尽くしてもサーバーを起動させることができない場合に、データ復旧を行うことも可能です。
サーバーに障害が発生し、対応を行う上で、データ消失の不安を感じている場合には、クイックマンに一度ご相談いただければ幸いです。
クイックマン(S&Eシステムズ株式会社) フリーダイヤル:0120-775-200