[Lab]:故障予測 パート8 (不良セクタの種類を考える1) – IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

故障予測 パート8 (不良セクタの種類を考える1)

前回までは不良セクタの広がり方をメインと捉えておりましたが、今回は別の見方を考えてきます。

不良セクタ自体の性質を考えていきます。
大雑把にみて、読み書きできない・読み込みできない・読み書きできる可能性が低い・読み書きできる可能性が高い・読み込みできる可能性が低い・読み込みできる可能性が高い・・この6種類は押さえたいところです。

1:読み書きできない・読み込みできない
同じようですが、その性質は大きく異なります。
読み書きできない場合は単純にそのブロックが壊れたと解釈できますが、
読み込みできない、すなわち書き込めるが読み込めないセクタは、
複雑な要因が絡んでおりますので、しっかりとその位置を見極め、
危険セクタではないかどうか判断する必要が生じます。

2:読み書きできる可能性が低い・読み書きできる可能性が高い
こちらも複雑な要因が絡んでおりますので、しっかりとその位置を見極め、
危険セクタではないかどうか判断する必要が生じます。

3:読み込みできる可能性が低い・読み込みできる可能性が高い
こちらは、既に危険と判断できる段階です。
例としてモータ焼け寸前などが挙げられ、このような場合は読み込み不能セクタの位置がランダムで変化いたします。
よって、FromHDDtoSSDにて黄色ブロックが変化するようであれば、即交換です。
※ といっても、そのような場合はすぐに赤ブロックが出るよう設計いたしております。
https://www.iuec.co.jp/

故障予測 パート9 (不良セクタの種類を考える2)へ続きます 。

[Lab]:故障予測 パート7 (リビルド不可の事例を紹介いたします) – IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

故障予測 パート7 (リビルド不可の事例を紹介いたします)

ここで、RAIDが壊れたうえリビルドできなかった事例を少し紹介いたします。
※ テーマに沿った事例を少しずつ紹介していきたいと思います。
※ 徐々に不良セクタが進行するパターンの詳細は、前回のパート6をご参照ください。

その1:TeraStation 1.6TB RAID-5 エラーランプ点灯 リビルド不可

[採用されていたHDDはSATA 400GB × 4台 RAID-5なので1.2TBで運用]
※ブザーが鳴り響き、アクセス不可となる。
エラーランプが3個所点灯していたが、RAID-5なのでデータは簡単に戻せると思っていた。しかしながら、リビルド自体受け付けず、何をしても操作を受け入れてくれません。

<なぜ?>
実際に拝見させていただいた結果、
2台に読み書き不能セクタ(不良セクタ)が拡散していました。
これら不良セクタには徐々に進行していった形跡がありましたので、徐々に不良セクタが進行するパターンにより、2台が徐々に壊れてRAIDが崩壊した例です。

その2:自作機 RAID-5 リビルド失敗
[採用されていたHDDはSATA 250GB × 3台 RAID-5なので500GBで運用]
※ RAIDカードのメニューから先へ進めなくなりました。
リビルドを思い立ち、メニューより操作したところリビルドが開始されました。
しかし、30%のところでエラー、やむなくデータを諦めるしかないのでしょうか・・

<なぜ?>
実際に拝見させていただいた結果、
こちらは3台に読み書き不能セクタ(不良セクタ)が拡散していました。
このように、徐々に不良セクタが進行する場合、RAIDはあまり役に立てないのが現状です。

なお、データ復旧方法は問題なく確立されております。
※ 全体的にPATA/SATAタイプのRAIDはデータ復旧をご依頼いただける数が多いため、十分に最適化が進みまして綺麗に復旧できます。
※ ご依頼に関しましては、TeraStationをはじめLANDISK、各メーカさんPCに標準搭載のRAID、自作機など多方面に渡ります。

故障予測 パート8 (不良セクタの種類を考える1)へ続きます。
https://www.iuec.co.jp/

[Lab]:故障予測 パート6 (大容量PATA/SATAをミラーリングで試しに運用してみる) -IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

故障予測 パート6 (大容量PATA/SATAをミラーリングで試しに運用してみる)

ミラーリングは同じ内容を2台に読み書きいたしまして、
1台が故障に至ってもデータを守れるという仕様です。

デメリットは2台同時に故障した場合、
データを損失する点ですが、前回パート5で記載いたしました通り、
徐々に不良セクタが進行する障害を抱えた場合も、ミラーでは守れません。

ところで、それら可能性は如何でしょうか。
2台同時に故障する可能性(PA)と、徐々に不良セクタが進行する可能性(PB)です。
PATA/SATAの場合はPA << PB、SCSI/SASの場合はPA >> PBです。
これがPATA/SATAとSCSI/SASに関する耐久性の違いです。

徐々に不良セクタが進行する可能性を大きく秘めたPATA/SATAを安易にRAIDにいたしますと、考えられないような大きなトラブルに発展する場合が多発いたします。

SCSI/SASの場合はPA >> PBより、
中途半端な壊れ方はあまり存在しないという観点が重要となります。
つまり、台数を増やせば、RAIDによるデータ耐性を十分なものにできます。
https://www.iuec.co.jp/

[Lab]:故障予測 パート5 (大容量PATA/SATAのHDD SCSI/SASのHDD 不良セクタの違いを考える) – IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

故障予測 パート5
(大容量PATA/SATAのHDD SCSI/SASのHDD 不良セクタの違いを考える)

PATA/SATAのHDDとSCSI/SASのHDDでは、
性能や耐久性などの差に加え、不良セクタの出方も大きく異なります。

SCSI/SASでは、パート4でご紹介いたしました「他セクタへの影響がない不良セクタ」が大部分で、 「多数のセクタが同時に破損する可能性」は低く抑えられております。また、連続使用&高負荷を前提といたしておりますので、
放熱部分が大きく設けられ、がっちりと重量感のある作りです。

よって、SCSI/SASではS.M.A.R.T.や5年おきの保守交換などで特に問題ありません。 また、RAIDで使われる機会が多いと思いますが、
RAIDにてある程度の安全性を確保するには、
「「他セクタへの影響がない不良セクタ」が大部分」という前提が必要です。 RAIDに対する危険性がしばしば拝見されるようになっておりますが、 これはSCSI/SASに対することではなく、PATA/SATAに対しての危険性です。

ところで、PATA/SATAのRAIDがあまり安全ではない理由、 これはRAIDの特性にございます。
https://www.iuec.co.jp/

[Lab]:故障予測 パート4 (不良セクタの分布と増殖の関係3) – IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

パート4 (不良セクタの分布と増殖の関係3):
昨日のパート3より、「不良となって読み書きできず、他への影響はない」から考えていきます。

他セクタへの影響がないのは、不良となったセクタが自分自身のみ単独で破損したことを意味いたします。これは、セクタを構成する磁性体の異常や剥離などが考えられます。このような場合は、あくまでも自分自身が破損しており、他への影響は起こりません。

ただし、そのような破損が出始めたということは、他にもそのような兆候が出始めているサインとも捉える事ができます。ただ、それはあくまでも単独のセクタ単位で破損の可能性が高まっているだけであり、多数のセクタが同時に破損する可能性とは結び付けられず、恐れている事態にはなりにくいです。通常のS.M.A.R.T.機能ではこのレベルを主に見抜くようですが、恩恵には中々至らないようです。(再配置カウントがこの例に相当いたします)

ところで、多数のセクタが同時に破損する可能性が高まるとは、 どのような状態を示唆するのか、具体的に考えてきます。
なぜならば、多数のセクタが同時に破損するという事は、データの損失に直接至ってしまうからです。
パート5より、より詳しくみていきます。
https://www.iuec.co.jp/

故障予測 パート5 (大容量PATA/SATAのHDD SCSI/SASのHDD 不良セクタの違いを考える)へ続きます。

[Lab]:故障予測 パート3 (不良セクタの分布と増殖の関係2) – IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

パート3 (不良セクタの分布と増殖の関係2):
不良セクタは複雑な原因で発生いたします。

不良セクタに関しましては、概ね3通りに分ける事ができます。

1:不良となって読み書きできず、他への影響はない
不良セクタの一般的な内容です。論理(通常)フォーマットにて不良セクタを含むクラスタへ使用不可のマークを与え、データの損失を防ぐ機構が各OSに備わっておりますが、この機構はこのレベルの状況を前提といたしております。つまり、これから説明いたします2・3だった場合、このような付け焼き刃ではデータ損失を回避できません。

2:不良となって読み込めず、徐々に広がる
広がるため、先ほどの使用不可マークでは全く追い付かず、データを損失します。

3:不良となって読み込めず、ヘッドクラッシュ
そのままですね。
ヘッドの破損を誘発してしまい、BIOSにも認識できなくなります。
https://www.iuec.co.jp/

故障予測 パート4 (不良セクタの分布と増殖の関係3)へ続きます。

[Lab]:故障予測 パート2 (不良セクタの分布と増殖の関係1)- IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

パート2 (不良セクタの分布と増殖の関係1):
S.M.A.R.T.が正攻法で使えない事実(パート1参照)がある以上、
別の手段を模索する必要が出てきました。

ところで、 データ復旧サービスではハードディスクの型番別に「不良セクタマップ」と呼んでいるバイナリで書き出されたデータを大いに活用いたします。
具体的には、不良セクタの位置、相互的な関係、種類、専用メソッドをまとめてバイナリにいたしまして、データスキャン作業へ組み込んで利用いたしております。
技術的な差が出てくるのは不良セクタの相互的な関係と、専用メソッドです。
相互的な関係を読み取り、その内容で専用メソッドの動作が多角的に変動いたします。
これにより、壊れかけのハードディスクでもより安全にセクタのイメージを取得できる訳です。

そこで、「不良セクタマップ」は不良セクタの位置をある程度予測できる機能があります。これを故障予測に持っていければ、S.M.A.R.T.に100%頼らずとも精度の高い予測が可能となるかもしれないと考え、早速試験的なプログラムからスタートいたしました。その着手がちょうど1年前の2008年9月24日です。 https://www.iuec.co.jp/

故障予測 パート3 (不良セクタの分布と増殖の関係2)へ続きます。

[Lab]:故障予測 パート1 (S.M.A.R.T.) – IUEC

いつも大変お世話になっております。
データ復旧担当(現:故障予測)の矢野と申します。

シルバーウィークより配置が変わりまして、
データ復旧作業専属から故障予測事業部担当となりました。
ただ、それでも半数(以上?)はデータ復旧作業も担いますゆえ、
故障予測専属というわけではありませんが、ブログを編集できる時間が確保できました。本日より詳細な情報を掲載できると思います。

パート1 (S.M.A.R.T.):
ストレージの故障予測では、
一般的にS.M.A.R.T.と呼ばれるコマンドを発行いたしまして、
指定の構造体へデータを書き込んでいただき、それを受け取る形式となります。
実際には、ストレージ(HDD,SSD)とユーザが扱うユーザモードの間にはWindows(カーネル)が存在いたしますので、直接ストレージへ発行できる訳ではなく、危険性の少ない至ってノーマルな方法でコマンドを発行します。
結局はWindowsの仕様通りに発行する手順を経由するはずです

受け取ったのち、S.M.A.R.T.の仕様通りに編集いたしますと、
仕様に沿った属性へ値が入ります。
この値をしきい値(故障と判断する値)と比較して故障予測が成立いたします。
・・いえ、成立するはずでした。

ところで、しきい値が存在するのに、
それら具体的な予測方法が一切示されておらず、なんか宙に浮いたまま現在に至っている、そのような受け取り方もあると思います。

そして、データ復旧サービスを通じて分かったことは、
障害を起こした直後のS.M.A.R.T.値、ほとんど当てにならないということです。
不良セクタが大量に増殖して初めて値が増加すると考えて過言ではありません。
しかしながら、肝心なことは不良セクタが大量に増殖してからでは遅いということです。

https://www.iuec.co.jp/

故障予測 パート2 (不良セクタの分布と増殖の関係1)へ続きます。