LinuxでデルのPowerEdgeサーバーの状態を監視する

久々にハードウェアのお話ですが、決して私はデルの回し者ではありませんと予め断っておきます。(笑)

弊社では8年ほど前からデルのPowerEdgeサーバーを導入して以来、
現在では200台以上のデル製サーバーが常時稼働しています。

これまで長く付き合ってきた事もありますが、自分自身が好きな理由として以下があります。
・見積もりが出しやすい (オンライン構成により細かいオプションを含めた概算費用が算出できる)
・新技術を実装した製品がすぐに登場する
・導入がしやすい (専用ソフトウェア経由でのOSインストールではないため導入手順が縛られない)
・簡単な知識でコンポーネントの監視ができる

最後に挙げた監視がしやすい部分について今日はお話しできればと思います。

WS000109
PowerEdgeサーバーにはOMSA(OpenManage Server Administrator)という
ブラウザ経由で管理ができる便利なソフトウェアが付属しています。

ほぼ全てのPowerEdgeサーバーにBMC(ベースボードマネジメントコントローラー)が搭載されており、
このソフトウェアを導入する事で、BMCから情報を読み取ってブラウザ管理ができます。
何十台もあると、別の方法がありますが、
そこまで行かない規模ではOMSAからの監視が一番簡単で手っ取り早いですので、
ここではOMSAを導入してこのソフトウェアの便利な点を紹介できればと思います。

■OMSAをインストールする

CentOS等のRHEL互換OSは公式にはデルのサポートOSではありませんが、OMSAが利用できます。
付属DVDからインストールする事もできますが、なるべく最新版を導入する事をお勧めしますので、
ここではデルのLinuxリポジトリからインストールする手順で進めます。

・ファイアウォールの解放
OMSAではTCP1311を利用してHTTPS通信を行いますので解放します。
OMSAのログインにはrootのパスワードが必要となりますので、
セキュリティを考慮するとポートフォワーディング機能やVPN経由でローカルからの利用に限定する、
アクセス元のIPアドレスをFWで制限する等の対策を行うようにしましょう。

・自動インストーラーを実行する

wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash
yum -y install srvadmin-all

・サービスの起動
ここで一度ログアウトし、再度ログインした後以下のコマンドを実行します。

srvadmin-services.sh start

以上のステップでOMSAのインストールができました。管理画面にログインしてみましょう。

■OMSAにログインする

ブラウザよりhttps://_サーバーのIPアドレス:1311と入力してください。
SSL暗号化通信は自前の認証局となっていますので、
各ブラウザで警告画面が表示されますが、そのまま続行するを選択してください。

WS000108
ログイン画面ではIDとパスワードを聞いてきますので、
IDにはroot、パスワードにはrootのパスワードを入力してログインします。

WS000109
ログインをすると各種コンポーネントの状態が表示されます。

WS000112
ハードウェアや警告ログでは、システムコンポーネントに異常が発生した場合に時系列でログが表示されます。

WS000114
RAIDコントローラーから各ディスクをたどっていくと、RAID構成の状態や個々のディスクでの状態が表示されます。

WS000116
電源の状態では冗長構成の情報の他に、現在の消費電力なども表示されます。

■シェルからサーバーの状態を見る

今までに見てきた情報は全てブラウザ操作でしたが、同じ事はCLIからも可能です。
例えばハードディスクの状態を見るのであれば、サーバーで以下のコマンドを打つ事で表示する事ができます。

$ omreport storage pdisk controller=0
--------------------------------------------------
List of Physical Disks on Controller PERC H700 Integrated (Embedded)

Controller PERC H700 Integrated (Embedded)
ID                        : 0:0:0
Status                    : Ok
Name                      : Physical Disk 0:0:0
State                     : Online
Power Status              : Spun Up
Bus Protocol              : SAS
Media                     : HDD
Revision                  : ES66
Failure Predicted         : No
Certified                 : Yes
Encryption Capable        : No
Encrypted                 : Not Applicable
Progress                  : Not Applicable
Mirror Set ID             : Not Applicable
Capacity                  : 558.38 GB (599550590976 bytes)
Used RAID Disk Space      : 558.38 GB (599550590976 bytes)
Available RAID Disk Space : 0.00 GB (0 bytes)
Hot Spare                 : No
Vendor ID                 : DELL(tm)
Product ID                : ST3600057SS     
(以下略)

警告ログを表示する場合には、以下を実行します。

$ omreport system alertlog
--------------------------------------------------
Alert Log

Alert Log contains...

Severity      : Ok
ID            : 2243
Date and Time : Sun Jun  9 07:18:39 2013
Category      : Storage Service
Description   : The Patrol Read has stopped.:  Controller 0 (PERC H700 Integrated) 

Severity      : Ok
ID            : 2242
Date and Time : Sun Jun  9 06:09:45 2013
Category      : Storage Service
Description   : The Patrol Read has started.:  Controller 0 (PERC H700 Integrated) 
(以下略)

■注意事項

保守対応となるようなケースでも以下のようにSeverity:Okと表示されるようなケースがあります。
代表的な物としてハードディスクの不良セクタ発生が挙げられますが、
警告ログやハードウェアログを定期監視する事により故障予知の見落としを防ぐことができます。

・故障認定されたケースの例
※あくまでも一例です。全てのケースを保証するものではございません。
また発生回数の閾値が設定されているようで、1回のみでは様子見となる事が多いです。

Severity      : Ok
ID            : 2095
Category      : Storage Service
Description   : SCSI sense data Sense key:  4 Sense code: 15 Sense qualifier:  1:  Physical Disk 0:0:0 Controller 0, Connector 0

Severity      : Ok
ID            : 2095
Category      : Storage Service
Description   : Unexpected sense. SCSI sense data: Sense key:  3 Sense code: 11 Sense qualifier:  0:  Physical Disk 1:0:5 Controller 0, Connector 1

・Sense Keyの参考

Key 説明
0  情報不明(障害でない可能性があります)
1  コマンドエラー、リトライで改善(障害ではない場合が多いです)
2  デバイス準備エラー(HDDの場合はほぼありません)
3  ミディアムエラー。リカバリ不可エラー(障害の可能性が非常に高いです)
4  ハードウェアエラー(障害の可能性が非常に高いです)
5  コマンドエラー(ほぼ障害ではありません)
6  SCSIリセット(障害ではない場合が多いです)
7,8,9,A-F,(HDDでは発生の可能性がほぼありません)

上に挙げた機能に加え、現地で部品を交換するオンサイト保守サポート、
故障認定後に最大2時間以内に現地に到着し保守を受けられるサービスなど、
手厚いサービスが用意されている事がメーカー製サーバーの良い所です。

全ての構成で最上位のサポートレベルにすると費用が高額になってしまいますので、
要件やSLAによって構成やサポートレベルを使い分ける事が重要ですが、
弊社システムのバックエンドではこのようなサービスによって守られているのです。

最新ブログ一覧