Print | Rate this content

HP ProLiant サーバー - 予期せぬシャットダウン、突然の再起動が発生した際のトラブルシューティング

解説

ここでは、HP ProLiant サーバーで予期せぬシャットダウン、もしくは突然の再起動が発生した際のトラブルシューティングについてご説明します。

トラブルの原因は多岐にわたりますが、ここでは予期せぬシャットダウン、もしくは突然の再起動といった予期せぬトラブルの切り分け方法についてご説明します。

NOTE: サーバーのトラブルシューティングは、専門知識を持ったシステム管理者が行ってください。

対象条件
» このコンテンツの対象条件 (対象機種、対象 OS など) については、こちらをご覧ください。

はじめに確認するべき事項

原因の切り分けの前に、以下の項目をご確認ください。

システムが停止した日時の確認 (Windows)

初めにシステムが停止した日時を System Event Log で確認します。

例) System Event Log
2010/5/20 1:07:31 EventLog エラー なし 6008
以前のシステムシャットダウン ( 2010/05/20 0:44:19) は予期されていませんでした。
  • ログから確認できる日時

    • イベントが発生した日時 : 2010/5/20 1:07:31
    • 停止したと想定される日時 : 2010/05/20 0:44:19
NOTE: イベントが発生した日時は、System Event log サービスがイベントを書き込んだ時間であるため、停止したと想定される日時と差異がある場合があります。

システムが停止した日時の確認 (Linux)

初めにシステムが停止した日時を Messages と IML (Integrated Management Log) で確認します。

» HP ProLiant サーバー - ハードウェアログ (IML) をコマンドラインで取得する方法 (Linux)

例) Messages
Aug 3 19:09:53 int-idp-grpcrt01 syslogd 1.4.1: restart.
Aug 3 19:09:53 int-idp-grpcrt01 syslog: syslogd startup succeeded
例) IML
08/03/2009 10:08 ASRDetected by System ROM
  • ログから確認できる日時

    • Messages の日時 : 2009/08/03 19:09
    • IML の日時 : 2009/08/03 10:08
NOTE: Linux の場合、“/etc/sysconfig/clock” ファイルで “UTC = true” と設定されている場合、BIOS は UTC (GMT グリニッジ標準時) の時刻となっており、Linux 上では timezone によって時刻が管理されます。よって Messages の日時と IML の日時に 9 時間のズレがあるのであれば、UTC = true, timezone = JST となっている可能性がありますので、この場合の時間は一致していると言えます。

予期せぬシャットダウン、突然の再起動の原因の切り分け

予期せぬシャットダウン、もしくは突然の再起動の日時をヒントに、その原因を特定できるイベントが発生しているかどうかを確認します。

ASR (自動サーバー復旧)

Proliant 300 シリーズ以上の上位機種には自動サーバー復旧 (ASR) 機能が搭載されています。ASR は温度異常やハードウェア障害、ハングアップ (フリーズ)、ブルースクリーン、修正不可能なエラー、またはシステムパニックなどの致命的な OS のエラーが発生した場合にシステムを自動的に再起動させて復旧を試みる機能です。

ASR は、ASM (Advanced System Management) ドライバーが Timer をリセットできなかった場合にロックアップと判断して ASR シグナル (NMI Exeption) を発行します。
ASM ドライバーが動作できない、もしくは命令を実行できない状況はソフトウェアが原因でも起こりえるため、ソフトウェア側の問題が ASR の原因になることもあります。

NOTE: ASM ドライバーは別名、ヘルスドライバーと言って Windows OS の場合は、Management Controller Driver のことを指します。

なお、サーバーがハングアップ (フリーズ) しているような状態で ASR が発生していなければ、ASM ドライバーは Timer をリセットし続けているということになり、完全にハングアップ (フリーズ) しているわけではないため、単にパフォーマンスが低下している状況か、特定のプロセスだけがハングアップしているような状況になっていることも考えられます。

ここからは ASR の主な原因についてご説明します。

» 温度異常

» ハードウェアエラー: PCI Bus Error

» ハードウェアエラー: Unrecoverable System Error

» ハードウェアエラー: Uncorrectable Memory Error

» ハードウェアエラー: Uncorrectable Machine Check Exception

温度異常

温度異常の場合は、次のイベントが » IML (Integrated Management Log) に記録されます。

例) IML
Automatic Operating System Shutdown Initiated Due toOverheat Condition
System Overheating (Zone 2, Location CPU, Temperature83C)

考えられる原因と確認事項

温度異常が原因と思われる場合は、下記の項目を確認してください。

NOTE: 設置環境に問題がある場合は、ハードウェアの交換を実施しても改善しません。

ハードウェアエラー : PCI Bus Error

PCI Bus Error が発生すると、次のようなイベントが » IML (Integrated Management Log) に記録され、ASR が発生します (デフォルトでは 10 分後)。

例) IML
・ PCI Bus Error (Slot 1, Bus 0, Device 30, Function0)
・ Uncorrectable PCI Express Error (Embedded device,Bus 0, Device 3, Function 0, Error status 0x00000020)

考えられる原因と確認事項

ハードウェアエラー : Unrecoverable System Error

「Unrecoverable System Error」 が発生すると、次のようなイベントが » IML (Integrated Management Log) に記録され、ASR が発生します (デフォルトでは 10 分後)。

例) IML
An Unrecoverable System Error has occurred (Errorcode 0x0290502D,0x00000000)

考えられる原因と確認事項

ハードウェアエラー : Uncorrectable Memory Error

「Uncorrectable Memory Error」 が発生すると、次のようなイベントが » IML (Integrated Management Log) に記録されます。

例) IML
Uncorrectable Memory Error (System Memory, Memory Module3) or (System Memory, Memory Module 4)
Uncorrectable Memory Error (Module Unknown)

考えられる原因と確認事項

ハードウェアエラー : UncorrectableMachine Check Exception

「Uncorrectable Machine Check Exception」 が発生すると、次のようなイベントが » IML (Integrated Management Log) に記録されます。

例) IML
Uncorrectable Machine Check Exception (Board 0, Processor1, APIC ID 0x00000017, Bank 0x00000005, Status 0xBE000000'00800400, Address 0x00000000'F89F094D,Misc 0x00000000'00000000)

考えられる原因と確認事項

ブルースクリーンやシステムバニック

ブルースクリーンやシステムパニックが発生した場合、OS のログと » IML (Integrated Management Log) の内容を確認する必要があります。

» HP ProLiant サーバー - Windows Server2003のイベントログ (アプリケーション、システム) の取得方法

» HP ProLiant サーバー - Windows Server 2008のイベントログ (アプリケーション、システム) の取得方法

» HP ProLiant サーバー - Linuxで各種イベントログを取得する方法

例) IML
・ Blue Screen Trap (BugCheck, STOP: 0x000000D1 (0x000F1F60, 0x00000002 0x00000000, 0xF7347113) )
例) Messages
・ Kernel panic - not syncing : Uncorrected machine check

考えられる原因と確認事項

  • ブルースクリーンやシステムパニックが発生するとドライバーの処理が停止するため、ASR Timer のリセットができなくなることから » ASR が発生します。

  • ただし、規定値 (デフォルト 10 分) 以内に再起動がかかると ASR は発生しません。

  • この場合、ASR が問題ではなくブルースクリーンやシステムパニックが原因となりますので、ソフトウェア側のトラブルシューティングが必要になります。

ブルースクリーン は、B.S.O.D (Blue screen of death) や STOP エラーとも言って、Windows OS に何らかの異常が発生し、深刻なダメージを負った可能性のある状態に表示されるメッセージになります。

< ブルースクリーンが発生する原因 >

アプリケーションやサービスの動作不良
デバイスドライバーの不具合
ハードウェア障害
ディスクやファイルシステムの不整合
ファームウェアの問題

ブルースクリーン (クラッシュ) が発生するとサーバーは即時、動作を停止します。クラッシュ後、再起動をすることでシステムの復旧を試みます。
Windows がクラッシュした場合、その要因を STOP コードとして画面に表示します。
なお、STOP コードは致命的な問題の原因そのものではなく、原因の調査をおこなう手がかりに過ぎません。

例) STOP: 0x00000077 (0xC000000E, 0xC000000E, 0x00000000, 0x17371000)
例) STOP: <Stop Code> (<parameter>, < parameter>, < parameter>, < parameter>)
NOTE: OS 側の原因調査はソフトウェアサポートの契約が必要になります。

ハングアップ (フリーズ)

SMH (System Management Homepage) に » ASR 以外のログが無い場合は、ハングアップ (フリーズ) が原因の可能性があります。

» HP ProLiant サーバー - System Management Homepage (SMH) からハードウェアログを確認する方法

この場合、ハングアップに至った原因は多岐に渡って考えられます。

考えられる発生原因

イベントログ、IML、Survey 情報、ADU 情報を確認して、ハードウェアに問題がないかどうかを確認し、HP サポートセンター ( http://www.hp.com/go/hpsc ) で既知の問題を確認して該当する情報が無い場合は、ソフトウェア側 (OS またはアプリケーション) に問題がある可能性があります。

» HP ProLiant サーバー - SmartStart CD (SSCD) またはEasy Set-up CD (ESCD) からADUレポートを取得する方法 (オフライン)

» HP ProLiant サーバー - アレイコンフィギュレーションユーティリティ (ACU) からアレイ診断ユーティリティ (ADU) レポートを取得する方法

これ以上の調査については、ASR を無効にして再度、ハングアップした際に強制的にメモリダンプファイルを取得し、解析することが有効な対処方法となります。

NOTE: ダンプファイルの解析はソフトウェアサポートの契約が必要になります。

ASR を無効にする方法は、次のリンク先をご確認ください。

» HP ProLiant サーバー - SMH から ASR 機能の設定を変更する方法

» HP ProLiant サーバー - ROM ベースセットアップユーティリティで ASR 機能の設定を変更する方法

Windows OS で強制的にメモリダンプファイルを取得する方法については、次のリンク先をご参照ください。

(参考) » Microsoft サポート | キーボード操作でメモリ ダンプ ファイルを作成できる Windows の機能 Non-HPE site

※ リンク先は予告なく変更される場合があります。

ハードウェアの問題

ハードウェアが原因の場合は、IML (Integrated Management Log) で情報を確認することができます。

NOTE: IML は、電源、ファン、プロセッサ、メモリ、Smart アレイコントローラー、NIC 等の主要な障害情報を記録しています。
(サーバーの不揮発性メモリ (NVRAM) 上に記録されています)
HP ProLiant インテグレーテッド マネジメントログビューア (Windows)
(オンライン、Windows OS、ProLiant Support Pack 導入環境)
hplog コマンド
(オンライン、Linux OS、ProLiant Support Pack 導入環境)
System Management Homepage (SMH)
(オンライン、ProLiant Support Pack)
Integrated Lights-Out 2 (iLO2)
(オンライン、オフライン、iLO2 搭載機)
Integrated Lights-Out 3 (iLO3)
(オンライン、オフライン、iLO3 搭載機)
Onboard Administrator (OA)
(オンライン、オフライン、ProLiant BL サーバー)
SmartStart CD (SSCD)
(オフライン)

電源関連の問題

予期せぬシャットダウン、もしくは突然の再起動が発生した際に、ASR やブルースクリーン (クラッシュ) などのイベントが発生していない場合があります。

その場合、停電、UPS の障害、予期せぬ電源プラグの抜き差しなどが考えられます。電源周りのイベントかどうかを判断するために、iLO のイベントログ を確認することが有効になります。

iLO のイベントログの確認方法は、次のリンク先をご確認ください。

» Integrated Lights-Out 2 (iLO2) - イベントログの取得方法

» Integrated Lights-Out 3 (iLO3) - イベントログの取得方法

iLO はマザーボード上に搭載されているため、マザーボードに通電されたタイミングで、次のイベントが iLO のイベントログに記録されます。

例) Power Restored to iLO

例えばこのイベントが記録された場合は、一旦、マザーボードへの通電が無くなったということを意味します。よってまずはこのイベント有無によって、原因の箇所を絞り込みます。

  • 「Power Restored to iLO」 のイベントがある場合

    不意にマザーボードへの通電が切れたことを意味します。電源や UPS、Power Backplane 等のハードウェアの問題の可能性が高いです。

  • 「Power Restored to iLO」 のイベントが無い場合

    サーバー側に何かしらの原因があります。予期せぬ誤操作による原因の可能性も考えられます。
    以下の電源関連のイベントの有無をご確認ください。

    < iLO のイベントの種類 >

    電源の操作時には、iLO のイベントログに以下のようなメッセージが記録されます。

    • シャットダウン時

      Server reset.
      Server power removed.
    • 再起動時

      Server reset.
      Server power restored.
    • 電源投入時

      Host server powered ON by: XXX
      Server power restored.
    • iLO 経由で電源遮断時

      Host server powered OFF by: XXX
      Server power removed.
    • iLO 経由で電源投入時

      Host server powered ON by: XXX.
      Server power restored.
    • 電源ケーブルが一時的に抜かれた場合

      Server power removed.
      Power restored to iLO

対象条件

  • 対象機種
    • HP ProLiant BL サーバー
      BL20p, BL20p G2, BL20p G3, BL20p G4, BL25p, BL25p G2, BL260c G5, BL280c G6, BL2x220c G5, BL2x220c G6, BL2x220c G7, BL30p, BL35p, BL40p, BL45p, BL45p G2, BL460c, BL460c G5, BL460c G6, BL460c G7, BL465c, BL465c G5, BL465c G6, BL465c G7, BL480c, BL490c G6, BL490c G7, BL495c G5, BL495c G6, BL620c G7, BL680c G5, BL680c G7, BL685c, BL685c G5, BL685c G6, BL685c G7

    • HP ProLiant DL サーバー
      DL120 G7, DL320 G2, DL320 G3, DL320 G4, DL320 G5, DL320 G5p, DL320 G6, DL320s, DL360 G2, DL360 G3, DL360 G4, DL360 G4p, DL360 G5, DL360 G6, DL360 G7, DL365, DL365 G5, DL370 G6, DL380 G2, DL380 G3, DL380 G4, DL380 G5, DL380 G6, DL380 G7, DL385, DL385 G2, DL385 G5, DL385 G5p, DL385 G6, DL385 G7, DL560, DL580, DL580 G2, DL580 G3, DL580 G4, DL580 G5, DL580 G7, DL585, DL585 G2, DL585 G5, DL585 G6, DL585 G7, DL740, DL760, DL760 G2, DL785 G5, DL785 G6, DL980 G7

    • HP ProLiant ML サーバー
      ML110 G7, ML310, ML310 G2, ML310 G3, ML310 G4, ML310 G5, ML310 G5p, ML330 G3, ML330 G6, ML350, ML350 G2, ML350 G3, ML350 G4, ML350 G4p, ML350 G5, ML350 G6, ML370 G2, ML370 G3, ML370 G4, ML370 G5, ML370 G6, ML530 G2, ML570 G2, ML570 G3, ML570 G4, ML750

    • HP ProLiant SL サーバー
      SL335s G7, SL390s G7

» 解説に戻る

関連情報

トラブルシューティングガイドも合わせて、問題解決にお役立てください。
» HP ProLiant サーバー トラブルシューティングガイド

文書情報

Q&A 番号 : IAQA000820
最終更新日 : 2012/01/20

Provide feedback

Please rate the information on this page to help us improve our content. Thank you!