ネットワーク障害


序文

ネットワーク障害CGIはネットワークの障害を引き起こした原因を正確に探る手助けをするためにデザインされました。小さなネットワークではこのCGIはあまり有効ではありませんが、大規模ネットワークでは有用でしょう。障害原因の特定は管理者がネットワークへもっとも大きな衝撃を与えている問題を見つけ、解決する手助けとなるでしょう。

ネットワーク障害CGIは正確にその問題の原因を特定するわけではなく、最もそのネットワークの問題の原因になっているだろうと思われるホストを提示するということに注意してください。そこでおそらくその問題を実際に引き起こしている様々な事柄を深く調査することに関してはユーザに残されています。

ダイアグラム

下のダイヤグラムはネットワーク障害CGIがネットワーク障害の原因を特定する方法を示しています。画像をクリックするとより大きな画像を見ることができます・・・

ダイアグラム 1
このダイヤグラムは今回の例のベースになっています。赤で示した全ホストは停止もしくは未到達(UNREACHABLE)(Nagiosから見て)、他のホストは稼働(UP)です。
Hosts That Are Down Or Unreachable
ダイアグラム 2
このダイヤグラムはネットワーク障害(Nagiosから見て)の原因を正確に示し、障害によって影響を受ける様々なホストグループを示しています。
Hosts That Are Causing Outages

ネットワーク障害の原因の決定

それで、どうやってネットワーク障害CGIは問題の根幹となっているホストを決定するのでしょう? "問題"のホストは停止(DOWN)か未到達(UNREACHABLE)の状態でかつ少なくともその直上の親ホストは稼働(UP)に違いありません。この基準に適合するホストに潜在的に問題があるホストとしてフラグがたてられます。

フラグがたてられたホストがネットワーク障害の原因になっているかどうか特定するために、いくつかのテストを行わなくてはなりません・・・

それらフラグのたてられたホスト直下の子ホストがすべて停止(DOWN)か未到達(UNREACHABLE)、かつ直上の親ホストが稼働しているのであれば、フラグをたてられたホストがネットワーク障害の原因になっています。もし、フラグをたてられたホストの直下の子ホストのどれか一つでもこのテストをパスしなかった場合、このフラグをたてられたホストがネットワーク障害の原因ではありません

ネットワーク障害の影響の決定

どのホストがそのネットワーク上の問題を引き起こしているかを伝えて、ネットワーク障害CGIは同時にどのぐらいのホストやサービスがこのホストの影響を受けているか伝えるでしょう。どのように決定しているかって?上のダイヤグラム2を見てください・・・

ダイヤグラムからホスト1が2つの子ホスト(ドメインA内の)を妨害していることは明らかです。ホスト2は単独でそれ自身(ドメインB)へのアクセスをブロックしています。また、ホスト7は7個のホスト(ドメインC)を単独で妨害しています。ドメインDの中の2ホストの障害状況はホスト2と3の間で「共有」されています。ホスト2あるいはホスト3の一方が稼働(UP)であった場合これらのホストは妨害されないかも知れません。

それぞれの問題ホストの影響ホストの数は以下の通りです(問題のホストもこれらに含まれています):

障害規模レベルに応じた問題のランキング

それらがネットワーク障害が発生していてもしていなくても、ネットワーク障害CGIは問題のあるホストすべてを表示するでしょう。しかし、CGIはいくつの問題のホスト(もしあれば)がネットワーク障害を引き起こしているか表示するでしょう。

多少有用なやり方で問題ホストを表示するために、それらはネットワークに与える影響の規模によってソートされます。規模のレベルには2つの事で決定されます:問題ホストによって影響されるホストの数、および影響されるサービスの数。ホストは規模の計算でサービスよりも大きなウェイトとして計算されます。現在のコードでは4:1の比率になっています。(例:ホストは個々のサービスよりも4倍重要です)

ダイヤグラム2ではそれぞれのホストに属するサービスがそれぞれのホストで同一であると見なして考えると、ホスト3は最も規模の大きい問題で、一方ホスト1と2は同じレベルの規模として評価されました。