システム障害の「切り分け」とは!一次、二次の違いは?分かりやすく解説します!
ITによるサービスが一般的になった現代では、システム障害がつきものです。これら問題を解決するための作業が「切り分け」です。システム障害の原因には、ヒューマンエラーから、システムにある根本的な問題まで幅広くあります。そこで今回は、システム障害における「切り分け」について、一次と二次の切り分けの違いを交えながら解説します。
目次
システム障害における「切り分け」とは
システム障害において大切なことは「障害切り分け」です。システム障害を解決するために、障害時の操作や環境を正確に把握し、障害が起こった根本的な原因を特定する必要があります。
例えば、インターネットに繋がらなくなったという障害ならば、以下のような原因を想定します。
- PCのネットワークドライバ(ソフトウェア)の問題
- PCへ新たにインストールしたソフトウェアの問題
- LANケーブルの断裂
- ルーターとケーブルの接続問題
- ルーターの物理的な破損
- ルーターのファームウェアの不具合
- プロバイダーへの料金支払い確認
ネットワークへの接続障害ひとつ取っても、環境やオペレーションに依存した原因が無数に存在します。システム障害における「切り分け」では、これら原因のどれに該当し、どのように解決へ導くかが最大の業務になります。
システム障害時の「一次切り分け」と「二次切り分け」の違い
システム障害の問題切り分けには「一次切り分け」と「二次切り分け」があります。これらはどちらも障害の原因を特定するものですが、それぞれの切り分けには重視するポイントに違いがあります。
一次切り分けは障害対応のはじめの一歩
一次切り分けは、障害の原因特定における最初のアクションであり、問題を正確に把握するための最も重要な役割とも言えます。
システム障害が起きた際、それがシステムに潜在的に潜む障害なのか、あるいはオペレーションミスなどのヒューマンエラーなのかを切り分ける必要があります。
この大まかな切り分けは、今後の問題解決方法にとって最も重要な判断となり、万が一原因を取り違えてしまえば、対応の手戻りが起こってしまうのです。
システム障害は、システムを利用するユーザーにとっては業務を止めてしまうほど致命的ですので、出来る限り迅速にシステムの回復へ導かなければなりません。
一次切り分けに必要な情報には大きく以下の2つがあります。
- システム障害が起こる前に行ったオペレーションの把握
- システム障害が起こった後に行ったオペレーションの把握
これら情報を正確に聞き出すことが、システム障害の正確な一次切り分けに繋がります。
二次切り分けは専門的な障害対応
二次切り分けを行う段階では、ほとんどの場合オペレーションミスなどのヒューマンエラーは取り除かれている状態です。ですので、基本的にはソフトウェアやハードウェアの専門的な情報による問題切り分けとなります。
例えばネットワーク障害であれば、ネットワーク機器自体の不具合であるのか、あるいはファームウェア自体に不具合があるのかを切り分ける必要があります。二次切り分けは、システム障害を根本的な解決へ導くことが重要な使命なのです。
\ IT転職のプロが無料でサポート! /
一次切り分けに必要なスキル
具体的な障害を正確にヒアリングするコミュニケーションスキル
一次切り分けに最も必要なスキルは、障害を正確にヒアリングするコミュニケーションスキルです。システム障害が起きた際に、事象をヒアリングすることは比較的容易ですが、障害が起きた際に行った前後の操作や、現状の障害範囲を詳細にヒアリングするには、ユーザーとのコミュニケーションが大切です。
システム障害を早く解決するために、ユーザーが焦っている場合も多いので、その状態から様々な事象をヒアリングしなければなりません。
冷静に且つユーザーに寄り添った口調でシステム障害の詳細をヒアリングするためには、コミュニケーション能力が不可欠なのです。
ヒアリングした事象からいくつかの解決パターン導き出す力
システム障害で起こっている事象をヒアリングすると同時に、その問題を切り分けし、解決できるパターンを導き出す必要があります。
ヒアリングをしながらいくつかのパターンで解決策を想像し、システムの仕様や、そのシステムが使われている状況をイメージすることが重要です。
経験値が問われるスキルですが、これが問題を迅速に切り分け、解決に導く最短の方法なのです。
対応方法を正確に伝えるためのスキル
システム障害の原因切り分けができたら、次は問題点の把握です。大まかにカテゴライズされた原因から、適切な解決策を提示します。
その際に必要なのが、解決への道を正確に伝えるスキルです。原因や操作方法をユーザーに伝えるのは意外と難しく、自分が理解しているからこそ出てくる専門用語や略称を使ってしまいがちです。
また、自分は見慣れた画面のため、操作方法を説明する際にもクリックするボタン名だけを伝えてしまうなどは良くあることです。(本来は、画面上のどこにそのボタンがあるのかを説明します。)
これらを含めて、システム障害について解決方法をユーザー目線で伝えるスキルが必要なのです。
問題解決までの応急処置を導き出すスキル
システム障害で切り分けた問題が、どうしてもその場で解決できない場合は多くあります。それは、一時切り分けの時点でほぼ確定できます。
ただし、一時切り分けを行った結果、すぐには解決できない問題だと判明したとしても、その問題を後回しにするわけにはいきません。ユーザーの業務が止まっている状態を解決しなければならないのです。
一時切り分けが完了した時点で、問題解決までに時間がかかることが判明したら、やるべきことはシステム障害の応急処置です。
ここで必要なのが、ユーザーの業務を引き続き遂行させるために、代替案を提示するスキルなのです。
二次切り分けに必要なスキル
システムに対する深い専門知識
システム障害が起きて、その問題に対して二次切り分けが必要な場合には、ソフトウェアやハードウェアについての専門知識を必要とする場面がほとんどです。
一つの機器に繋がる複数のハードウェアや、ハードウェアに載るソフトウェアについて、それぞれがどのように干渉して問題が起きているのかなどを確認しながら、根本的な原因が浮き彫りになるまで切り分けを行います。
ネットワーク障害ひとつ取っても、PCやネットワーク機器、そこに付随するファームウェアやソフトウェア、あるいはLANケーブルなどを含めた周辺機器にまで至ります。
これらを把握することで、二次切り分けが可能になるのです。
根本原因を迅速に解決するスキル
二次切り分けを行う人材は、システム障害を必ず根本解決に導かなければなりません。根本解決に至るまでには様々な検証も必要になるかもしれませんし、機器自体の入れ替えという結果になるかもしれませんが、どれも比較的時間がかかってしまうのです。
ですので、出来るだけ迅速に根本解決するためには、二次切り分けを迅速に行う必要があります。また、二次切り分けを行なった時点で、根本解決への手順がイメージできていることが理想ですね。
システム障害の具体的な原因を探す
システム障害を早急に解決するためには、問題が起こっている具体的な場所や要因を明確にする必要があります。どこでどのような問題が起きているのかを把握し、解決していくために、4階層あるIPレイヤを探索していく作業手順を解説していきます。
- 疎通の確認
- サービスの稼働確認
- システムの情報を取得する
疎通の確認
システムの障害原因を探すときにはじめにすることはネットワークの疎通の確認です。ハードウェアがアクティブかどうか、pingを実行してwebサーバーからの応答の有無を確認します。 このときに応答がなければ、ネットワークの経路かwebサーバーのどちらかに問題が起きたことによる障害です。どちらが原因であるのかを究明するために、tracerouteコマンドを実行します。 ネットワークの経路から問題なく返答があれば、障害原因はwebサーバーです。
サービスの稼働確認
ネットワークの疎通が確認できたら、次はTCPポートに接続しサービスが稼働しているかどうかを確認します。障害が発生しているのは、webサーバーなので、telenetを使用して探索をするのが一般的です。 Windowsのtelenetクライアントでも作業はできますが、ここでより機能的なtelenetクライアントを使用すると、作業の効率はあがります。HTTPの80番ポートへ接続して、コマンドプロンプトを入力することで、動作確認をしながら問題を探していくのです。 この作業中に、表示されるエラーメッセージによってシステム障害が起こっている場所や理由が判断できます。エラーメッセージとともに通信が切断されると、問題はサーバーの設定です。
システムの情報を取得する
サービスの稼働確認までの処理が終わったら、次の作業はtelenetでwebサーバーへログインします。このときに表示されるエラーメッセージでも、システム障害の原因がわかるのでメッセージは慎重に細かく確認していきましょう。 無事にログインができたら、次の作業はシステムの情報を確認しながら障害が起きている部分の探索です。システムのログを確認してエラーログをみつけることで、障害が起きた日時や、原因になったアクセスを確認できます。 システムログとエラーログは、細かく確認していくことが重要です。想像していなかったような意外な問題が判明する場合もあるので、ここは丁寧に作業をしていきましょう。
原因が究明できなかったら
4階層のIPレイヤをチェックしても、システム障害の原因がわからなかった場合には、リブートして様子をみることもひとつの方法です。しかし、システム障害の問題を解決していない状態で再稼働させると、障害が起きる可能性は高くなります。 リブートする前には、データのバックアップをとり、再びシステム障害が起きたときに、移行できる予備機を準備することがおすすめです。
システム障害対応スキルの将来性
システム障害を解決するための「切り分け」は、基本として対象のシステムを把握しておく必要があります。また、そのシステムの仕様だけではなく、どのようなユーザーがどのような環境で利用しているのかをイメージしておくことが大切です。
現代の社会では、業務だけではなく日常生活にもITシステムが導入されています。それに伴い、システム障害も比例して多く発生している状況です。
そして、どのような環境のシステムでも、障害が起きれば「切り分け」を行い、適切な解決を行わなければなりません。
「切り分け」を行えるスキルや経験は、社会におけるどのような場面でも重宝される存在ですので、将来性のあるスキルだと断言できます。特にヘルプデスクなどでの活躍を目指す場合には、重要なスキルです。
まとめ
- 一次切り分けは大まかな問題の把握、二次切り分けは専門的な情報による切り分け
- 一次切り分けにはコミュニケーションスキル・問題解決能力が必要
- 二次切り分けには専門知識が必要
- システム障害対応のスキルはどんな仕事にも活かすことができる
全てがITシステムで動く社会では、障害が起これば迅速に解決する人材が必要不可欠です。そして、障害が起こった時に必要なスキルが「切り分け」です。
IT業界で活躍するには少なからず問題の「切り分け」スキルは必要ですので、一次切り分けや二次切り分けの役割をしっかりと把握することで、ポジションの意味を理解しながら業務を行うことができるはずです。
\ IT転職のプロが無料でサポート! /
あわせて読みたい関連記事
この記事を読んでいる人におすすめの記事