繰り返し発生する原因不明の障害の根本原因を特定し、再発を防ぐための管理プロセスのこと
簡単な説明
問題管理ってのは、なんで同じトラブル何回も起きるの?をちゃんと突き止めて、もう起こらないようにする仕組みだよ。
その場しのぎじゃなくて、根本から直そうってやつ。
「またかよ…」ってなる前に、原因見つけて手を打つって感じ!
由来
ITサービスマネジメント(ITSM)の国際標準「ITIL(Information Technology Infrastructure Library)」で定義されているプロセスの1つです。特にITIL v3以降で「インシデント管理」と区別されるようになり、「一時的な対応」ではなく、「根本的な解決」に焦点を当てています。
具体的な説明
問題管理とは、システムやサービスに起こるインシデント(障害)の中から、繰り返し起こるものや重大なものについて、その原因を突き止めて恒久的な対策を取ることを目的としています。
例えば、社内のパソコンが何度もネットに繋がらなくなる場合、その都度再起動して直すだけでは「インシデント対応」でしかありません。
しかし、その原因が特定のルーターの不具合にあることが分かれば、ルーターを交換することで再発を防ぐ=問題管理となります。
問題管理は、ITILのサービスサポートプロセスの1つであり、インシデントの傾向分析(トレンド分析)、既知のエラー(Known Error)の管理、回避策(Workaround)の策定、恒久対策(Permanent Fix)の実施を行います。統計手法(Pareto分析など)や根本原因分析(RCA:Root Cause Analysis)を用いることで、障害の背後にある構造的問題を特定します。
具体的な実験・観察手法と結論
例:ネットワーク障害の分析手法
- 観察:1週間の間に同じ時間帯にネット接続不可の報告が集中
- 実験:該当時間帯にネットワークトラフィックをモニタリング
- 結果:スイッチのファームウェアにバグがあり、特定のログイン処理でフリーズしていた
- 結論:ファームウェアアップデートとスイッチの交換が根本対策となる
例文
「昨日のサーバー停止はインシデントだけど、毎週同じ時間に止まっているなら、それは問題管理で原因を突き止める必要があるね。」
疑問
Q: インシデント管理と問題管理の違いは何ですか?
A: インシデント管理は「今すぐ直すこと」が目的で、問題管理は「もう起きないようにすること」が目的です。
Q: 問題管理では誰が対応するのですか?
A: 通常は、専門の問題管理担当者やシステムエンジニアが対応します。
Q: 問題管理はインシデントがないとできないのですか?
A: 必ずしもそうではありません。事前にリスク分析して潜在的な問題を見つける「プロアクティブ問題管理」もあります。
Q: 問題管理の成果はどうやって測るのですか?
A: 同じインシデントの再発率が減ったか、恒久対策がどれだけ実施されたかで評価します。
Q: 問題管理をしないとどうなりますか?
A: 同じ障害が繰り返し起こり、業務が止まり続けて、コストも信用も失う可能性があります。
Q: 「既知のエラー(Known Error)」とは何ですか?
A: 原因が特定されていて、回避策(Workaround)がある問題のことを「既知のエラー」と呼びます。問題管理の中で記録・共有されます。
Q: 問題管理のプロセスはどの段階で完了しますか?
A: 根本原因を特定し、恒久的な対策が実施され、再発のリスクが下がった段階で完了とされます。
Q: 問題管理において「回避策(Workaround)」とは何ですか?
A: 恒久的な対策が取れるまでの間、影響を最小限に抑えるための一時的な対応方法のことです。
Q: 問題管理はどのような記録を残す必要がありますか?
A: 問題の内容、原因、対応経過、既知のエラー情報、恒久対策の詳細などをドキュメント化して記録します。
理解度を確認する問題
次のうち「問題管理」の目的として最も適切なものはどれか。
A. インシデントの迅速な復旧
B. 障害の再発防止と根本原因の解消
C. システムの利用状況の記録
D. ユーザーからの問い合わせ対応
正解:B
関連論文や参考URL
Root Cause Analysis and Problem Management in ITIL – A Case Study
この論文では、大規模IT企業における問題管理の実践事例が紹介されています。
RCA(根本原因分析)を用いた結果、インシデント数が年間で約40%削減されたという実績があります。
特に既知のエラー管理データベース(KEDB)を使った知識共有が効果的でした。
まとめ
問題管理は、ITシステムで繰り返す障害の根本原因を特定し、再発防止策を実施するプロセスです。
一時しのぎではなく、恒久的な解決を目指します。
インシデント管理と連携し、既知のエラーや回避策も文書化して活用します。


コメント