NTTドコモ、PagerDutyで障害対応を迅速化 初動3分に短縮、先回り運用を確立

2026年3月31日18:47|ニュースCaseHUB.News編集部
x
hatebu

 NTTドコモは、インシデント管理の統合プラットフォームとして「PagerDuty」を活用し、複数のサービスとシステムを横断する監視・運用体制を構築した。3月31日、PagerDutyが発表した。導入から5年を経て、顧客影響を未然に防ぐプロアクティブ(先回り型)な運用を実現している。初動時間を数時間から3分へと短縮するなど、DevOps体制の高度化につなげている。

 NTTドコモの情報システム部では、多種多様なサービスの開発・運用を担っている。2020年の導入以前は、複数の監視ツールから月間合計1万件に及ぶアラートが発報されており、不要な通知(ノイズ)の削減が急務となっていた。当時は属人的な連携や深夜の呼び出しも多く、運用効率化と対応負荷の軽減が大きな課題だった。

 PagerDutyの導入にあたっては、AIやルールエンジンを活用して不要なアラートを精査。その結果、月間1万件のアラートを1000件へと大幅に削減し、対応すべき情報の明確化に成功した。また、適切な担当者を自動で呼び出す仕組みにより、初動時間を大幅に短縮。非クリティカルな業務への対応時間を月間40時間削減したことで、外部の監視センターへの業務委託が不要な体制へと変貌を遂げた。

 導入から5年間の継続的な改善により、運用体制はさらに進化している。現在は単一の画面で複数サービスの状況を横断的に俯瞰できるほか、IT部門だけでなくビジネス部門にも通知を飛ばすことで、迅速な情報共有と部門間連携を実現した。また、異常検知から確認、記録に至るプロセスをルール化し、過去の類似事例をナレッジとして蓄積することで、属人化を排除した組織的な運用を確立している。

 特に、通知の緊急度を「アラート(緊急)」と「ワーニング(警告)」に厳密に仕分け、ワーニングの段階で当日中に処置する運用を徹底した。これにより、顧客への影響が顕在化する前に事前に対処できるプロアクティブな仕組みが定着した。

 今後は、AIや自動化技術を活用した次世代の運用を見据える。AIが過去の対応履歴を学習し、原因分析や最適な対応方針の提案を自動で行う環境を目指す。インシデントの検知から特定までは機械に任せ、人間は顧客への案内やビジネスリスクの判断といった高度な意思決定に注力できる体制を構築していく。

 NTTドコモ情報システム部デジタルデザイン担当 担当課長の小林潤氏は、単一画面で複数サービスの状況を俯瞰できるようになったことは非常に大きな成果だと述べている。IT部門とビジネス部門が同じ情報を迅速に把握し連携する体制が整ったという。同担当の大石悠起子氏は、現在は実務担当者が一人で複数のシステムを担当しているが、PagerDutyによって問題把握や課題特定が円滑に回っていると語る。今後はAIの力を借りて、人手を介さないさらに高度な仕組みにしていきたいとしている。

ニュースリリース