PLAY、AWSとNew Relic連携でインシデント解析を自動化　初動調査時間を削減

　PLAYは、インシデント対応の自動化と運用負荷の低減を目的に、AWSの生成AIサービス「AWS DevOps Agent」と、New RelicのAI統合プラットフォーム機能「New Relic MCP Server」を連携させた次世代のインシデント対応体制を構築した。6月16日、New Relicが発表した。分断されていたインフラ情報とアプリケーションパフォーマンス情報が統合され、トラブル対応の属人化解消や初動調査時間の大幅な削減を達成した。

　動画配信サービスの開発・運営を手がけるPLAYでは、システムの爆発的な大規模化や複雑化に伴い、インシデント発生時の原因特定に要する時間の増加や、トラブル対応が一部の熟練エンジニアのノウハウに依存する属人化が課題となっていた。また、エラーが発生するたびにSlackへの手動通知や個別ログの確認、GitHubへのIssue起票を毎回手動で行う運用もエンジニアの大きな負担となっていた。さらに、AWS DevOps Agentをそのまま運用する場合、単発メッセージとして新規投稿される仕様によるSlackでの会話スレッドの分断や、類似エラーの連続発生に伴う従量課金コストの増大といった実運用上の懸念もあった。

　そこで同社は、AWS DevOps Agentを中核に据えつつ、前段にSlackやAWS CloudWatchの受け口と類似エラーの重複排除の仕組みを、後段にSlackスレッドへの戻し先制御を自前で組み込んだ全社共通の自動分析基盤を構築した。

　同基盤の導入により、インシデント対応のタスク難易度が低下した。インフラからアプリケーション、ログに至る相関分析がAIによって自動で行われるため、新たに入社した社員がオンボード研修で対応手順を学べるレベルにまで平準化された。これにより、従来は社内で2～3名に限られていた高度な障害対応に参画できるエンジニアの数が4倍以上となる10名以上に拡大した。さらに、インシデントの認知から解決までの時間も短縮され、1件あたり15分ほど要していた初期調査の時間が実質ゼロになる事例も出ている。エンジニアがツール切り替えなどの業務ノイズから解放され、本来注力すべきサービス開発に集中できる環境が整った。

　今後は、自社システムへの機能拡張を進めるとともに、複数プロダクトを横断する共通基盤として全社展開を段階的に増やしていく。アカウント分離による明確なコスト按分により組織運用も最適化し、さらなるアジリティの向上と安定運用の両立を目指す。

ニュースリリース

PLAY、AWSとNew Relic連携でインシデント解析を自動化 初動調査時間を削減

PLAY、AWSとNew Relic連携でインシデント解析を自動化　初動調査時間を削減