東京ガス、3社一体のDevOpsで挑む信頼性向上 共通言語としての可視化がもたらす組織変革

2026年5月11日09:00|インサイト谷川 耕一
x
hatebu

 首都圏を中心にガスや電気を供給し、約1300万件の契約を抱える国内最大の都市ガス事業者、東京ガス。同社のライフラインを支える重要な入口となっているのが、Web経由での使用開始・停止手続きを担う受付システム「TG-WISP」だ。TG-WISPは一般利用者だけでなく、コールセンターのオペレーターも日常的に利用する止められない業務システムであり、停止は直接、顧客対応の停滞につながる。

 このシステムは、1日平均1万2000人が利用し、引っ越しなどの繁忙期には月間最大300万件のリクエストを処理する。インフラを2022年にMicrosoft Azureへ移行しており、システムが大規模化・複雑化する中、いかに24時間365日の安定稼働と良好なユーザー体験を維持するかが課題となっていた。同社はこの課題に対し、運用を担う東京ガスiネット、開発を担う外部パートナーとともに、3社による共同のDevOps体制を構築。インフラ担当が単なる保守の枠を超えプロダクトの信頼性にどう貢献し、現場の仕事の進め方をどう変えたのか。東京ガスiネットの村山 領氏が、3月12日に開催されたNew Relicの顧客向けイベントで解説した。

20260507_TokyoGas1.png
東京ガスiネット DXスペシャリスト部 兼 オープンインフラユニット 村山 領氏

インフラチームがサーバー構築の枠を超えて仲間になるまで

 東京ガスの「TG-WISP」は、単なるWeb受付にとどまらず、顧客との接点を担う重要な中核システムとして高い信頼性が求められる。近年、同システムがAzure上でのクラウドネイティブな構成へと舵を切ったことに伴い、インフラを担う東京ガスiネットのチームには、従来とは異なるスピード感と柔軟性が求められるようになった。

 しかし当初は、同社インフラチームの立ち位置は依然として「サーバー構築チーム」で、対象領域は仮想マシンなどのプロビジョニング周辺に限定されていた。村山氏は当時、インフラ担当が「サーバーの構築と保守」という狭い領域に閉じこもっていては、システム全体の信頼性向上に貢献できないという課題認識を持っていた。そのため、システムの信頼性を機能的に高めるための第一歩として、たとえば後から参画したインフラチームメンバーがいかに早くプロダクト開発の仲間として認められ、連携できる関係性を築けるかを重視した。そのために村山氏が徹底したのが、技術的な貢献だけでなく、コミュニケーションのあり方を変えることだった。

 まず村山氏が掲げたのが「他者に対する『べき論』の禁止」だ。「根拠の説明をサボる時に出がちな言葉だからこそ、しっかり理由や根拠を説明して理解してもらう」という姿勢を重視した。さらに「よろしいですか?」と相手に判断を委ねる発言も禁止した。自ら貢献の可能性を減らさないよう、極力自責で「このようにします」と提案するスタイルを貫いた。同時に、IaC(Infrastructure as Code)を全面的に採用してインフラをコードでコントロールできるようにし、プロダクトへの貢献姿勢を具体的に示すことで、徐々に信頼を得ていった。

インフラからUXまで一元監視できることと料金体系が採用の決め手

 インフラチームがプロダクトの信頼性向上に貢献するには、インフラをコードでコントロールするだけでなく、システムが実際にどう動いているかという「動作」を正しく理解する必要があった。しかし、従来の彼らの監視領域は仮想マシン(VM)周辺にとどまっており、複雑化するシステム全体の挙動を把握するには限界があった。そこで、システム全体の動きを一つの画面で追いかけるために導入したのが、オブザーバビリティプラットフォームのNew Relicだ。

 製品の選定にあたっては、インフラリソースの負荷状況からアプリケーションの処理状況、ユーザーの操作ログまでを単一のプラットフォームで確認できる点が評価された。また、機能ごとの課金ではない料金体系も採用の決め手となった。これにより、将来的な機能拡張の際もコスト増を過度に気にすることなく、必要な機能を順次追加し、その有効性を検証できるようになった。

 さらに、東京ガスが進めていたIaCツールとの親和性の高さも重視された。ダッシュボードのテンプレートを他システムへ容易に横展開できる点や、観測結果が視覚的に分かりやすく、誰が見ても直感的に状況を把握可能なグラフィカルな表示能力も採用を後押しした。村山氏は「自分たちの課題に対し、必要な機能を一つずつ試していける点が、チームのやり方に合っていました」と、導入当時を振り返る。

共通言語としてのNew Relicが変えた3社の意思決定スピード

 New Relicの導入効果が表れたのは、TG-WISPをリリースした直後の繁忙期だった。予期せぬトラブルに見舞われた際、New Relicによりインフラの負荷状況からアプリケーションの処理状況まで、システム全体の動きをフルスタックで可視化できた。そのことが、原因の切り分けと復旧方針の判断を助け、トラブルがより深刻な事態に陥ることを防いだ。こうした可視化と迅速な対応の実績は、プロダクトオーナー側にも稼働に対する大きな安心感をもたらしている。

 また、転機となったのが、東京ガス、東京ガスiネット、外部パートナーの3社が、同じダッシュボードを「共通言語」として活用し始めたことだ。従来、問題発生時の対応方針決定には3時間程度を要していたが、TG-WISPの本番稼働直後の繁忙期には、3社の担当者が全員でNew Relicのダッシュボードを見ながらオンラインで集まり、対応方針を決めるスタイルに変更した。

 その結果、従来3時間ほど要していた問題発生時の対応方針決定が、おおむね30分程度で済むようになった。意思決定スピードは6倍に向上し、エラー1件あたりの調査時間も従来の10分の1に短縮された。さらに、トレースIDによる処理の可視化で、インフラ担当者もソースコードを読まずにアプリケーション側のボトルネックを指摘できるようになり、従来の役割分担を越えた連携が生まれた。

データが育むプロアクティブな文化と全社への横展開

 可視化により変わったのは、障害対応のスピードだけではない。東京ガスiネットでは、復旧後に「ポストモーテム(事後検証)」を作成している。これは、障害の根本原因を客観的に振り返り、個人を責めるのではなく仕組みの改善に繋げるための文書だ。村山氏は、このプロセスを続けることで、原因追及ではなく仕組みの改善に目を向ける「Blamelessな文化(責任追及を前提にしない姿勢)」を定着させたいと話す。

 障害を単なる失敗ではなく「学習の機会」と捉え、プロダクトチーム全体で課題を共有するプロセスを定着させる。これにより、場当たり的な対応ではなく、データに基づいた再発防止策を打つことが可能になった。また、リソースの消費状況が正確に見えることで、根拠に基づいた最適化がしやすくなり、クラウドリソースの過剰な確保を避けやすくなった。その結果、コストの抑制にもつながっている。

 TG-WISPでの成功モデルをベースに、東京ガスではNew Relicの活用範囲を他のシステムにも拡大し始めている。全社展開にあたっては、単にツールを導入するだけでなく「監視=アラート通知」という従来の認知を、ダッシュボードを見て自律的に判断し改善する「観測」の文化へと変えていこうとしている。

AI時代の運用チームに求められる「判断」と「データ」

 村山氏は、運用現場でAIの活用が進むほど、最後に判断する人間側の役割はむしろ重くなると見ている。定型的な検知や一次対応の一部をAIに任せることができても、「どこまでを許容し、どこから手を打つか」は人間が決める必要があるからだ。その判断のよりどころになるのが、観測によって蓄積された正確なデータだ。

20260507_TokyoGas2.png

 「AI時代の人間には、判断できる責任と、そのための能力が必要になります。そこではデータが非常に大事です」と村山氏は強調する。今後は収集したデータをさらに活用し、トラブルの予兆を検知して障害を未然に防ぐ「プロアクティブな対応」の実現を追求していく。インフラ担当から始まった信頼性向上の取り組みは、データを共通の土台とするDevOps体制へと広がりつつある。