フリューは、プリントシール機で撮影した画像を取得・閲覧できるサービス「ピクトリンク」のインフラ運用において、24時間365日の有人監視と障害発生時の迅速な一次対応を提供する「サーバー監視一次対応サービス」を採用した。5月14日、インフラ導入・運用を支援したハートビーツが発表した。これにより、これまで数時間かかるケースのあった障害発生時の初動対応を大幅に短縮し、運用体制の負荷軽減と現場エンジニアの働き方改革につなげた。
フリューは、プリントシール機事業やキャラクター・マーチャンダイジング事業などを展開し、エンタテインメント分野で多彩なサービスを提供している。中核サービスであるピクトリンクのインフラは、AWSとOCIを併用したマルチクラウド構成を採っており、10代から20代を中心に24時間365日利用されている。特にクリスマスや成人式などの時節イベントや学校行事の際には、アクセス数が通常期の約1.5倍から2倍に急増するため、負荷変動に対応できる柔軟なインフラ設計と安定稼働の維持が極めて重要であった。
従来、同サービスはオンプレミス環境で運用しており、24時間365日体制のオペレーターによる監視と障害時の電話連絡体制を敷いていた。しかし、クラウドへの移行に伴い従来の電話通知契約が終了したことで、対応体制に課題が生じた。機械音声による通知では状況の把握が難しく、Slackへの自動通知を採用したものの、アラート通知後の運用フローが定まっていなかった。そのため、障害発生時に誰が対応するかが不明確で初動対応が遅れるだけでなく、特定のメンバーに対応が偏って負担が集中する状況が続いていた。一時期は休日の繁忙時間帯に開発者がローテーションで待機する体制を取っていたが、運用体制の負荷が非常に重く、外部サービスの活用を模索していた。
外部ベンダーの選定にあたっては、コストとサービス品質のバランス、そして機械的な通知ではなく有人監視によって人が電話で直接状況を連絡してくれる点を高く評価し、ハートビーツの採用を決定した。導入時のリスクを抑えるため、当初は3カ月限定という形で依頼を開始し、有人対応の効果を強く実感できたことから継続的な契約に至った。
導入プロセスでは、ハートビーツの提案を受け、監視項目の設定やアラート閾値の見直しを共同で実施した。これらの内容は監視仕様書として整理され、社内での共有資料として活用されている。繁忙期にオートスケールの設定を調整した際にも、監視閾値の変更に対応したとしており、こうしたやり取りを通じて連携体制を構築してきた。
導入後は、障害発生時の初動対応に要する時間の短縮がみられた。ハートビーツはSLO(サービスレベル目標)として10分以内の対応を掲げており、これに沿った運用が行われている。アラート発生時には関連情報も含めて共有されるため、状況把握や対応判断が行いやすくなった。また、一次対応で完結する障害についてはハートビーツ側で対応するケースもあり、現場エンジニアの対応頻度の低減につながっている。これにより、繁忙期に実施していた開発者の待機体制についても見直しが進んだ。
今後は、監視業務に加え、ドメイン管理やアカウント管理など定常的に発生する作業の負荷軽減についても検討を進める予定だ。バージョンアップ対応やライブラリ管理などの領域についても対象とし、運用保守業務の効率化に向けた取り組みを継続する。