駆け込み特需にSREチームはどう備える? 「ふるさとチョイス」安定運用の裏側

2025年9月30日10:00|インサイト本多 和幸
x
hatebu

 全国各地域の手軽な応援手段として定着した感があるふるさと納税。制度のインフラとも言える仲介サイトには、年末にアクセスが集中するという特有の課題がある。今年10月からは仲介サイトによるポイント還元が禁止されるため、9月末に駆け込みの寄付が急増するというイレギュラーな「特需」も発生しており、サービスの安定運用の難易度が高まっている。老舗のふるさと納税サイト「ふるさとチョイス」を運営するトラストバンクは、こうした課題への対応策として、オブザーバビリティプラットフォーム「New Relic」を5年前に導入。システムの安定性や信頼性を高める取り組みの基盤として活用している。SRE(Site Reliability Engineering)チームが中心となり、障害の予兆検知や調査時間の大幅な短縮といった成果を上げるだけでなく、近年では開発チームを巻き込んだDevOps文化の醸成にも挑んでいる。

12月のトラフィックは上半期単月平均の5倍 安定運用が最重要課題に

 トラストバンクは2012年9月、国内初のふるさと納税総合サイトとして、ふるさとチョイスを開設した。2024年10月時点の利用自治体は全国の約95%にあたる1700以上、返礼品数は76万点を超える。掲載自治体数、返礼品数とも最大(2024年10月時点、JMRO調べ)で、多くの利用者に支持されている。

 ふるさと納税サイトのシステムは、ECサイトのように返礼品を検索・選択する機能に加え、確定申告に必要な書類を適切に発行する仕組みなどを備える。トラストバンク チョイス事業本部プロダクト統括部プロダクト開発部 SREグループ マネージャーの幸松喜郎氏は「検索が一番使われる機能で、地域から探す、返礼品から探すなどいろいろなパターンがありますが、そこからいかに適切に動線を引いてユーザーが望む結果に導けるかがポイントです。UI/UXを最重視しています」と話す。

20250930_trustbank2.png
トラストバンク チョイス事業本部プロダクト統括部プロダクト開発部SREグループ マネージャーの幸松喜郎氏

 システムの運用面でもふるさと納税サイトには明確な特徴がある。1年の特定の時期、通常であれば年末にアクセスが集中することだ。そこでいかにサービスを止めずに安定稼働させるかが最重要課題となる。「私もシステム運用の経験は長いのですが、トラストバンクに入社して、年末のトラフィックの上がり方には本当にびっくりしました」と幸松氏は語る。12月のトラフィックは上半期の単月平均比で約5倍にも達する。こうした年末に向けての準備に加え、2025年は9月末にふるさと納税サイトでのポイント付与が終了するため、駆け込み需要も重なり、安定運用への備えは例年以上に複雑化している。

SRE活動で5年間使いこんだNew Relic、コストを予測しやすい料金体系も評価

 幸松氏が率いるSREグループは、文字通りふるさとチョイスの信頼性を維持・向上させるSRE(Site Reliability Engineering)活動をけん引するチームだ。「信頼性に関わるコトをDev/Biz/その他関係者と一緒に考え、備え、守り、改善し続ける」というミッションを掲げている。

「平たく言うと、運用、保守はもちろん、サイトの信頼性に関わることは何でもやるということです」と幸松氏。より具体的な活動内容については、「サイトの機能を拡充するにつれ、積み上げてきたものが思わぬシステム上の負荷につながり、パフォーマンスが落ちたり、障害につながったりすることがあります。(SREグループは)監視もしますし、異常を見つけたら開発にフィードバックもして、改善をうまく回しながらサイトの信頼性を向上させることが重要。インフラの新規環境構築はSREが担当しているのですが、インフラだけでなく、(サービス/アプリケーション)開発の知識も必要です」と説明する。

 こうしたSRE活動の要として同社が5年前から使いこんできたのが、New Relicだ。幸松氏はNew Relicを使い続ける理由を「障害が発生したときにいかに早くボトルネック、原因を見つけて、いかに早く復旧できるかという観点で有効だから。これに尽きます」と語る。

「ふるさとチョイスは業界最多の14種類の決済手段を用意しており、外部サービスとの連携が非常に多いのですが、New Relicを使えばサービス全体を俯瞰して問題がある箇所を即座に特定できます。パフォーマンス低下の原因が外部サービスとの通信にあるのか、データベースにあるのかなどを迅速に切り分けられ、深掘りも簡単にできます。SLO(サービスレベル目標)、SLI(サービスレベル指標)の可視化という点でも、複雑な条件をシンプルに設定でき、ユーザーから見たサービス品質をリアルタイムに把握できるのは大きなポイントです」(幸松氏)

20250930_trustbank3.png
SLO/SLIダッシュボードのイメージ

 さらに、トラストバンクのような時期によって需要の偏りがあるビジネスモデルでは、New Relicの料金体系も大きなメリットだという。New Relicは基本的に、3カ月単位で利用状況(ユーザー数や取り込むデータ量)が契約の範囲内か確認し、3カ月以上超過が続いた場合はベンダーとユーザーで追加購入するか利用量を調整するかを協議する「True Up Model」という料金体系を採用している。「一般的な課金体系では、契約したデータ量を超過したらその分は即座に自動請求されますので、ピーク時に利用データ量が急増した場合、想定外の請求が発生する可能性があります。New Relicの料金体系は状況に応じて柔軟にスケールアウトでき、無駄なコストがかからず、コストの予測もしやすい」と幸松氏は評価する。

調査時間は3分の1以下に 駆け込み需要を乗り切るリアルタイム監視

 New Relicの具体的な用途は、大きく二つ。一つは、障害発生やパフォーマンス低下後の対応だ。アラートを起点に調査を開始し、迅速な復旧につなげる。「導入前は担当者が一台一台サーバーにSSH接続でログインし、コマンドを叩いてログを追っていました。現在はNew Relicの画面上で調査がほぼ完結するため、体感では30分かかっていた調査が3分の1以下の時間で済むようになっています」(幸松氏)

 もう一つが、トラブルを未然に防ぐための予防的な取り組みだ。SREと開発メンバーが定期的に集まり、SLO/SLIの推移やエラー発生率などを定点観測する「パフォーマンス計測会(パフォ会)」を実施。これを通じて、パフォーマンスが徐々に悪化しているといった障害の予兆を発見し、プロアクティブな対策につなげている。

 こうした日々の活用は、目前に迫った9月末の駆け込み需要への対策にも直結している。同社のふるさとチョイスのインフラを2025年7月にAWSへ移行しており、今回は移行後初の大規模な繁忙期だ。インフラの柔軟なスケールは可能になったものの、何が起こるか予測しづらい面もある。幸松氏は「New RelicとAWSのモニタリング機能を併用し、エラーがどれくらい増えたか、機能が遅くなったかというのをリアルタイムで見て必要な準備を進めています。人間による監視では気づけないような示唆が得られることもあります」と話す。万全の体制で備えている手応えがあるようだ。

理想は「SRE専門チームがなくなる」こと  開発チームと一体で目指すDevOpsの強化

 SREグループは現在、開発チームに対するNew Relic普及プロジェクトも進めている。「SRE専門チームがなくなることが理想」(幸松氏)であり、開発チーム自身がサービスの信頼性に責任を持つDevOpsの体制構築を見据える。ただし、機能開発のスピードや量を重視する開発チームと、安定性や信頼性を重視するSREチームとではKPIの方向性が異なるという難しさもある。幸松氏は「サービスの安定性を高めることが、結果的に手戻りを減らし、ビジネス側のスピード感に対応した開発生産性の向上やリリースサイクルの短縮につながります」と強調する。こうした考え方を、開発チームのマネージャーと対話しながら浸透させようとしている。

 前述のパフォ会は、その具体的な取り組みの一つでもある。最初はSRE主体で始まったが、今では開発チームのメンバーも参加している。SRE活動に対する開発チームの関心やスキル・ノウハウも着実に高まっているという。「ツールという『武器』は揃ってきていますので、今後はそれを組織全体で使いこなすための『文化』を醸成していくことが重要な課題です」(幸松氏)