セガは、ゲーム開発・販売において、ユーザー満足度向上とビジネスリスク軽減のために、Databricksを活用したデータレイクハウスを構築し、AIによるデータ分析基盤を刷新した。ペタバイト級のユーザー行動ログデータを柔軟に分析できるようにし、不正検知やユーザーの声分析を強化している。Databricksの導入で、スケーラブルな実行環境、データパイプラインの自動化を実現、Qlikとの連携で生成AIを迅速に活用できるようにもし、従来のデータ活用環境における課題を克服している。
セガは、家庭用ゲーム機、アーケードゲーム、モバイルゲームなど、幅広いプラットフォームでゲームを開発・販売している。同社は1960年に設立され、長い歴史の中で「ソニック・ザ・ヘッジホッグ」「龍が如く」「ぷよぷよ」といった人気シリーズを生み出してきた。
ゲームを開発し提供するビジネスでは、ユーザーの満足度を向上し、ゲームを継続的にプレイしてもらう必要がある。さらに、不正行為などを早期に発見し、ビジネスリスクを取り除くことも重要となる。これらを実現するにはプレイするユーザーの行動などを分析し、正確な行動予測や異常の検知などをする必要がある。
セガ JA Studios 第2事業本部では、多様なデータを蓄積したデータ基盤を複数運用している。もっとも大規模なのは、モバイルゲームのユーザー行動ログデータを蓄積したものとなる。蓄積されている行動ログのローデータのサイズはペタバイトを超え、レコード数は1兆を超えている。
これまでは、膨大なローデータを蓄積するデータウェアハウスがあり、そこからAmazon Redshiftでデータマートを構築し、BIツールのQlikを用い可視化し、アナリストが統計や機械学習などの手法を用い分析していた。結果は、グラフやレポートなどの形で、社内に共有されていた。
このデータ活用環境は、単純な分析であれば問題なかった。しかし、機械学習などの複雑な分析を行うには、課題もあった。たとえば、アナリストが機械学習で分析するには、ローカルのマシンにPythonなどの分析モデル用意する、あるいはDataRobotなどの分析環境を用いて作業を行う。分先必要なデータをデータマートからローカル環境にダウンロードし、それを使って手元の環境などで分析の試行錯誤を繰り返していた。
このやり方は、データウェアハウスに機械学習環境が統合されていないため、「極めて非効率なものでした」と、セガ 戦略企画部 データエンジニアリングセクション マネージャーの萬 和貴氏は言う。また、各アナリストが利用したいツールをそれぞれ使っているのも、組織としての統一性がなく課題だと感じていた。
課題解決のために、セガでは新たなデータ活用環境を検討した。要件は、膨大なデータを扱うためスケーラブルで高性能な実行環境であること、分析の試行錯誤で何度もトライ&エラーの作業を行うので、処理性能の高いものを求めた。
またアナリストが行う分析の前処理作業の負荷を軽減するために、データパイプラインの自動化、効率化も実現したかった。その上で、モデルを作り調整するために複数モデルを用いて何度も繰り返し行う作業を効率化するために、実験とモデル管理の最適化も実現したかった。
従来の環境では、ビッグデータ活用の自由度が低いのも問題だった。データマートはエンジニアが管理、作成するため、アナリストは自由に欲しいデータのマートを作成できない。そのため、アナリストが新たなデータを取り込んで分析をしたくても、エンジニアに依頼しマートを作成してもらうのでタイムラグが発生する。すぐにデータの欲しいアナリストは、ローデータに直接アクセスすることとなり、それには手間がかかり集計処理も重くコストも嵩んでいた。
これらの課題を解決するため、セガは機械学習環境とデータウェアハウスを統合する形を採用した。そのためにAWSの環境に新たにDatabricksを導入し、レイクハウスを構築したのだ。「Databricksはスケーラブルな実行環境で、データパイプラインの機能もあります。その上で、機械学習のためのさまざまな機能も内包しています」と、萬氏は採用理由を説明する。また、Databricksは既存のQlikにも対応しており、既存のBI環境も継続利用可能で、従来より高い拡張性と処理性能も提供する。
分離していたアナリストが利用する機械学習環境は、Databricksの一つのプラットフォームに統合された。これにより、アナリストはローカルにデータをダウンロードする必要がなくなった。権限を与えられた範囲で自由に集めたデータマートを構築可能となり、欲しいデータを用いたトライ&エラーの作業が可能となったのだ。
また、データレイクから外部のデータ基盤に接続し、データの共有も可能となった。外部の開発会社や他国の拠点で利用しているDatabricksやSnowflake、Google Big Queryなどと連携することで、より多くのデータが活用できる。「いわゆるデータメッシュ構造を実現し、より多くのデータを分析に活用できるようにしました」と萬氏は言う。
セガでは新たなデータ基盤を用いて、不正課金検知プロジェクトを進めている。「不正検知や異常検知は、AI、機械学習と極めて相性が良い」と言うのは、セガ 戦略企画部 ビジネスアナリティクスセクション マネージャーの竹内公紀氏だ。
モバイルゲームなどでは、なりすましや改造したアプリケーションの利用など、さまざまな不正行為がある。これらを放置するとあっと言う間に手法が拡がり、大きなビジネスリスクになりかねない。そのため、早期に不正を検知することは極めて重要となる。
プロジェクトでは、Databricks上で機械学習の技術を活用し、Qlikなどと組み合わせて、ユーザーの不正行為を早期に発見できるようにしている。具体的には、収集したユーザーの行動ログを元にAIで分析し、不正スコアを付与する。不正スコアが高いユーザーをBIツールから異常としてアラートで発信、担当者にアラートの理由を提示し、BIの統計量なども合わせて不正な行動を最終的には人が判断する。
ユーザーの行動ログの莫大なデータ全てを、人間の目で見て判断するのは現実的ではない。AIで特徴的なパターンを見つけることで、未知なる脅威も早期に発見できる。このプロジェクトの取り組みは、既に成果を上げている。2024年8月8日には、セガからゲーム内通貨を詐取したとの容疑で、中国人の男が警視庁に逮捕されたと報道があった。これはユーザーの行動ログを分析した結果明らかになったもので、「取り組みが日の目を見ることになりました」と竹内氏は言う。
もう一つ取り組んでいるのが、生成AIを活用したSNSデータ収集&要約プロジェクトだ。ゲームをプレイしているユーザーが、SNSやアプリストアーなどでさまざまなレビューを投稿している。レビューは、日本語のものだけでなく海外からさまざまな言語でも投稿される。それらをいかに効率的に収集して、ユーザーの意見を集約し次のゲームのアップデートに反映させられるかは、ゲームの人気を維持し向上させるのに極めて重要となっている。
海外のSNSなどを含む多様なレビューを、生成AIを用い効率的に取り込み要約したい。これを実現するために、APIやクローラーでレビュー情報を収集し、罵倒や意味のないレビューは取り除き、投稿数や前日差などを集計、日本語以外は翻訳などの加工を施す。結果をAzure OpenAIに渡して要約し、成形して関係者にメールで配信する。これら収集から配信までの一連の処理は、Qlik Senseを用いて完結されている。
この仕組みは、正確性よりは即時性が求められるものだ。Qlik Senseを用いて一連の仕組みが自動的に実行されることで、日々即時性のある情報が得られている。これにより「ゲームのユーザーにヘイトと呼ぶネガティブな感情が起きていないかを早期に察知し、対策を講じられるようになりました」と竹内氏は評価する。
AIプロジェクトでいきなりビジネス上の成果を得るのは、ハードルが高い。「組織にQlikのようなBIツールを用いて、データの可視化をするような文化がないと、なかなか上手くいきません」と竹内氏。多くの場合、AIの下す判断はすぐに信じられない。まずはデータを用いて説明できるようにし、その後でAIによる自動化へと進めるべきだとアドバイスする。
信頼してもらうには、AIの分析精度も重要だ。人間の判断精度を上回ると、AIの結果を信頼してもらいやすい。そのため精度を上げる工夫が必要だ。これには、AIに関連する知識やスキルだけでなく、対象の業務や課題解決に対するドメイン知識、ビジネス知識が必要となる。セガの場合はデータサイエンティストとゲームに詳しい人の両方がチームにいることで、AIによる分析精度の向上につながっている。「精度向上の作業は、孤独な世界で心が折れることもあります。そのケアをするのも大事です」とも、竹内氏は言う。
今後セガでは、不正検知の対象をさまざまなプラットフォームにも拡げる。また、他部門とも連携しシナジー効果を発揮することも考えている。これらには、前述のようにAIとゲームの両方の知識を持った人材が必要であり、AIを活用するためにチームの多様性を高める必要もある。
データ基盤は、現在利用しているエンタープライズ版のQlik Senseを、Qlik Cloudへマイグレーションすることを検討している。キャパシティベース・サブスクリプションのクラウド版に移行すれば、さまざまな機能が利用でき、新機能もすぐに試せるからだ。
AIのような変化の激しい技術を活用するには、クラウドベースのサブスクリプション型で利用できるほうが、いち早く最新機能を試せるだろう。その上でユーザーライセンスではなく、データ処理量で契約できれば、ユーザー数を無制限にできるのもメリットだ。これらで「ユーザーが新しい機能を使いたいのに使えないを解消したい」と萬氏は言うのだった。