「データレイク」とは
データレイク(Data Lake)とは、POS売上データ、顧客データ、Webアクセスログ、カメラ映像、SNS投稿など、形式の異なるあらゆるデータを加工せずそのまま蓄積する大規模データ基盤です。「湖(Lake)」の名の通り、さまざまな「水源(データソース)」から流れ込むデータを一か所に集めるイメージです。
従来のデータウェアハウス(DWH)は、用途に合わせてデータを整理・加工してから格納する「きれいに整頓された倉庫」でした。データレイクは、まず生データをそのまま溜め、必要なときに目的に応じて取り出して分析する考え方です。ビッグデータの時代に、あらかじめ用途を限定せずにデータを残しておくことの価値が認識され、データレイクの概念が広まりました。
「データレイク」の重要性
多様なデータソースの統合
小売業が扱うデータは年々多様化しています。POSデータ、ID-POSデータ、ECの閲覧・購買ログ、アプリの行動ログ、店舗カメラの映像データ、天候データ、SNSの口コミなど、形式もサイズもバラバラのデータを一元的に蓄積できるのがデータレイクの利点です。スーパーマーケット(SM)やドラッグストア(DgS)のように、実店舗とECの両チャネルを持つ企業では、チャネル横断のデータ統合基盤としてデータレイクが機能します。
「今は使い道がわからないデータ」の保全
データウェアハウスでは、分析目的を先に決めてからデータを整形して格納します。データレイクは目的を決めずに生データを残すため、後から新しい分析テーマが生まれたときにも過去のデータを遡って活用できます。AIや機械学習の技術が進歩すれば、現時点では価値がわからないデータから将来発見が生まれる可能性があります。
データドリブン経営の土台
経営判断をデータに基づいて行うデータドリブン経営を目指す企業にとって、データレイクは分析基盤の土台です。部門やシステムごとにデータがサイロ化(分断)されている状態では、全社的な分析が困難です。データレイクにすべてのデータを集約することで、部門を横断した分析が可能になります。
「データレイク」とIT活用
データ基盤の3層構造を理解する
小売DXのデータ基盤は、大きく3つの層で設計します。料理にたとえると、冷蔵庫→キッチン→テーブルの関係です。
第1層:データレイク(冷蔵庫) — 生データをとにかく全部入れておく場所です。POSログ、画像、IoTセンサーなど、形式を問わず蓄積します。「いつか使うかもしれない」データも捨てずに残せます。代表的な製品はAWSのAmazon S3、Google CloudのCloud Storage、AzureのData Lake Storage Gen2です。
第2層:CDP/DWH(キッチン) — 生データを洗い、切り、味付けする場所です。CDP(顧客データ基盤)やDWH(データウェアハウス)がこの役割を担います。バラバラだった顧客データをID統合し、分析可能な状態に整えます。代表的な製品はAWSのAmazon Redshift、Google CloudのBigQuery、AzureのSynapse Analyticsです。
第3層:データマート(テーブル) — 「店舗別日次売上」「カテゴリ別粗利」など、部門や用途ごとに盛り付けた完成品です。現場の担当者がBIツール(グラフや帳票を作るソフト)で直接見る層です。Redshiftのスキーマ分割やBigQueryのデータセット分割でマートを構成するほか、Looker・Power BIなどのBIツール側で仮想的にマートを作る方法もあります。
この3層をきちんと分けて設計すると、「誰が・何のために・どのデータを使うか」が明確になり、データスワンプ(沼)化を防げます。
クラウド製品の選び方
主要クラウド3社(AWS、Google Cloud、Azure)はそれぞれ3層すべてに製品を提供しています。小売業の実務では、以下の視点で選ぶのが実用的です。
Google Cloud — データレイクにCloud Storage、CDP/DWHにBigQuery、データマートにBigQueryデータセット分割+Lookerという構成です。EC併設型でデータ量が急増している企業に向いています。BigQueryは使った分だけ課金されるサーバーレス型で、小さく始めて大きく育てやすいのが特徴です。SQLだけでAI予測モデルを構築できるBigQuery MLは、需要予測や顧客分析に直結します。小売業のCDP基盤としてBigQueryを採用するケースが増えており、顧客の購買履歴を階層的に表現できるデータ構造が購買分析に適しています。
AWS — データレイクにAmazon S3、CDP/DWHにAmazon Redshift、データマートにRedshiftスキーマ分割+Amazon Athenaという構成です。すでにEC基盤をAWS上に構築している企業に向いています。S3からRedshift、AI活用(SageMaker)まで同じクラウド内で完結でき、連携の手間が少ないのが利点です。
Azure — データレイクにData Lake Storage Gen2、CDP/DWHにSynapse Analytics、データマートにSynapse Serverless+Power BIという構成です。Microsoft 365やDynamics 365を業務基盤とする企業に向いています。ExcelやTeamsと同じMicrosoft製品であるPower BIとの連携が強く、現場スタッフがセルフサービスでデータを分析しやすい環境を作れます。
ただし、「どの製品を選ぶか」より「3層の役割分担と命名ルールをどう設計するか」が成否を分けます。製品はあくまで道具です。自社のデータの流れを整理し、誰がどの層を使うのかを先に決めることが重要です。
データスワンプ化の回避
データレイクの課題として「データスワンプ(沼)化」があります。管理ルールなしにデータを投入し続けると、何のデータがどこにあるか誰にもわからない沼のような状態になります。メタデータ(データの説明情報)の付与、データカタログの整備、アクセス権限の設計など、データガバナンスの仕組みを導入時から組み込むことが重要です。
まとめ
データレイクは、小売業が持つ多様なデータを一元的に蓄積し、将来の分析に備える基盤です。データレイク→CDP/DWH→データマートの3層構造を意識して設計することで、現場が使えるデータ基盤になります。クラウドサービスの普及で導入のハードルは下がっていますが、製品選定よりも3層の役割分担とガバナンス設計が成否を分けます。まずは自社のデータがどこにどのような形式で散在しているかを棚卸しするところから始めてください。
関連用語:
