← 構成図一覧に戻る

Modern Data Lakehouse on AWS

技術ドメイン収集 Data Lakehouse 生成日: 2026-03-27
Modern Data Lakehouse on AWS
クリックで拡大表示
IaCソースコードを見る

凡例

Batch — CDCバッチレプリケーション
Realtime — ストリーミング取り込み
Governance — メタデータ・アクセス制御

概要

モダンなデータレイクハウスアーキテクチャの参照構成図です。従来のデータレイクとデータウェアハウスの長所を組み合わせ、Medallionアーキテクチャ(Bronze / Silver / Gold)による段階的なデータ品質向上を実現します。

バッチ取り込み(DMS)、ストリーミング取り込み(Kinesis)、ファイルアップロード(Step Functions)の3つの取り込みパターンに対応し、Glue ETL / EMR Spark による処理パイプラインを経て、Athena(アドホック分析)と Redshift Serverless(DWH分析)の両方からデータを活用できます。

データフロー

Batch CDC レプリケーション

On-Prem DB AWS DMS (CDC) S3 Bronze (Raw) Glue ETL S3 Silver (Cleaned) EMR Spark S3 Gold (Aggregated)

Realtime ストリーミング取り込み

Streaming Events Kinesis Data Streams Kinesis Firehose S3 Bronze (Raw) Glue ETL S3 Silver / Gold

Governance メタデータ・アクセス制御

Glue ETL / EMR Glue Data Catalog Lake Formation Athena / Redshift

レイヤー構成

レイヤーAWSサービス用途
データソースOn-Prem DB / Streaming / File Uploadバッチ・ストリーミング・ファイルの3種類の取り込みパターン
取り込み BatchAWS DMSCDC(Change Data Capture)によるDB差分レプリケーション
取り込み RealtimeKinesis Data Streams + Firehoseストリーミングデータのリアルタイム取得とS3配信
取り込み(ファイル)Step Functionsファイルアップロードトリガーによるオーケストレーション
Bronze (Raw)Amazon S3ソースデータをそのまま保持。スキーマオンリード
Silver (Cleaned)Amazon S3データクレンジング・型変換・重複排除後のデータ
Gold (Aggregated)Amazon S3ビジネスロジック適用済み。分析・BI向けに最適化
ETL処理AWS Glue ETL / Amazon EMR (Spark)Bronze→Silver (Glue)、Silver→Gold (EMR Spark) の変換処理
カタログAWS Glue Data Catalogスキーマ管理・テーブル定義・パーティション情報
ガバナンスAWS Lake Formationきめ細かいアクセス制御・列レベルセキュリティ
アドホック分析Amazon AthenaS3上のデータに対するサーバーレスSQLクエリ
DWH分析Amazon Redshift Serverless高性能なDWHクエリ。BI/定期レポート向け
可視化Amazon QuickSightBIダッシュボード、セルフサービス分析

Medallionアーキテクチャとは

Medallionアーキテクチャは、データレイク内のデータを品質レベルに応じて3層(Bronze / Silver / Gold)に整理するデータ管理パターンです。Databricks社が提唱し、現在ではAWSを含む主要クラウドで広く採用されています。

Bronze層: ソースデータをそのまま格納。変換なし。障害時の再処理に対応。

Silver層: クレンジング・正規化・型変換を適用。データ品質を担保。

Gold層: ビジネスロジックを適用し、分析・BI向けに最適化。集計・結合済み。

コスト概算

ap-northeast-1 (東京) リージョン基準の月額概算。実際の費用は利用量により変動します。為替レート: $1 = 150円

サービス構成Dev (月額)Prod (月額)
AWS DMSDB連携$20-40 (3,000-6,000円)$40-80 (6,000-12,000円)
Kinesis Data Streamsストリーミング (1-2 shard)$15-30 (2,250-4,500円)$30-75 (4,500-11,250円)
Kinesis Data FirehoseS3配信$5-15 (750-2,250円)$15-50 (2,250-7,500円)
S3Bronze/Silver/Gold (100-1TB)$3-25 (450-3,750円)$25-100 (3,750-15,000円)
Glue ETLデータ変換 (メダリオン)$10-50 (1,500-7,500円)$50-300 (7,500-45,000円)
EMR大規模バッチ処理$30-80 (4,500-12,000円)$80-300 (12,000-45,000円)
Glue Data Catalogメタデータ$1-3 (150-450円)$3-5 (450-750円)
Lake Formationガバナンス$0 (無料)$0 (無料)
Step FunctionsETLオーケストレーション$1-5 (150-750円)$5-20 (750-3,000円)
Athenaアドホッククエリ$5-20 (750-3,000円)$20-80 (3,000-12,000円)
Redshift ServerlessDWH$50-150 (7,500-22,500円)$200-600 (30,000-90,000円)
QuickSightBI (Author 2名 + Reader 5名)$73 (10,950円)$73-150 (10,950-22,500円)
合計$213-491 (約31,950-73,650円)$541-1,760 (約81,150-264,000円)

前提条件: Dev=100GBサンプルデータ、Prod=1TB想定。メダリオン3層(Bronze/Silver/Gold)でS3ストレージ費用増加。

コスト最適化: S3 Lifecycle Policyで古いBronzeデータをGlacierに移行。EMRはSpot Instancesで最大90%削減。Glue Auto Scalingで必要DPUのみ使用。

設計のポイント

1. Medallionアーキテクチャによるデータ品質の段階的向上
Bronze→Silver→Goldの3層で品質を段階的に上げることで、生データの保全(再処理可能性)と分析品質の両立を実現。各層の責務が明確で運用しやすい。

2. GlueとEMR Sparkの使い分け
Bronze→SilverのクレンジングはマネージドのGlue ETL、Silver→Goldの複雑な集計・結合はEMR Sparkと役割を分離。処理特性に応じたコスト最適化が可能。

3. Lake Formationによるきめ細かいアクセス制御
列レベル・行レベルのセキュリティポリシーを一元管理。部門ごと・ロールごとに参照可能なデータを制御でき、個人情報保護やコンプライアンスに対応。

4. Redshift ServerlessとAthenaのハイブリッド分析
定常的な大量クエリはRedshift Serverless、探索的なアドホック分析はAthenaで処理。Redshiftは使わない時間帯に自動スケールダウンしてコストを削減。

5. 3種類の取り込みパターン対応
バッチ(DMS)・ストリーミング(Kinesis)・ファイルアップロード(Step Functions)の3経路を設計。データソースの多様性に対応し、将来の拡張も容易。

Powered by AWS Diagram MCP Server