モダンなデータレイクハウスアーキテクチャの参照構成図です。従来のデータレイクとデータウェアハウスの長所を組み合わせ、Medallionアーキテクチャ(Bronze / Silver / Gold)による段階的なデータ品質向上を実現します。
バッチ取り込み(DMS)、ストリーミング取り込み(Kinesis)、ファイルアップロード(Step Functions)の3つの取り込みパターンに対応し、Glue ETL / EMR Spark による処理パイプラインを経て、Athena(アドホック分析)と Redshift Serverless(DWH分析)の両方からデータを活用できます。
| レイヤー | AWSサービス | 用途 |
|---|---|---|
| データソース | On-Prem DB / Streaming / File Upload | バッチ・ストリーミング・ファイルの3種類の取り込みパターン |
| 取り込み Batch | AWS DMS | CDC(Change Data Capture)によるDB差分レプリケーション |
| 取り込み Realtime | Kinesis Data Streams + Firehose | ストリーミングデータのリアルタイム取得とS3配信 |
| 取り込み(ファイル) | Step Functions | ファイルアップロードトリガーによるオーケストレーション |
| Bronze (Raw) | Amazon S3 | ソースデータをそのまま保持。スキーマオンリード |
| Silver (Cleaned) | Amazon S3 | データクレンジング・型変換・重複排除後のデータ |
| Gold (Aggregated) | Amazon S3 | ビジネスロジック適用済み。分析・BI向けに最適化 |
| ETL処理 | AWS Glue ETL / Amazon EMR (Spark) | Bronze→Silver (Glue)、Silver→Gold (EMR Spark) の変換処理 |
| カタログ | AWS Glue Data Catalog | スキーマ管理・テーブル定義・パーティション情報 |
| ガバナンス | AWS Lake Formation | きめ細かいアクセス制御・列レベルセキュリティ |
| アドホック分析 | Amazon Athena | S3上のデータに対するサーバーレスSQLクエリ |
| DWH分析 | Amazon Redshift Serverless | 高性能なDWHクエリ。BI/定期レポート向け |
| 可視化 | Amazon QuickSight | BIダッシュボード、セルフサービス分析 |
Medallionアーキテクチャは、データレイク内のデータを品質レベルに応じて3層(Bronze / Silver / Gold)に整理するデータ管理パターンです。Databricks社が提唱し、現在ではAWSを含む主要クラウドで広く採用されています。
Bronze層: ソースデータをそのまま格納。変換なし。障害時の再処理に対応。
Silver層: クレンジング・正規化・型変換を適用。データ品質を担保。
Gold層: ビジネスロジックを適用し、分析・BI向けに最適化。集計・結合済み。
ap-northeast-1 (東京) リージョン基準の月額概算。実際の費用は利用量により変動します。為替レート: $1 = 150円
| サービス | 構成 | Dev (月額) | Prod (月額) |
|---|---|---|---|
| AWS DMS | DB連携 | $20-40 (3,000-6,000円) | $40-80 (6,000-12,000円) |
| Kinesis Data Streams | ストリーミング (1-2 shard) | $15-30 (2,250-4,500円) | $30-75 (4,500-11,250円) |
| Kinesis Data Firehose | S3配信 | $5-15 (750-2,250円) | $15-50 (2,250-7,500円) |
| S3 | Bronze/Silver/Gold (100-1TB) | $3-25 (450-3,750円) | $25-100 (3,750-15,000円) |
| Glue ETL | データ変換 (メダリオン) | $10-50 (1,500-7,500円) | $50-300 (7,500-45,000円) |
| EMR | 大規模バッチ処理 | $30-80 (4,500-12,000円) | $80-300 (12,000-45,000円) |
| Glue Data Catalog | メタデータ | $1-3 (150-450円) | $3-5 (450-750円) |
| Lake Formation | ガバナンス | $0 (無料) | $0 (無料) |
| Step Functions | ETLオーケストレーション | $1-5 (150-750円) | $5-20 (750-3,000円) |
| Athena | アドホッククエリ | $5-20 (750-3,000円) | $20-80 (3,000-12,000円) |
| Redshift Serverless | DWH | $50-150 (7,500-22,500円) | $200-600 (30,000-90,000円) |
| QuickSight | BI (Author 2名 + Reader 5名) | $73 (10,950円) | $73-150 (10,950-22,500円) |
| 合計 | $213-491 (約31,950-73,650円) | $541-1,760 (約81,150-264,000円) | |
前提条件: Dev=100GBサンプルデータ、Prod=1TB想定。メダリオン3層(Bronze/Silver/Gold)でS3ストレージ費用増加。
コスト最適化: S3 Lifecycle Policyで古いBronzeデータをGlacierに移行。EMRはSpot Instancesで最大90%削減。Glue Auto Scalingで必要DPUのみ使用。
1. Medallionアーキテクチャによるデータ品質の段階的向上
Bronze→Silver→Goldの3層で品質を段階的に上げることで、生データの保全(再処理可能性)と分析品質の両立を実現。各層の責務が明確で運用しやすい。
2. GlueとEMR Sparkの使い分け
Bronze→SilverのクレンジングはマネージドのGlue ETL、Silver→Goldの複雑な集計・結合はEMR Sparkと役割を分離。処理特性に応じたコスト最適化が可能。
3. Lake Formationによるきめ細かいアクセス制御
列レベル・行レベルのセキュリティポリシーを一元管理。部門ごと・ロールごとに参照可能なデータを制御でき、個人情報保護やコンプライアンスに対応。
4. Redshift ServerlessとAthenaのハイブリッド分析
定常的な大量クエリはRedshift Serverless、探索的なアドホック分析はAthenaで処理。Redshiftは使わない時間帯に自動スケールダウンしてコストを削減。
5. 3種類の取り込みパターン対応
バッチ(DMS)・ストリーミング(Kinesis)・ファイルアップロード(Step Functions)の3経路を設計。データソースの多様性に対応し、将来の拡張も容易。
Powered by AWS Diagram MCP Server