CRM(Salesforce等)やERP(SAP等)といったエンタープライズシステムに分散するマスターデータを、MDM(Master Data Management)層で統合・名寄せ・品質管理し、分析基盤でビジネスインサイトを提供するアーキテクチャです。
従来のデータレイクハウスが「データ品質の段階的向上」に焦点を置くのに対し、本構成は「分散エンタープライズシステムのマスターデータ統合」に特化しています。AWS Entity Resolutionによるファジーマッチング名寄せ、Glue Data Qualityによる品質ゲート、Lake Formationによるきめ細かいアクセス制御がMDMの核心層を構成します。
Golden Zone(MDM統合済みデータ)をRedshift ServerlessとAthenaで分析し、QuickSightでBI可視化、Bedrockで生成AIによるインサイト提供まで一気通貫で実現します。
| レイヤー | AWSサービス | 用途 |
|---|---|---|
| データソース | CRM (Salesforce等), ERP (SAP等), Legacy DB | SaaS API連携・CDC・バッチの3パターンで多様なソースに対応 |
| 取り込み SaaS | Amazon AppFlow + EventBridge | SaaSアプリケーションからのイベント・バッチ連携 |
| 取り込み CDC | AWS DMS | ERP/Legacy DBからのCDC差分レプリケーション |
| 取り込みバッファ | Kinesis Data Firehose | ストリーミングデータのS3配信・マイクロバッチ化 |
| Raw Zone | Amazon S3 | ソースデータをそのまま保持。スキーマオンリード |
| Staged Zone | Amazon S3 | クレンジング・正規化済みデータ。名寄せ前の中間層 |
| Golden Zone (MDM) | Amazon S3 | 名寄せ・品質検証済みのマスターデータ。Single Source of Truth |
| 名寄せ | AWS Entity Resolution | ファジーマッチング(Levenshtein/Soundex/Cosine)による顧客・取引先名寄せ |
| 品質管理 | AWS Glue Data Quality | DQDLルールによる品質ゲート(完全性・一意性・正確性) |
| メタデータ | Glue Data Catalog + Lake Formation | スキーマ管理・列/行レベルアクセス制御 |
| オーケストレーション | Step Functions + EventBridge | MDMパイプラインの自動実行・変更イベント通知 |
| 分析 (DWH) | Redshift Serverless | 高性能DWHクエリ。定期レポート・KPI分析 |
| 分析 (アドホック) | Amazon Athena | S3上のデータに対するサーバーレスSQLクエリ |
| 可視化 | Amazon QuickSight | BIダッシュボード。顧客360度ビュー・売上分析 |
| 生成AI | Amazon Bedrock (RAG) | Golden Zoneの業務知識を活用した自然言語インサイト |
| ガバナンス | KMS + CloudWatch + CloudTrail | 暗号化・パイプライン監視・監査ログ |
ap-northeast-1 (東京) リージョン基準の月額概算。実際の費用は利用量により変動します。為替レート: $1 = 150円
| サービス | 構成 | Dev (月額) | Prod (月額) |
|---|---|---|---|
| AppFlow | CRM/SaaS連携 | $1-5 (150-750円) | $5-20 (750-3,000円) |
| EventBridge | イベント統合 | $0-2 (0-300円) | $2-10 (300-1,500円) |
| Kinesis Data Firehose | ストリーム配信 | $5-15 (750-2,250円) | $15-50 (2,250-7,500円) |
| AWS DMS | レガシーDB連携 | $20-40 (3,000-6,000円) | $40-80 (6,000-12,000円) |
| S3 | データレイク | $3-10 (450-1,500円) | $10-50 (1,500-7,500円) |
| Entity Resolution | 名寄せ・マッチング | $10-50 (1,500-7,500円) | $50-200 (7,500-30,000円) |
| Glue Data Quality | 品質チェック | $5-15 (750-2,250円) | $15-50 (2,250-7,500円) |
| Glue Data Catalog | メタデータ | $1-3 (150-450円) | $3-5 (450-750円) |
| Lake Formation | ガバナンス | $0 (無料) | $0 (無料) |
| Redshift Serverless | 分析DWH | $50-150 (7,500-22,500円) | $200-600 (30,000-90,000円) |
| Athena | アドホッククエリ | $5-20 (750-3,000円) | $20-50 (3,000-7,500円) |
| QuickSight | BI | $73 (10,950円) | $73-200 (10,950-30,000円) |
| Bedrock | AI インサイト生成 | $10-50 (1,500-7,500円) | $50-200 (7,500-30,000円) |
| Step Functions | MDMワークフロー | $1-5 (150-750円) | $5-20 (750-3,000円) |
| KMS + CloudWatch | 暗号化 + 監視 | $6-15 (900-2,250円) | $15-30 (2,250-4,500円) |
| 合計 | $190-380 (約28,500-57,000円) | $503-1,565 (約75,450-234,750円) | |
前提条件: Dev=テストデータ50GB・名寄せ10万レコード、Prod=500GB・名寄せ100万レコード。Entity Resolutionは$0.25/1000レコード。
コスト最適化: Entity Resolutionはバッチ実行で頻度を最小化。AppFlowのスケジュール実行を日次に制限。Redshift Serverlessは分析時間帯のみ利用。
1. Entity Resolutionによるインテリジェント名寄せ
CRM(顧客名・メール)とERP(取引先コード・住所)のように、異なるスキーマ・表記ゆれのデータをファジーマッチングで統合。ルールベース(Levenshtein距離、Soundex)とMLベースの2方式を選択可能。従来のETLによる完全一致マッチングでは見逃していた「同一エンティティの異なる表記」を高精度で検出する。
2. Glue Data Qualityによる品質ゲート
DQDL(Data Quality Definition Language)でルールを定義し、名寄せ後のデータがGolden Zoneに入る前に品質検証を実施。完全性(NULLチェック)、一意性(重複排除確認)、正確性(値範囲チェック)の3軸で品質を担保。品質スコアが閾値を下回るとStep Functionsがアラートを発報し、手動確認フローに遷移。
3. Golden Zone = Single Source of Truth
MDMの最終成果物であるGolden Zoneは、組織全体のマスターデータの「唯一の正」として機能。Lake Formationにより部門ごと・ロールごとのアクセス制御を適用し、全分析チャネル(Redshift/Athena/QuickSight/Bedrock)からGolden Zoneを参照。データの一貫性と信頼性を組織横断で保証する。
4. Step Functionsによるパイプラインオーケストレーション
Raw取り込み→クレンジング→名寄せ→品質ゲート→Golden配置の全フェーズをStep Functionsで自動化。各ステップの成功/失敗に応じた分岐処理(リトライ・アラート・手動承認)を定義し、MDMパイプラインの信頼性を確保。EventBridgeでGolden Zone更新時にダウンストリーム(Redshift COPY等)を自動トリガー。
5. Bedrock RAGによる自然言語インサイト
Golden Zoneの統合マスターデータをBedrock Knowledge Baseとして活用。「A社の過去3年の取引推移は?」「解約リスクの高い顧客セグメントは?」といった自然言語クエリに対し、MDMデータに基づいた正確なインサイトを生成AIが提供。SQLが書けないビジネスユーザーにもデータドリブンな意思決定を可能にする。
| 観点 | CRM(Salesforce等) | ERP(SAP等) |
|---|---|---|
| 取り込み方式 | AppFlow SaaS API連携(イベント/バッチ) | DMS CDC(データベース差分同期) |
| 主要エンティティ | 顧客・商談・リード・活動 | 取引先・受注・在庫・会計 |
| 名寄せキー | 顧客名・メール・電話番号 | 取引先コード・法人番号・住所 |
| 更新頻度 | リアルタイム(イベント駆動) | 準リアルタイム(CDC)/ 日次バッチ |
| データ品質課題 | 表記ゆれ・重複登録・不完全データ | コード体系の差異・マルチ通貨・多言語 |
Powered by AWS Diagram MCP Server | Reviewed by AWS Knowledge MCP Server