← 構成図一覧に戻る

Data Fabric Architecture on AWS

技術ドメイン収集 Data Fabric 生成日: 2026-03-28
Data Fabric Architecture on AWS
クリックで拡大表示
IaCソースコードを見る

凡例

Batch — オンプレミス/RDS → データレイク
Realtime — ストリーミング取り込み
API — SaaS/外部連携
Metadata — データファブリック層(自動検出・ガバナンス)

概要

データファブリックは、組織内に分散する多様なデータソース(オンプレミスDB、クラウドDB、SaaS、ストリーミング)を統合的に管理し、セルフサービスでデータアクセスを提供するアーキテクチャパターンです。

従来のデータレイクハウス(Medallionアーキテクチャ)が「データの品質層を段階的に上げる」ことに焦点を置くのに対し、データファブリックは「分散データソースを横断的に発見・統合・ガバナンスする」ことに重点を置いています。AWS Glue Data Catalog + Lake Formation + Glue Crawlers がファブリックの核心層(Active Metadata Layer)を構成し、Neptune によるナレッジグラフがメタデータ間の関係性を可視化します。

データフロー

Batch オンプレミス / RDS → データレイク

Legacy DB / RDS AWS DMS (CDC) S3 Raw Zone Glue ETL S3 Curated Zone S3 Enriched Zone

Realtime ストリーミングデータ取り込み

Kinesis Data Streams Kinesis Firehose S3 Raw Zone

API SaaS / 外部連携

SaaS APIs AppFlow / EventBridge S3 Raw Zone

Metadata データファブリック層(自動検出 → ガバナンス)

S3 全ゾーン Glue Crawlers (自動検出) Glue Data Catalog Lake Formation (アクセス制御) Athena / Redshift / EMR

Knowledge ナレッジグラフ構築

Enriched Zone Comprehend (NLP) Neptune (Knowledge Graph)

レイヤー構成

レイヤーAWSサービス用途
データソースOn-Prem DB, RDS, DynamoDB, SaaS APIs, Kinesisバッチ・ストリーミング・API連携の3パターンで多様なソースに対応
取り込み BatchAWS DMS, Glue ETLCDC レプリケーション、バッチ変換・クレンジング
取り込み RealtimeKinesis Data Streams + Firehoseストリーミングデータのリアルタイム取得と S3 配信
取り込み APIAppFlow / EventBridgeSaaS アプリケーションとのイベント連携
統合データレイクAmazon S3 (Raw / Curated / Enriched)3ゾーン構成でデータ品質を段階管理
メタデータ & ガバナンス
(Data Fabric Core)
Glue Crawlers, Glue Data Catalog, Lake Formationスキーマ自動検出、統合メタデータ管理、列/行レベルアクセス制御
データ処理Athena (フェデレーテッドクエリ), Redshift Serverless, EMRSQL分析、DWHクエリ、Spark分散処理
ナレッジ & AINeptune, Comprehend, SageMakerナレッジグラフ、NLPエンティティ抽出、ML モデル
セルフサービス消費QuickSight, API Gateway, SageMaker NotebookBIダッシュボード、データAPI、探索的分析
監視CloudWatchETLジョブ・処理エンジンのメトリクス・ログ

コスト概算

ap-northeast-1 (東京) リージョン基準の月額概算。実際の費用は利用量により変動します。為替レート: $1 = 150円

サービス構成Dev (月額)Prod (月額)
AWS DMSDB連携$20-40 (3,000-6,000円)$40-80 (6,000-12,000円)
Kinesis Data Streamsストリーミング (2-4 shard)$30-60 (4,500-9,000円)$60-150 (9,000-22,500円)
Kinesis Data FirehoseS3配信$5-15 (750-2,250円)$15-60 (2,250-9,000円)
AppFlowSaaS連携$1-5 (150-750円)$5-20 (750-3,000円)
EventBridgeイベント統合$0-2 (0-300円)$2-10 (300-1,500円)
S3データレイク (500GB-2TB)$12-50 (1,800-7,500円)$50-200 (7,500-30,000円)
Glue ETL + Crawlersデータ変換・カタログ化$15-60 (2,250-9,000円)$60-300 (9,000-45,000円)
Lake Formationガバナンス$0 (無料)$0 (無料)
Athenaデータ仮想化クエリ$5-30 (750-4,500円)$30-100 (4,500-15,000円)
Redshift ServerlessDWH$50-150 (7,500-22,500円)$200-600 (30,000-90,000円)
EMR大規模バッチ$30-80 (4,500-12,000円)$80-300 (12,000-45,000円)
Neptuneナレッジグラフ$50-100 (7,500-15,000円)$100-300 (15,000-45,000円)
ComprehendNLP処理$10-30 (1,500-4,500円)$30-100 (4,500-15,000円)
SageMakerML推論$50-100 (7,500-15,000円)$100-300 (15,000-45,000円)
API GatewayデータサービスAPI$3-10 (450-1,500円)$10-30 (1,500-4,500円)
CloudWatch監視$10-20 (1,500-3,000円)$20-40 (3,000-6,000円)
合計$291-752 (約43,650-112,800円)$802-2,590 (約120,300-388,500円)

前提条件: Dev=500GBテストデータ、Prod=2TB。複数データソース(RDB/NoSQL/SaaS/ストリーム)の統合。Neptuneはdb.r5.large想定。

コスト最適化: EMR SpotインスタンスでETLバッチコスト90%削減。S3 Lifecycle PolicyでCold→Glacier移行。Athena Federated Queryで不要なデータコピーを削減。Neptune最小インスタンスで開始し需要に応じてスケール。

設計のポイント

1. Active Metadata Layer がファブリックの核心
Glue Crawlers が S3 全ゾーンを自動スキャンしてスキーマを検出、Glue Data Catalog に統合メタデータとして登録。Lake Formation がカタログ全体のアクセス制御を一元管理する。この3層がデータファブリックの「織物(fabric)」の役割を果たし、分散データを論理的に統合する。

2. フェデレーテッドクエリによるデータ仮想化
Athena のフェデレーテッドクエリにより、S3・Redshift・外部DBを物理的に移動せず横断的にSQLクエリが可能。データの実体はソースに残したまま、仮想的に統合アクセスを実現する。

3. Neptune ナレッジグラフによるメタデータの関係性可視化
Glue Data Catalog のメタデータと Comprehend の NLP エンティティ抽出結果を Neptune に投入し、テーブル間・エンティティ間の関係性をグラフで管理する。データリネージの追跡やインパクト分析が可能になる。

4. 3取り込みパターンによるソース多様性対応
バッチ(DMS/Glue ETL)、ストリーミング(Kinesis)、API連携(AppFlow/EventBridge)の3経路を設計。オンプレミスDB・クラウドDB・SaaS・IoTデバイスなど、あらゆるデータソースに対応。新規ソース追加時も取り込み層の拡張のみで対応可能。

5. セルフサービスによるデータ民主化
QuickSight(BI)、API Gateway(プログラマティックアクセス)、SageMaker Notebook(データサイエンティスト向け)の3消費チャネルを用意。Lake Formation のポリシーが全チャネルに適用されるため、セルフサービスでありながらガバナンスを維持。

データレイクハウスとの違い

観点Data Lakehouse(Medallion)Data Fabric(本構成)
主眼データ品質の段階的向上分散データの統合管理・発見・ガバナンス
メタデータETL処理のカタログ管理Active Metadata(自動検出・関係性グラフ)
データ移動必ず S3 に集約フェデレーテッドクエリで移動不要も可
AI活用分析結果の可視化メタデータ自体の AI 分析・推薦
適合ケース単一データソースの品質管理複数組織・複数ソースの横断統合

Powered by AWS Diagram MCP Server | Reviewed by AWS Knowledge MCP Server