データウェアハウスとは、企業内に存在する様々なシステムやアプリケーション、クラウドサービスなどから定期的にデータを収集し、時系列に沿って蓄積していくシステムのことです。このシステムは、ビジネス上の意思決定を支援するために、過去のデータを参照し、分析することを目的としています。
データウェアハウスの概要
データウェアハウスの概念は、1990年代初頭に計算機科学者のビル・インモンによって提唱されました。彼の定義によれば、データウェアハウスとは「意思決定を支援するために、特定のテーマに沿って整理され、統合され、時系列で管理され、データの削除や更新が行われないデータの集合体」とされています。
具体的には、製造管理システム、販売管理システム、会計システムなどの基幹システムから、マスターデータやトランザクションデータ(取引データ)を抽出し、再構成・再蓄積したものがデータウェアハウスとして利用されます。
データウェアハウスの成立と発展
1990年代、ハードディスクの価格が下落し、PCや
サーバーで利用可能な安価な
CPUを並列で使用する技術が確立されたことが、データウェアハウスの発展を後押ししました。それまでは高価であった専用の
ハードウェアや
ソフトウェアが、汎用的なPCで構成できるようになったことで、長期間にわたるデータ蓄積が可能になりました。
2010年代に入ると、Google BigQueryやAmazon Redshiftなどのクラウドベースのデータウェアハウスが登場しました。これにより、初期費用を抑え、利用時間やリソースに応じた従量課金でデータウェアハウスを利用できるようになり、その利用用途は飛躍的に拡大しました。
データウェアハウスの特徴
基幹システムでは、データの参照時点での状況把握が主な目的であるため、過去のデータは基本的に保持されず、一定期間ごとに集計データに更新されることが一般的です。しかし、データウェアハウスは過去データの蓄積と現在との比較分析を目的とするため、データの削除や更新は行わず、データ量は時間とともに増加していきます。これにより、顧客の購買履歴や将来の購買予測など、様々な分析が可能になります。
データウェアハウスに関連するシステム
データウェアハウスは、複数の基幹システムからデータを収集し、蓄積することで、ビジネス上の意思決定を支援します。このため、データウェアハウスはBI(ビジネスインテリジェンス)システムの一部として位置づけられることがあります。
データウェアハウスでは、極めて小さい単位のデータ(アトミックデータ)を扱いますが、多くの場合、集計されたデータの方が処理速度が速いため、データウェアハウスから集計されたデータを利用するデータマートが構築されることがあります。データマートは、ユーザーが分析やレポート作成に使用するデータを提供し、データウェアハウスはデータの倉庫、データマートはデータの小売店と例えられます。
データウェアハウスから有用なデータを発見するための手法やツールとして、市販の
データベースソフトウェアや、OLAP(オンライン分析処理)、
データマイニングなどの専門ツールが利用されます。
データウェアハウスの製品例
主要なデータウェアハウス製品には、以下のようなものがあります。
- - SAP: SAP NetWeaver Business Warehouse, SAP BW/4HANA, SAP IQ
- - Oracle: Oracle Database / Oracle Exadata
- - Teradata: Teradata Database / Teradata Vantage
- - IBM: Red Brick
- - Netezza: Netezza TwinFin
- - NEC: InfoFrame DWH Appliance
- - マイクロソフト: Microsoft SQL Server
- - 日本HP: HP Neoview Platform
関連用語