データマイニング
データマイニングは、大量のデータから価値ある情報を抽出する技術です。
統計学、
パターン認識、
人工知能といった多様なデータ解析手法を駆使し、データの中に埋もれている有用な
知識やパターンを発見します。データマイニングは、単なるデータ処理ではなく、そこから新たな知見や洞察を得ることを目的としています。テキストデータに特化したテキストマイニングや、
ウェブページを対象とするウェブマイニングも含まれます。
定義
データマイニングは、「明示されていなかったが、潜在的に役立ち、かつ自明ではない情報をデータから抽出する」と定義されます。これは、単にデータを集計するだけでなく、そこから新たな発見を生み出すことを意味します。データマイニングは、データの解析に関する用語として用いられることが多いですが、
人工知能と同様に包括的な用語であり、様々な文脈で異なる意味を持つことがあります。
歴史
概説
データマイニングは、
1989年に確立した「Knowledge Discovery in Databases (KDD)」という学術研究分野が直接的な起源です。計算機の性能向上とデータ蓄積の進歩が、データマイニングの発展を大きく加速させました。1960年代から
デジタルデータ収集の試みはありましたが、1980年代に関係
データベースと
SQLが登場し、動的なデータ解析が可能になりました。
1990年代にはデータ量が爆発的に増加し、データウェアハウスが利用されるようになり、大量データ処理の必要性からデータマイニングの概念が生まれました。
2010年代には、
ビッグデータ解析を用いた実用的な
サービスが多数登場しています。
各年代の動向
1960年代: メインフレームが企業システムに導入され、デジタルデータの収集・蓄積が始まりました。
1970年代: チリのサイバーシン計画では、リアルタイムのデータ収集と最適化された生産計画が試みられました。この時期、論文上で「Data mining」という言葉が使われ始めましたが、現在とは異なる否定的な意味合いでした。
1980年代: 現在の「Data mining」の定義に近い「Knowledge Discovery in Databases」という用語が登場しました。関係データベースとSQLが導入され、データウェアハウスの運用が始まりました。
1989年: アメリカのデトロイトで「IJCAI'89 Workshop on Knowledge Discovery in Databases」が開催され、「Knowledge Discovery in Databases」という言葉が初めて公式に使用されました。この頃、「Data mining」は否定的な意味合いで使われていました。
1990年代: 計算機の性能が飛躍的に向上し、「Knowledge Discovery in Databases」の研究が加速しました。1996年には、論文で「Data mining」の定義、基本機能、処理手順が提案され、研究分野として明確化されました。1999年には、IoTという言葉が初めて登場しました。
2000年代: インターネットが普及し、データ量が急増しました。ソーシャルネットワーキング
サービスが登場し、大量のデータ供給源となりました。ビジネスにおけるデータ分析の専門企業も現れ始めました。
2010年代: 「ビッグデータ」という言葉が登場し、計算コストが低下したことでビッグデータ解析が急速に発展しました。データサイエンティストという職業が台頭し、ビッグデータを用いたデータマイニングを応用したサービスが一般向けに提供され始めました。ディープラーニングの実用化も進み、AIサービスが多数登場しました。
解析手法
データマイニングには、様々な解析手法が存在します。以下に代表的なものを紹介します。
頻出パターン抽出
データ集合の中から、頻繁に現れる特徴的なパターンを発見する手法です。
相関ルール抽出
データベース内の大量データから、同時に発生しやすい事象間の関係性を抽出します。購買履歴を利用したバスケット解析が有名です。例えば、「ビデオを買う人はガムテープを買うことが多い」といった相関関係を明らかにします。
クラス分類
与えられたデータがどのカテゴリに属するかを予測する手法です。例えば、薬品の化合物データから、薬効の有無を予測します。代表的な手法には、単純ベイズ分類器、決定木、サポートベクターマシンなどがあります。
与えられたデータから、実数値を予測する手法です。例えば、過去の売上データから明日の売上を予測します。代表的な手法には、線形回帰、ロジスティック回帰、サポートベクトル回帰などがあります。
クラスタリング
データの集合を、互いに類似したデータのグループ(クラスタ)に分割する手法です。例えば、ウェブ閲覧パターンから、類似した行動をとるユーザーグループを特定します。
ソフトウェア
データマイニングには、商用ソフトウェアと無償ソフトウェアが存在します。以下に代表的なものを紹介します。
商用ソフトウェア
SAS Enterprise Miner
SPSS Clementine
NAG NAG data Mining component
NTTデータ数理システム Visual Mining Studio
KXEN,Inc. KXEN
Rapid-I GmbH Rapid Miner
TIBCO Spotfire
CART (HULINKS)
RandomForests (HULINKS)
Data Mining (Oracle Data Mining)
Data Robot
無償ソフトウェア
GNU R
Weka
RapidMinerコミュニティ版
Julia (
プログラミング言語)
Orange
Red-R
R AnalyticFlow
D3.js
OpenCV
Shogun toolbox
これらのソフトウェアは、それぞれ特徴があり、用途に応じて使い分けられます。
まとめ
データマイニングは、現代社会において不可欠な技術です。ビジネス、科学、医療など、様々な分野でその応用が進んでいます。大量のデータから価値ある情報を引き出し、より良い意思決定や新たな発見に繋げることが期待されています。