データマイニング

データマイニングは、大量のデータから価値ある情報を抽出する技術です。統計学、パターン認識、人工知能といった多様なデータ解析手法を駆使し、データの中に埋もれている有用な知識やパターンを発見します。データマイニングは、単なるデータ処理ではなく、そこから新たな知見や洞察を得ることを目的としています。テキストデータに特化したテキストマイニングや、ウェブページを対象とするウェブマイニングも含まれます。

定義

データマイニングは、「明示されていなかったが、潜在的に役立ち、かつ自明ではない情報をデータから抽出する」と定義されます。これは、単にデータを集計するだけでなく、そこから新たな発見を生み出すことを意味します。データマイニングは、データの解析に関する用語として用いられることが多いですが、人工知能と同様に包括的な用語であり、様々な文脈で異なる意味を持つことがあります。

歴史

概説

データマイニングは、1989年に確立した「Knowledge Discovery in Databases (KDD)」という学術研究分野が直接的な起源です。計算機の性能向上とデータ蓄積の進歩が、データマイニングの発展を大きく加速させました。1960年代からデジタルデータ収集の試みはありましたが、1980年代に関係データベースとSQLが登場し、動的なデータ解析が可能になりました。1990年代にはデータ量が爆発的に増加し、データウェアハウスが利用されるようになり、大量データ処理の必要性からデータマイニングの概念が生まれました。2010年代には、ビッグデータ解析を用いた実用的なサービスが多数登場しています。

各年代の動向

1960年代: メインフレームが企業システムに導入され、デジタルデータの収集・蓄積が始まりました。
1970年代: チリのサイバーシン計画では、リアルタイムのデータ収集と最適化された生産計画が試みられました。この時期、論文上で「Data mining」という言葉が使われ始めましたが、現在とは異なる否定的な意味合いでした。
1980年代: 現在の「Data mining」の定義に近い「Knowledge Discovery in Databases」という用語が登場しました。関係データベースとSQLが導入され、データウェアハウスの運用が始まりました。
1989年: アメリカのデトロイトで「IJCAI'89 Workshop on Knowledge Discovery in Databases」が開催され、「Knowledge Discovery in Databases」という言葉が初めて公式に使用されました。この頃、「Data mining」は否定的な意味合いで使われていました。
1990年代: 計算機の性能が飛躍的に向上し、「Knowledge Discovery in Databases」の研究が加速しました。1996年には、論文で「Data mining」の定義、基本機能、処理手順が提案され、研究分野として明確化されました。1999年には、IoTという言葉が初めて登場しました。
2000年代: インターネットが普及し、データ量が急増しました。ソーシャルネットワーキングサービスが登場し、大量のデータ供給源となりました。ビジネスにおけるデータ分析の専門企業も現れ始めました。
2010年代: 「ビッグデータ」という言葉が登場し、計算コストが低下したことでビッグデータ解析が急速に発展しました。データサイエンティストという職業が台頭し、ビッグデータを用いたデータマイニングを応用したサービスが一般向けに提供され始めました。ディープラーニングの実用化も進み、AIサービスが多数登場しました。

解析手法

データマイニングには、様々な解析手法が存在します。以下に代表的なものを紹介します。

頻出パターン抽出

データ集合の中から、頻繁に現れる特徴的なパターンを発見する手法です。

相関ルール抽出

データベース内の大量データから、同時に発生しやすい事象間の関係性を抽出します。購買履歴を利用したバスケット解析が有名です。例えば、「ビデオを買う人はガムテープを買うことが多い」といった相関関係を明らかにします。

クラス分類

与えられたデータがどのカテゴリに属するかを予測する手法です。例えば、薬品の化合物データから、薬効の有無を予測します。代表的な手法には、単純ベイズ分類器、決定木、サポートベクターマシンなどがあります。

回帰分析

与えられたデータから、実数値を予測する手法です。例えば、過去の売上データから明日の売上を予測します。代表的な手法には、線形回帰、ロジスティック回帰、サポートベクトル回帰などがあります。

クラスタリング

データの集合を、互いに類似したデータのグループ（クラスタ）に分割する手法です。例えば、ウェブ閲覧パターンから、類似した行動をとるユーザーグループを特定します。

ソフトウェア

データマイニングには、商用ソフトウェアと無償ソフトウェアが存在します。以下に代表的なものを紹介します。

商用ソフトウェア

SAS Enterprise Miner
SPSS Clementine
NAG NAG data Mining component
NTTデータ数理システム Visual Mining Studio
KXEN,Inc. KXEN
Rapid-I GmbH Rapid Miner
TIBCO Spotfire
CART (HULINKS)
RandomForests (HULINKS)
Data Mining (Oracle Data Mining)
Data Robot

無償ソフトウェア

GNU R
Weka
RapidMinerコミュニティ版
Julia (プログラミング言語)
Orange
Red-R
R AnalyticFlow
D3.js
OpenCV
Shogun toolbox

これらのソフトウェアは、それぞれ特徴があり、用途に応じて使い分けられます。

まとめ

データマイニングは、現代社会において不可欠な技術です。ビジネス、科学、医療など、様々な分野でその応用が進んでいます。大量のデータから価値ある情報を引き出し、より良い意思決定や新たな発見に繋げることが期待されています。

もう一度検索