データセットの概要
データセットとは、データの集合体を指し、特に表形式で管理されることが多いです。典型的には、テーブルの各列が特定の変数を示し、各行はそれぞれのレコードに関連付けられています。このように構成されたデータセットには、オブジェクトのサイズや重さのような複数の属性の値が含まれます。全体として、データセットは同時に1つまたは複数のデータベーステーブルを含むことができます。
オープンデータの取り組みが進む中、データセットは公的な
オープンデータリポジトリの元で発表された情報の量を計測する重要な単位としても利用されています。例えば、ヨーロッパの
オープンデータポータルには、50万以上のデータセットが集められています。ただし、2020年時点でのデータセットの公式な定義は定まっていない状況です。また、リアルタイムで生成されるデータソースなどもあり、これらの存在がデータセットの理解を複雑にしています。
データセットの特性
データセットの構造や特性は、数多くの要因によって決まります。その要因には、変数や属性の種類や数、標準偏差や尖度を含む統計的尺度などがあります。値はさまざまな形式を取りうるものの、一般的には数値(実数や整数)またはカテゴリに基づく文字列(ラベル)として表現されます。たとえば、人間の身長は
センチメートル単位の数値として、民族は数値ではなく文字列で表現されます。
データ分析において、データセットは通常、母集団からサンプリングされた観測値に根ざしています。各行は母集団の一要素に関連する観測値を示し、これによりデータの特徴を捉えることができます。アルゴリズムを使用して生成されるデータセットも存在し、欠如したデータや不確かな値がある場合は、適切な技法を用いてデータの補完が行われることもあります。
古典的なデータセット
統計学では、特定の盆から多くの研究で使用されている古典的なデータセットがあります。
- - アヤメの花データセット: 1936年にロナルド・フィッシャーが導入した多変量データセットで、機械学習や統計分析に頻繁に使用されます。
- - MNISTデータベース: 手書きの数字画像のデータセットで、分類やクラスタリングの手法を評価する際に広く用いられています。
- - カテゴリーデータ分析: Alan Agrestiによる著作で使用されるデータセット。
- - 頑健統計: RousseeuwとLeroyが1986年に発表した作品に関連するデータ。
- - 時系列データ: チャットフィールドの著書で扱われているデータ。
- - 極端値のデータ: Stuart Colesの書籍からのデータで、統計的モデルの影響を示すために活用されています。
- - ベイズ的データ分析: Andrew Gelmanらの書籍に用いられるデータ。
- - アンスコムのカルテット: 統計的誤りを避けるために、データの視覚化が重要であることを示す小さなデータセットです。
参考文献とリンク
統計データの補完推計についての研究が進められており、さまざまなデータ収集システムが存在します。また、DatahubやData.gov等のプラットフォームでは、
オープンデータを管理し、さらなる分析の基盤を提供しています。