機械判読可能なデータについて
機械判読可能なデータとは、
コンピュータが容易に処理できるように整形されたデータを指します。こうしたデータは、基本的に構造化されている必要があります。特に、アメリカ合衆国では
オープンデータ法(OPEN Government Data Act)が2019年に施行され、ここで「意味を全く失うことなく、人の介入なしで
コンピュータによって容易に処理可能な形式のデータ」と定義されています。これは連邦行政機関がデータを公開し、すべての公開データが機械判読可能であることを保証しています。
日本においても、
総務省が2020年に策定したルールで「統計表における機械判読可能なデータの表記方法」が示されており、こうしたデータ形式はますます重視されるようになっています。ただし、機械判読可能なデータは単に
コンピューターで表示される
電子文書と等しいわけではありません。たとえば、紙媒体をスキャンしたPDFは人間に取っては見やすくても、
コンピュータには解読できない場合が多くあります。言い換えれば、人間が容易に理解できる形式からは、機械が理解できる形式を作り出すことは簡単ですが、その逆は難しいのです。
機械判読可能データの種類
このデータは主に二つのカテゴリに分けられます。第一に、「人間にも判読できるデータ」があり、これは
マークアップ言語の形式(例えばRDFaやHTML)で、機械にも判読可能です。第二に、「主に
コンピュータによる処理を目的としたデータ」があり、CSV、RDF、XML、
JSONなどが含まれます。
しかし、これらのデータ形式が機械判読可能であるためには、中身が正しく構造化されていることが前提です。たとえば、誤った構造のExcelファイルからCSVファイルを作成したところで、それが意味のある機械判読可能なデータになることはありません。機械判読性を高めるための工夫を盛り込むことが求められます。
機械判読性を向上させるための方法
1.
1セルに1データのみを記載する: 各セルには単一のデータを入れることで、判読効率が向上します。
2.
セルを結合しない: セルを結合すると、プログラムが結合された範囲を理解するのが難しくなります。
3.
値を省略しない: 同じ値であれ、すべてのデータは明示的に記載することが重要です。
4.
複数の表を1つのデータセットに記載しない: それぞれのデータセットには一つの表のみを含め、複数の表を扱う場合は別々のデータセットを用意するべきです。
5.
見栄えのための不要な記号や注釈を含ませない: 数値の中にカンマやスペース、または
注釈を含むことは混乱を招きます。
6.
地理空間情報には座標を併記する: 位置情報を扱う場合、住所だけでなく、
緯度や
経度の情報も含めるとより一層明確になります。
参考情報
機械判読可能なデータは
オープンデータや
データ記述言語、
関係の正規化とも密接に関わっています。今後も、デジタル社会においてこの種のデータの重要性は増していくことでしょう。