機械判読可能なデータとは？意味をやさしく解説

機械判読可能なデータについて

機械判読可能なデータとは、コンピュータが容易に処理できるように整形されたデータを指します。こうしたデータは、基本的に構造化されている必要があります。特に、アメリカ合衆国ではオープンデータ法（OPEN Government Data Act）が2019年に施行され、ここで「意味を全く失うことなく、人の介入なしでコンピュータによって容易に処理可能な形式のデータ」と定義されています。これは連邦行政機関がデータを公開し、すべての公開データが機械判読可能であることを保証しています。

日本においても、総務省が2020年に策定したルールで「統計表における機械判読可能なデータの表記方法」が示されており、こうしたデータ形式はますます重視されるようになっています。ただし、機械判読可能なデータは単にコンピューターで表示される電子文書と等しいわけではありません。たとえば、紙媒体をスキャンしたPDFは人間に取っては見やすくても、コンピュータには解読できない場合が多くあります。言い換えれば、人間が容易に理解できる形式からは、機械が理解できる形式を作り出すことは簡単ですが、その逆は難しいのです。

機械判読可能データの種類

このデータは主に二つのカテゴリに分けられます。第一に、「人間にも判読できるデータ」があり、これはマークアップ言語の形式（例えばRDFaやHTML）で、機械にも判読可能です。第二に、「主にコンピュータによる処理を目的としたデータ」があり、CSV、RDF、XML、JSONなどが含まれます。

しかし、これらのデータ形式が機械判読可能であるためには、中身が正しく構造化されていることが前提です。たとえば、誤った構造のExcelファイルからCSVファイルを作成したところで、それが意味のある機械判読可能なデータになることはありません。機械判読性を高めるための工夫を盛り込むことが求められます。

機械判読性を向上させるための方法

1. 1セルに1データのみを記載する: 各セルには単一のデータを入れることで、判読効率が向上します。

2. セルを結合しない: セルを結合すると、プログラムが結合された範囲を理解するのが難しくなります。

3. 値を省略しない: 同じ値であれ、すべてのデータは明示的に記載することが重要です。

4. 複数の表を1つのデータセットに記載しない: それぞれのデータセットには一つの表のみを含め、複数の表を扱う場合は別々のデータセットを用意するべきです。

5. 見栄えのための不要な記号や注釈を含ませない: 数値の中にカンマやスペース、または注釈を含むことは混乱を招きます。

6. 地理空間情報には座標を併記する: 位置情報を扱う場合、住所だけでなく、緯度や経度の情報も含めるとより一層明確になります。

参考情報

機械判読可能なデータはオープンデータやデータ記述言語、関係の正規化とも密接に関わっています。今後も、デジタル社会においてこの種のデータの重要性は増していくことでしょう。

もう一度検索