機械判読可能なデータ

機械判読可能なデータについて



機械判読可能なデータとは、コンピュータが容易に処理できるように整形されたデータを指します。こうしたデータは、基本的に構造化されている必要があります。特に、アメリカ合衆国ではオープンデータ法(OPEN Government Data Act)が2019年に施行され、ここで「意味を全く失うことなく、人の介入なしでコンピュータによって容易に処理可能な形式のデータ」と定義されています。これは連邦行政機関がデータを公開し、すべての公開データが機械判読可能であることを保証しています。

日本においても、総務省が2020年に策定したルールで「統計表における機械判読可能なデータの表記方法」が示されており、こうしたデータ形式はますます重視されるようになっています。ただし、機械判読可能なデータは単にコンピューターで表示される電子文書と等しいわけではありません。たとえば、紙媒体をスキャンしたPDFは人間に取っては見やすくても、コンピュータには解読できない場合が多くあります。言い換えれば、人間が容易に理解できる形式からは、機械が理解できる形式を作り出すことは簡単ですが、その逆は難しいのです。

機械判読可能データの種類



このデータは主に二つのカテゴリに分けられます。第一に、「人間にも判読できるデータ」があり、これはマークアップ言語の形式(例えばRDFaやHTML)で、機械にも判読可能です。第二に、「主にコンピュータによる処理を目的としたデータ」があり、CSV、RDF、XML、JSONなどが含まれます。

しかし、これらのデータ形式が機械判読可能であるためには、中身が正しく構造化されていることが前提です。たとえば、誤った構造のExcelファイルからCSVファイルを作成したところで、それが意味のある機械判読可能なデータになることはありません。機械判読性を高めるための工夫を盛り込むことが求められます。

機械判読性を向上させるための方法



1. 1セルに1データのみを記載する: 各セルには単一のデータを入れることで、判読効率が向上します。

2. セルを結合しない: セルを結合すると、プログラムが結合された範囲を理解するのが難しくなります。

3. 値を省略しない: 同じ値であれ、すべてのデータは明示的に記載することが重要です。

4. 複数の表を1つのデータセットに記載しない: それぞれのデータセットには一つの表のみを含め、複数の表を扱う場合は別々のデータセットを用意するべきです。

5. 見栄えのための不要な記号や注釈を含ませない: 数値の中にカンマやスペース、または注釈を含むことは混乱を招きます。

6. 地理空間情報には座標を併記する: 位置情報を扱う場合、住所だけでなく、緯度経度の情報も含めるとより一層明確になります。

参考情報



機械判読可能なデータはオープンデータデータ記述言語関係の正規化とも密接に関わっています。今後も、デジタル社会においてこの種のデータの重要性は増していくことでしょう。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。