ImageNet

ImageNet: 物体認識のための巨大な画像データベース

概要

ImageNetは、物体認識ソフトウェアの研究で使用することを目的とした、非常に大規模な画像データベースです。このデータベースには1410万枚以上の画像が手作業でアノテーションされており、どの物体が写っているかを示す情報が付与されています。さらに、100万枚以上の画像にはバウンディングボックスが設けられ、物体の位置も明示的に示されています。

ImageNetは20,000以上のカテゴリを擁し、具体的な物体を分類するのに役立てられています。例えば、「気球」や「イチゴ」といった一般的な物体カテゴリには、数百枚の関連画像が含まれています。このプロジェクトは、2010年から2017年まで毎年開催された大規模な画像認識技術コンテスト、ILSVRC（ImageNet Large Scale Visual Recognition Challenge）によって有名になりました。特にこのコンテストでは、ソフトウェアが物体や情景を正しく検出・分類する能力が競われました。最優秀記録は「CoCa(finetune)」によって樹立されています。

深層学習への貢献

2012年、AlexNetという畳み込みニューラルネットワーク（CNN）がILSVRC2012でトップ5エラー率16.4%を達成し、一躍ディープラーニングが注目されるきっかけとなりました。この成果は、他の競技者よりも約10%の低いエラー率であり、AIコミュニティとテクノロジー業界全体に強い影響を与えました。その後、2015年にはMicrosoftが開発した100層を超えるCNNが登場し、ImageNet2015コンテストでの優勝を果たしました。これらの成功は、深層学習のモデル構造の進化、GPUの性能向上、そしてImageNetのような大規模データセットの存在によるものです。ILSVRCは2017年に終了しましたが、ImageNetは今でも画像認識のベンチマークデータベースとして使用されています。

データベースの歴史

AI研究者フェイフェイ・リは2006年にImageNetのアイデアに着手しました。彼女は、AIアルゴリズムの学習を支えるためのデータセットを多様化し、豊かにする必要性を感じていました。2007年に、リはWordNetの作成者であるChristiane Fellbaum教授と会い、プロジェクトについて話し合い、WordNetを基にしたデータベースの構築に着手しました。研究チームはAmazon Mechanical Turkを利用し、画像のアノテーションを行いました。そして、2009年にはフロリダで開催されたCVPRで初めてその成果を発表しました。

データセットの構成

ImageNetでは、画像に対するアノテーションはクラウドソーシング形式で行われています。具体的には、特定のオブジェクトが画像内に存在するかどうかを示す画像レベルのアノテーションや、オブジェクトの周囲にバウンディングボックスを付与するオブジェクトレベルのアノテーションが行われます。さらに、WordNetに基づいたカテゴリ分けが行われ、例えば120種類の犬種に分類されています。しかしながら、これには潜在的な偏りもあると考えられています。2012年には、ImageNetが非営利のアカデミックユーザーにおいてMechanical Turkの利用が最も多かったことも示されています。

ImageNet Challengeの歴史

ILSVRCは2010年から2017年まで毎年開催された画像認識コンテストで、アルゴリズムを用いて学習したモデルの性能を評価するものでした。この競技は、2005年に設立されたPASCAL VOCチャレンジを引き継ぐ形で始まりました。ILSVRCでは、1000の画像カテゴリのデータセットを使用し、多くの参加者が競い合いました。特に、2012年にAlexNetが大きな飛躍を達成し、その後も様々なモデルが精度を向上させていきました。その結果、2017年には参加したチームの多くが高い精度を達成しましたが、進歩が頭打ちになり、ILSVRCは年内に終了することとなりました。

ImageNetの課題と展望

2019年にはImageNetとWordNetに関するさまざまな調査が行われ、これらのデータセットにバイアスが深く埋め込まれていることが明らかになりました。また、プライバシーの観点からも問題提起がなされ、今後はこうした課題に対処し、より良いデータセットの構築が望まれています。加えて、侮蔑的な表現を含むカテゴリがあることが報告され、データ集計の倫理的な側面も考慮する必要があります。AIと画像認識技術の進展に伴い、ImageNetは新たなチャレンジと機会を迎えることでしょう。

もう一度検索