ReCAPTCHA

reCAPTCHAとは



reCAPTCHAは、ウェブサイトへの不正なアクセスを試みるボットからサイトを保護するためにCAPTCHA技術を用いるとともに、その認証プロセスで得られる人間の判断力を、紙媒体の書籍をデジタル化するプロジェクトに活用するシステムです。

2007年にカーネギーメロン大学で開発され、2009年にGoogleによって買収されました。

概要



現在、reCAPTCHAはニューヨーク・タイムズの記事アーカイブやGoogleブックスの書籍電子化に利用されています。特に、ニューヨーク・タイムズでは130年分を超える記事のうち、約20年分のデジタル化を2〜3ヶ月で完了させるという驚異的な効率を示しました。reCAPTCHAは、OCRソフトウェアが読み取れない文字を画像として出力し、各ウェブサイトに配信します。ウェブサイトの利用者は、認証プロセスの一部として、表示された文字を解読することで、書籍のデジタル化に貢献します。reCAPTCHAサービスは、解答されたデータをデジタル化プロジェクトに送信します。

インターネット上では日々2億以上のCAPTCHAが表示されており、このリソースを有効活用しようと、Facebook、チケットマスター、CNN.comなど多くの有名サイトがreCAPTCHAプログラムに参加しています。

起源



reCAPTCHAの開発は、グアテマラ計算機科学者ルイス・フォン・アン氏によって開始されました。彼は、CAPTCHAが人間の貴重な時間を浪費させていることに気づき、そのリソースを有効活用する方法を模索しました。そして、カーネギーメロン大学のチームと協力し、インテルの支援を受けながら、ウェブベースのクラウドソーシングを活用して、紙媒体の印刷物をコンピュータで読める文字に変換するシステムを開発しました。

当初、reCAPTCHAは、Open Content Alliance(OCA)の一員であるインターネットアーカイブの代理として、書籍電子化事業に利用されました。

運用



reCAPTCHAの仕組みは、スキャンされたテキストを2つのOCRプログラムで解析し、結果が異なる場合に、疑わしい文字をCAPTCHAに変換するというものです。この際、すでにOCRで認識できている文字を「対照文字」としてCAPTCHAに含めて表示します。

ユーザーが対照文字を正しく認識した場合、システムはOCRで正確に読み取れなかった文字の解答も正しいと仮定します。文字認識に対しては、OCRプログラムには0.5点、人間の解釈には1点が与えられ、合計2.5点に達した時点で、その文字認識が正しいとみなします。複数の人が同じように解釈した文字は、対照文字として再利用されます。

reCAPTCHAは、ラテン文字だけでなく、様々な文字の解読を人間に要求しますが、システムの仕組み上、対照文字さえ返答すれば認証を通過できます。ただし、ユーザーはどの文字列が対照文字であるかを把握することはできません。

実装



reCAPTCHAは、開発者が容易にサービスを実装できるよう、様々なウェブアプリケーション・プラットフォーム向けにプラグインを提供しています。例えば、WordPressMediaWiki用のプラグインが存在するほか、ASP.NET、Ruby、PHPなどの処理系向けにもプラグインやAPIリファレンスが提供されています。また、Haskellの処理系GHC用のプラグインのように、プロジェクト外部で独自に作成されているものもあります。

セキュリティ



CAPTCHAは来、ボットによる自動アクセスを防ぐための認証システムですが、自動化プログラムによる突破を試みる動きも存在します。

2009年には、タイム100の投票サイトで4chanのユーザーによる多重投票事件が発生しましたが、reCAPTCHA導入後は多重投票は阻止されました。しかし、reCAPTCHAも常にクラッカーに対して優位とは限りません。

2009年、ジョナサン・ウィルキンズ氏がreCAPTCHAの脆弱性を指摘し、ソルバーを用いて17.5%の解答率を得たと主張しました。彼は、当時のreCAPTCHAが英語文献のOCRを基にしていたため検証しやすく、対照文字に対する解答の許容範囲が広かったことを弱点として挙げました。Googleはその後、画像の歪みを強化するなどの対策を講じました。

2010年には、チャド・フック氏が、自動化プログラムを用いて10.07%の正答率を得ることができたと発表しました。彼は、文字の背景にある楕円を除去し、文字の歪みを修正した上で、辞書攻撃を用いて解読を行いました。その後、reCAPTCHAが改修されたにも関わらず、彼は正答率を31.8%にまで向上させています。

2012年には、DC949のメンバーが、機械学習を用いたAIで音声版reCAPTCHAを突破し、99.1%の正答率を達成しました。Googleはその後、音声版の再生時間を延長し、難易度を上げる対策を講じましたが、DC949は新しいプログラムで60%程度の正答率を達成しました。Googleはさらにアップデートを行い、DC949は現在のところ最新版を突破できるプログラムを発表していません。

このように、CAPTCHAの自動解読手法を開発する動きが絶えないため、reCAPTCHAのシステムは頻繁に改修されています。

Mailhide



reCAPTCHAを利用した別のプロジェクトとして、Mailhide(メールハイド)があります。これは、ウェブページ上に公開されているメールアドレスをスパムボットから保護するものです。Mailhideは、メールアドレスの一部を隠蔽し、ユーザーがCAPTCHAを解読することで完全なメールアドレスを表示します。

特許



reCAPTCHAに関する発明は、2008年1月23日に米国特許商標庁へ特許出願されています。

まとめ



reCAPTCHAは、ウェブサイトのセキュリティを強化するだけでなく、書籍のデジタル化にも貢献する、非常に革新的なシステムです。その仕組みは、人間の判断力を活用し、機械による認識の限界を補うものであり、技術の進歩とともに、そのセキュリティは常に進化し続けています。

もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。