Tesseract (ソフトウェア)

Tesseract (テッセラクト) とは



Tesseractは、様々なオペレーティングシステム上で利用可能な、高精度な光学式文字認識(OCR)エンジンです。四次元超立方体を意味する「Tesseract」という名称が付けられています。Apache Licenseの下で公開されており、誰でも自由に利用できるオープンソースソフトウェアです。

基本機能



Tesseractは、文字認識を行うためのライブラリと、それを操作するためのコマンドラインインターフェースを提供しています。これにより、画像内のテキストを読み取り、デジタルデータとして活用することができます。

歴史



Tesseractは、元々1980年代にヒューレット・パッカード(HP)によって開発されたプロプライエタリソフトウェアでした。しかし、2005年にオープンソースとして公開され、その後の開発はGoogleによって後援されています。2006年の時点で、Tesseractは最も正確なオープンソースOCRエンジンの一つとして認識されていました。

開発の変遷


1985年から1994年にかけて、HPの研究所で開発が進められ、1996年にはWindowsへの移植、1998年にはC++への移行が行われました。初期のコードはC言語で書かれていましたが、現在はC++コンパイラでコンパイル可能です。2005年にHPとネバダ大学ラスベガス校(UNLV)によりオープンソース化され、2006年からはGoogleが開発を支援しています。

特徴



Tesseractは、1995年時点で最も優れたOCRエンジンの一つでした。現在では、Linux、Windows、macOSなど、様々なプラットフォームで利用可能です。ただし、開発リソースの制約から、WindowsとUbuntuでの厳格なテストが行われています。

入力形式の進化


初期のTesseract(バージョン2まで)は、単一列のテキストを含むTIFF画像のみを処理可能でした。しかし、バージョン3.00以降では、出力テキストのフォーマット、hOCRの位置情報、ページレイアウトの分析に対応し、より複雑なレイアウトを持つドキュメントの処理が可能になりました。また、Leptonicaライブラリの導入により、対応する画像形式も拡充されました。さらに、テキストが等幅かプロポーショナルかを自動的に検出する機能も備えています。

対応言語の拡大


初期バージョンでは英語のみに対応していましたが、バージョン2ではフランス語イタリア語、ドイツ語、スペイン語、ブラジルポルトガル語オランダ語が追加されました。バージョン3では、表意文字(中国語と日本語)、右から左に書く言語アラビア語やヘブライ語)、その他の多くの言語に対応しました。バージョン3.04では、さらに多くの言語が追加され、合計で100以上の言語に対応しています。

言語とスクリプトの認識


Tesseractは、アラビア語やヘブライ語などの右から左に書く言語、インド系の文字、そして中国語、日本語、韓国語を高い精度で処理できます。また、他の言語でも動作するようにトレーニングすることが可能です。バージョン4からは、LSTMベースのニューラルネットワークによるOCRエンジンが導入され、さらに多くの言語とスクリプトに対応しています。

利用方法



Tesseractは主にバックエンドでの利用に適しており、OCRopusなどのフロントエンドと組み合わせることで、より複雑なOCRタスクを実行できます。しかし、入力画像の品質が低いと、出力結果の精度も低下するため、画像の拡大、回転や傾きの補正、ハイパスフィルター処理などの前処理が重要です。

コマンドラインインターフェース


Tesseractは、コマンドラインインターフェースを通じて操作します。GUI(グラフィカルユーザーインターフェース)は付属していませんが、OCRFeederなどのGUIを提供するプロジェクトも存在します。

識者の反応



Linux Journalのアンソニー・ケイは、Tesseractを「優れた仕事をする風変わりなコマンドラインツール」と評し、当時、テキスト認識の中核機能において、他のオープンソースツールよりも優れていると評価しました。

バージョン4の進化



バージョン4では、従来の認識エンジンに加えて、LSTMベースのニューラルネットワークOCRエンジンが導入されました。これにより、多くの言語とスクリプトのモデルが追加され、対応言語は合計116言語となりました。また、37言語のスクリプトがサポートされたため、言語を記述するスクリプトを通して言語を認識できるようになりました。

まとめ



Tesseractは、オープンソースでありながら高精度なOCRエンジンとして、様々な環境で利用されています。その進化は目覚ましく、今後も様々な分野での活用が期待されます。

関連項目



  • - Libtiff

外部リンク



もう一度検索

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。