Tesseract (テッセラクト) とは
Tesseractは、様々な
オペレーティングシステム上で利用可能な、高精度な光学式文字認識(OCR)エンジンです。四次元超立方体を意味する「Tesseract」という名称が付けられています。
Apache Licenseの下で公開されており、誰でも自由に利用できるオープンソースソフトウェアです。
基本機能
Tesseractは、文字認識を行うための
ライブラリと、それを操作するためのコマンドラインインターフェースを提供しています。これにより、画像内のテキストを読み取り、デジタルデータとして活用することができます。
歴史
Tesseractは、元々1980年代に
ヒューレット・パッカード(HP)によって開発されたプロプライエタリソフトウェアでした。しかし、2005年にオープンソースとして公開され、その後の開発は
Googleによって後援されています。2006年の時点で、Tesseractは最も正確なオープンソースOCRエンジンの一つとして認識されていました。
開発の変遷
1985年から1994年にかけて、HPの研究所で開発が進められ、1996年にはWindowsへの移植、1998年には
C++への移行が行われました。初期のコードは
C言語で書かれていましたが、現在は
C++コンパイラでコンパイル可能です。2005年にHPと
ネバダ大学ラスベガス校(UNLV)によりオープンソース化され、2006年からは
Googleが開発を支援しています。
特徴
Tesseractは、1995年時点で最も優れたOCRエンジンの一つでした。現在では、
Linux、Windows、macOSなど、様々なプラットフォームで利用可能です。ただし、開発リソースの制約から、Windowsと
Ubuntuでの厳格なテストが行われています。
入力形式の進化
初期のTesseract(バージョン2まで)は、単一列のテキストを含むTIFF画像のみを処理可能でした。しかし、バージョン3.00以降では、出力テキストのフォーマット、hOCRの位置情報、ページレイアウトの分析に対応し、より複雑なレイアウトを持つドキュメントの処理が可能になりました。また、Leptonica
ライブラリの導入により、対応する画像形式も拡充されました。さらに、テキストが等幅かプロポーショナルかを自動的に検出する機能も備えています。
対応言語の拡大
初期バージョンでは
英語のみに対応していましたが、バージョン2では
フランス語、
イタリア語、ドイツ語、
スペイン語、ブラジル
ポルトガル語、
オランダ語が追加されました。バージョン3では、表意文字(
中国語と日本語)、右から左に書く
言語(
アラビア語やヘブライ語)、その他の多くの
言語に対応しました。バージョン3.04では、さらに多くの
言語が追加され、合計で100以上の
言語に対応しています。
言語とスクリプトの認識
Tesseractは、
アラビア語やヘブライ語などの右から左に書く
言語、インド系の文字、そして
中国語、日本語、韓国語を高い精度で処理できます。また、他の
言語でも動作するようにトレーニングすることが可能です。バージョン4からは、LSTMベースの
ニューラルネットワークによるOCRエンジンが導入され、さらに多くの
言語とスクリプトに対応しています。
利用方法
Tesseractは主にバックエンドでの利用に適しており、OCRopusなどのフロントエンドと組み合わせることで、より複雑なOCRタスクを実行できます。しかし、入力画像の品質が低いと、出力結果の精度も低下するため、画像の拡大、回転や傾きの補正、
ハイパスフィルター処理などの前処理が重要です。
コマンドラインインターフェース
Tesseractは、コマンドラインインターフェースを通じて操作します。GUI(グラフィカルユーザーインターフェース)は付属していませんが、OCRFeederなどのGUIを提供するプロジェクトも存在します。
識者の反応
Linux Journalのアンソニー・ケイは、Tesseractを「優れた仕事をする風変わりなコマンドラインツール」と評し、当時、テキスト認識の中核機能において、他のオープンソースツールよりも優れていると評価しました。
バージョン4の進化
バージョン4では、従来の認識エンジンに加えて、LSTMベースの
ニューラルネットワークOCRエンジンが導入されました。これにより、多くの
言語とスクリプトのモデルが追加され、対応
言語は合計116
言語となりました。また、37
言語のスクリプトがサポートされたため、
言語を記述するスクリプトを通して
言語を認識できるようになりました。
まとめ
Tesseractは、オープンソースでありながら高精度なOCRエンジンとして、様々な環境で利用されています。その進化は目覚ましく、今後も様々な分野での活用が期待されます。
関連項目
外部リンク