Open JTalkとは
Open JTalk(オープンジェイトーク)は、
名古屋工業大学で開発された、日本語テキストを音声に変換する
ソフトウェアです。この技術は、文章を読み上げるだけでなく、様々な応用が可能です。特に、そのオープンソースとしての性質から、多くの開発者や研究者に利用されています。
概要
Open JTalkは、スタンドアロン版とオンライン版の2種類があります。スタンドアロン版は、SourceForgeで公開されているソースコードをビルドすることで、様々なOS上で利用可能です。一方、オンライン版は公式サイト上で手軽に利用できます。特徴として、HMM(
隠れマルコフモデル)を
音声合成技術に採用しており、これにより比較的少ないメモリでの動作が可能です。そのため、Raspberry Piのような組み込み環境でも利用されています。
Open JTalkでは、声質(フォルマントシフト)、ピッチ(声の高さ)、話速を調整でき、さらに、ボイス(音響モデル)を切り替えることで、感情表現も可能です。これにより、ただ文章を読み上げるだけでなく、より表現豊かな
音声合成が実現できます。
オンライン版
公式サイトで公開されており、誰でも無料で利用できます。利用できる音響モデルは、男性1種類、女性4種類(4つの感情表現)です。
オープンソース版
SourceForgeでソースコードが公開されています。利用にはビルドが必要ですが、各種OSに対応しています。
ライセンスは修正BSD
ライセンスであり、ライブラリとして他の
ソフトウェアに組み込むことも可能です。
音声合成には、辞書データと音響モデルが必要です。
導入方法
Open JTalkは、複数のOSに対応していますが、OSS版はソースコードとして公開されているため、導入にはビルドが必要です。しかし、有志によって簡単に利用できるように様々な導入方法が提供されています。
アプリケーションとしての導入
原則としてコマンドラインアプリケーションとしての入手になりますが、Windows向けにはGUIを備えた「SHABERU」というフリーソフトがあります。
パッケージマネージャによる導入
各OSのパッケージマネージャを利用して導入できます。導入後にビルドが必要な場合や、辞書データや音響モデルを別途導入する必要がある場合があります。
- - Docker: `docker pull u6kapps/open_jtalk`
- - Homebrew: `brew install open-jtalk`
- - APT: `apt install open-jtalk`, `apt install open-jtalk-mecab-naist-jdic`, `apt install hts-voice-nitech-jp-atr503-m001`
- - Python: `pip install pyopenjtalk`
- - .NET (NuGet): `Install-Package SharpOpenJTalk`
- - Node.js (npm): `npm install openjtalk`
音響モデル
Open JTalkで利用できる音響モデル(ボイスライブラリ、htsvoice形式)は、自作することも可能です。以下に代表的なモデルを紹介します。
NIT ATR503 M001
Open JTalk本体と辞書データと共に配布される標準の男声音響モデルです。
クリエイティブ・コモンズ・[[ライセンス]]3.0で提供されています。
メイ
名古屋工業大学のMMD Agentで利用される女性キャラクターです。5つの感情別音響モデル(normal, happy, angry, sad, bashful)があります。
タクミ
メイと同様に、
名古屋工業大学のMMD Agentで利用される男性キャラクターです。4つの感情別音響モデル(normal, happy, angry, sad)があります。
tohoku-f01
東北大学 伊藤・能勢研究室が配布している女声音響モデルです。4つの感情別音響モデル(angry, happy, neutral, sad)があります。
ライブラリ・フレームワークとしての利用
OpenJTalkは、
音声合成だけでなく、日本語処理部分のみをライブラリとして利用することも可能です。以下のような事例があります。
- - DeNAによるハッカドールのキャラクターを利用した音声合成研究
- - VOICEVOX: ヒホ(ヒロシバ)氏が開発した、ITAコーパスを用いたDNN音声合成ソフト
- - シロワニさんのつくよみちゃんトークソフト: シロワニ氏が開発した、フリーのDNN音声合成ソフト
関連事項
- - 名古屋工業大学: Open JTalkの開発元
- - Sinsy: Open JTalkと同じ開発者が開発した歌声合成ソフト
- - MMD Agent: Open JTalkの技術を用いた対話エージェントシステム
- - 隠れマルコフモデル: 音声合成に使用されている技術
- - 音声合成: Open JTalkの主要な機能
- - CeVIO Creative Studio: Open JTalkの開発者が設立した会社が開発した商用音声合成ソフト
- - MeCab: Open JTalkの形態素解析に利用されているライブラリ
- - NonVisual Desktop Access (NVDA): Open JTalkを利用したスクリーンリーダー
まとめ
Open JTalkは、日本語のテキストを音声に変換するための強力なツールです。オープンソースであるため、多くの開発者や研究者に利用されており、その汎用性と拡張性は多岐にわたります。様々なOSや環境に対応しているため、幅広い用途での活用が期待されます。