Speech Synthesis Markup Languageとは？意味をやさしく解説

音声合成 マークアップ言語（SSML）とは

音声合成マークアップ言語（Speech Synthesis Markup Language）、略してSSMLは、音声合成アプリケーションのために設計されたXMLベースのマークアップ言語です。W3C（World Wide Web Consortium）の音声ブラウザ作業部会によって標準化され、その使用が推奨されています。

SSMLの歴史

SSMLの最初の草案は2000年8月8日に発表され、その後、2004年9月7日にバージョン1.0がW3C勧告として正式に承認されました。さらに2010年9月7日には、バージョン1.1がW3C勧告として承認されています。W3Cの音声ブラウザ作業部会は、2015年10月12日に解散しましたが、SSMLは現在も広く利用されています。

SSMLの利用シーン

SSMLは、インタラクティブ電話システムでVoiceXMLスクリプトと組み合わせて使用されることが多いですが、オーディオブックの作成などでは単独で使用されることもあります。また、デスクトップアプリケーションでは、Apple社の内蔵スピーチコマンドやMicrosoft社のSAPI（Speech API）音声合成マークアップ言語（XMLベース）といった技術が利用されることもあります。

SSMLの特徴

SSMLは、サン・マイクロシステムズ社のJava Speech Markup Language（JSML）を基に開発されました。しかし、SSMLの勧告策定は主に音声合成ソフトウェアのベンダーが主導して行われました。このため、マークアップで詳細が指定されていない場合は、音声合成プロセッサーの判断に委ねられることが多く、HTMLやC言語などの標準と比較して、比較的緩やかな標準となっています。

SSMLドキュメント

SSMLドキュメントは、XML形式で記述され、テキストの読み上げ方や発音、イントネーションなどを細かく制御できます。これにより、自然で人間らしい音声合成を実現することが可能です。

まとめ

SSMLは、音声合成技術の進歩とともに、ますます重要性を増しています。多様なアプリケーションでの利用が期待され、その標準化された仕様は、開発者にとって非常に有用なツールとなっています。

脚注

SSMLの具体的な記述例や詳細な技術仕様については、W3Cの公式ドキュメントを参照してください。

もう一度検索