VoiceXML(VXML)は、音声によるコンピュータとの対話を記述するための、W3C(
World Wide Web Consortium)によって標準化されたXML形式の一つです。この技術は、ウェブブラウザがHTML文書を解釈するのと同様に、ボイスブラウザがVoiceXML文書を解釈することで、音声アプリケーションの開発と展開を容易にします。
VoiceXMLの主な用途
VoiceXMLは、日常の様々な場面で利用されています。例えば、注文状況の問い合わせ、配送状況の追跡、道案内、緊急時の通知、モーニングコール、フライト状況の確認、メールの音声読み上げ、顧客管理システム、薬の補充通知、音声ニュース配信、音声ダイヤル、不動産情報、
電話番号案内などが挙げられます。これらの商用アプリケーションは、毎日数百万件もの電話呼び出しに対応し、効率的な情報提供を可能にしています。
VoiceXMLの仕組み
VoiceXMLには、
音声合成、自動音声認識、対話管理、音声再生などをボイスブラウザに指示するためのタグが含まれています。例えば、以下のVoiceXMLコードは、ボイスブラウザに「Hello world」という音声を合成して出力するように指示します。
xml
VoiceXMLページの転送には通常HTTPプロトコルが使用されます。アプリケーションによっては静的なVoiceXMLページが使われますが、Tomcat、WebLogic、IIS、WebSphereなどの
アプリケーションサーバを使って動的に生成されることもあります。適切に設計されたWebアプリケーションでは、音声インターフェースと視覚インターフェースが同じビジネスロジックを共有できます。
VoiceXMLの標準化と進化
かつてVoiceXMLプラットフォームのベンダーは独自に拡張を加えていましたが、
2004年3月16日にW3C勧告としてVoiceXML 2.0が承認され、これらの差異が標準化されました。業界団体のVoiceXML Forumは、実装が標準に準拠しているかを確認する適合試験プロセスを提供しています。
関連する標準
W3CのSpeech Interface Frameworkには、VoiceXMLと密接に関連する以下の標準が含まれています。
SRGS (Speech Recognition Grammar Specification):音声認識システムが聞き取るべき文のパターンを定義します。このパターンは文法と呼ばれ、音声認識の精度を高めるために重要です。
SISR (Semantic Interpretation for Speech Recognition):音声認識システムが認識した文から意味を抽出するためのルールを記述します。SISRはECMAScript形式で記述され、SRGSの中に埋め込まれて使用されます。
SSML (Speech Synthesis Markup Language):音声合成時に、声の種類や音量などの修飾情報を指定します。これにより、より自然で表現豊かな音声合成が可能になります。
PLS (Pronunciation Lexicon Specification):単語の発音を定義するために使用されます。この情報は
音声合成と音声認識の両方で活用されます。
*
CCXML (Call Control eXtensible Markup Language):電話回線でVoiceXMLを使用する際に、電話の接続や切断、転送などの制御を補助するW3Cの標準です。CCXMLは、電話会議システムなどVoiceXMLとは独立したシステムでも利用されます。
VoiceXMLの歴史
1999年3月、
AT&T、
IBM、ルーセント、
モトローラが共同でVoiceXML Forumを設立し、音声対話を記述する
マークアップ言語の標準化に着手しました。1999年9月にはVoiceXML 0.9が完成し、2000年3月にはVoiceXML 1.0が公開されました。その後、VoiceXML ForumはW3Cに標準化の作業を引き継ぎました。W3Cは何度か改訂を行い、
2004年3月にVoiceXML 2.0を最終勧告として承認しました。また、2.0の実装フィードバックを基に若干の機能追加を行ったVoiceXML 2.1が、2007年6月にW3C勧告として承認されました。
関連技術
VoiceXMLのスクリプト言語としてECMAScriptが使用されます。
まとめ
VoiceXMLは、音声アプリケーションの開発を効率化し、様々な分野で広く活用されています。W3Cによって標準化されたことで、プラットフォーム間の互換性が向上し、開発者はより柔軟な音声インタフェースを構築できるようになりました。関連技術であるSRGS、SISR、SSML、PLS、CCXMLと連携することで、より高度な音声対話システムが実現されています。