Seiren Voiceとは？意味をやさしく解説 - サードペディア百科事典

Seiren Voice（セイレンボイス）は、株式会社ドワンゴが開発した音声変換技術、およびその技術を基にドワンゴと株式会社エーアイが共同で販売している音声変換ソフトウェアです。

概要

従来の音声変換システムはリアルタイム処理を重視する傾向がありましたが、Seiren Voiceは音声の品質を最優先に開発されました。開発者は、VOICEVOXの開発者としても知られるヒホ（ヒロシバ）氏です。Seiren Voiceは、100人の話者による高音質な音声データセットであるJVSコーパスと、WaveRNNと呼ばれる音声合成用の深層学習モデルを利用して音声サンプルを生成しています。製品名「Seiren」は、ギリシャ神話に登場する海の怪物セイレーンに由来し、その魅惑的な声で人々を魅了するように、このソフトウェアが生み出す声でユーザーを惹きつけたいという願いが込められています。

Seiren Voiceの音声変換プロセスでは、まず人の話し声を音素情報、音素のタイミング、音の高さの3つの要素に分解します。次に、話者の発音の仕方、イントネーション、スピード、間の取り方などをディープラーニングによって再構築し、ターゲットとするキャラクターの声に変換します。また、「歌モード」を使用することで歌声の再現も可能ですが、日本語の学習データに基づいているため、外国語の発音品質は日本語に比べて劣ります。

2022年の発売当初のバージョン1（v1）では、NVIDIA製のGPUを搭載した機器が必須でしたが、翌年にリリースされたバージョン2（v2）では、GPU非搭載の機器でも使用できるようになりました。さらに、音声変換にかかる時間もv1と比較して5分の1以下に短縮されました。v2のリリース以降は、v2のみを製品化したSeiren Voice スタンダードパック(v2)と、v1とv2の両方を含むSeiren Voice コンプリートパック(v1&v2)の2種類が販売されています。v1のユーザーは、コンプリートパックへのアップデートが可能です。

Seiren Voiceは、録音またはWAV、MP3形式の音声ファイルをインプットとして受け付け、出力形式はWAVファイル（音声）、txtファイル（テキスト）、Labファイル（音声のタイミング情報）の3種類に対応しています。

年表

2020年9月14日：ドワンゴの研究開発部門Dwango Media Villageが、誰の声でも複数の声に変換できる音声変換システムを開発したと発表し、デモページを公開。
2022年 5月17日：製品の第一弾として、「Seiren Voice琴葉茜・葵」と「Seiren Voice結月ゆかり」が発売。
2023年6月2日：一部製品に対してバージョン2がリリースされ、同年8月3日までに全製品がバージョン2に対応。

製品一覧

Seiren Voice 琴葉茜・葵
Seiren Voice 結月ゆかり
Seiren Voice スタンダードパック(v2)
Seiren Voice コンプリートパック(v1&v2)

注記

この説明はSeiren Voiceに関する一般的な情報を提供しています。より詳細な情報や最新情報については、公式サイトをご確認ください。

外部リンク

Seiren Voice 公式サイト

もう一度検索

Seiren Voice

概要

年表

製品一覧

関連項目

注記

外部リンク