DAISYプロジェクト

DAISYプロジェクト（デイジィプロジェクト）とは

DAISYプロジェクトは、ヤマハが2000年3月に開始したVOCALOID開発プロジェクトのコードネームです。この名称は、1961年にベル研究所が公開実験で世界で初めてコンピュータに歌わせた楽曲「Daisy Bell」に敬意を表して命名されました。その後、正式名称は「VOCALOID」と決定し、2003年2月に正式発表されました。

開発経緯

2000年4月、バルセロナのポンペウ・ファブラ大学 Music Technology Group（MTG）との共同研究が開始され、VOCALOIDの信号処理部分が開発されました。MTGは、音と音楽のコンピューティングに関する研究グループで、約40名の研究者が所属しています。信号処理、音響、音楽、演奏モデル、音楽コミュニケーションなどの研究を行っています。2005年には、実世界インタフェースを使った仮想モジュラーシンセサイザー「Reactable」を発表しており、その他にもFreesoundプロジェクト、音楽関連IT企業BMATなどの活動を行っています。

2002年5月には、札幌のクリプトン・フューチャー・メディア、同年秋にはイングランドのZero-G Limited、その他1社との接触が開始されました。後に、クリプトン・フューチャー・メディアとZero-G Limitedとの間で、歌声ライブラリ制作とソフトウェア販売に関するライセンス供与の合意に達しました。

2003年2月26日には開発に関するプレス発表が行われ、同年3月にはMusikmesseとAESコンベンションでプロトタイプが展示・発表されました。そして、2004年1月にはNAMM Showで最初のVOCALOID製品である「Leon」と「Lola」がZero-Gから発表され、日本国内では同年3月3日に発売されました。

ヤマハとMTGの共同研究

ヤマハと共同研究を行ったMTGは、1994年に設立された研究グループです。MTGの創立者でありディレクターであるXavier Serraは、1980年代にはスタンフォード大学CCRMAに所属し、物理モデリング・シンセシスで著名なJulius O. Smithと共に、MQ手法と同様なフェーズボコーダのピッチトラッキング拡張による分析/合成手法PARSHLを1987年に開発しました。また、1989年には、McAuleyとQuatieriがMQ手法で提案した正弦波ベースの音声分析/合成手法Sinusoidal modelingの拡張として、音響モデルに音声合成で実績のあるノイズ成分を加えたインハーモニックな楽音分析/合成手法Spectral modeling synthesis（SMS）を提案しました。このSMS手法は、2000年4月開始のVOCALOIDの共同研究でも基盤技術の一つとして活用されています。

共同研究の成果

Loscos（2007）によれば、MTGとヤマハの共同研究で開発された信号処理手法は、2001〜2003年の3つの論文で発表されました。この研究では、フレームベースの周波数領域テクニック（diphone等のフレーム単位に区切られた音声素片を周波数領域で処理する手法）を使って、与えられた楽譜と歌詞に従って歌声データベース上の音声素片を移調/時間伸縮/連結して歌声を合成するシステムが示されました。

この研究の音声モデルは、スペクトル・モデルの1つであるSMS手法による「調波+残余」表現をベースに、準物理モデルの1つであるソース・フィルタモデルの拡張として新規開発されたExcitation plus Resonances（EpR）音声モデルによる「励起+共鳴」表現を組み合わせたものです。モデルと元波形の相違は、分析時に差分スペクトル形状として保存し、再合成時に加算することで音質変化を抑制します。

歌声合成の基盤として、phase-locked vocoderに基づくフレームベースのスペクトル分析/合成手法Spectral peak processing（SPP）を使ったサンプル変形手法が開発されました。この手法は、時間スケーリング、スペクトルの非線形スケーリングによるピッチ変換、位相補正、スペクトル包絡のピーク強度調整（equalization）による音色調整を可能にします。また、素片接続に関しては、素片フレーム間に遷移フレームを挿入し、上記サンプル変形手法を使って位相接続やスペクトル形状接続（いわゆるスペクトル包絡補間）を行う手法が開発されました。

製品版VOCALOIDで実際に採用された技術については、剣持 & 大下 (2008) に概略説明があります。

参考文献

Bonada, J.; Celma, O.; Loscos, A.; Ortola, J.; X. Serra, Y. Yoshioka, H. Kayama, Y. Hisaminato, H. Kenmochi (2001), “Singing voice synthesis combining Excitation plus Resonance and Sinusoidal plus Residual Models”, Proc. of ICMC, CiteSeerx: 10.1.1.18.6258
Bonada, Jordi; Loscos, Alex (2003), “Sample-based singing voice synthesizer by spectral concatenation”, Proc. of SMAC 03: pp. 439–442
Bonada, J.; Loscos, A.; Mayor, O.; Kenmochi, H. (2003), “Sample-based singing voice synthesizer using spectral models and source-filter decomposition”, Third International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications.
Loscos, A. (2007), Spectral processing of the singing voice, Ph.D. Thesis, Pompeu Fabra University
剣持, 秀紀 (2008), “歌唱合成システム VOCALOID と初音ミク”, デジタルコンテンツの知的財産権に関する調査研究報告書：進化するコンテンツビジネスモデルとその収益性・合法性 — VOCALOID2、初音ミク、ユーザ、UGMサイト、権利者 —

外部リンク

* Music Technology Group, Universitat Pompeu Fabra

もう一度検索

DAISYプロジェクト