Sora (人工知能モデル)とは？意味をやさしく解説

Sora（ソラ）とは

Sora（ソラ）は、2024年12月に一般ユーザー向けに公開された、OpenAIが開発したtext-to-videoモデルです。これは、ユーザーが提示したプロンプトに基づいて短い動画クリップを生成したり、従来の短い動画を拡張することができる能力を持っています。

開発の背景

Soraの誕生に至るまでには、テキストから動画を生成する技術の模索が続けられており、MetaのMake-A-VideoやRunwayのGen-2、GoogleのLumiereといった他のモデルも開発されてきました。OpenAIは2023年9月に、DALL-E 3というtext-to-imageモデルをリリースしたことでも知られています。Soraという名称は日本語の「空」に由来しており、無限の創造力を感じさせるものとされています。

Soraの公開と機能

2024年2月15日にOpenAIは、Soraの生成した高解像度の動画クリップのプレビューを発表しました。その内容には、山道を走るSUVや、「短くてふわふわしたモンスター」が登場するアニメーション、雪の中を東京で歩く二人などが含まれ、最大で1分間の動画を作成することが可能であると報告されています。さらに、このモデルのトレーニング手法を詳しく記載した技術報告書も公開されました。

OpenAIは、少数のクリエイティブな専門家や誤情報やバイアスの検証を行うチームにSoraへの限定的なアクセスを与え、ユーザーからのフィードバックを集めました。2024年11月24日には、テスターグループからSoraのAPIキーが流出するという事件も発生しましたが、OpenAIは直ちにアクセスを取り消しました。

今後の展望

2025年9月30日、OpenAIはSoraの進化版「Sora 2」を発表し、iOSアプリをアメリカとカナダで配信開始しました。このアプリはSNSの要素を取り入れ、生成した動画を他のユーザーと共有することができます。その後、日本と韓国への配信も行われ、Android版の提供もスタートしました。しかし、2026年にはサービス終了が発表され、その動向には注目が集まっています。

Soraの技術基盤

Soraは、DALL-E 3の技術を応用し、デノイズ型潜在拡散モデルとして機能します。動画は3D「パッチ」をデノイズし、潜在空間で生成された後、標準空間に変換される仕組みです。また、動画に詳細なキャプションを付けることでトレーニングデータが強化されています。

OpenAIはモデルをトレーニングするために、一般公開されている動画やライセンスされた動画を使用していますが、具体的な数やデータソースについては明らかにしていません。Soraには複雑な物理現象の理解や因果関係を把握する能力の限界もあると指摘されています。

反響と懸念

Soraのデモ動画は技術的に印象的と評価される一方、リスクについても懸念が示されています。特に、誤情報の生成や著作権、肖像権の侵害などの問題が指摘され、OpenAIはこれに対応するための方針を策定しました。Sora 2では著作権者のオプトインを必要とする仕様に変更され、著作権を巡る批判にも配慮されるようになりました。

特に、映画業界に与える影響やデジタルコンテンツの未来を憂慮する声が多く、Soraの普及に伴う倫理的な課題は今後さらに重要視されることでしょう。

もう一度検索