GPT-4o: OpenAIの新たなマルチモーダルAI
GPT-4o(
GPT-4 Omni)は、OpenAIによって開発された最新の多言語およびマルチモーダルな人工知能モデルです。2024年5月13日にリリースされ、OpenAIのCTOである
ミラ・ムラティによって詳細が発表されました。このモデルは、テキスト、画像、音声を入力および生成する能力を持ち、ユーザーは無料で利用できるものの、いくつかの利用制限が適用されています。特に
ChatGPT Plusのユーザーは、これらの制限が5倍に緩和される特典を受けることができます。
機能と能力
GPT-4oの特筆すべき点は、その高速な応答性です。音声入力に対しては、最短232ミリ秒という迅速さで応答でき、平均320ミリ秒のタイムラグは人間の反応時間に非常に近いものとなっています。その性能は、API利用時には
GPT-4 Turboの半額でその2倍の速度で使用可能というコスト面でも競争力があります。また、このモデルは音声、翻訳、多言語対応の分野で最前線を行っており、新しい記録を樹立しています。
さらに、Massive Multitask Language Understanding(MMLU)というベンチマークでは、
GPT-4oは88.7ポイントを獲得し、前モデルの
GPT-4(86.5ポイント)を上回っています。これにより、
GPT-4oはマルチタスクにおいて非常に高い性能を示しています。50以上の言語に対応し、これは世界全体で97%以上の言語話者にサービスを提供できることを意味します。イタリア語と英語の翻訳の実演によって、多言語対応の能力も確かに証明されています。
背景と開発
このモデルはもともと、Large Model Systems Organization(LMSYS)によって、gpt2-chatbot、im-a-good-gpt2-chatbot、im-also-a-good-gpt2-chatbotの3つの異なるバリエーションとして開発されていました。その後、
サム・アルトマンが2024年5月7日に「im-a-good-gpt2-chatbot」に言及するツイートを行ったことで、これらのモデルがA/Bテストされていることが確認されました。
音声機能と論争
GPT-4oには音声合成に関する論争も発生しています。具体的には、リリース後、モデルの一つであるSkyの声が
スカーレット・ヨハンソンに似ているとの指摘がありました。この類似性はメディアで大きく取り上げられ、5月14日にはエンターテインメント・ウィークリーがその意図について疑問を呈しました。さらに、5月18日には、ヨハンソンの夫、Colin Jostが「
サタデー・ナイト・ライブ」でこの話題についてジョークを言うなど、注目を集めました。その結果、OpenAIはSkyの声の使用を一時停止する決定を下し、その理由について説明するとともに、声優の使用についても言及しました。
OpenAIによると、各声は雇われた声優によって生成されたものであり、特にSkyの声がヨハンソンを真似たものではないと強調しています。CTOの
ミラ・ムラティも、具体的な出所についての認識が不足していた旨をコメントしています。この件は、ヨハンソンが以前ディズニーとの間で契約の問題について訴訟を行ったケースの似ている点が多くのメディアによって指摘されました。これらの騒動を受けて、アメリカのメディアではテクノロジー企業の判断ミスとして取り上げられ、やや厳しい目が向けられています。
最後に
GPT-4oは、その多様な機能と革新的な技術により、今後のAIの発展に大きな影響を与えることが期待されています。特に、選択肢として多くの言語に対応できることや、高速な応答が可能であることは、ユーザーから高く評価されていますが、一方でその開発過程において潜在的な問題も内包しています。音声合成に関する論争も含め、今後の運用と改善が注目されるところです。