動画生成AI・Open-Sora Planとは?本家Soraとの比較も解説テスト
更新日:2024年07月10日
公開日:2024年04月24日
Open-Sora Planは、プロンプトにより動画を生成できるオープンソースです。Open AIが開発する「Sora」を再現するプロジェクトでもあります。そんなOpen-Sora Planの使いやすさや動画のクオリティが気になる人も多いでしょう。
この記事では、Open-Sora Planの概要を解説したうえで、使ってみた感想やSoraによる動画と比べた所感を述べていきます。
目次
Open-Sora Planとは
Open-Sora Planは、HPC-AI TechのColossal-AIチームによる動画生成AI開発プロジェクトです。Open AIが2024年2月15日に発表した動画生成AI「Sora」のオープンソースを提供しており、Soraの再現を試みています。Open-Sora PlanはSoraと同様、プロンプトの入力のみで動画生成が可能です。
Sunset_over_the_sea
— Bin Lin (@LinBin46984) April 7, 2024
65×1024×1024 pic.twitter.com/5nhLbFVpyG
なお、Open-Sora Planは誰でも参加できるプロジェクトであり、有志による改善や新機能の提案を受け入れています。一般に広く開かれた、協力型プロジェクトであることもOpen-Sora Planの特徴の一つです。
参考:OpenAI、テキストから動画を生成するAI「Sora」発表
Open-Sora Planのライセンス
Open-Sora PlanはMITライセンスのもと配布されており、条件を守る限り商用利用が可能です。
権限 | 可否 |
---|---|
商用利用 | ライセンスと著作権の表示をすればOK |
修正 | |
配布 | |
私的利用 |
参考:Git hub「Open-Sora-Plan/LICENSE」
ただし、トラブルが起こった場合の責任はOpen-Sora Planの利用者がすべて負うことになります。主に、生成動画による著作権侵害には細心の注意を払うべきでしょう。
Open-Sora Planで動画を生成してみた
2024年4月現在、Open-Sora Planの使用方法には以下の2パターンがあります。
- コンピューター上でのプロジェクトのインストール
- インターネットを介しての実行(Hugging Face Spaceや、Google Colabのノートブック)
動画生成AIを使用するのが初めての筆者は、Hugging Face Spaceでビデオ作成を試みました。動画は、以下の条件で作成しました。
- Sample Steps:初期設定
- Guidance Scale:初期設定
- プロンプト:runnig dog
prompt : running dog#opensoraplan pic.twitter.com/VYSpg7fHaG
— 松浦 さとみ|ライター (@bleu_perfume) April 23, 2024
しかし、開発メンバーが公開しているような動画クオリティには至りませんでした。動画の画面中央で人間と犬とみられる被写体が混ざり合い、「走る犬たち」の完璧な再現はできていません。
ChatGPTによる画像生成のように、プロンプトを入力しただけでは思ったような仕上がりにはならないようです。プロンプト以外にもさまざまな値の調整が可能ですが、動画生成に精通していない人には操作が難しいと考えられます。
Open-Sora Planは日々開発が進んでいるため、一般ユーザーに対する使いやすさの向上にも期待がかかります。
SoraとOpen-Sora Planの動画を比較した所感
Open-Sora Planのクオリティを確かめるために、Soraで生成された動画との仕上がりを比較してみました。どちらも、プロンプトにより風景を再現するよう指示した動画です。
Open-Sora Planで生成された動画(※1)
This is an example of OpenAI’s new text to video product. Prompt: “Historical footage of California during the gold rush” pic.twitter.com/teczQsWzyn
— Historic Vids (@historyinmemes) February 15, 2024
Open-Sora Planで生成された動画
A_quiet_beach_at_dawn,_the_waves_gently_lapping_at_the_shore_and_the_sky_painted_in_pastel_hues
65×1024×1024 without super resolution and frame interpolation. pic.twitter.com/uG7X5454oh
— Bin Lin (@LinBin46984) April 7, 2024
(※1)参考:OpenAI 「Creating video from text」
動画の尺
生成動画の尺を比べると、Soraは約20秒〜1分であるのに対し、Open-Sora Planは2秒にとどまります。Open-Sora Planの開発者が発表しているほかの動画を見ても、2秒のものばかりでした。
OpenAI(※2)によると、Soraは最長1分の動画が作れるとされています。ストーリー性の表現可能性に関しては、長い尺の動画を生成できるSoraが圧倒的にリードしている印象です。
(※2)参考:OpenAI 「Creating video from text」
プロンプトの再現度
SoraとOpen-Sora Planが、どれくらいプロンプトを再現できているかをチェックします。以下は、それぞれの動画生成にあたり入力されたプロンプトです。
- Sora:カリフォルニアのゴールドラッシュ時代の歴史的映像
- Open-Sora Plan:夜明けの静かなビーチで、波が穏やかに岸を打ち、空はパステル調の色で彩られている
Soraによる動画と実際のゴールドラッシュ時代の写真と見比べてみたところ、木造家屋の作りが忠実になされていると感じました。移動手段として馬が表現されている点も時代背景を捉えていると考えられます。実際の映像資料に乏しい時代をイメージする動画としては、非常に優れているといえるでしょう。
Open-Sora Planによる動画は、奥のほうから波が次々と押し寄せ、穏やかに打つ様子が忠実に再現されています。空の色を淡いブルーやソフトピンクで描き、プロンプトの「パステル調」「夜明け」を表現しています。
どちらもプロンプトを忠実に再現していると感じましたが、指示の抽象度を考慮するとSoraのほうが優れている印象です。実際に、OpenAI(※3)も、Soraはプロンプトにはない情報を把握し、リアルな映像を作成する能力があるとしています。
(※3)参考:OpenAI 「Creating video from text」
空間表現
Soraによる動画は、視点移動による空間表現がなされています。コマが進んでも雑さが見られることはなく、まるでドローンで撮影したかのようななめらかさです。
一方、Open-Sora Planによる動画は視点移動がなされず、一定の画角からの表現にとどまっています。Open-Sora Planの開発者が発表しているほかの動画にも、視点移動がなされているビデオはありませんでした。
現時点で視点移動による奥行きを表現できるのは、Soraのみであるといえるでしょう。
Open-Sora Planは成長可能性のあるオープンソース
Open-Sora Planは、プロンプトの再現性が非常に高いソースであると感じました。一方、プロンプトにない情報を推測するスキルや、視点移動による空間表現はSoraが圧倒的に優れている印象でした。
誰もが参加できるオープンソースということもあり、今後のさらなるクオリティの向上に期待がかかります。
AIツールで商談の成果UP &育成の効率化を実現
オンラインでも、オフラインでもAIが議事録を自動作成してくれる営業・育成支援AIツール「ACES Meet」。
このツールは、商談やミーティング中の様子を録画、AIが自動で文字起こし、議事録の作成まで行えます。また、話しているスピードや内容などをAIが解析し、どんなトピックにどれくらい時間を使ったのか、重要な箇所はどこなのかを分かりやすく表示します。
この議事録を見ることで、振り返りやナレッジの蓄積、タスクの抜け漏れ防止にもなります。また、トッププレイヤーの録画映像は、生きた教材となり、良質なOJTとなるでしょう。
まずは情報収集として、お気軽に資料をダウンロードしてみてください。