【動画生成AI】Stable Video Diffusion の使い方を初心者向けに徹底解説！

Stable Video Diffusionの使い方をわかりやすく解説！この記事を読めば、初心者でも簡単に動画生成ができるようになります。

Stable Video Diffusion とは？
- Stable Video Diffusion の概要
- Stable Video Diffusion の仕組み
Stable Video Diffusion で実際に動画を生成
- Google Colab で Stable Video Diffusion を起動
- Stable Video Diffusion Web UI で画像から動画の生成
Stable Video Diffusion の使い方のポイントと注意点
参考資料
生成 AIの映像作品への活用事例
まとめ

Stable Video Diffusion とは？

Stable Video Diffusion の概要

Stable Diffusion（SD）がテキストから画像を生成するのに対し、本記事の主題である Stable Video Diffusion（SVD）は、テキスト、もしくは画像から動画を生成します。

現在（2024.04）は、画像から動画を生成する機能のみ公開されているので、本記事では実際に Stable Video Diffusion を用いて画像から自動で動画生成する過程を実施してみようと思います。

画像生成の Stable Diffusion についてはこちらの記事に詳しく記載していますので、ぜひご確認ください！

2024年4月15日 [Stable Diffusion] たった 1 分！AI 絵師でサイバーパンクな侍を描いてみた！

2024年4月15日 [Stable Diffusion] 驚異のAI画像生成！Stable Diffusion 拡張機能の威力を体験してみる

Stable Video Diffusion の仕組み

Stable Video Diffusion は、Stable Diffusion の発展版のため、まずは画像生成の仕組みについて簡単に確認しましょう。

Stable Diffusion では、完全にランダムに数値が与えられた画像から、ノイズを除去することで少しずつ画像を生成していきます。

そのため、この画像生成モデルはよく彫刻師に例えられます。（石灰から像を少しずつ削り出す彫刻師のイメージです。）

以上が Stable Diffusion の原理ですが、動画生成を実施する Stable Video Diffusion も基本的には同じ原理で動いています。

【Tips! : Stable Diffusion と Stable Video Diffusion の違い】
この両者は基本原理は同じですが、アーキテクチャには工夫の違いがあります。
SD は単純な空間畳み込みをメインとしたモデル構造を保持しており、一般的な画像生成のモデルの仕組みに則っています。ただし、SVD では空間畳み込みの後に、時間畳み込みを実施しています。これは、フレーム間の時間的なつながりをモデルが保持するための工夫であり、動画生成ならではの構造と言えます。この仕組みによって前後のフレームで違和感のない動画が生成できています。
詳細は論文を参照ください。
論文：Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets