AI動画制作のプロンプト術|VeoやSoraで理想の映像を出力するコツを徹底解説
AI動画制作のプロンプト術|VeoやSoraで理想の映像を出力するコツ
Veo や Sora などの「テキストから動画を生成するAI」は、もはや実験段階を超え、ビジネスやクリエイティブの現場で本格的に使われ始めています。しかし、同じツールを使っても「プロンプトの書き方次第」で、仕上がる映像クオリティが驚くほど変わるのも事実です。
本記事では、AI動画生成をこれから始める方・すでに触っているが「思ったような映像が出てこない」と感じている方に向けて、Veo や Sora に共通して使えるプロンプト設計のコツを、体系的に解説します。
- 1. なぜAI動画制作で「プロンプト術」が重要なのか
- 2. AI動画プロンプトの基本構造:この5ブロックを押さえる
- 3. 目的・コンセプトを最初に1行で伝える
- 4. シーン設定:場所・時間・雰囲気を具体化する
- 5. キャラクター・被写体は「誰を」「どう撮るか」まで書く
- 6. カメラワークと時間構成を、簡易コンテのように記述する
- 7. 画質・スタイル・技術的条件を最後にまとめて指定
- 8. Veo や Sora で使えるプロンプトのテンプレート
- 9. よくある失敗パターンと修正のコツ
- 10. プロンプトを改善する反復プロセス
- 11. ビジネス活用の視点:AI動画プロンプトで差をつけるポイント
- まとめ:Veo・Soraで理想の映像を出すには「映像ディレクターの頭でプロンプトを書く」
1. なぜAI動画制作で「プロンプト術」が重要なのか
AI動画ツールはしばしば「魔法のようにテキストから動画が出てくる」と表現されますが、実際には以下のような構造で動いています。
- 入力:テキスト(プロンプト)+ 各種パラメータ
- 処理:テキストの意味解析 → 映像の構図・動き・質感を推定
- 出力:推定結果に基づく動画クリップ
つまり、「どんなテキストを、どの粒度で、どの順番で書くか」が、そのまま出力の品質に反映されます。特に動画は、静止画と違って以下の要素が増えるため、プロンプトの整理が必須です。
- 時間の流れ(何秒目に何が起きるか)
- カメラワーク(パン、ズーム、ドリーなど)
- 登場人物の動き・感情の変化
- シーンの切り替え(カット割り)
ここを曖昧な文章で済ませてしまうと、AIは「それっぽい、でも狙いからはズレた映像」を出してきます。逆に、人間のディレクターがコンテを描くイメージで、構造化して伝えると、AIは一気に本領を発揮してくれます。
2. AI動画プロンプトの基本構造:この5ブロックを押さえる
Veo や Sora など、動画生成AIに共通して応用できるプロンプト構成として、以下の5ブロックをおすすめします。
- 目的・コンセプト
- シーン設定(場所・時間・雰囲気)
- キャラクター・被写体
- カメラワークと時間構成
- 画質・スタイル・技術的条件
この5つを意識して書くだけで、仕上がりの安定感が大きく変わります。それぞれ、具体的に見ていきます。
3. 目的・コンセプトを最初に1行で伝える
多くの人がいきなり「夕暮れのビーチで…」と情景描写から書き始めますが、その前に「この動画で何をしたいのか」を1行で伝えるのがおすすめです。
例:
- 「テック企業の採用サイト用、スタイリッシュで躍動感のあるイメージ動画」
- 「YouTubeショート向けの、テンポの良い商品紹介クリップ」
- 「映画予告編風の、シネマティックな短編動画」
この一文があるだけで、AIが選ぶ色味・構図・動きの「方向性」が大きく変わります。Veo や Sora は、プロンプト全体の文脈からスタイルを推定するため、最初にコンセプトを固定しておくことで、ブレにくくなります。
4. シーン設定:場所・時間・雰囲気を具体化する
次に、シーンの舞台となる「どこで・いつ・どんな雰囲気で」を書きます。このパートが曖昧だと、AIはデフォルトのありきたりな背景を採用しがちです。
4-1. 場所の指定
悪い例:
- 「オフィスで働く人たち」
良い例:
- 「天井が高く、ガラス張りの窓から自然光が差し込む、モダンなコワーキングスペースのオフィス」
「どの国・どのテイスト・どの時代か」を含めると、より狙った絵になります。
4-2. 時間帯・季節の指定
- 朝焼け / 夕暮れ / 夜景 / 真昼
- 春 / 夏 / 秋 / 冬
これだけでも、光の色・影の長さ・空気感が変わります。「golden hour(ゴールデンアワー)」など、映像用語を入れるのも有効です。
4-3. 雰囲気・トーンの指定
例:
- 明るくポジティブ / 落ち着いた / ノスタルジック / 緊張感のある
- 映画『○○』のような雰囲気で、などの参照も有効
重要なのは、「感情のトーン」をテキストで指定すること。これにより、BGMのイメージやテンポ感、キャラクターの表情にも影響が出ます(音声がまだ付かないツールでも、ムードは可視化されます)。
5. キャラクター・被写体は「誰を」「どう撮るか」まで書く
AI動画では、人物や被写体の指定が甘いと、
- 毎フレーム顔や服装が微妙に変わる
- 性別や年齢、国籍が安定しない
- ショットごとに「別人」に見える
といった崩れが起きやすくなります。これを避けるには、以下の順番で情報を与えるのが有効です。
5-1. 人物の基本プロフィール
- 性別・年齢イメージ
- 人種・国籍イメージ
- 髪型・服装・雰囲気
例:
「20代後半の日本人女性。ショートボブの黒髪で、シンプルな白いシャツと黒のテーパードパンツ。落ち着いた知的な雰囲気。」
5-2. どんな表情・感情か
- 自信に満ちた笑顔
- 真剣な表情でモニターを見つめている
- 安堵したように微笑む
これらを具体的に入れるだけで、演技のニュアンスがかなり変わります。
5-3. 被写体との距離感(ショットサイズ)
- クローズアップ(顔のアップ)
- バストアップ(胸から上)
- 全身ショット
- 引きのロングショット
「20代日本人女性のバストアップで、カメラ目線で微笑んでいる」など、人物のサイズ感もプロンプトに含めると、構図が安定します。
6. カメラワークと時間構成を、簡易コンテのように記述する
静止画プロンプトでは省略されがちな「時間の流れ」ですが、動画ではここが肝になります。おすすめは、「0〜5秒」「5〜10秒」のように時間ごとに分けて書く方法です。
6-1. 時間で区切るプロンプトの例
0〜3秒:
オフィスの天井からの俯瞰ショット。広いコワーキングスペース全体が映り、複数の人がPCで作業している。カメラはゆっくりと前方にドリーインする。
3〜6秒:
20代後半の日本人女性ビジネスパーソンのバストアップにカット。彼女はノートPCの画面を集中して見つめており、モニターの光が顔を照らす。カメラは軽く手持ち風に揺れながら、ゆっくりと彼女の顔に寄っていく。
6〜10秒:
彼女が微笑み、自信に満ちた表情になる。背景はやわらかくボケており、窓の外の街並みの光がキラキラと輝いている。シネマティックな被写界深度。
このように時間軸で分解することで、AIは「どのタイミングでどんなショットにするか」を理解しやすくなります。ツールによっては、明示的なタイムコードをサポートしていない場合もありますが、それでもテキストとして時間の流れを説明することは有効です。
6-2. カメラワークのキーワード
よく使うカメラワークのキーワードをいくつか挙げておきます。
- pan(パン:左右に振る)
- tilt(チルト:上下に振る)
- zoom in / zoom out(ズームイン / ズームアウト)
- dolly in / dolly out(ドリーイン / ドリーアウト:カメラ自体が前後に移動)
- tracking shot(トラッキングショット:被写体を追いかける移動撮影)
- handheld style(手持ち風で、少し揺れがある)
Veo や Sora はこれらの用語もある程度理解します。「どんな視点で、どんなスピード感で見せたいか」を意識して記述しましょう。
7. 画質・スタイル・技術的条件を最後にまとめて指定
プロンプトの最後に、画質やスタイルに関する条件をまとめて書きます。ここは、いわば「仕上げのフィルター」です。
7-1. 画質・解像度・フレームレート
- 4K, ultra high resolution
- highly detailed, crisp image
- 24fps / 30fps / 60fps のようなフレームレート指定(対応していないツールもありますが、ムードには影響します)
7-2. スタイル・ルック
- cinematic, film-like look
- soft lighting, natural light
- high contrast, dramatic lighting
- color grading like blockbuster movie
「実写っぽくしたいのか」「アニメ・イラスト調にしたいのか」も、明確に書いておきましょう。
7-3. 参考作品・ブランドの指定
著作権的にグレーな指示は避けるべきですが、スタイルの参考として一般名詞レベルで示すのは有効です。
- 「Netflixのドキュメンタリーのような落ち着いたトーン」
- 「AppleのCMのようなミニマルでクリーンな映像」
8. Veo や Sora で使えるプロンプトのテンプレート
ここまでの内容を踏まえて、Veo や Sora でそのまま使えるテンプレートを用意しました。自分の案件に合わせて書き換えてみてください。
8-1. 共通テンプレート(日本語+英語ミックス)
【目的・コンセプト】
テックスタートアップのブランド紹介用、30秒のシネマティックなイメージ動画。
【シーン設定】
現代の東京の高層ビルにある、ガラス張りで開放的なオフィス。朝のゴールデンアワーの柔らかい自然光が差し込んでいる。雰囲気はポジティブで、前向きで、クリエイティブ。
【キャラクター】
20代後半の男女3人の日本人チーム。カジュアルビジネススタイル。集中して議論し、時々笑顔を見せる。
【時間構成・カメラワーク】
0〜5秒:
都会の高層ビル街の外観を、ドローンショットでゆっくりとパンしながら見せる。朝日がビルのガラスに反射して輝いている。
5〜10秒:
オフィスの俯瞰ショット。広いワークスペースで人々が働いている。カメラはゆっくりとドリーインして、中央のチームに寄っていく。
10〜20秒:
チーム3人のバストアップショットを切り替えながら、真剣な表情で議論している様子を見せる。handheld style, natural camera shake.
20〜30秒:
彼らが笑顔で頷き合い、ホワイトボードにアイデアを書き込む。窓の外の景色がボケてキラキラと光る。最後はロゴにフォーカスが合う。
【スタイル・画質】
4K, cinematic, shallow depth of field, soft natural lighting, color grading like a modern tech commercial, smooth motion, 24fps.
このように、日本語で意味をしっかり書きつつ、重要な映像・技術用語は英語も併記しておくと、モデルが解釈しやすくなります。
9. よくある失敗パターンと修正のコツ
9-1. 「情報詰め込みすぎ」でカオスな映像になる
ありがちなのが、「10秒の動画に3シーン分の情報を入れてしまう」パターンです。AIは全部を同時に満たそうとして、結果として中途半端な映像になりがちです。
対策:
- 1本あたり「1メッセージ」に絞る(例:ビル外観 → オフィス → 人物クローズの3ショット程度)
- 秒数に対して、シーン数を絞る(10秒なら2カットくらいが目安)
9-2. 「ふわっとした形容詞」だけで終わっている
「かっこいい感じで」「おしゃれでスタイリッシュに」だけでは、AIは解釈に迷います。
対策:
- 「何が」「どう」かっこいいのかを具体化する(例:暗めの背景に被写体だけスポットライト、など)
- 参照スタイルやブランドの名前を、抽象レベルで入れる
9-3. キャラクターがショットごとに変わる
人物の描写がショットごとに変わっていると、「似ているけれど別人」が量産されます。
対策:
- 最初に1度だけ、かなり具体的にキャラクターを定義する
- 以降のシーンでは「同じ女性」「同じ3人のチーム」とだけ書き、余計な変更を加えない
10. プロンプトを改善する反復プロセス
最初から完璧なプロンプトを書く必要はありません。Veo や Sora でうまくいく人は、例外なく以下のような反復プロセスを意識的に回しています。
- ざっくりプロンプトを書いて、まず1本出してみる
- 「何が良かったか」「どこが惜しいか」をスクリーンショット付きでメモ
- 次のプロンプトで、「良かった要素は残し、惜しかった要素だけ修正」する
- このサイクルを3〜5回まわす
修正の際は、以下のように差分だけを書くと、コントロールしやすくなります。
- 「前回のプロンプトと同じ構成で、カメラワークだけをslow panからhandheld styleに変更」
- 「人物の表情を、真剣な表情から、安心した優しい笑顔に変更」
対応しているツールであれば、「前回の動画をベースに、〜だけ変更」といった指示が通りやすくなります。
11. ビジネス活用の視点:AI動画プロンプトで差をつけるポイント
最後に、実務でVeo や Sora を活用する際に意識したいポイントをまとめます。
11-1. ブランドトーンを一貫させる
- 毎回「ブランドの世界観」「色」「雰囲気」を文章で再定義する
- ブランドガイドラインから、よく使うキーワードを抽出してテンプレ化
11-2. 量産ではなく「試作の高速化」として使う
AI動画は、いきなり最終納品クオリティを出すというより、
- 企画段階での「ビジュアルイメージ共有」
- クライアントとの方向性合わせ
- コンテや絵コンテの代替
として使うと非常に強力です。そのうえで、必要に応じて人間の撮影や編集と組み合わせるのが現実的な運用です。
11-3. プロンプト自体を「資産」として蓄積する
一度うまくいったプロンプトは、別案件にも応用できます。社内で以下のような形で整理しておくと、チーム全体の生産性が上がります。
- 「採用動画用テンプレ」
- 「商品紹介ショート動画テンプレ」
- 「ブランディング映像テンプレ」
各テンプレに「実際に出たベスト映像のサンプルリンク」を紐づけておくと、再現性が一気に高まります。
まとめ:Veo・Soraで理想の映像を出すには「映像ディレクターの頭でプロンプトを書く」
Veo や Sora といったAI動画ツールは、プロンプト次第で「なんとなくそれっぽい動画」から「企画意図を伝えられる映像」へと化けます。
ポイントをおさらいすると、
- 最初に目的・コンセプトを1行で固定する
- 場所・時間・雰囲気を具体的に書く
- キャラクターはプロフィール・表情・ショットサイズまで定義する
- 時間構成とカメラワークを「簡易コンテ」のように記述する
- 最後に画質・スタイル・参考テイストをまとめて指定する
- 一度で完璧を狙わず、反復しながら少しずつ修正していく
この基本を押さえれば、AI動画制作は「運任せのガチャ」から、「狙って絵を出すスキル」へと変わります。ぜひ、あなたのプロジェクトでも、Veo や Sora を映像ディレクターの相棒として活用してみてください。
実際の画面や具体的なプロンプト例を動画で確認したい方は、こちらも参考にしてください。
https://youtu.be/MDKJA5lqELo?si=bX5t8NNeb_ErYWPN