AI動画で、車を運転するカップルが自然に会話している映像を作ろうとしました。

作りたかったのは、次のような映像です。

成人の男性が運転している
成人の女性が助手席に座っている
2人がドライブ中に穏やかに会話する
運転手は基本的に前方を見る
女性が話したあと、男性が短く返事をする
カメラはダッシュボード付近に固定する

一見すると、それほど難しくない場面に見えます。

しかし、実際に生成してみると、運転手が助手席を見続けたり、反対に人物がほとんど反応しなくなったりしました。

今回は、3本の生成結果を比較しながら、どのようにプロンプトを改善したのかを紹介します。

※記事内の人物、車内、道路、会話は、すべて架空のAI生成表現です。実在する人物、車種、企業、場所とは関係ありません。

今回作りたかった車内会話
1本目のプロンプト
1本目の動画
1本目で起きた問題
最初の失敗から分かったこと
2本目で使用した画像プロンプト
2本目の動画
2本目で改善された点
2本目で感じた違和感
プロンプトを詳しくすれば自然になるとは限らない
3本目の動画プロンプト
3本目の動画
3本目で改善された点
3本目にも残った違和感
1. 男性の返事が少し大きく見える
2. 女性の笑顔が少し固定される
3. 広告映像のように見える
1本目：指示が少なすぎた
2本目：制限を増やしすぎた
3本目：行動を時間順に指定した
1．話す人物を1人ずつ指定する
2．聞き手にも小さな動きを与える
3．視線は時間と動きをセットで指定する
4．短い動画に会話を詰め込みすぎない
1. カット1
2. カット2
3. 1．雰囲気だけでなく動作を指定する
4. 2．禁止事項だけを増やさない
5. 3．行動を時間順に書く

今回作りたかった車内会話

今回の目標は、派手な演技をする映像ではありません。

日中の道路を走る車内で、助手席の女性が短く話し、運転手の男性が自然に反応する日常的な場面です。

理想とする流れは次のとおりです。

助手席の女性が話す
男性は前方を見ながら聞く
男性が軽くうなずく
一瞬だけ女性を見る
前方へ視線を戻す
男性が短く返事をする

このような短い会話であっても、AI動画では、視線、口の動き、手の位置、表情、身体の揺れを同時に処理する必要があります。

そのため、単に「カップルが会話する」と書くだけでは、思ったとおりにならないことがあります。

1本目：簡単なプロンプトで生成した失敗例

最初に使用したのは、比較的短いプロンプトです。

1本目のプロンプト

車でドライブしながら楽しく会話するカップル。
男性が運転し、助手席の女性と笑顔で話している。
車内から撮影したリアルな映像。

1本目の動画

ここに1本目の動画を掲載します。

Google Omniで生成したものです。AIフィクション映像となります。

1本目で起きた問題

この動画では、2人が楽しそうに会話していることは伝わります。

人物の表情も分かりやすく、カップルらしい親しさも表現されています。

一方で、運転中の映像として見ると、いくつか気になる点がありました。

運転手が助手席の女性を見る時間が長い
運転手がハンドルから片手を離して話している
身振りや表情が少し大きい
安全に運転しているようには見えにくい
日常会話というより演技しているように見える

最初のプロンプトでは、「楽しく会話する」「笑顔で話す」という雰囲気だけを指定していました。

しかし、運転手がどこを見るのか、誰が先に話すのか、手をどこに置くのかは指定していませんでした。

その結果、AIが会話の分かりやすさを優先し、運転中としては不自然な動作を作ったと考えられます。

最初の失敗から分かったこと

「会話していることを分かりやすくする動き」と「安全に運転しているように見える動き」は、必ずしも同じではありません。

人間同士の会話としては、相手の顔を見たり、手を動かしたりする方が自然です。

しかし、車を運転している人物が同じ動きをすると、危険な運転に見えることがあります。

そこで、2本目では運転手の視線や手の位置を細かく指定しました。

2本目：指示を増やしたら別の違和感が出た

2本目では、最初の失敗を防ぐために、画像と動画のプロンプトを詳しくしました。

特に重視したのは、次の点です。

運転手は前方を見る
両手をハンドル付近に置く
助手席を長時間見ない
大げさな身振りをしない
2人が同時に話さない
カメラを固定する
過剰な笑顔を避ける

2本目で使用した画像プロンプト

架空の一般的な乗用車の車内。

成人の男性が運転席に座り、成人の女性が助手席に座っている。
2人は親しいカップルだが、過度に演出されたポーズは取っていない。

男性は両手を自然にハンドル付近へ置き、前方の道路を見て安全に運転している。
女性は助手席から男性の方へ少し顔を向け、穏やかに話しかけようとしている。

カメラは車内のダッシュボード中央付近に固定され、運転席と助手席の上半身が同時に見える構図。
目線の高さに近い、自然な広角の車載カメラ映像。

日中の柔らかな自然光。
窓の外には、実在の場所を特定できない郊外の道路と緑が見える。
落ち着いた日常的な雰囲気。
ドキュメンタリー風の自然な画質。

人物はカメラを見ない。
企業ロゴ、車のブランドマーク、道路標識の読める文字、実在する地名は表示しない。

2本目の動画

Google Omniで生成したものです。AIフィクション映像となります。

2本目で改善された点

最初の動画に比べると、運転動作は安定しました。

男性が前方を向いている
両手がハンドル付近にある
シートベルトが表示されている
大きな身振りが減っている
車内の構造が比較的安定している
危険な運転には見えにくくなった

この点だけを見ると、プロンプトの改善は成功しているように見えます。

しかし、映像全体を見ると、今度は別の違和感が出ました。

2本目で感じた違和感

男性の表情と姿勢がほとんど変わらない
女性だけが長く話しているように見える
男性が会話を聞いている感じが弱い
2人の間に心理的な距離を感じる
視線移動が小さすぎる
会話よりも女性の独り言に見える
指示された動作を順番に実行しているように見える

1本目では人物が動きすぎていました。

ところが2本目では、安全な動きを重視しすぎたことで、人物の反応まで小さくなってしまいました。

プロンプトを詳しくすれば自然になるとは限らない

今回、特に興味深かったのがこの点です。

一般的には、プロンプトを詳しくするほど、希望する映像に近づくと考えがちです。

しかし、動画生成では、制限を増やしすぎると、人物の動きが硬くなることがあります。

2本目では、次のような制約を多く入れていました。

前方を見る
ハンドルから手を離さない
相手を長く見ない
身振りをしない
同時に話さない
大きく笑わない
カメラを見ない
顔を変形させない

どれも必要な指示です。

ただし、「してはいけない動き」ばかりを増やした結果、AIが人物を動かさない方向へ寄せた可能性があります。

つまり、1本目と2本目は次のような関係になりました。

動画	特徴
1本目	動きが大きく、会話は伝わるが運転が不自然
2本目	運転は安定したが、会話の反応が弱い

3本目：会話の動きを時間順に指定して再改善

3本目では、「動かないようにする指示」を増やすのではなく、人物の行動を時間順に指定しました。

使用したプロンプトはこちらです。

3本目の動画プロンプト

固定されたダッシュボードカメラから見た、架空の乗用車内のリアルな短い映像。

成人の男性が運転席で安全に運転し、成人の女性が助手席に座っている。
車は日中の静かな郊外道路を一定の速度で走っている。

映像の前半では、助手席の女性が男性の方へ少し顔を向け、穏やかな表情で短く話す。
女性だけが自然に口を動かす。
運転中の男性は口を閉じ、前方の道路を見ながら話を聞く。

男性は女性の話に対して軽くうなずく。
その後、一瞬だけ女性の方へ視線を動かし、すぐに前方へ視線を戻す。

映像の後半で、男性が前方を見たまま短く返事をし、自然に微笑む。

2人が同時に話すことはない。
大げさな身振りはしない。
男性は両手をハンドル付近に保つ。
身体は車の走行に合わせて、ごくわずかに自然に揺れる。

窓の外の背景は、車の速度に合った穏やかな動きで流れる。
カメラは移動せず、ズームや急なパンを行わない。

自然な会話の間、落ち着いた表情、小さな視線の変化を重視する。

人物はカメラを見ない。
不自然な口の動き、過剰な笑顔、急な顔の変形、手や指の変形を避ける。

企業ロゴ、読める文字、実在する道路、実在する地名は表示しない。

3本目の動画

Google Omniで生成したものです。AIフィクション映像となります。

3本目で改善された点

3本目では、会話の流れがかなり分かりやすくなりました。

女性が先に話している
男性は前方を見ながら話を聞いている
男性が女性へ短く視線を向ける
その後すぐ前方へ戻る
女性の発話後に男性が返事をする
2人が同時に大きく口を動かしていない
男性の手がハンドル付近に保たれている
カメラ位置と人物の顔が安定している
車外の景色も自然に流れている

特に良かったのは、次の順番です。

女性が話す
↓
男性が反応する
↓
一瞬だけ女性を見る
↓
前方へ戻る
↓
男性が返事をする

1本目と2本目では曖昧だった会話の順番が、3本目では映像として伝わるようになりました。

3本目にも残った違和感

3本目は、今回の3本の中では最も自然です。

ただし、完全に違和感がなくなったわけではありません。

男性の返事が少し大きく見える

プロンプトでは「短く返事をし、自然に微笑む」と指定しました。

しかし、生成結果では男性の口がやや大きく開き、短い返事というよりも、笑っているように見える部分があります。

女性の笑顔が少し固定される

女性が話し終わったあと、笑顔の状態が少し長く続いています。

男性の返事を聞いて反応しているというよりも、撮影用の表情を保っているように見える瞬間があります。

広告映像のように見える

車内、人物、景色が整いすぎており、日常のドライブ映像というより、自動車や保険の広告映像のような印象もあります。

ただし、これは大きな破綻ではありません。

今回目標としていた「女性が話し、男性が反応して返事をする映像」には、かなり近づきました。

3本を比較して分かったこと

今回の3本を比較すると、AI動画のプロンプト改善には、単純な正解がないことが分かります。

1本目：指示が少なすぎた

カップルが楽しく会話する

このような雰囲気中心の指示では、AIが分かりやすい演技を作りやすくなります。

その結果、会話していることは伝わりましたが、運転手が助手席を見続けたり、手を離したりしました。

2本目：制限を増やしすぎた

前方を見る
手を離さない
大げさに動かない
相手を長く見ない

安全な動作を優先したことで、運転は安定しました。

しかし、人物の反応まで小さくなり、会話している感じが弱くなりました。

3本目：行動を時間順に指定した

女性が話す
男性が聞く
男性がうなずく
一瞬だけ女性を見る
前方へ戻る
男性が返事をする

3本目では、禁止事項だけでなく、人物が行うべき動作を順番に指定しました。

その結果、安全な運転姿勢を維持しながら、会話のやり取りも表現できました。

AI動画では禁止よりも行動を指定する

今回の比較で最も重要だったのは、次の考え方です。

不自然な動きを禁止するだけではなく、代わりに何をさせるかを指定する。

たとえば、

助手席を見続けない

だけでは、AIは運転手を正面に固定する可能性があります。

そこで、

女性の話に軽くうなずき、一瞬だけ女性へ視線を向け、すぐに前方へ戻す

と指定します。

同じように、

大げさに笑わない

だけでは、表情がなくなる可能性があります。

代わりに、

口元をわずかに緩め、控えめに微笑む

と指定します。

禁止だけで終わらせず、代わりの小さな動作を与えることが重要です。

会話を自然に見せるためのポイント

1．話す人物を1人ずつ指定する

女性だけが口を動かす
男性は口を閉じて話を聞く
女性が話し終わったあと、男性が返事をする

「2人が会話する」とだけ指定すると、2人が同時に口を動かす可能性があります。

短い動画では、話す順番を明確にした方が安定します。

2．聞き手にも小さな動きを与える

聞いている人物が完全に静止していると、会話には見えません。

聞き手には、次のような小さな反応を入れます。

軽くうなずく
瞬きをする
口元を少し緩める
一瞬だけ相手を見る
呼吸に合わせて身体が少し動く

大きな身振りよりも、小さな反応の方が自然です。

3．視線は時間と動きをセットで指定する

一瞬だけ女性へ視線を向け、すぐに前方へ戻す

「女性を見る」だけでは、長時間横を向く可能性があります。

視線の移動先だけでなく、どのくらいの時間見るのか、次にどこを見るのかまで指定します。

4．短い動画に会話を詰め込みすぎない

8秒程度の動画で長い会話を作ろうとすると、口の動きや表情が崩れやすくなります。

短いセリフと、短い返事だけに絞る方が安定します。

必要であれば、次のようにカットを分ける方法もあります。

カット1

助手席の女性が短く話す。
男性は前方を見ながら聞き、軽くうなずく。

カット2

男性が前方を見たまま短く返事をする。
女性は口を閉じて聞き、自然に微笑む。

編集時に2つの映像をつなげることで、1本の生成内で複雑な会話を完成させるよりも安定しやすくなります。

失敗例と成功例を作る際の注意点

今回、最初は1本目を失敗例、2本目を成功例として扱う予定でした。

しかし、実際に映像を比較すると、2本目の方が会話としては不自然に見える部分がありました。

そのため、記事内では次のように分類しています。

動画	記事内での位置付け
1本目	指示が少なく、動きすぎた失敗例
2本目	改善したつもりが、動きが硬くなった例
3本目	会話の順番を指定して再改善した例

AI動画の記事では、無理に「成功」と断定しないことも大切です。

生成結果に違和感が残っている場合は、その違和感も含めて紹介した方が、読者にとって参考になります。

今回使用した最終的な考え方

今回の車内会話では、次の3つを意識することで改善しました。

1．雰囲気だけでなく動作を指定する

楽しく会話する

ではなく、

女性が話し、男性が聞き、その後に男性が返事をする

と指定します。

2．禁止事項だけを増やさない

動かない
見続けない
笑いすぎない

ではなく、

軽くうなずく
一瞬だけ見る
口元を少し緩める

と、代わりの動作を指定します。

3．行動を時間順に書く

AI動画では、映像の前半、中盤、後半という順番で動きを書くと、会話の流れが伝わりやすくなります。

まとめ

AI動画で車内のカップルを自然に会話させるには、プロンプトを長くするだけでは不十分でした。

今回の3本では、次のような違いが出ました。

指示が少ないと、人物が動きすぎる
制限を増やしすぎると、人物が動かなくなる
行動を時間順に指定すると、会話の流れが伝わりやすくなる

最も重要だったのは、「してはいけないこと」を並べるのではなく、人物が実際に行う小さな反応を指定することです。

特に、次の流れは車内会話で使いやすいと感じました。

話す
↓
聞く
↓
うなずく
↓
一瞬だけ見る
↓
前方へ戻る
↓
返事をする

今回の3本目にも、笑顔が少し大きい、表情が固定されるといった違和感は残っています。

それでも、1本目と2本目を比較したことで、プロンプトのどこを変えるべきかが分かりました。

AI動画では、最初から完璧な成功例を作るよりも、失敗した理由を観察し、動きを少しずつ分解していくことが重要なのかもしれません。

AI動画のプロンプトを詳しくしたら逆に不自然に？車内会話を3本比較

今回作りたかった車内会話

1本目：簡単なプロンプトで生成した失敗例

1本目のプロンプト

1本目の動画

1本目で起きた問題

最初の失敗から分かったこと

2本目：指示を増やしたら別の違和感が出た

2本目で使用した画像プロンプト

2本目の動画

2本目で改善された点

2本目で感じた違和感

プロンプトを詳しくすれば自然になるとは限らない

3本目：会話の動きを時間順に指定して再改善

3本目の動画プロンプト

3本目の動画

3本目で改善された点

3本目にも残った違和感

男性の返事が少し大きく見える

女性の笑顔が少し固定される

広告映像のように見える

3本を比較して分かったこと

1本目：指示が少なすぎた

2本目：制限を増やしすぎた

3本目：行動を時間順に指定した

AI動画では禁止よりも行動を指定する

会話を自然に見せるためのポイント

1．話す人物を1人ずつ指定する

2．聞き手にも小さな動きを与える

3．視線は時間と動きをセットで指定する

4．短い動画に会話を詰め込みすぎない

カット1

カット2

失敗例と成功例を作る際の注意点

今回使用した最終的な考え方

1．雰囲気だけでなく動作を指定する

2．禁止事項だけを増やさない

3．行動を時間順に書く

まとめ

コメント