Runway Gen-3 Alpha、OpenAI Sora、Kling AIなど、最新の動画生成AIにおいて、プロンプト（指示文）の単語を並べる順番は、動画のクオリティと意図の再現性を決定づける最重要ファクターです。

以前言われていたような「文字数制限で切られるから」という単純な理由ではなく、現在は**「AIの推論プロセス（全体から細部へ）」**という技術的特性により、文頭の重要性がかつてないほど高まっています。

本記事では、最新技術仕様に基づいた「失敗しないプロンプトの書き順」を解説します。

1. なぜ最新AIでも「文頭」が絶対なのか？

最新の「Diffusion Transformer（DiT）」モデルは、長文のコンテキストを理解できますが、映像を生成する際に以下のプロセスを経ます。

「文頭にある言葉」はこの第1段階（構図決定）で最も強く参照されます。

特にPOV（一人称視点）のような特殊な構図は、ここで強力に指定しないと、AIは学習データの大多数を占める「三人称視点（映画のような客観的な構図）」へと勝手に流れてしまいます。これを防ぐには、文頭での強制指定しかありません。

2. 推奨される「黄金のフォーマット」（2025年版）

RunwayやSoraの公式ガイドでも推奨されている、最も確実な構成順序は**「ショットリスト（撮影指示書）」形式**です。

カメラワーク・視点（Camera & Angle） <span style=”color: red; font-weight: bold;”>← 最重要！</span>
被写体とアクション（Subject & Action）
環境・照明・スタイル（Environment & Style）

「森で懐中電灯を持って歩く」シーンを例に、記述順序による成功率の違いを比較します。

“A man walking in a dark forest, holding flashlight, highly detailed, POV shot.”

“POV shot, Handheld camera movement: walking in a dark forest, holding flashlight…”

最新AIの「コンテキスト保持力」を活かしつつ、構図ミスを防ぐための型です。ご自由にお使いください。

順序	カテゴリ	プロンプト例	役割
1	カメラ・視点	`POV shot`, `GoPro footage`, `Fisheye lens`	【構図確定】 AIの「三人称バイアス」を最初の一撃でブロックする。
2	アクション	`frantically pouring water`	【主要素】構図の中で何が起きるかを即座に記述。
3	被写体詳細	`visible male hands`, `splashing water`	【細部】具体的に映るパーツ（手など）を指定。
4	環境・演出	`kitchen background`, `moody lighting`	【背景】後ろに回しても最新AIなら十分理解する。