Codex マルチモーダルで画像を渡す使い方と対応形式一覧
Codex はテキストの指示だけでなく、画像をプロンプトに添えて渡せる。エラー画面のスクリーンショットや画面設計のモックアップをそのまま見せ、コードとあわせて内容を読み取らせる使い方だ。CLI では -i / --image フラグ、対話モードでは画像のペーストで添付でき、渡せる形式や複数指定の書き方にも決まりがある。本記事では Codex のマルチモーダル入力を、公式ドキュメントに沿って使い方から対応形式まで整理する。
Codex のマルチモーダルとは、文字の指示に画像を組み合わせてモデルへ渡せる入力方式のことだ。CLI では -i(または --image)フラグにファイルを指定するだけで、画像をプロンプトに添付してテキストと一緒に読み取らせられる。スクリーンショットや設計資料、アイコンやバナーといった素材を言葉で説明し直す手間が省け、見せて伝える指示が成り立つ(出典: https://developers.openai.com/codex/cli/features )。
渡せる形式は PNG や JPEG といった一般的な画像で、複数枚はカンマ区切りかフラグの繰り返しで並べて渡せる。対話モード(TUI)を使っているときは、コンポーザーへ画像を直接ペーストして添えることもでき、過去のドラフトを遡ると画像プレースホルダーも復元される。コマンドで渡すか、貼り付けて渡すかの二通りだと捉えると分かりやすい(出典: https://developers.openai.com/codex/cli/reference )。
画像入力そのものは新機能ではないが、2026年7月1日に GitHub Copilot の Copilot Vision が全プランで一般提供(GA) となり、画像・PDF をチャットに添える使い方が改めて注目を集めている(出典: https://github.blog/changelog/2026-07-01-copilot-vision-is-generally-available/ )。Codex は以前から画像をプロンプトに取り込めるため、エラー画面やモックを起点にした指示は今日そのまま実務で使える。
目次 (13)
Codex のマルチモーダルとは — 画像を指示に添える入力方式
マルチモーダルとは、テキストや画像など複数種類の入力を一度に扱えることを指す。Codex におけるマルチモーダルは、いつものテキスト指示に画像を添えて渡し、その視覚的な内容も踏まえてコードや説明を返させる使い方を意味する。たとえば「このエラーの原因を調べて」という文章だけでは伝わりにくい状況でも、ターミナルやブラウザのスクリーンショットを一枚添えれば、モデルは画面に映る文言やレイアウトを手がかりに応答を組み立てられる。公式ドキュメントでも、Codex は画像をプロンプトへ添付でき、スクリーンショットや設計仕様、アイコン、バナーといった素材を扱うのに向くと整理されている(出典: https://developers.openai.com/codex/cli/features )。言葉で描写し切れない情報を、そのまま見せて渡せるのがこの入力方式の要点だ。
なぜ今マルチモーダルなのか — ビジョン対応が広がる潮流
画像を扱えるコーディング支援は、この夏に一段と一般化した。2026年7月1日、GitHub Copilot は画像や PDF をチャットへ添付できる Copilot Vision を Free を含む全プランで一般提供(GA)へ移行し、管理者の操作なしにデフォルトで使えるようにした(出典: https://github.blog/changelog/2026-07-01-copilot-vision-is-generally-available/ )。ビジョン対応が各ツールで足並みをそろえるなかで、以前から画像入力を備えていた Codex の使い方を押さえておく意味は大きい。設計資料やエラー画面を起点にした指示は、特別な準備なしに今日から試せる。
CLI で画像を渡す — -i / --image フラグ
コマンドラインで画像を添えるときは、-i もしくは --image フラグにファイルパスを指定する。テキストの指示と並べて書くと、画像とプロンプトがまとめてモデルへ渡る仕組みだ(出典: https://developers.openai.com/codex/cli/features )。基本形は次のように、一枚の画像と指示文を組み合わせる。
codex -i screenshot.png "この画面のエラー原因を特定して直して"
手順としては、次の三段階で捉えると迷わない。
- 渡したい画像を PNG か JPEG で用意する(必要なら非対応形式から変換しておく)。
codex -i <画像ファイル> "<指示文>"の形で、画像とテキストを一緒に渡す。- 画像が複数あれば、カンマ区切りかフラグの繰り返しで追加する。
指示文は画像の何に注目してほしいかを明示するほど精度が上がる。画面全体を漠然と見せるより、「右上のダイアログの文言に沿って」「このレイアウトの余白を再現して」と焦点を言葉で補うと、モデルが読み取るべき箇所が定まる。
複数の画像をまとめて渡す
一度に複数枚を添えたい場合は、カンマで区切ってファイルを並べるか、フラグ自体を繰り返す。ビフォーとアフターの画面、あるいは複数の図版を同時に見比べさせたいときに効く書き方だ(出典: https://developers.openai.com/codex/cli/reference )。次の二つはどちらも同じ意味になる。
codex --image before.png,after.png "変更前後の差分を説明して"
codex -i design.png -i error.png "設計と実際の画面のずれを洗い出して"
複数枚を渡すときは、それぞれが何の画像かを指示文で対応づけておくと誤解が減る。「一枚目が設計、二枚目が実装後の画面」と役割を添えれば、モデルはどちらを基準に比較すべきかを取り違えにくくなる。
対話モード(TUI)で画像をペーストする
Codex を対話モードで起動しているときは、フラグを使わずコンポーザーへ画像を直接ペーストして添付できる。作業の途中で気づいたことをその場でスクリーンショットに撮り、貼り付けて質問するといった流れに向く。さらに、Up / Down キーで過去の入力ドラフトをたどる際には、貼り付けた画像のプレースホルダーも一緒に復元されるため、直前の指示を画像ごと呼び戻して微修正できる(出典: https://developers.openai.com/codex/cli/features )。コマンドを組み立て直さずに、対話の流れのなかで画像を足していけるのが対話モードの利点だ。
対応する画像形式と渡し方のコツ
Codex が受け取れるのは PNG や JPEG といった一般的な画像形式だ(出典: https://developers.openai.com/codex/cli/features )。スクリーンショットは通常この範囲に収まるため、そのまま渡せることが多い。一方で、ベクター形式や一部の特殊な形式はそのままでは扱えない場面がある。手元の画像が対応形式か不確かなときは、あらかじめ PNG か JPEG へ書き出しておくと確実だ。渡し方のコツとしては、文字が主役の画像(エラーメッセージやログ画面)ほど解像度を落とし過ぎないこと、逆にレイアウトの把握が目的なら細部より全体の構図が分かる一枚を選ぶことが挙げられる。目的に合わせて「何を読み取ってほしいか」を意識して画像を選ぶと、応答のずれが減る。
画像入力が効く場面 — スクショ・モック・エラー画面
マルチモーダルが最も効くのは、言葉より画像のほうが速く正確に伝わる場面だ。公式にも、スクリーンショット・設計仕様・アイコン・バナーといった素材に向くと示されている(出典: https://developers.openai.com/codex/cli/features )。日々の開発では、大きく三つの使い方に整理できる。
エラー画面をそのまま渡して原因を絞る
ターミナルやブラウザのコンソールに出たエラーは、文言を書き写すより画面を撮って渡すほうが速く、写し間違いも防げる。スタックトレースやダイアログをスクリーンショットで添え、「このエラーの原因と直し方を教えて」と指示すれば、モデルは画面の文言を読み取ったうえで該当箇所の推定に入れる。複数のエラーが絡むときは、それぞれの画面を並べて渡すと関係を踏まえた説明を得やすい。
デザインモックから実装へつなぐ
画面設計のモックアップやワイヤーフレームを渡し、その構図に沿ったコードを書かせる使い方だ。余白・配置・見出しの階層といった視覚的な情報は、言葉だけでは伝えづらい。モックを一枚見せたうえで「このレイアウトを再現するコンポーネントを書いて」と頼めば、説明の往復を減らしながら実装の初稿へ進める。仕上がりが設計と食い違うときは、実装後の画面も撮って並べ、差分を指摘させると調整が早い。
図版や資料の内容を読み取らせる
構成図やアイコン、バナーのような素材も、内容を読み取らせる対象になる。図の要素名を書き起こして渡す代わりに、図そのものを見せて「この構成を説明して」「このアイコンに合う代替案を挙げて」と尋ねれば、視覚情報を踏まえた応答が返る。資料を言語化する手間を省けるぶん、確認と指示のサイクルを短くできる。
PDF や非対応形式をどう扱うか
画像入力とあわせてよく問われるのが、PDF をそのまま渡せるかという点だ。Copilot Vision は画像に加えて PDF の添付にも対応したが(出典: https://github.blog/changelog/2026-07-01-copilot-vision-is-generally-available/ )、Codex CLI の画像フラグについて公式が明記しているのは PNG や JPEG といった画像形式で、PDF を画像と同じように添付する手順は features のドキュメント上には示されていない(出典: https://developers.openai.com/codex/cli/features )。そのため、PDF の中身を Codex に読み取らせたい場合は、必要なページを画像として書き出してから -i で渡すか、テキストを抽出してプロンプトに含める、といった前処理を挟むのが実務上は確実だ。ベクター形式など画像でも非対応のものは、同じく PNG か JPEG へ変換してから渡せばよい。「対応形式に整えてから添える」という一手間を挟むだけで、扱える素材の幅は大きく広がる。
他ツールのビジョン対応との違い
画像を扱える点は各ツールに共通しつつ、渡し方や範囲には差がある。GitHub Copilot は Copilot Vision の GA で、Free を含む全プランがチャットへ画像・PDF を添付できるようになり、管理者の操作なしにデフォルト有効という手軽さを打ち出した(出典: https://github.blog/changelog/2026-07-01-copilot-vision-is-generally-available/ )。一方 Codex は、-i / --image フラグやコンポーザーへのペーストという形で、CLI と対話モードの双方から画像を添えられる点が特徴だ(出典: https://developers.openai.com/codex/cli/features )。ターミナル中心で作業を進めるなら、コマンドの延長で画像を渡せる Codex の作法が手になじみやすい。どのツールでも共通するのは、画像の何に注目してほしいかを言葉で補うほど応答が安定するという原則で、見せる情報と伝える意図の両輪がそろって初めてマルチモーダルは力を発揮する。
まとめ
Codex のマルチモーダル入力は、テキストの指示に画像を添えるだけで使える身近な機能だ。CLI では -i / --image フラグにファイルを指定し、複数枚はカンマ区切りかフラグの繰り返しで並べる。対話モードならコンポーザーへ直接ペーストでき、過去のドラフトを遡れば画像も復元される(出典: https://developers.openai.com/codex/cli/features )。対応形式は PNG や JPEG が基本で、PDF や非対応形式は画像化やテキスト抽出で整えてから渡すのが確実だ。Copilot Vision の GA でビジョン対応が広く話題になった今、エラー画面やモックを起点にした指示は、特別な準備なしにそのまま実務へ持ち込める。