Codex 音声入力の使い方 — v0.141.0 で届いた音声制御を試す

Codex 音声入力の使い方 — v0.141.0 で届いた音声制御を試す

Codex CLI v0.141.0 が 2026 年 6 月 18 日に公開され、リアルタイムクライアントへの音声制御オプションが初めて同梱された。コードを口頭で指示し、手をキーボードから離さずにタスクを進めるという使い方が正式な選択肢に加わった形だ。テキスト入力を補う存在として、どんな操作を音声で行えるのか、有効化の手順はどうか、現時点の限界はどこにあるかを、公式情報をもとに整理する。


結論powered by Claude

Codex CLI v0.141.0 では、リアルタイムクライアントへの音声制御オプションが追加された。これはキーボード入力に加え、マイク経由の音声で Codex に指示を出せる入力経路で、ハンズフリーでの作業や長時間のエージェントタスクを走らせながら追加指示を出す場面を想定した機能だ。現時点では「オプション」という位置づけで、従来のテキスト入力体験はそのまま継続する(出典: https://github.com/openai/codex/releases )。

音声制御の基盤は OpenAI の Realtime API で、音声入力を低遅延でテキスト化してから Codex の処理パイプラインに渡す仕組みを取っている。Codex を音声で動かす際に使えるコマンドは、テキスト入力と基本的に同じで——タスクの開始・中断・承認・確認といった通常操作のほとんどを音声経路に乗せられる。ただし、長いファイルパスやコード片を正確に音声で伝えることには限界があり、テキスト補完との組み合わせが現実的な運用になる。

今後の v0.142.0 alpha シリーズで音声制御の洗練が続く見込みで、安定化するにつれてより広い使い方が整う可能性が高い。現時点では「試してみる」段階として導入しておき、自分の作業スタイルに音声入力が合うかを確認するのが合理的だ。

目次 (13)

なぜ今、Codex に音声制御が届いたのか

Codex に音声制御オプションが入った直接の背景は、2026 年 6 月 3 日に実施された「Codex for (almost) everything」全面刷新にある。OpenAI はこのアップデートで Codex を「短いやり取りでコードを補完するツール」から「目標を与えて長時間任せられるエージェント」へと位置づけを変えた(出典: https://openai.com/index/codex-for-almost-everything/ )。Goal Mode が正式版に昇格し、数時間から数日にわたる作業を委ねてから結果を確認するという運用が前面に出てきた。

エージェントとして長時間タスクを委ねる使い方が標準化されると、インタラクションの入り口もキーボードだけに縛られる必要はなくなる。Goal Mode でタスクを渡したあと、進捗確認や新しい指示を音声で手早く伝えたい場面は自然に生まれる。デスクのそばで別の作業をしながら「いまの進捗を教えて」「次はこのファイルを修正して」と声で指示できる環境は、長時間委任のスタイルと親和性が高い。

加えて、OpenAI は Realtime API をすでに提供しており、音声と AI の連携基盤は整っていた。その技術基盤を Codex CLI のリアルタイムクライアントに組み込む形で音声制御オプションが実現している。Realtime API の詳細は OpenAI の API リファレンス(出典: https://platform.openai.com/docs/guides/realtime )で確認できる。この背景を知っておくと、音声制御がどこまで拡張できるかの見当がつきやすい。

v0.141.0 はその出発点に位置するリリースだ。認証付き暗号化リレーチャネルの導入による長時間リモート実行のセキュリティ強化、MCP プラグインサーバーの安定性改善、そして音声制御オプション追加の三本柱が、この版の変更点として記録されている(出典: https://github.com/openai/codex/releases )。音声制御はその三本柱の一つとして同梱されたものであり、機能単体として独立した経緯があるわけではない。


音声制御オプションの概要と動作の仕組み

リアルタイムクライアントとは何か

Codex CLI には通常のテキスト対話モードのほかに、低遅延のリアルタイム通信を行うためのクライアントモードがある。このリアルタイムクライアントは、ユーザーの入力を受け取りながら即時に Codex へ転送し、応答をストリーミングで返すという応答性の高いやり取りを実現する。通常モードが「入力を確定してから送信」という一往復の対話を基本とするのに対し、リアルタイムクライアントは「流れるように連続する対話」を可能にする。

音声制御オプションはこのリアルタイムクライアントの上に乗っている。マイクから取得した音声データを Realtime API 経由でテキスト化し、テキスト化された指示をそのままリアルタイムクライアントのパイプラインに流す。ユーザー側には、音声が認識されてテキストに変換された結果が画面に表示されたうえで処理に入る流れになるため、意図した内容が正確に伝わっているかを視覚で確認しながら操作できる(出典: https://github.com/openai/codex/releases )。

音声入力が Codex に届くまでの流れ

音声入力から Codex がタスクを実行するまでの流れは次の順序で進む。

  1. マイクが音声を取得し、Realtime API のエンドポイントへストリーミング送信する
  2. Realtime API が音声を低遅延でテキスト化し、認識結果を返す
  3. テキスト化された指示がリアルタイムクライアントへ渡される
  4. Codex がその指示に基づいてタスクを処理し、応答を返す

この流れにおいてユーザーが意識するのは主に「話す」と「応答を受け取る」の二点だが、間にある認識ステップは自動化されているため、テキスト入力と大きく変わらない感覚で操作できる。音声認識精度はネットワーク品質と話すスピードに影響されるため、複雑な内容を伝える際は少し間を置いてゆっくり話すと認識精度が安定しやすい(出典: https://platform.openai.com/docs/guides/realtime )。


音声制御の有効化と使い始め

Step 1: バージョン確認と更新

音声制御オプションは v0.141.0 から利用できる。まず現在のバージョンを確認し、古ければ更新する。

codex --version

表示されたバージョンが v0.141.0 未満の場合、次のコマンドで更新を適用する。

npm update -g @openai/codex

更新後、改めて codex --version で v0.141.0 以降になっているかを確かめておく(出典: https://github.com/openai/codex/releases )。なお、Codex CLI の更新手順の詳細は「Codex CLI を最新版に更新する方法」も参照できる。

Step 2: マイクとオーディオ環境の準備

音声制御はマイクデバイスを使う。OS の設定でマイクが有効になっているか、アプリケーションへのマイクアクセス許可が通っているかを先に確認しておく。macOS の場合はシステム設定「プライバシーとセキュリティ」→「マイク」でターミナルアプリへの許可を確認する。許可されていない場合、音声入力が取得できずエラーになる。

Linux 環境では PulseAudio または PipeWire が正常に動作しているかを確認するとよい。接続されているマイクデバイスの一覧は pactl list sources short などで確認できる。WSL(Windows Subsystem for Linux)環境では音声デバイスのパススルーに追加設定が必要な場合があり、ネイティブの macOS または Linux 環境での利用が現時点では動作が安定している。

Step 3: 音声制御を有効にした起動

Codex CLI のリアルタイムクライアントで音声制御を有効にして起動するには、--voice オプションを付けて実行する。このオプションは v0.141.0 で追加されたフラグで、音声制御付きのリアルタイムクライアントを起動する(出典: https://github.com/openai/codex/releases )。

codex --voice

起動後、音声入力の待受状態を示すプロンプトが表示される。この状態でマイクに向かって話すと、音声認識の結果がテキストとして表示されたうえで Codex に渡される。オプションの詳細とその他フラグの一覧は codex --help で確認できる。

Step 4: 音声入力の動作確認

起動後にまず短い確認指示を音声で伝え、認識結果が正しく表示されるかチェックする。「このプロジェクトのファイル構成を教えて」といったシンプルな問いかけから始めると、音声がテキストに変換されて Codex に届いているかをすぐに把握できる。認識結果が意図と異なる場合は、もう少しはっきりと、ゆっくり話してみるか、テキスト入力で補うのが早道だ。


音声でできること — 実際の操作シーン

音声制御で行える操作は、原則としてテキスト入力でできることとほぼ同じだ。コマンドをキーボードで打つかわりに声で伝える、という理解で捉えると混乱が少ない。実際の開発作業でよく使われる操作シーンをいくつか挙げる。

タスクの開始と進捗確認は音声が最も効きやすい操作だ。「src/utils.ts のエラーを修正して」「このリポジトリのテストをすべて通るようにして」といった自然言語の指示は、テキスト入力と変わらない精度で受け付けられる。Goal Mode で長時間のタスクを走らせながら「あと何件残っている?」「最後に変更したファイルは何?」と進捗を音声で確認する使い方は、キーボードに戻る手間が省けて作業のリズムが保ちやすい。

承認・却下の判断も音声に向いている。Codex がファイルの変更や外部コマンドの実行を提案してくるとき、「はい」「了解」「やめて」「戻して」という短い返答を音声で行えば、何度もキーを押す動作を減らせる。複数の提案が連続して届く場面では、音声で素早く判断を返すことでテンポが上がる。

別タスクへの切り替えや補足情報の追加にも対応している。進行中のタスクに対して「あわせてコメントも更新して」「そのあとに型定義のチェックもお願い」といった追加指示を音声で差し込める。タスクを組み立て直すときの入力コストが下がるため、作業の途中で思いついた変更を即座に伝えやすい。

エラー報告と原因確認でも活用できる。ターミナルに出たエラーを見ながら「この TypeError: Cannot read property of undefined の原因を調べて」と口頭で伝えるだけで、具体的なファイル名や行番号をコピペせずに調査を始められる場面もある。


テキスト入力との使い分け

音声入力が有効な場面と、テキスト入力に頼るべき場面は明確に分かれる。両者の特性を把握しておくと、どちらを使うか迷う時間が減る。

音声が向く場面は、指示が自然言語で完結するものだ。「このバグを直して」「ドキュメントを生成して」「差分をレビューして」という、何を求めているかを一文で言えるタスクは音声との相性がよい。Goal Mode でゴールを伝えるときも、要件を声で伝えてからテキストで微調整するという使い方が効率的だ。作業中に画面を見ながら話せる状況なら、双方向の会話と同じ感覚で Codex を動かせる。

テキストが向く場面は、正確なファイルパス・関数名・オプション値が絡む入力だ。「src/api/handlers/v2/userController.ts の 47 行目から 53 行目を修正して」のような指定は、音声での正確な伝達が難しく、誤変換が生じやすい。コード片の直接入力、複数の引数指定、正規表現のような構造化された入力は、引き続きテキストで行う方が確実だ。

両者を組み合わせる現実的な運用としては、大まかなタスク指示と途中の確認を音声で行い、細かい入力が必要な場面だけキーボードに切り替えるというパターンが合理的だ。全操作を音声に切り替えるのではなく、キーボードから手が離れている瞬間に音声を使う、という補完的な位置づけで始めると取り組みやすい。


現時点の制約と今後の展望

音声制御は v0.141.0 でオプションとして初めて導入された機能であり、いくつかの制約がある。使い始める前に把握しておくと、期待値のずれを防げる。

認識精度は言語と専門用語に影響を受ける。現時点では英語を中心とした動作が安定している。日本語の音声認識もある程度機能するが、専門的なコーディング用語や固有名詞の認識精度はテキスト入力に及ばない場合がある。日本語環境で使う際は、重要な指示を音声で伝えた後にテキスト変換結果を目視確認するステップを挟むのが現実的だ(出典: https://platform.openai.com/docs/guides/realtime )。

ネットワーク接続が必要な点も留意しておく。音声入力は Realtime API を経由するため、オフライン環境やネットワーク品質が低い場面では応答遅延や認識ミスが起きやすい。安定した接続環境での利用が前提であり、フライト中や通信不安定な場所ではテキスト入力を使うのが無難だ。

WSL・仮想環境での制約もある。マイクデバイスのパススルーが必要な環境では追加設定が求められる。macOS や Linux ネイティブ環境での利用が安定しており、WSL2 では音声デバイスの取得が限定的になる場合がある。

オプション扱いが示す成熟度という点は、機能がまだ初期段階にあることを意味している。v0.142.0 alpha シリーズが現在進行中であり、alpha.9 まで連続してプレリリースされている(出典: https://github.com/openai/codex/releases )。今後の alpha 版で音声制御の安定性や対応操作の範囲が拡張される見込みだ。変更の最新情報はリリースページで随時確認できる。

OpenAI Codex コミュニティ(出典: https://community.openai.com/c/openai-api/codex/111 )では音声制御を含む新機能についての利用報告やフィードバックが共有されており、実際の利用者からの知見を参照できる。


まとめ

Codex CLI v0.141.0 で追加された音声制御オプションは、テキスト入力に加わる新しい入力経路として位置づけられる。Goal Mode や長時間タスクとの組み合わせで、手を動かしながら声で次の指示を伝える運用スタイルが実現しやすくなっている。

現時点では試験的な段階にあるため、精度や対応操作範囲の限界を把握したうえで導入するのが合理的だ。まずは短い指示から試し、自分の作業スタイルと音声入力の相性を確認しながら活用範囲を広げていくという進め方を勧める。音声制御の最新状況は GitHub のリリースページ(出典: https://github.com/openai/codex/releases )で継続的にフォローできる。v0.142.0 の安定版が届いたとき、音声制御がどこまで成熟しているかを改めて確認する機会としても活用してほしい。

参考になったら ♡
Codexer Navi 編集部
@codexer_navi

Anthropic の Claude / Claude Code を中心に、日本のエンジニア向けに最新動向と実務 を毎日発信。 運営方針 は メディアについて をご覧ください。