Codexer Navi

Operator でパソコン操作を自動化する

要約 — このレッスンの要点

Operator は OpenAI が提供する Computer-Using Agent(CUA) をベースにしたエージェント機能で、ブラウザ画面をスクリーンショット認識し、マウス・キーボードを操作できる。
Operator は画面の状態をスクリーンショットで把握し、次のアクション(クリック・入力・スクロール等)を自律的に決定する。
ChatGPT Pro / Team / Enterprise 等の上位プランを中心に提供される研究プレビュー段階の機能で、対象地域や提供形態は変動する。
重要操作の前にユーザー確認を求める設計になっており、機密情報を含む業務での運用はリスク評価が必須。
用途例: 繰り返しの予約・申請、複数サイトをまたぐ情報収集・整理、フォーム入力の自動化など。

Operator とは

Operator(オペレーター)は、ChatGPT のエージェント機能のひとつで、AI がブラウザ画面を「見て」操作できる仕組みです。内部的には Computer-Using Agent(CUA) と呼ばれるモデルが画面のスクリーンショットを解釈し、マウスのクリック・ドラッグ、キーボード入力、スクロールといった操作を指示します (OpenAI: Introducing Operator 参照)。

これにより、専用 API がないサービスや、複数のサイトをまたいで連続操作するワークフローを ChatGPT が担当できるようになります。実際にブラウザを動かすのは Operator のサンドボックス環境で、ユーザーの PC を直接制御するわけではありません。

仕組み: スクリーンショット認識ループ

Operator の基本的な動作サイクルは以下のとおりです。

ユーザーがタスクを与える(例:「来週月曜日の会食レストランを予約して」)。
Operator のサンドボックスブラウザでページが開かれ、スクリーンショットが CUA モデルに渡される。
モデルは画面の内容を解析し、次に行うべき操作(座標へのクリック・テキスト入力など)を返す。
ブラウザ環境がその操作を実行し、結果の新しいスクリーンショットをモデルに渡す。
タスクが完了するまで 2〜4 を繰り返す。重要な確定操作の前にユーザー承認を求める。

利用方法と制限

Operator は提供開始時点で ChatGPT Pro 等の上位プラン を対象とした研究プレビューとして展開されました。対象プラン・地域・提供形態は OpenAI のロードマップによって変化するため、最新の OpenAI 公式情報で確認してください。

OpenAI は公式に以下の注意点を示しています。

Operator は研究プレビュー段階にあり、精度・挙動は変化する可能性がある。
重要な操作(購入・送金・送信)の前にユーザー確認を求める設計だが、機密情報・金銭処理はリスクを十分に評価したうえで利用すること。
セキュリティ上、自動操作を許可するサイトはユーザーが明示的に管理することが推奨されている。

ChatGPT Agent / Function Calling との関係

OpenAI は Operator のような自律エージェント機能を、より汎用的な ChatGPT Agent や API 側の Function Calling と組み合わせて広げています。業務システムとの定型連携(API がある場合)は Function Calling、UI 操作しかできない外部サービスは Operator、というように使い分けます。詳細は「OpenAI のエージェント機能まとめ」と、Function Calling の解説(Level 5-3 参照)を併せてご覧ください。

用途例

予約・申請の自動化: レストラン予約、チケット手配、定型申請フォームの入力
複数サイトをまたぐ情報収集: 比較サイトと公式サイトを横断して整理する
データ移行・転記: 古い管理画面から新しいシステムへの転記作業
テストの代行: Web フォームの挙動確認を AI に任せる