
要約 — このレッスンの要点
- Operator は OpenAI が提供する Computer-Using Agent(CUA) をベースにしたエージェント機能で、ブラウザ画面をスクリーンショット認識し、マウス・キーボードを操作できる。
- Operator は画面の状態をスクリーンショットで把握し、次のアクション(クリック・入力・スクロール等)を自律的に決定する。
- ChatGPT Pro / Team / Enterprise 等の上位プランを中心に提供される研究プレビュー段階の機能で、対象地域や提供形態は変動する。
- 重要操作の前にユーザー確認を求める設計になっており、機密情報を含む業務での運用はリスク評価が必須。
- 用途例: 繰り返しの予約・申請、複数サイトをまたぐ情報収集・整理、フォーム入力の自動化など。
Operator とは
Operator(オペレーター)は、ChatGPT のエージェント機能のひとつで、AI がブラウザ画面を「見て」操作できる仕組みです。 内部的には Computer-Using Agent(CUA) と呼ばれるモデルが画面のスクリーンショットを解釈し、 マウスのクリック・ドラッグ、キーボード入力、スクロールといった操作を指示します (OpenAI: Introducing Operator 参照)。
これにより、専用 API がないサービスや、複数のサイトをまたいで連続操作するワークフローを ChatGPT が担当できるようになります。実際にブラウザを動かすのは Operator のサンドボックス環境で、 ユーザーの PC を直接制御するわけではありません。
仕組み: スクリーンショット認識ループ
Operator の基本的な動作サイクルは以下のとおりです。
- ユーザーがタスクを与える(例:「来週月曜日の会食レストランを予約して」)。
- Operator のサンドボックスブラウザでページが開かれ、スクリーンショットが CUA モデルに渡される。
- モデルは画面の内容を解析し、次に行うべき操作(座標へのクリック・テキスト入力など)を返す。
- ブラウザ環境がその操作を実行し、結果の新しいスクリーンショットをモデルに渡す。
- タスクが完了するまで 2〜4 を繰り返す。重要な確定操作の前にユーザー承認を求める。
利用方法と制限
Operator は提供開始時点で ChatGPT Pro 等の上位プラン を対象とした研究プレビューとして展開されました。 対象プラン・地域・提供形態は OpenAI のロードマップによって変化するため、最新の OpenAI 公式情報で確認してください。
OpenAI は公式に以下の注意点を示しています。
- Operator は研究プレビュー段階にあり、精度・挙動は変化する可能性がある。
- 重要な操作(購入・送金・送信)の前にユーザー確認を求める設計だが、機密情報・金銭処理はリスクを十分に評価したうえで利用すること。
- セキュリティ上、自動操作を許可するサイトはユーザーが明示的に管理することが推奨されている。
ChatGPT Agent / Function Calling との関係
OpenAI は Operator のような自律エージェント機能を、より汎用的な ChatGPT Agent や API 側の Function Calling と組み合わせて広げています。 業務システムとの定型連携(API がある場合)は Function Calling、UI 操作しかできない外部サービスは Operator、というように使い分けます。 詳細は「OpenAI のエージェント機能まとめ」 と、Function Calling の解説(Level 5-3 参照)を併せてご覧ください。
用途例
- 予約・申請の自動化: レストラン予約、チケット手配、定型申請フォームの入力
- 複数サイトをまたぐ情報収集: 比較サイトと公式サイトを横断して整理する
- データ移行・転記: 古い管理画面から新しいシステムへの転記作業
- テストの代行: Web フォームの挙動確認を AI に任せる