OpenAI社、AIエージェントの「Operator」を発表。予約や買い物も可能に

Operatorとは

新たなAIエージェント「Operator」が発表され、ユーザーが与えたタスクを独立して実行することが可能となります。このシステムは、クラウド上のウェブブラウザを利用して、さまざまな作業を行います。アメリカのプロユーザー向けに本日から利用可能で、他の国でも順次展開される予定です。

多様なタスク処理と安全性の両立

Operatorは、フォームの記入や食料品の注文、さらにはミームの作成など、繰り返しのブラウザタスクを効率的に処理します。ユーザーは、日常的な作業を簡素化し、時間を節約することができます。例えば、食材の購入やイベントのチケット予約など、日常的な業務を効率的に処理することができます。

OpenAIは、Operatorの安全性を最優先事項とし、ユーザーが常に制御できるようにするための複数の保護策を導入しています。Operatorは、ユーザーが与えた指示に基づいて自動的に作業を進めますが、行き詰まったり間違えたりした場合には、推論能力を活用して自己修正を行います。ログイン情報や支払い情報を入力する際には、ユーザーに引き継ぎを求めるモードがあり、重要なアクションの前には確認を行います。また、銀行取引などのハイリスクな決断が必要なタスクを拒否するよう訓練されています。

Operatorの動作方法とは

Operatorは、「Computer-Using Agent（CUA）」という新しいモデルによって動作しています。このモデルは、GPT-4oの視覚機能と強化学習を組み合わせており、グラフィカルユーザーインターフェース（GUI）とのインタラクションを可能にします。オペレーターは、ウェブブラウザを「見る」ことができ、スクリーンショットを通じて情報を取得し、マウスやキーボードのアクションを使用してウェブ上で操作を行います。これにより、カスタムAPI統合を必要とせずに、さまざまなウェブサイトでタスクを実行できます。

また、ユーザーは、特定のウェブサイトやすべてのウェブサイトに対して独自の指示を追加することで、Operatorの動作を自分好みにカスタマイズできます。Operatorは、Instacartでの食料品の再注文など、繰り返し行うタスクを効率的に処理するために、指示を保存することができます。また、ブラウザの複数のタブを使うように、新しい会話を作成することで、オペレーターに複数のタスクを同時に実行させることも可能です。

今後の展望

Operatorは現在、研究プレビューの段階にあり、間違いを犯す可能性がありますが、ユーザーからのフィードバックを基に進化していく予定です。将来的には、より多くのユーザーにアクセスを拡大し、機能を強化する計画があります。OpenAIは、AIエージェントの可能性を広げるために、引き続き研究と開発を進めていくでしょう。

▼OpenAI社「Operator」紹介ページはこちら

※本記事は、OpenAI社「Operator」紹介ページ、Introduction to Operator & Agentsを参考に一部AIが作成しています