シリコンバレーの大手企業は、AIエージェントがソフトウェアアプリケーションを自律的に使用してタスクを完了するというビジョンを掲げてきました。しかし、現時点のAIエージェント技術はまだ限界があるとされています。AIエージェントをより強化するためには、新たな技術が必要であると考えられています。
その一つの技術として、エージェントが複数のステップを踏むタスクを学ぶための強化学習(RL)環境のシミュレーションがあります。AI研究者や投資家によれば、AIラボはこのRL環境を求めており、多くのスタートアップがその供給を目指しているということです。
Andreessen Horowitzのジェニファー・リー氏は「大手AIラボは社内でRL環境を構築していますが、これらのデータセットの作成は非常に複雑であるため、第三者のベンダーにも注目しています」と述べています。
RL環境の需要が高まる中、Mechanize WorkやPrime Intellectといったスタートアップがこの分野をリードしようとしています。また、大手データラベリング企業もRL環境への投資を増やしており、Anthropicは来年1,000億円(約1億ドル)以上を投資することを検討していると報じられています。
RL環境は、AIエージェントが実際のソフトウェアアプリケーションでどのように動作するかをシミュレーションする訓練場です。例えば、Chromeブラウザをシミュレートし、AIエージェントにAmazonで靴下を購入させるタスクを設定することができます。このように、エージェントの行動を評価し、成功した場合には報酬を与えるという方式です。
しかし、RL環境の構築は静的なデータセットよりもはるかに複雑です。AIエージェントが予測できない行動を取る可能性があるため、環境自体がそれをキャプチャし、有用なフィードバックを提供できるようにする必要があります。
AIデータラベリング企業のScale AIやMercorは、RL環境の構築に取り組んでいます。Mercorは、特定の業務に特化したRL環境の構築を進めており、同社のCEOであるブレンダン・フーディ氏は「RL環境の機会がどれほど大きいかを理解している人は少ない」と述べています。
一方で、RL環境がAIの進歩を真に推進するかどうかは未知数です。RL環境は、AIエージェントがツールやコンピュータを使ってシミュレーション内で操作することを可能にしますが、これは非常に多くのリソースを必要とします。
この技術が過去のAIトレーニング手法のようにスケールするかどうかは依然として不明です。AI研究者のアンドレイ・カルパシ氏は、「環境とエージェントの相互作用には期待しているが、強化学習そのものには慎重な姿勢を持っている」と述べています。
