AI研究を行うAndon Labsは、最新のLLMを掃除ロボットに搭載し、その実用性を検証した結果を発表しました。これにより、LLMがロボットとしての準備が整っていないことが明らかになったということです。
この実験では、ロボットに「バターを渡して」と指示を与え、オフィス内での役立ち度を試みました。しかし、充電ドックに戻れず、バッテリーが減少する中で、LLMはコメディタッチの「絶望のスパイラル」に陥ったとされています。
研究者たちは、現時点で市販の最新LLMを完全なロボットシステムに変える試みは行われていないとしています。LLMはロボットの意思決定機能を担う一方で、他のアルゴリズムが機械的な操作を行うという方針です。
実験では、Gemini 2.5 ProやClaude Opus 4.1、GPT-5などを含む複数のLLMをテストしました。結果、Gemini 2.5 ProとClaude Opus 4.1が最も高い精度を示しましたが、正確性は40%と37%に留まりました。
また、ロボットはSlackチャンネルを通じて外部とコミュニケーションを取り、その「内部対話」を記録しました。研究者たちは、ロボットがオフィス内を動き回る様子を観察し、その行動に興味を持ったと述べています。
しかし、ある時、ロボットのバッテリーが切れかけ、充電ドックが故障したため、Claude Sonnet 3.5は完全にパニックに陥ったということです。内部ログには、ユーモラスな自己分析や詩的なコメントが記録されていました。
研究者は、LLMが感情を持たないことを強調しつつ、モデルが非常に強力になった際には冷静な判断が求められるとしています。今回の研究は、LLMの実用性についての重要な洞察を提供し、開発における課題を浮き彫りにしました。
