AIコーディングツール、開発者の生産性向上に疑問

AIコーディングツールの普及により、ソフトウェアエンジニアの作業フローが変化しています。CursorやGitHub Copilotのようなツールは、コードの自動生成やバグ修正、変更のテストを通じて生産性向上を約束しています。これらのツールは、OpenAIやGoogle DeepMind、Anthropic、xAIのAIモデルによって支えられており、近年、ソフトウェア工学の様々なテストで性能が急速に向上しています。

しかし、非営利のAI研究団体METRが木曜日に発表した新しい研究は、現在のAIコーディングツールが経験豊富な開発者の生産性をどの程度向上させるかについて疑問を投げかけています。

METRはこの研究のためにランダム化比較試験を実施しました。16人の経験豊富なオープンソース開発者を募集し、彼らが定期的に貢献している大規模なコードリポジトリで246の実際のタスクを完了するようにしました。研究者たちは、これらのタスクの約半分を「AI許可」とし、Cursor Proのような最新のAIコーディングツールを使用する許可を与え、残りのタスクではAIツールの使用を禁じました。

開発者たちは、AIコーディングツールを使用することで完了時間が24%短縮されると予測しましたが、実際にはそうではありませんでした。

「驚くことに、AIを許可すると完了時間が19%増加することがわかりました。AIツールを使用すると開発者の作業が遅くなるということです」と研究者たちは述べています。

特に、研究に参加した開発者のうち、Cursorを使用した経験があるのは56%に過ぎませんでした。ほぼ全員（94%）が何らかのウェブベースのLLMをコーディングフローで使用した経験がありましたが、Cursorを具体的に使用するのは初めてという開発者もいました。研究者たちは、Cursorの使用法について開発者に事前トレーニングを行ったとしています。

それにもかかわらず、METRの調査結果は、2025年にAIコーディングツールが約束する普遍的な生産性向上に疑問を投げかけています。この研究に基づけば、開発者はAIコーディングツール、特に「バイブコーダー」として知られるものが即座に作業フローを加速させるとは期待しない方が良いということです。

METRの研究者たちは、AIが開発者を加速させるのではなく遅らせた可能性のある理由をいくつか指摘しています。開発者はバイブコーダーを使用する際にAIを促す時間が増え、応答を待つ時間が長くなり、実際のコーディング時間が減少するということです。また、AIは大規模で複雑なコードベースでは苦労する傾向があり、今回のテストでも使用されました。

研究の著者たちは、これらの発見から強い結論を引き出すことは控えており、現在のAIシステムが多くのソフトウェア開発者の速度を上げられないとは考えていないと明示しています。他の大規模な研究では、AIコーディングツールがソフトウェアエンジニアの作業フローを加速させることが示されています。

著者たちはまた、近年のAIの進歩は顕著であり、3ヶ月後には同じ結果が得られるとは期待していないと述べています。METRはまた、AIコーディングツールが複雑で長期的なタスクを完了する能力が近年大幅に向上していることを発見しました。

しかし、この研究はAIコーディングツールの約束された利益に対する懐疑心をさらに強める理由を提供しています。他の研究では、現在のAIコーディングツールがミスや場合によってはセキュリティ上の脆弱性を引き起こす可能性があることが示されています。

About NihonTechHub