アップルの研究者は、タンパク質の三次元構造を予測するAIモデル「SimpleFold」を開発したと発表しました。このモデルは、計算コストを抑えつつ、高い精度を実現することを目指しています。
Google DeepMindのAlphaFoldは、タンパク質の三次元構造をアミノ酸配列から予測する画期的なAIモデルとして知られています。これは、より効果的な医薬品や新素材の開発に大いに貢献しています。
しかし、AlphaFoldやその他の最先端モデルは、非常に高価な計算を必要とし、そのフレームワークは非常に厳格な構造を持っています。
アップルの研究者によれば、「AlphaFold2やRoseTTAFoldのような確立されたタンパク質折り畳みモデルは、高度に設計されたアーキテクチャに依存しており、計算コストが高いドメイン固有の設計を統合しています」とのことです。
これに対し、アップルの「SimpleFold」は、MSAやペアワイズ相互作用マップ、三角形アップデートといった手法に依存せず、「フローマッチングモデル」を使用しています。この手法は、2023年に導入され、テキストから画像や3Dモデルへの変換で人気を博しています。
「SimpleFold」は、100M、360M、700M、1.1B、1.6B、3Bといった異なるサイズでトレーニングされ、CAMEO22やCASP14といった一般的に採用されているタンパク質構造予測ベンチマークで評価されました。
結果は非常に有望で、「SimpleFold」は、他のフローマッチングモデルであるESMFlowと比較して一貫して優れたパフォーマンスを示しました。特に、CAMEO22では、最も優れた折り畳みモデルと同等の結果を示し、RoseTTAFold2やAlphaFold2の95%以上のパフォーマンスを達成しました。
また、モデルサイズの拡大に伴い、パフォーマンスの向上が見られ、より大きなモデルがより良い結果をもたらすことが確認されました。
アップルの研究者は、「SimpleFold」は最初のステップに過ぎず、効率的で強力なタンパク質生成モデルの構築に向けたコミュニティの取り組みの一助となることを期待しています。
この研究の詳細はarXivで公開されています。
