Appleは、プライバシー保護機械学習に関するワークショップを開催し、その発表を公開したと発表しました。このワークショップでは、プライバシーやセキュリティ、責任ある機械学習の開発における重要な分野についてのプレゼンテーションと議論が行われました。以下に3つの注目点を紹介します。
Appleは、2024年の人間中心機械学習ワークショップの発表と同様に、2025年3月20日から21日にかけて開催された2日間のハイブリッドイベントで発表された研究論文やビデオを、機械学習研究ブログで公開しました。
差分プライバシーについての簡単な説明
興味深いことに、ほぼすべての論文が差分プライバシーに触れており、これはAppleが過去数年間、ユーザーデータを保護するために選択してきた方法です。
差分プライバシーは、ユーザーデータにノイズを加えることで、データが傍受または解析された場合でも個人に遡って追跡できないようにすることを目的としています。Appleは、わずかに偏った統計的ノイズがユーザーの個別データをマスクするという考えに基づいて、この技術を使用しています。
Appleがイベントで紹介した3つの研究
1: フェデレーテッド分析のためのローカルパンプライバシー、発表者:ガイ・ロスブルーム(Apple)
この研究は、2010年の別の研究を基にして、2025年3月14日に発表されました。ロスブルームは両方の研究の共著者です。この新しい研究は、個人デバイスにそのアイデアを適用しています。
研究では、不正にアクセスされたデバイスで使用データを収集することがほぼ不可能であることを示しています。研究者たちは、個々の活動を完全に隠しながら企業が有用な統計を収集できる新しい暗号化方法を提案しています。
2: Wallyを用いたスケーラブルなプライベート検索、発表者:レハン・リシとハリス・ムギース(Apple)
このプレゼンテーションは、Appleがプライバシーを維持しつつ、スケールに応じた暗号化検索のコストを削減する方法を探求しています。
例えば、ユーザーがランドマークの写真を撮影すると、Appleはそのランドマークを特定するために写真を処理します。これはAppleのサーバーとのやり取りを必要とし、プライバシーの問題を引き起こす可能性があります。
論文は、Wallyという方法を説明しており、これは差分プライバシーを利用して、実際のクエリを偽データで囲むものです。多くの人が同時にサーバーにクエリを送信する場合、各人が送信する偽ノイズの量は大幅に減少します。
これにより、Appleはプライバシーを保ちながら、帯域幅やコンピュートコストを抑えつつ、数百万のユーザーにスケーリングすることができます。
3: 基礎モデルAPIを用いた差分プライベート合成データ、発表者:シヴァカント・ゴピ(Microsoft Research)
これは、Microsoftの研究者によって発表された2つの論文のうちの1つで、画像を扱っていますが、2つ目の論文はテキストを扱っています。
AI企業はモデルを訓練するために良質なデータを必要とします。時には、良質な「現実世界の」データが通常のユーザーデータであり、それはプライベートに保たれるべきです。
2つの研究は、実際のユーザーデータの有用性を保持しつつ、実際にはプライベートな情報を露出しない高品質な合成データを生成する方法を探求しています。
基本的に、彼らはAPIのみの基礎モデルを用いて、プライベートデータセットの合成バージョンを生成するプライベートエボリューション(PE)という方法を紹介しています。PEは、モデルの微調整を直接行う最先端のアプローチに匹敵するか、それを上回ることができ、プライバシーコストはごくわずかです。
Appleは、イベントで発表された25の研究すべてのリンクを公開しています。これには、Appleの研究者だけでなく、MicrosoftやGoogle、MIT、ラトガース大学、ボストン大学、カーネギーメロン大学、カリフォルニア大学バークレー校の研究者も含まれています。