Googleは、Pixel 10の発表に合わせて、ジェミニライブのネイティブオーディオ出力機能をAndroidでより広く展開すると発表しました。これにより、会話がより応答性が高く、表現力豊かになるということです。
8月には、Googleが「新しいモデルのアップデート」を示唆しました。これは、おそらくジェミニ2.5フラッシュライブAPIのネイティブオーディオであり、ジェミニライブが人間のスピーチの重要な要素をどのように利用するかを劇的に改善する方針です。具体的には、イントネーション、リズム、ピッチを考慮に入れるとしています。例えば、ストレスを感じている声やストレスの多い話題について話している場合、ジェミニライブは「より落ち着いた、計算された声で応答する」可能性があるということです。
また、ジェミニの話し方を制御することも可能で、アクセントを変えたり(イギリス、オーストラリアなど)、出力を遅くしたり速くしたりすることができます。これらの設定はその会話の間だけ有効で、チャットの記録に戻り、コーナーのライブボタンをタップすることで再度アクセス可能です。新しい会話を開始すると、以前の設定はリセットされます。
8月末には、Googleが「数週間以内に展開する」と述べていました。最近になって、Google AI Proの有料アカウントを中心に広く利用可能になっているのを確認しています。これは、Pixelや他のAndroid携帯電話でも同様です。
同様に、現実世界のオブジェクトをハイライトするビジュアルガイダンスもAndroidで広く展開されており、無料アカウントでも利用可能です。Pixel 10シリーズで初登場したこの機能は、背景を少し暗くし、フォーカスを合わせるアニメーションを表示します。「見せて」や「どこにあるのか」といったコマンドを追加することで起動します。
ネイティブオーディオや画面上のガイダンスは、現時点で確認したiOSデバイスでは表示されていません。
最後に、Googleアカウントメニューのフルスクリーンデザインが、Android(およびiOS)のジェミニアプリで利用可能になっています。Googleアプリと同様に、ページ全体を利用し、設定にアクセスするにはスクロールダウンする必要があります。
