Gemini 3.1 Flash TTSとは
Googleが2026年にリリースしたGemini 3.1 Flash TTSは、テキストを自然な音声に変換するAIモデルです。最大の特徴は70以上の言語に対応していることと、従来のTTSとは次元の異なる表現力を持つことです。
単にテキストを読み上げるだけでなく、「明るく元気なトーンで」「ニュースキャスター風に」といった場面指示(シーンインストラクション)に対応しており、用途に合わせた音声を生成できます。
主な特徴と従来TTSとの違い
70言語対応のマルチリンガル性能
日本語、英語はもちろん、韓国語、中国語、フランス語、スペイン語、アラビア語など70以上の言語をサポートしています。多言語コンテンツを制作する企業やクリエイターにとって、1つのモデルで複数言語の音声を生成できるのは大きなメリットです。
場面指示(シーンインストラクション)
テキストとは別に「どのように読み上げるか」を指示できます。たとえば「子どもに語りかけるように優しく」「緊迫した場面なのでスピードを上げて」といった指示を加えることで、音声の表現が劇的に変わります。ポッドキャストやオーディオブック制作に最適です。
話者識別(スピーカーID)
複数の話者を区別して音声を生成できます。対話形式のコンテンツでは、話者Aと話者Bに異なる声質を割り当てることが可能です。会議の議事録読み上げや、教材の会話パート作成に便利です。
AI Studioでの使い方
ステップ1:AI Studioにアクセス
Google AI Studio(aistudio.google.com)にGoogleアカウントでログインします。左側メニューから「Gemini 3.1 Flash」モデルを選択してください。
ステップ2:TTSモードを設定
出力形式を「Audio」に切り替え、言語と話者数を設定します。場面指示を使う場合は、System Instructionの欄に「読み上げスタイル」の指示を記述します。
ステップ3:テキスト入力と生成
読み上げたいテキストをプロンプト欄に入力し、「Generate」をクリック。数秒で音声が生成され、プレビュー再生やダウンロードが可能です。APIキーを使ったプログラムからの利用もサポートされています。
まとめ
Gemini 3.1 Flash TTSは、多言語対応・場面指示・話者識別という3つの強力な機能を備えた次世代のTTSモデルです。AI Studioから無料で試せるので、ポッドキャストや動画ナレーション、語学教材の制作などに活用してみてはいかがでしょうか。
✍️ この記事を書いた人
チケットナビ編集部
先払い買取・金券売買の最新情報を初心者にもわかりやすくお届けします。業者の比較、買取率、トラブル対策など、安全に現金化するための情報を徹底調査して発信しています。

コメント