Je vous parle très souvent de Google AI Studio dans notre podcast, le CKB SHOW, mais je n’avais encore jamais réalisé de véritable démonstration de la fonctionnalité Stream Realtime. Depuis quelques semaines, celle-ci est mise en avant grâce au modèle Gemini 2.0 Flash. Cet outil permet d’interagir avec l’IA de façon multimodale : en utilisant la voix, la webcam (pour la reconnaissance d’images ou de texte) ou encore le partage d’écran (pour montrer votre bureau, votre code ou tout autre contenu).

Dans cet article, je reviens sur les principales étapes de Stream Realtime, agrémentées de mes propres observations et compléments, afin de vous offrir une vue d’ensemble sur le potentiel de cette fonctionnalité.

Vue d’ensemble de l’interface « Stream Realtime »

Lorsque vous accédez à Google AI Studio, plusieurs fonctionnalités s’offrent à vous. La fonctionnalité Talk to Gemini vous permet d’interagir oralement avec le modèle et d’obtenir des réponses vocales. De son côté, Show Gemini utilise la webcam pour analyser en temps réel des objets, du texte ou des schémas, et en fournit une interprétation instantanée. Enfin, Share your screen vous autorise à partager votre écran (site web, code, terminal ou documents) afin d’échanger en direct avec Gemini.

Paramètres et configuration

Sur le panneau de droite, vous pouvez sélectionner :

  • Le modèle : ici, “Gemini 2.0 Flash Experimental”.
  • Le format de sortie (Audio ou Texte).
  • La voix (par exemple “Puck”).
  • Les outils (Code Execution, Function Calling, Automatic Function Response, etc.).

Démarrer une conversation audio avec Gemini (« Talk to Gemini »)

Par défaut, Gemini ne parle pas français, mais il suffit de lui demander de s’exprimer dans la langue de Molière pour qu’il vous réponde dans un français plutôt correct (attention, certaines intonations ne sont pas encore très naturelles). Avant d’aller plus loin, sachez que la fonction Stream Realtime fonctionne parfaitement sur smartphone via votre navigateur. Je vous expliquerai en fin d’article ce que j’ai pu en faire.

Dans ma démonstration, j’ai lancé Talk to Gemini pour commencer une conversation. Pour cela, je n’ai activé que le micro afin de lui parler, et j’ai choisi la voix de Puck. Il est évidemment possible de la modifier à tout moment via le menu déroulant.

L’un des points intéressants dans Stream Realtime, c’est la possibilité de l’interrompre à la volée : vous pouvez couper la parole de Gemini sans qu’il perde le fil de la conversation (idéal pour “contrôler” l’IA).

De plus, Gemini est capable de mémoire contextuelle. En effet, il se souvient des précédentes questions et réponses. J’ai testé la simple commande :

« Peux-tu résumer notre conversation ? »
L’IA a réussi à récapituler les sujets abordés.

Exemple de commandes vocales

  • « Gemini, peux-tu me parler de Google AI Studio ? »
  • « Gemini, résume notre discussion »

Cette interaction vocale illustre la flexibilité et la réactivité de la plateforme.

Analyse d’objets et de texte via la webcam (« Show Gemini »)

La deuxième fonctionnalité en vedette est Show Gemini, et je dois dire que je suis bluffé par ses capacités. J’ai pointé ma webcam sur différents éléments et je lui ai demandé soit de me les décrire, soit de me donner une information à leur sujet.

Dans ma démonstration, je lui montre simplement mon bureau en manipulant ma webcam. Une fois mon espace de travail visualisé, je commence à lui poser des questions très ciblées :

  • « J’ai faim, y a-t-il quelque chose sur mon bureau qui pourrait me couper la faim ? »
  • « À présent, j’ai soif. Où puis-je trouver de l’eau sur mon bureau ? »
  • « J’ai les mains sèches, mais je ne retrouve pas ma crème hydratante. Peux-tu me dire où elle est ? »
  • « Regarde, on m’a offert un jeu. Peux-tu m’expliquer son fonctionnement ? »
  • « Sur mon bureau, il y a un livre posé. Quel en est le titre et quel en est le sujet ? »

Évidemment, on peut aller plus loin en lui demandant de l’aide en géométrie par exemple.
Je lui dessine un rectangle et lui demande de calculer son aire, puis je fais la même chose avec un cercle ou encore je lui demande de trouver la valeur manquante de l’hypoténuse d’un triangle.

Cette démonstration met en évidence la capacité de Gemini à reconnaître des images et du texte, ainsi que sa faculté à traiter des problèmes concrets.

Partage d’écran et utilisation du terminal (« Share your screen »)

Dernier point fort de la démonstration : Share your screen. Je partage mon écran pour lui demander de l’aide à plusieurs niveaux, afin de mieux comprendre certaines tâches.

  • Navigation dans les articles de blog ou sur Internet
    Je lui partage l’un de mes onglets Chrome et lui demande quel en est le titre, de m’en faire un résumé et de compter le nombre de fois où le terme “neutralité du net” apparaît. Les réponses sont simples et rapides.
  • Aide au codage
    J’ai poursuivi en lui présentant le code HTML d’une de mes pages web. Je lui demande dans un premier temps ce qu’il comprend, puis je modifie le code pour introduire une erreur. Je lui demande ensuite de la corriger, et il le fait sans aucun problème. Je vais plus loin en lui demandant de me suggérer des améliorations pour poster directement sur X (anciennement Twitter) la phrase modifiée.

Gemini s’exécute et me propose de nombreuses évolutions intéressantes, le tout en temps réel.

Tous ces tests démontrent la puissance de Stream Realtime pour le debug, la démonstration de code ou l’assistance au développement.


Atouts majeurs de “Stream Realtime”

  • Multimodalité : vous pouvez basculer aisément entre la voix, la webcam et le partage d’écran.
  • Interruption maîtrisée : coupez la réponse de l’IA à n’importe quel moment si vous souhaitez réorienter la conversation.
  • Mémoire contextuelle : Gemini se souvient du fil de discussion, rendant l’échange fluide et plus naturel.
  • Reconnaissance avancée : détection de texte en plusieurs langues, reconnaissance d’objets, analyses mathématiques, etc.
  • Assistance au code : idéal pour montrer votre terminal, vos fichiers, vos logs et obtenir un retour en temps réel.

Conseils pour bien démarrer

  1. Préparez votre environnement : assurez-vous d’avoir un micro fonctionnel si vous souhaitez discuter en audio, et une webcam si vous voulez profiter de la reconnaissance vidéo.
  2. Soyez clair dans vos demandes : que vous parliez ou écriviez, formuler des requêtes précises permet à l’IA de répondre au mieux.
  3. Explorez les paramètres : ajustez le modèle (Gemini 2.0 Flash), le format de sortie (audio ou texte), et activez/désactivez les outils (Code Execution, Function Calling) selon vos besoins.
  4. Testez la persistance contextuelle : posez des questions successives sur un même sujet pour évaluer la mémoire du modèle.
  5. Partagez votre écran pour le debug ou l’apprentissage : montrez votre code ou votre terminal à Gemini, idéal pour apprendre ou résoudre un problème technique.

Conclusion

Le mode “Stream Realtime” de Google AI Studio représente une avancée majeure vers des interactions naturelles, intuitives et productives avec l’IA. Comme le montre la démonstration d’Aryan Irani, il est désormais possible de :

  • Parler à l’IA et recevoir des réponses orales ;
  • Montrer des objets, des textes, des schémas à la webcam pour une analyse immédiate ;
  • Partager votre écran pour qu’un modèle puissant comme Gemini 2.0 vous assiste dans toutes vos tâches, du surf sur le web à la ligne de commande.

Qu’il s’agisse de prototyper, de collaborer en direct ou de résoudre des problèmes de code, Stream Realtime ouvre la voie à de nouvelles méthodes de travail plus immersives et plus efficaces. Pour en savoir plus sur les coulisses de Google AI Studio, n’hésitez pas à visionner la vidéo d’Aryan Irani et à explorer les autres ressources disponibles sur la plateforme.

Avez-vous testé Stream Realtime ? Partagez vos expériences et vos retours en commentaire !

Shares:

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.