Google a intégré dans Gemini une fonctionnalité qui devrait vous intéresser. Il s’agit de la transcription d’un fichier audio en texte. Présente déjà dans NotebookLM comme dans l’application mobile Enregistreur, cette fonction était attendue par tous les utilisateurs de Gemini. Et on peut dire qu’il a pris les mêmes fonctionnalités de cette application, pour les proposer dans Gemini. Acceptant tout type de fichiers audio (M4A, WAV, MP3, ….), comme Enregistreur, on peut également avoir un résumé des points clés. Mais une telle opération, passe bien sûr par un prompt que l’on pourra avoir défini à l’avance. C’est le fameux Gem et vous allez voir que Gemini sait maintenant transcrire des fichiers audio en texte de manière presque parfaite.
Il faut toujours avoir un prompt
Que ce soit pour la transcription d’audio en texte ou simplement demander de faire ressortir les points importants de ce dernier, il va falloir jouer du prompt. Rien de bien particulier mais il aurait été intéressant diront certains que Gemini propose des boutons raccourcis comme ‘Transcrire en texte”, “Les points clés”, “Me faire un résumé”. Et bien on oublie les boutons et on va utiliser un outil très puissant appelé Gem. Je rappelle qu’il s’agit d’un prompt avec une tâche prédéfinie que l’on pourra répéter à l’envie tout en lui apportant des nouvelles instructions, lors de son emploi. Et justement la transcription d’audio en texte n’est-ce pas une tâche que l’on peut anticiper ? Ne serait-ce qu’au niveau du prompt ? Un prompt qui on va le voir peut faire tourner la tête, tellement il y a de paramètres à rentrer. Mais au fait, sans prompt, cela donne quoi, si on demande à Gemini de faire la transcription, sans lui donner d’autres ordres ? Et bien ceci …..
- Bonjour aux lecteurs de mychromebook.fr et bienvenue.
- Bonjour à tous.
- Aujourd’hui, on va se plonger dans l’histoire assez fascinante de Google+, ce fameux réseau social que Google avait lancé avec beaucoup d’ambition.
- Oui, et on sait que c’est un sujet qui intéresse votre communauté sur mychromebook.fr. Donc on va essayer de décortiquer un peu sa création, son évolution et pourquoi ça s’est arrêté.
- Tout à fait. Alors pour commencer, il faut se remettre dans le contexte. On est en 2011.
Bien communiquer
On est bien d’accord qui si vous avez deux ou trois pages de textes, vous pouvez vous demander qui dit quoi, surtout si vous avez plusieurs intervenants. Et puis tous les bruits parasites enregistré peuvent altérer la transcription. On va donc se créer un Gem, qui va déjà transcrire le texte tout en lui imposant des filtres. Pour cela :
- on lance Gemini, et on ouvre la barre latérale et on clique sur Découvrir les Gems,
- cliquer sur Nouveau Gem et une nouvelle fenêtre s’affiche,
- tout d’abord dans le champ Nom, on lui donne un nom. Pour moi c’est Transcription. C’est compréhensible et puis cela indique bien la fonction du Gem,
- ensuite dans les Instructions, on va inscrire un prompt lui demandant tout d’abord la transcription du fichier audio en texte. On lui précisera que quelque soit la langue audio, le texte sera transcrit en français. On peut en effet imaginer avoir un fichier audio en anglais par exemple et sans avoir à le préciser, il effectuera l’opération pour afficher un texte en français,
- ensuite on va lui indiquer que pour chaque intervention d’un des intervenants, il ira à la ligne en indiquant avant le début de la phrase le nom de celui-ci,
- enfin on va lui préciser que la transcription devra être la plus fidèle possible. Également, on va s’intéresser à tout ce qui peut arriver lors d’une discussion (hésitation, émotion, etc….) comme les bruits et vous allez voir qu’il en existe. Cette partie est la plus importante afin de rendre le plus lisible possible la transcription. Egalement dans le nombre d’informations que l’on communique à Gemini afin que le sens même de la discussion ne soit pas altéré on lui indique de prendre en compte les hésitations, tiques verbaux et autres.
- on finira en lui demandant de nous proposer un titre et une résumé de deux lignes. Enfin, on n’oublie pas d’enregistrer le Gem.
Un prompt long comme le bras
Je suis d’accord avec vous que cela fait beaucoup d’informations à communiquer à Gemini, mais si on détaille bien le prompt, cela devrait être exploitable par cet outil. Un tel prompt donne ceci :
Me faire une transcription la plus fidèle possible du fichier audio en fichier texte. La transcription devra aller à la ligne pour chaque nouvelle intervention de l’un des intervenants. Devant chaque intervention, mettre le nom de l’intervenant en gras. Quelle que soit la langue proposée dans le fichier audio, la transcription en texte devra se faire en français. Si un intervenant parle une autre langue que le français dans le fichier audio, mais que le contexte permet de comprendre que c’est une citation ou un mot étranger, le transcrire phonétiquement ou le laisser dans sa langue d’origine si cela est plus pertinent, tout en traduisant le reste de l’intervention en français.Ne pas retranscrire, les bruits de fond intérieur ou extérieur qui peuvent être entendus lors de la discussion. Si des silences prolongés (plus de 5 secondes) sont détectés entre les interventions, les signaler par [Pause] ou [Silence]. Utiliser une ponctuation standard (virgules, points, points d’interrogation, points d’exclamation) et respecter les majuscules en début de phrase. Transcrire également les onomatopées ou les interjections (ex: ‘euh’, ‘ah’, ‘hum’) mais les mettre entre parenthèses. Si le ton d’une intervention est clairement identifiable (ex: rire, tristesse, surprise, pleurs) ou même éternuement(s), l’indiquer entre crochets à la fin de la phrase de l’intervenant, par exemple : [Rire]. Si un terme technique, un nom propre ou un mot peu commun n’est pas clairement identifiable, le signaler par un point d’interrogation entre parenthèses, par exemple : ‘Le projet s’appelle Alpha-du-Centaure (?)’. Si deux intervenants ou plus parlent simultanément, indiquer les interventions par des balises distinctes comme : [Intervenant 1 parlant] et [Intervenant 2 parlant], ou les fusionner si le sens est clair et la compréhension non altérée. Ne pas inclure de numéros de téléphone, adresses e-mail ou autres informations personnelles sensibles dans la transcription, les remplacer par ‘[information confidentielle]’. Omettre les tiques de langage non sémantiques qui n’apportent aucune information ou sens à la phrase (ex: répétitions inutiles de ‘donc’, ‘voilà’, ‘quoi’), sauf si leur suppression altère gravement le sens ou le ton. Après la transcription complète, proposer un titre pertinent et une courte description de deux lignes résumant le sujet principal du fichier audio.
En l’état, ce prompt est un excellent exemple de la manière d’exploiter pleinement les capacités de Gemini pour la transcription audio. Il couvre la plupart des scénarios pertinents pour une transcription de haute qualité. Les prochains ajustements viendront probablement de l’expérience dans son utilisation, si des cas très spécifiques non encore couverts sont identifiés.
Un contenu de qualité, sans publicité.
Vous aimez notre travail ? Soutenez notre indépendance en devenant membre sur Patreon.
Soutenir MyChromebook.frUn résultat presque parfait
Si on lance le Gem et active l’opération après avoir inséré le fichier audio, la transcription donne ceci :
- Homme : Bonjour aux lecteurs de microbook.fr et (euh) bienvenue.
- Femme : Bonjour à tous.
- Homme : Aujourd’hui, on va se plonger dans l’histoire (euh) assez fascinante de Google Plus, ce fameux réseau social que Google avait lancé avec beaucoup d’ambition.
- Femme : Oui, et on sait que c’est un sujet qui intéresse votre communauté sur microbook.fr, donc on va essayer de décortiquer un peu sa création, son évolution et ben, pourquoi ça s’est arrêté.
- Homme : Tout à fait. Alors, pour commencer, il faut se remettre dans le contexte. On est en 2011.
- Titre : Google Plus : Chronique d’un Échec Annoncé et Son Héritage
- Description : Cette discussion retrace l’histoire complète du réseau social Google Plus, depuis son lancement ambitieux pour concurrencer Facebook jusqu’à sa fermeture. Les intervenants analysent les fonctionnalités, les erreurs stratégiques, les problèmes de sécurité et ce qu’il reste aujourd’hui de ce projet.
Changer quelques informations
Si on connaît les prénoms des intervenants, il suffit simplement de demander à Gemini de les changer via le prompt “changer Homme: en Laurent et Femme: en Marie“, ce qui donne :
Voici la transcription modifiée avec les prénoms Laurent et Marie :
- Laurent: Bonjour aux lecteurs de Microbook.fr et (euh) bienvenue.
- Marie: Bonjour à tous.
- Laurent: Aujourd’hui, on va se plonger dans l’histoire euh assez fascinante de Google Plus, ce fameux réseau social que Google avait lancé avec beaucoup d’ambition.
- Marie: Oui, et on sait que c’est un sujet qui intéresse votre communauté sur Microbook.fr donc on va essayer de décortiquer un peu sa création, son évolution et ben pourquoi ça s’est arrêté.
- Laurent: Tout à fait. Alors, pour commencer, il faut se remettre dans le contexte. On est en 2011.
Dans la même fenêtre du Gem, on pourra demander un résumé, comme nous créer une image qui synthétise au mieux la discussion. On peut maintenant déporter le fichier vers un fichier Doc, ou on pourra par exemple extraire tous les propos tenus par l’un des intervenants. Corriger de manière automatique quelques mots mal transcrits, etc…..
Spécificités suivant les comptes Google
En ce qui concerne la durée du fichier audio, elle est de 10 minutes maximum et de cinq prompts par jour si vous avez un compte Google. Pour les autres abonnements, la durée peut aller jusqu’à trois heures en sachant que l’on peut importer jusqu’à dix fichiers simultanément. Vous trouverez d’autres informations sur les types de fichiers autorisés, les durées ainsi que les types d’opérations pouvant être effectuées dans cette aide en ligne. Vous avez toutes les cartes en main, à vous de jouer et n’oubliez pas de nous dire dans les commentaires ce que vous pensez de ce prompt et en quoi il a pu vous aider.
Yep ! L’IA @GeminiApp sait transcrire de l’audio en texte et de manière rapide. Merci @Google !
Tout comprendre en quatre questions / réponses
- Question : Quelle est la nouvelle fonctionnalité de Gemini mise en avant dans l’article ?
- Réponse : La transcription de fichiers audio en texte.
- Question : Comment l’article suggère-t-il d’optimiser l’utilisation de cette fonctionnalité pour des tâches répétitives ?
- Réponse : En créant un « Gem » personnalisé avec un prompt détaillé.
- Question : Quelle est la durée maximale d’un fichier audio pour la transcription avec un compte Google gratuit ?
- Réponse : 10 minutes maximum.
- Question : Si un fichier audio est dans une autre langue, quelle langue sera utilisée pour la transcription selon le prompt proposé ?
- Réponse : Le français.




