
Expert IA @Iroh Squads, Sensei @Nocode Iroh Academy. Je créé une armée d’assistants au service de ton business.

Do not index
Do not index
En septembre 2024, Google a sorti une fonctionnalité de génération IA de Podcast d’une fluidité sans égal, bien loin devant toutes les autres solutions du marché :
À partir de tes sources, 2 hôtes discutent de manière si naturelle qu’il est difficile de se rendre compte qu’ils ne sont pas réels… Voilà un court extrait pour donner une idée :
Personne ne l’avait vu venir, et ça a signé le début de la remontada de Google dans le game.
Le seul problème, c’est que les voix générées sont toujours les mêmes : tel quel, il serait contre-productif d’en faire un podcast pour son business, car il serait perçu comme un podcast IA générique, sans pouvoir ni diffuser sa marque ni laisser une impression unique…
Alors je me suis penché sur le problème, et j’ai craqué le process pour remplacer les voix générés par celles qu’on veut (que ce soit ma propre voix clonée ou celles des personnages de mon univers de marque) pour sortir un podcast à partir de mon contenu (blog, newsletter, linkedin) sans travail supplémentaire !
Voilà un extrait du résultat final pour te donner une idée :
Je te laisse découvrir comment reproduire ça en 5 étapes simples, à suivre pas à pas.
1. La base : NotebookLLM
La première chose à faire est d’aller sur https://notebooklm.google.com/ puis d’ajouter le contenu que l’on veut transformer.
Dans mon cas par exemple, un article de blog.
Optionel : On peut aussi influencer plus précisément le déroulé en ajoutant une source texte de notes de l’épisode (j’utilise ChatGPT pour la générer rapidement)
# Deep Dive Episode Notes
## Episode #2087
*Date: Janvier 16, 2025*
### Uploaded Sources
Un unique article sert de source pour cet episode:
- "Survivre et Triompher dans le monde de la formation en 2025 (partie 1)" - Nocode Iroh, 9 janvier 2025
### Special Instructions
- Suivre la structure de l'article
### Episode goals
- Mettre en lumière l’importance de l’IA dans le secteur de la formation et de l’éducation.
- Souligner combien son intégration concrète est déjà en cours et à quel point elle est rentable pour les acteurs du marché.
- Illustrer les bénéfices tangibles de ces solutions IA (ROI, augmentation du taux de complétion, amélioration de l’accompagnement, etc.).
- Maintenir un style informatif, démontrant l’expertise et l’intérêt économique de l’IA dans l’éducation.
### Closing Reminder
L'IA évolue vite, il n'est pas facile de suivre son évolution mais Nocode Iroh continue à expérimenter pour rester à l'avant garde et repousser les limites.
Ensuite on peut directement cliquer sur Générer pour obtenir le podcast directement, ou ajouter une prompt en cliquant sur Personnaliser.
En utilisant la prompt suivante, on peut forcer un résultat en français !
Par contre, le résultat a tendance à être moins naturelle et impressionnant qu’en anglais, je ne recommande pas de l’utiliser en production pour le moment…
Cet épisode spécial doit être exclusivement en français. Il s'agit d'une exception où nous n'avons pas d'autre choix que d'utiliser la langue de Molière (accent parisien).
Toutes les discussions, interviews et commentaires doivent être en français pendant toute la durée de l’épisode.
Aucune autre langue ne doit être utilisée, sauf si nécessaire pour clarifier un terme spécifique.
Il ne nous reste plus qu’à télécharger le résultat avant de passer à la suite :

Voyons dans les étapes suivantes comment modifier chaque voix individuellement !
2. Séparation des voix
Après des heures de recherches, j’ai déniché LA pépite pour séparer les voix en plusieurs fichiers :
L’outil est payant mais en validant son mail, on gagne 2 crédits ce qui fait une génération gratuite, idéal pour tester !

Une fois le traitement terminé, on peut télécharger chacune des pistes audios
3. Clonage de voix sur ElevenLabs
D’abord on récupère un extrait de la voix à copier (la sienne ou une autre).
Attention à bien enlever les bruits ou musique de fond si il y en a avec la manipulation suivante :
Ensuite on créé la voix sur ‣ :
Note: J’utilise capcut pour découper mes sections de voix en plusieurs émotions, histoire de pouvoir sélectionner les plus pertinentes pour mon podcast (par exemple ici je ne vais pas mettre la colère pour éviter de trop choquer les auditeurs 😅)

Attention aussi à avoir des volumes de voix similaires sur tous les échantillons et sur les 2 voix : si une voix est plus faible que l’autre, on risque d’avoir un speaker qui parle moins fort que l’autre…
4. Remplacement des voix en gardant l’intonation
Une limite de 5 minutes maximum par audio nous oblige à découper notre pistes en plusieurs morceaux. Fait sur capcut pour ma part.
Et enfin on convertit chaque morceaux :
J’ai essayé de jouer un peu avec le paramètre Style Exaggeration et il a un défaut notable : quand l’audio démarre par un silence, il rajoute un bruit de grésillement aigu au début (cf vidéo suivante où je le retire du résultat final).
Je ne recommande donc pas de l’utiliser ! Par contre le paramètre similarity à 90% a été bien utile sur la 2ème voix.
Puis on rassemble le tout dans Capcut.

Ensuite on fait les derniers ajustements pour retirer les éventuels artefact
Dans mon cas, j’ai remplacé la voix femme par une voix d’homme, mais je trouve qu’elle est quand même rester féminine : du coup j’ajuste le pitch et le timbre sur Capcut jusqu’à ce que ça me convienne !
Pour les prochaines je n’aurais plus qu’à garder ces mêmes paramètres et à les appliquer.
5. Intro/outro puis Publication
Enfin, j’ai simplement enregistré ma voix et ajouté une musique de fond dans Capcut en utilisant des sos existants (pour matcher à la série dont je m’inspire).
Mais vous pouvez allez générer vos propres sons de qualité dans le style que vous voulez, et ce, super facilement avec Suno.
J’ai ensuite utilisé Spotify for Creators (anciennement Anchor) pour héberger gratuitement mon podcast, leur onboarding est hyper simple, et ça m’a pris quelques minutes seulement.
6. Automatisation
Maintenant que le procédé a été effectué une fois, qu’on a l’intro et l’outro, les voix configurées et qu’on sait comment ajuster le pitch et le timbre de chacune, on peut automatiser l’entièreté du processus en utilisant n8n, Automa, l’API d’ElevenLabs et FFmpeg 💯
Ça nous fait une belle quête pour la prochaine fois, alors inscrits-toi sur la newsletter Iroh Letter pour ne pas la louper ;)
Ici, je ne pense pas que l’automatisation totale soit pertinente dans un 1er temps !
On a tout intérêt à itérer de manière fine sur notre format pour comprendre ce qui marche et ce qui ne marche pas et produire suffisamment de “hits” pour ensuite seulement pouvoir déduire une formule répétable.
D’ailleurs, juste après avoir partagé une partie de ce guide, on m’a fait découvrir l’outil Jellypod qui permet de faire la même chose, avec en plus l’édition fine du discours directement sur le transcript !
Ça a l’air idéal pour avoir un contrôle fin de bout en bout sur le résultat final, et les exemples qu’ils fournissent sont d’excellentes qualité en anglais.
Reste à voir si le français est meilleur que celui de NotebookLLM :
Affaire à suivre !
Written by

Mory-Fodé Cissé
Expert IA @Iroh Squads, Sensei @Nocode Iroh Academy. Je créé une armée d’assistants au service de ton business.