• Logo Picasso IA
    Logo Picasso IA
  • Accueil
  • IA Image
    Nano Banana 2
  • IA Vidéo
    Veo 3.1 Lite
  • IA Chat
    Gemini 3 Pro
  • Modifier les Images
  • Améliorer l'Image
  • Supprimer l'Arrière-plan
  • Texte en Parole
  • Effets
  • AI Toolkit
    NEW
  • Générations
  • Facturation
  • Support
  • Compte
Vidéos Illimitées SONT LÀ · Nano Banana 2 ET GPT Image 2.0 ILLIMITÉS JUSQU'AU 25 juinAméliorer
  1. Collection
  2. Texte en Parole
  3. Realtime Tts 2

Explorez les voix adaptées à vos besoins

ASMR

ASMR

Japonais
Chuchotement
Femme Chuchotante

Femme Chuchotante

Chuchotement
Relaxation
Robot Chanceux

Robot Chanceux

Robotique
Créatif
Pirate en Colère

Pirate en Colère

Personnage
Créatif

Outils Audio

Audio Original
Cloné
Résultat

Clonez Votre Voix

Vivez la magie vocale instantanée avec seulement 10 secondes d'audio!

Commencer
Capitaine Pirate
Capitaine Pirate
Gobelin Avide
Gobelin Avide
Belle du Sud
Belle du Sud

Design Vocal

Créez N'importe Quelle Voix Imaginable - À Partir d'une Simple Description Textuelle

Commencer

Voix off IA en langage naturel avec Realtime TTS 2

Realtime TTS 2 est un modèle de synthèse vocale conçu pour les créateurs qui veulent plus qu'une voix robotique lisant leur script. Il vous permet de diriger la performance en anglais simple, en ajoutant des indications de ton et d'émotion n'importe où dans votre texte, afin que le résultat ressemble à une vraie voix d'acteur et non à un lecteur IA par défaut. Que vous produisiez des introductions de podcast, une narration vidéo ou un audio doublé pour un public multilingue, le modèle traite tout en temps réel sans délai perceptible. Le système de guidage en langage naturel est ce qui le distingue : écrivez une instruction comme [say excitedly] ou [whisper in a hushed style] avant n'importe quelle phrase, et le modèle ajuste sa prestation en conséquence. Les balises non verbales intégrées vous permettent d'insérer des rires, des soupirs, des toussotements ou des sons de respiration naturels au milieu d'une phrase pour rendre l'audio moins synthétique. Le modèle prend également en charge plus de 100 langues avec détection automatique de la langue, de sorte que les scripts multilingues sont gérés sans changer manuellement les paramètres. Realtime TTS 2 s'intègre naturellement dans n'importe quel flux de production audio ou vidéo. Collez votre script dans le champ de texte, choisissez une voix, sélectionnez votre format de sortie (MP3, WAV, FLAC ou OGG), puis téléchargez un fichier propre en quelques secondes. Si le premier essai n'est pas satisfaisant, changez une instruction de ton ou ajustez le paramètre de température et générez à nouveau.

Officiel

Inworld

23.7k exécutions

Realtime Tts 2

2026-05-04

Usage commercial

Voix off IA en langage naturel avec Realtime TTS 2

Table des matières

  • Aperçu
  • Comment ça marche
  • Foire aux questions
  • Coût des Crédits
  • Fonctionnalités
  • Cas d'utilisation
Obtenir Nano Banana Pro

Aperçu

Realtime TTS 2 convertit du texte écrit en parole au son naturel avec la profondeur expressive que les générateurs vocaux génériques n'ont pas. Si vous avez déjà écouté une voix off et immédiatement senti qu'elle était produite par une machine, ce modèle résout directement ce problème. Il prend en charge plus de 100 langues, accepte des indications émotionnelles entre crochets dans votre texte (comme [say excitedly] ou [whisper softly]) et fournit un audio à faible latence, ce qui le rend pratique pour les applications en direct et l'itération rapide. Sur Picasso IA, vous pouvez l'exécuter directement dans votre navigateur sans rien installer.

Comment ça marche

  • Tapez ou collez votre texte dans le champ de saisie, jusqu'à 2 000 caractères par requête.
  • Ajoutez des instructions optionnelles intégrées entre crochets avant la phrase que vous souhaitez façonner, comme [say sadly] ou [laugh], pour guider le ton de l'interprétation et les sons non verbaux.
  • Choisissez votre langue dans le menu déroulant, ou laissez le réglage sur détection automatique si votre texte est dans une seule langue reconnaissable.
  • Sélectionnez une voix prédéfinie (Ashley, Dennis, Alex ou Darlene) ou saisissez un identifiant de voix personnalisé si vous en avez configuré un.
  • Ajustez la vitesse de parole, la température et le format de sortie (MP3, WAV, OGG ou FLAC), puis cliquez sur générer pour recevoir votre fichier audio.

Foire aux questions

Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser ceci ? Non, ouvrez simplement Realtime TTS 2 sur Picasso IA, ajustez les paramètres souhaités et lancez la génération.

Est-ce gratuit à essayer ? Oui, vous pouvez utiliser Realtime TTS 2 sur Picasso IA sans abonnement payant pour commencer. Consultez les détails du forfait actuel sur la page de tarification pour les limites de génération.

Combien de temps faut-il pour obtenir des résultats ? Le modèle est conçu pour une latence en temps réel, donc la plupart des textes courts à moyens renvoient un audio en quelques secondes. Les entrées plus longues proches de la limite de 2 000 caractères peuvent prendre légèrement plus de temps selon la charge du serveur.

Quels formats de sortie sont pris en charge ? Vous pouvez télécharger votre audio au format MP3, WAV, OGG Opus ou FLAC. MP3 est le format par défaut et fonctionne sur presque toutes les plateformes. FLAC est le meilleur choix si vous avez besoin d'une qualité sans perte pour un usage professionnel ou en studio.

Puis-je contrôler l'aspect de la voix ? Oui. Utilisez des instructions entre crochets dans votre texte, comme [whisper] ou [say excitedly], pour diriger l'émotion et le style de l'interprétation. Augmenter le curseur de température ajoute davantage de variation expressive ; le diminuer conserve un ton cohérent et neutre. Le contrôle de la vitesse de parole vous permet de ralentir ou d'accélérer l'interprétation indépendamment du ton.

Quelles langues prend-il en charge ? Le modèle gère 15 langues de production, dont l'anglais, l'espagnol, le français, l'allemand, le chinois, le japonais, le coréen, l'arabe et l'hindi, entre autres. Régler la langue sur automatique permet au modèle de la détecter tout seul, ce qui fonctionne bien pour un texte clairement rédigé dans une seule langue.

Où puis-je utiliser l'audio qu'il produit ? Les fichiers de sortie sont propres et prêts à être intégrés dans n'importe quel projet. Les emplacements courants incluent les vidéos de réseaux sociaux, les montages de podcasts, les interfaces d'applications, les modules d'apprentissage en ligne et les démonstrations de service client. L'audio ne contient aucun filigrane intégré.

Coût des Crédits

Chaque génération consomme 1 crédit

1 crédit

ou 5 crédits pour 5 générations

Fonctionnalités

Tout ce que ce modèle peut faire pour vous

Contrôle du ton en langage naturel

Écrivez des instructions de style en anglais simple directement dans votre script pour façonner la manière dont chaque ligne est interprétée.

Prise en charge de plus de 100 langues

Générez de la parole dans plus de 100 langues, notamment l'arabe, le chinois, l'hindi et le japonais, avec détection automatique de la langue.

Génération en temps réel

L'audio est produit assez rapidement pour des applications en direct ou quasi en direct, sans délai de mise en mémoire tampon.

Insertion de sons non verbaux

Placez des balises intégrées pour ajouter des rires authentiques, des soupirs, des toussotements ou des sons de respiration n'importe où dans l'audio.

Quatre formats d'exportation

Téléchargez votre audio en MP3, WAV, FLAC ou OGG pour l'adapter à n'importe quelle plateforme ou flux de travail de montage.

Vitesse de parole ajustable

Accélérez ou ralentissez la diction à l'aide d'un simple multiplicateur pour correspondre au rythme de votre vidéo ou présentation.

Contrôle de la température

Augmentez ou réduisez l'expressivité pour obtenir une lecture homogène ou une performance plus dynamique et variée.

Voix prédéfinies et personnalisées

Choisissez parmi des profils vocaux intégrés ou fournissez un identifiant de voix clonée personnalisé pour un résultat sur mesure.

Cas d'utilisation

Enregistrez des voix off pour des vidéos YouTube ou de réseaux sociaux en collant votre script et en encadrant les phrases avec des instructions de ton comme [say calmly] ou [say with urgency]

Générez la même voix off dans une autre langue en écrivant le texte traduit et en sélectionnant la langue cible dans les paramètres

Créez des introductions de podcast et une narration d'épisode avec une voix IA cohérente qui correspond au ton de votre émission dans chaque épisode

Ajoutez des sons non verbaux comme des rires, des soupirs ou des éclaircissements de gorge à un enregistrement en insérant directement des balises audio intégrées dans le texte

Produisez un audio doublé pour du contenu vidéo multilingue sans engager un acteur vocal distinct pour chaque langue

Convertissez des articles longs ou des billets de blog en fichiers audio téléchargeables au format MP3 ou WAV pour les auditeurs qui préfèrent l'audio

Prototypez des dialogues d'assistant vocal avec une vitesse de parole ajustable et une expressivité variée avant de valider la voix finale du produit

Changer de Catégorie

Effets

Texte en image

Texte en vidéo

Grands Modèles de Langage

Texte en parole

Super résolution

Synchronisation labiale

Génération de musique IA

Édition vidéo

Parole en texte

Amélioration vidéo IA

Suppression d'arrière-plan