• Logo Picasso IA
    Logo Picasso IA
  • Accueil
  • IA Image
    Nano Banana 2
  • IA Vidéo
    Veo 3.1 Lite
  • IA Chat
    Gemini 3 Pro
  • Modifier les Images
  • Améliorer l'Image
  • Supprimer l'Arrière-plan
  • Texte en Parole
  • Effets
  • AI Toolkit
    NEW
  • Générations
  • Facturation
  • Support
  • Compte
Vidéos Illimitées SONT LÀ · Nano Banana 2 ET GPT Image 2.0 ILLIMITÉS JUSQU'AU 25 juinAméliorer
  1. Collection
  2. Texte en Parole
  3. Realtime Tts 1.5 Mini

Explorez les voix adaptées à vos besoins

ASMR

ASMR

Japonais
Chuchotement
Femme Chuchotante

Femme Chuchotante

Chuchotement
Relaxation
Robot Chanceux

Robot Chanceux

Robotique
Créatif
Pirate en Colère

Pirate en Colère

Personnage
Créatif

Outils Audio

Audio Original
Cloné
Résultat

Clonez Votre Voix

Vivez la magie vocale instantanée avec seulement 10 secondes d'audio!

Commencer
Capitaine Pirate
Capitaine Pirate
Gobelin Avide
Gobelin Avide
Belle du Sud
Belle du Sud

Design Vocal

Créez N'importe Quelle Voix Imaginable - À Partir d'une Simple Description Textuelle

Commencer

Realtime TTS 1.5 Mini : synthèse vocale IA en 120 ms

Realtime TTS 1.5 Mini convertit du texte écrit en audio parlé en environ 120 millisecondes, ce qui en fait l'une des options de synthèse vocale les plus rapides disponibles. Si vous avez déjà attendu plusieurs secondes que l'audio soit généré avant une démo, une interaction client ou un test de produit en direct, ce modèle réduit cette attente à une fraction de seconde. Il fonctionne dans 15 langues, de sorte qu'une seule configuration gère du contenu multilingue sans jongler entre plusieurs outils. Vous pouvez façonner le rendu de plusieurs manières. Les balises d'émotion comme [happy] ou [sad] modifient le ton du locuteur sans étape de traitement supplémentaire. Les balises SSML break vous permettent de contrôler l'emplacement des pauses, afin d'obtenir le rythme nécessaire pour une narration ou un dialogue. Le modèle accepte des fréquences d'échantillonnage de 8 kHz à 48 kHz et produit l'audio en MP3, WAV, OGG Opus ou FLAC, afin que le fichier s'adapte à n'importe quelle plateforme ou pipeline qui le reçoit. Un réglage de température contrôle à quel point le rendu paraît expressif ou cohérent d'une exécution à l'autre. Pour les applications à commande vocale, les robots téléphoniques interactifs, la narration de cours en ligne ou tout projet où la latence audio est une contrainte réelle, ce modèle s'intègre sans nécessiter de changement d'infrastructure important. Insérez votre texte, choisissez une voix et une langue, et récupérez un fichier audio prêt à l'emploi en moins d'une seconde.

Officiel

Inworld

89.6k exécutions

Realtime Tts 1.5 Mini

2026-03-10

Usage commercial

Realtime TTS 1.5 Mini : synthèse vocale IA en 120 ms

Table des matières

  • Vue d'ensemble
  • Comment ça marche
  • Foire aux questions
  • Coût des Crédits
  • Fonctionnalités
  • Cas d'utilisation
Obtenir Nano Banana Pro

Vue d'ensemble

Realtime TTS 1.5 Mini convertit du texte écrit en parole au son naturel en environ 120 millisecondes, ce qui en fait l'un des modèles de synthèse les plus rapides disponibles pour les applications en direct. Si vous créez un bot de support client, un assistant de lecture ou une interface vocale qui doit répondre en temps réel, attendre deux ou trois secondes que l'audio soit rendu est rédhibitoire. Picasso IA héberge ce modèle afin que vous puissiez le tester directement dans le navigateur, sans configuration d'API requise. Il couvre 15 langues nativement, de sorte qu'un seul modèle gère des projets multilingues sans changer d'outil.

Comment ça marche

  • Saisissez ou collez votre texte dans le champ de saisie, jusqu'à 2 000 caractères par requête
  • Choisissez une voix prédéfinie dans la bibliothèque ou fournissez un identifiant de voix clonée personnalisé
  • Réglez la vitesse de parole et la température pour contrôler la vitesse et l'expressivité, puis choisissez votre format de sortie (MP3, WAV, OGG, FLAC)
  • Sélectionnez la fréquence d'échantillonnage adaptée à votre environnement cible, de 8 kHz pour la téléphonie jusqu'à 48 kHz pour un audio haute fidélité
  • Lancez la génération et recevez votre fichier audio en moins d'une seconde pour la plupart des entrées

Foire aux questions

Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser cela ? Non, ouvrez simplement Realtime TTS 1.5 Mini sur Picasso IA, ajustez les paramètres souhaités et lancez la génération.

Est-ce gratuit à essayer ? Picasso IA vous permet d'exécuter le modèle sans créer de compte ni saisir de détails de paiement. Vous pouvez générer de l'audio et l'écouter directement dans le navigateur avant de télécharger quoi que ce soit.

Combien de temps faut-il pour obtenir des résultats ? Le modèle vise environ 120 millisecondes entre l'entrée et l'audio. En pratique, la plupart des textes courts à moyens sont rendus en bien moins d'une seconde, même avec une connexion Internet standard.

Quels formats de sortie sont pris en charge ? Vous pouvez télécharger votre audio en MP3, WAV, OGG Opus ou FLAC. MP3 est le format par défaut et se lit dans pratiquement tous les environnements. Choisissez FLAC ou WAV si vous avez besoin d'un audio sans perte pour le montage en postproduction.

Puis-je contrôler le ton et la vitesse de la voix ? Oui. Le réglage de température ajuste le caractère expressif ou neutre de la voix. Le multiplicateur de vitesse de parole vous permet d'accélérer ou de ralentir le rendu sans changer la hauteur. Vous pouvez également insérer directement des balises de pause et des marqueurs d'émotion dans votre texte pour façonner les pauses et le ton à des moments précis.

Quelles langues le modèle prend-il en charge ? Le modèle couvre 15 langues, vous pouvez donc synthétiser de la parole pour plusieurs locales avec le même flux de travail sans passer à un modèle différent pour chaque langue.

Que se passe-t-il si le résultat ne me plaît pas ? Essayez d'ajuster le curseur de température pour un autre niveau d'expressivité, ou passez à une autre voix de la bibliothèque prédéfinie. De petits changements dans la formulation du texte source peuvent également affecter de manière notable le naturel du rendu.

Coût des Crédits

Chaque génération consomme 1 crédit

1 crédit

ou 5 crédits pour 5 générations

Fonctionnalités

Tout ce que ce modèle peut faire pour vous

~120ms latency

Retourne l'audio assez rapidement pour les applications vocales en direct et les pipelines en temps réel.

15-language support

Produisez de la parole dans quinze langues différentes à partir d'un seul appel API.

Emotion markup

Insérez [happy], [sad] ou des balises similaires pour modifier le ton émotionnel du locuteur.

Flexible audio formats

Téléchargez la sortie en MP3, WAV, OGG Opus ou FLAC pour l'adapter à n'importe quelle plateforme.

Custom voices

Utilisez des noms prédéfinis comme Ashley ou Dennis, ou fournissez votre propre identifiant de voix clonée.

SSML pause control

Placez des pauses au son naturel n'importe où dans le texte avec des balises de temps de pause.

Adjustable sample rate

Choisissez entre 8 kHz et 48 kHz pour équilibrer la taille du fichier et la fidélité audio.

Text normalization

Développez automatiquement les nombres, dates et abréviations avant la synthèse.

Cas d'utilisation

Générez des instructions vocales pour un guide d'application mobile en moins d'une seconde par phrase

Produisez des annonces de produits multilingues dans jusqu'à 15 langues à partir d'un seul modèle de texte

Créez des réponses vocales de service client pour un chatbot qui doit fournir des réponses en temps réel

Ajoutez une narration avec balises d'émotion à un script vidéo en insérant des marqueurs [happy] ou [sad] dans le texte

Créez un aperçu de livre audio en convertissant un chapitre d'exemple en MP3 ou WAV avec un rythme naturel

Insérez des pauses chronométrées dans les intros de podcasts à l'aide de balises SSML break pour un rendu scénarisé et soigné

Testez différentes voix de locuteurs sur le même script pour choisir le ton qui correspond à votre marque avant le lancement

Changer de Catégorie

Effets

Texte en image

Texte en vidéo

Grands Modèles de Langage

Texte en parole

Super résolution

Synchronisation labiale

Génération de musique IA

Édition vidéo

Parole en texte

Amélioration vidéo IA

Suppression d'arrière-plan