• Logo Picasso IA
    Logo Picasso IA
  • Inicio
  • IA Imagen
    Nano Banana 2
  • IA Video
    Veo 3.1 Fast
  • IA Chat
    Gemini 3 Pro
  • Editar Imágenes
  • Mejorar Imagen
  • Eliminar Fondo
  • Texto a Voz
  • Efectos
    NEW
  • Generaciones
  • Facturación
  • Soporte
  • Cuenta
  1. Colección
  2. Texto a Voz
  3. Tts 1.5 Mini

Explora voces para tu necesidad

ASMR

ASMR

Japonés
Susurro
Mujer Susurrante

Mujer Susurrante

Susurro
Relajación
Robot Afortunado

Robot Afortunado

Robótico
Creativo
Pirata Enfadado

Pirata Enfadado

Personaje
Creativo

Herramientas de Audio

Audio Original
Clonado
Resultado

Clona Tu Voz

Experimenta la magia vocal instantánea con solo 10 segundos de audio!

Capitán Pirata
Capitán Pirata
Duende Codicioso
Duende Codicioso
Dama Sureña
Dama Sureña

Diseño de Voz

Crea Cualquier Voz Que Puedas Imaginar - Desde Una Simple Descripción de Texto

TTS 1.5 Mini: Voz de IA instantánea en 15 idiomas

TTS 1.5 Mini convierte texto escrito en voz con sonido natural en aproximadamente 120 milisegundos, lo que lo convierte en una de las opciones más rápidas disponibles para cualquiera que necesite audio a gran escala. Si grabas locuciones manualmente, sabes cuánto tiempo lleva volver a grabar cada vez que cambia el guion. Este modelo te permite iterar en segundos en lugar de horas. El modelo admite 15 idiomas de forma nativa, así que puedes producir audio para audiencias internacionales sin gestionar flujos de trabajo separados. Puedes controlar la velocidad de habla, el tono emocional y la expresividad mediante ajustes simples, y cambiar entre varias voces predefinidas para adaptarlas al estilo de tu contenido. Los formatos de salida incluyen MP3, WAV, OGG y FLAC, y las frecuencias de muestreo llegan hasta 48 kHz para audio con calidad de transmisión. Ya sea que estés añadiendo narración a un curso, automatizando la introducción de un pódcast o generando audio para una demostración de producto, TTS 1.5 Mini se integra directamente en tu proceso de producción sin requerir conocimientos de programación. Abre el modelo, pega tu guion, elige una voz y descarga el archivo de audio en segundos. Es una opción práctica para cualquiera que necesite texto a voz fiable y rápido de forma regular.

Oficial

Inworld

15.4k ejecuciones

Tts 1.5 Mini

2026-03-10

Uso comercial

TTS 1.5 Mini: Voz de IA instantánea en 15 idiomas

Tabla de contenidos

  • Descripción general
  • Cómo funciona
  • Preguntas frecuentes
  • Costo de Créditos
  • Características
  • Casos de uso
Obtén Nano Banana Pro

Descripción general

TTS 1.5 Mini convierte texto escrito en voz con sonido natural en aproximadamente 120 milisegundos, lo que lo convierte en una de las opciones de síntesis más rápidas disponibles. Ya sea que necesites un borrador de locución, una narración para una demostración de producto o una notificación hablada para una app, pegas el texto, eliges una voz y obtienes un archivo de audio limpio en segundos. Disponible en Picasso IA, cubre 15 idiomas, por lo que los proyectos multilingües ya no requieren sesiones de grabación separadas ni herramientas diferentes para cada localidad. El resultado es un flujo de trabajo en el que puedes iterar entre varias tomas en el tiempo que antes tomaba preparar una sola grabación.

Cómo funciona

  • Pega hasta 2.000 caracteres de texto en el campo de entrada. Puedes incluir etiquetas de pausa para pausas temporizadas, marcadores de emoción como [happy] o [sad], y sonidos no verbales como [laugh] o [sigh] para dar forma a la interpretación.
  • Selecciona una voz de la lista predefinida (Ashley, Dennis, Alex y otras) o introduce un ID de voz personalizado si tienes una voz clonada guardada.
  • Elige tu formato de audio: MP3, WAV, OGG Opus o FLAC. Elige una frecuencia de muestreo de 8.000 Hz hasta 48.000 Hz para ajustarte a las especificaciones técnicas de tu proyecto.
  • Ajusta la velocidad de habla si necesitas una interpretación más rápida o más lenta, y configura la temperatura para controlar cuán expresiva o neutral suena la voz.
  • Activa, desactiva o deja en automático la normalización de texto para que los números, fechas y abreviaturas se lean de forma natural.
  • Haz clic en generar. TTS 1.5 Mini procesa la entrada y devuelve tu archivo de audio en unos 120 milisegundos.

Preguntas frecuentes

¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre TTS 1.5 Mini en Picasso IA, ajusta la configuración que quieras y pulsa generar.

¿Es gratis para probar? Sí, puedes usar TTS 1.5 Mini sin necesidad de configurar una cuenta ni realizar ningún pago para empezar. Envía tu texto, elige una voz y descarga el archivo.

¿Cuánto tarda en obtenerse el resultado? El modelo apunta a una latencia de unos 120 milisegundos desde la solicitud hasta la salida de audio. Para la mayoría de las entradas, el archivo está listo casi en cuanto haces clic en generar.

¿Qué formatos de salida son compatibles? TTS 1.5 Mini exporta audio en MP3, WAV, OGG Opus y FLAC. También puedes seleccionar entre siete opciones de frecuencia de muestreo, de 8.000 Hz a 48.000 Hz, para ajustarte a los requisitos técnicos de tu plataforma.

¿Puedo personalizar la voz o el estilo de habla? Sí. Elige entre nombres de voces predefinidas o proporciona un ID de voz clonado personalizado. El parámetro de temperatura controla la expresividad: los valores más bajos dan un tono consistente y neutral; los más altos añaden más variación. El control deslizante de velocidad de habla te permite ralentizar o acelerar la narración.

¿Qué idiomas admite TTS 1.5 Mini? Admite 15 idiomas, por lo que puedes producir contenido de audio multilingüe desde una sola herramienta sin cambiar entre servicios.

¿Dónde puedo usar los archivos de audio que descargo? Los archivos de salida son limpios y no tienen marcas de agua añadidas, así que puedes incorporarlos directamente en ediciones de video, pódcast, apps móviles, módulos de aprendizaje electrónico o cualquier proyecto que necesite audio hablado.

Costo de Créditos

Cada generación consume 1 crédito

1 crédito

o 5 créditos para 5 generaciones

Características

Todo lo que este modelo puede hacer por ti

120ms latency

Recibe audio generado en menos de 120 milisegundos, lo suficientemente rápido para uso en producción en tiempo real.

15-language support

Sintetiza voz en 15 idiomas diferentes a partir de una sola entrada de texto sin configuración adicional.

Preset voices

Elige entre un conjunto de voces con nombre para adaptarte a diferentes estilos de contenido y expectativas de la audiencia.

Emotion markup

Usa etiquetas en línea para añadir felicidad, tristeza, risa y otras señales emocionales directamente en el guion.

Multiple output formats

Descarga audio como MP3, WAV, OGG Opus o FLAC para cualquier plataforma o flujo de publicación.

Flexible sample rates

Selecciona entre 8 kHz y 48 kHz para equilibrar el tamaño del archivo con la calidad de audio según tu caso de uso específico.

Speaking rate control

Ajusta la velocidad de reproducción sin distorsionar el tono ni perder claridad en la voz sintetizada.

SSML break support

Inserta pausas cronometradas en cualquier parte del guion usando etiquetas de marcado estándar para un control preciso del ritmo.

Casos de uso

Genera narración para un curso en línea pegando el guion de la lección y seleccionando una voz predefinida que se adapte al tono de tu marca

Añade una locución a un video de demostración de producto convirtiendo tu guion a MP3 y sincronizándolo en tu editor de video

Produce introducciones o cierres de pódcast en varios idiomas sin volver a grabar cada versión manualmente

Crea versiones de audio de publicaciones de blog para que los lectores puedan escuchar en lugar de leer, usando normalización automática de texto para manejar números y fechas correctamente

Crea una respuesta de voz para un chatbot o una app introduciendo el texto de la respuesta en el modelo y descargando el clip de audio en segundos

Prueba diferentes estilos de voz para un audiolibro cambiando entre voces predefinidas y ajustando la velocidad de habla hasta que el ritmo se sienta correcto

Genera audio de atención al cliente multilingüe en 15 idiomas a partir de un solo guion sin contratar talentos de voz separados para cada mercado

Añade voz con marcadores de emoción a videos explicativos usando etiquetas integradas de marcado emocional para una interpretación más expresiva y natural

Cambiar Categoría

Efectos

Texto a Imagen

Texto a Imagen

Texto a Video

Modelos de Lenguaje Extensos

Modelos de Lenguaje Extensos

Texto a Voz

Texto a Voz

Super Resolución

Super Resolución

Sincronización Labial

Generación de Música con IA

Generación de Música con IA

Edición de Video

Voz a Texto

Voz a Texto

Mejorar Videos con IA

Eliminar Fondos

Eliminar Fondos