• Logo Picasso IA
    Logo Picasso IA
  • Inicio
  • IA Imagen
    Nano Banana 2
  • IA Video
    Veo 3.1 Fast
  • IA Chat
    Gemini 3 Pro
  • Editar Imágenes
  • Mejorar Imagen
  • Eliminar Fondo
  • Texto a Voz
  • Efectos
    NEW
  • Generaciones
  • Facturación
  • Soporte
  • Cuenta
  1. Colección
  2. Modelos de Lenguaje Grandes (LLMs)
  3. Granite Vision 3.3 2b

Leer gráficos y tablas con Granite Vision 3.3 2B

Granite Vision 3.3 2B es un modelo compacto de visión y lenguaje diseñado para una tarea específica: leer y comprender documentos visuales. Si tu flujo de trabajo implica extraer datos de gráficos, tablas, infografías o diagramas técnicos, este modelo se encarga de la extracción por ti sin necesidad de copiar o transcribir manualmente. Envíale una imagen de una tabla financiera y pide valores específicos de una fila. Apúntalo a un gráfico científico y solicita una descripción en lenguaje sencillo de cada sección. Sube una captura de pantalla de una infografía densa y pregunta cuáles son las cifras principales. El modelo lee la estructura visual, interpreta los datos y devuelve una respuesta de texto centrada en tu pregunta. Encaja de forma natural en flujos de trabajo con muchos documentos, donde la lectura manual es lenta y propensa a errores. Sube una captura de pantalla, escribe tu pregunta y obtén la respuesta en segundos. Si la primera respuesta no es correcta, ajusta la temperatura o refina tu prompt y ejecútalo de nuevo. No requiere configuración más allá de elegir tu imagen.

Oficial

Ibm Granite

197.6k ejecuciones

Granite Vision 3.3 2b

2025-07-14

Uso comercial

Leer gráficos y tablas con Granite Vision 3.3 2B

Tabla de contenidos

  • Descripción general
  • Cómo funciona
  • Preguntas frecuentes
  • Costo de Créditos
  • Características
  • Casos de uso
Obtén Nano Banana Pro

Descripción general

Granite Vision 3.3 2B es un modelo compacto de visión y lenguaje diseñado para leer y extraer información estructurada de documentos visuales, resolviendo un problema que las herramientas de texto estándar no pueden: comprender tablas, gráficos, infografías, diagramas y plots como datos utilizables. Piensa en un analista financiero extrayendo cifras trimestrales de un informe escaneado, o en un investigador transcribiendo un diagrama de metodología sin volver a escribir una sola celda a mano. En Picasso IA, subes una imagen y escribes una pregunta en lenguaje sencillo, y el modelo devuelve una respuesta centrada y legible en segundos. Con 2 mil millones de parámetros, mantiene la velocidad sin sacrificar la precisión que exige el trabajo de extracción de documentos.

Cómo funciona

  • Sube una o más imágenes de documentos: páginas escaneadas, capturas de gráficos, diapositivas de presentación o exportaciones de diagramas
  • Escribe un prompt que describa exactamente lo que necesitas, como "resume los datos de este gráfico de barras" o "extrae todos los valores de fila de la tabla de esta página"
  • Opcionalmente, añade un prompt del sistema para controlar la estructura de la respuesta, por ejemplo solicitando salida JSON, una lista numerada o una tabla markdown
  • Ajusta la temperatura y los max tokens si necesitas respuestas factuales más precisas o respuestas formateadas más largas
  • Envía y recibe el contenido extraído o la respuesta estructurada en el panel de salida en cuestión de segundos

Preguntas frecuentes

¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre Granite Vision 3.3 2B en Picasso IA, ajusta la configuración que quieras y pulsa generar.

¿Es gratis probarlo? Sí, puedes ejecutar Granite Vision 3.3 2B sin coste inicial. Consulta la sección de precios en Picasso IA para obtener detalles sobre cómo funcionan los créditos de generación.

¿Cuánto tarda en obtener resultados? La mayoría de las solicitudes devuelven resultados en pocos segundos. El tiempo de procesamiento depende de la complejidad de la imagen y de la longitud de la salida que hayas solicitado, pero el tamaño de 2B parámetros mantiene la velocidad en comparación con modelos de visión más grandes.

¿Qué tipo de imágenes maneja mejor? Rinde bien con tablas, gráficos de barras, gráficos circulares, infografías, diagramas técnicos, gráficos de dispersión y diapositivas con mucho texto. Funciona tanto con imágenes digitales limpias como con escaneos moderadamente comprimidos.

¿Qué formatos de salida puedo obtener? El modelo devuelve texto plano de forma predeterminada. Puedes adaptar el formato mediante tu prompt: pide una tabla markdown, un objeto JSON, una lista numerada o un párrafo breve y seguirá la estructura que describas.

¿Puedo enviar varias imágenes en una sola solicitud? Sí. El modelo acepta un array de entradas de imagen, por lo que puedes cargar varias páginas de documentos a la vez y hacer preguntas que abarquen todas ellas en una sola generación.

¿Qué pasa si la salida omite un detalle o se equivoca en algo? Intenta reformular tu prompt para ser más específico sobre lo que quieres extraer. Bajar la configuración de temperatura hacia 0 suele producir respuestas más precisas y centradas en hechos cuando se trabaja con datos estructurados.

Costo de Créditos

Cada generación consume 1 crédito

1 crédito

o 5 créditos para 5 generaciones

Características

Todo lo que este modelo puede hacer por ti

Lectura de documentos visuales

Extrae texto, datos y contexto de gráficos, tablas e infografías en una sola solicitud.

Entrada de múltiples imágenes

Envía varias imágenes a la vez para procesar documentos paginados o comparar fuentes visuales.

Longitud de salida ajustable

Establece una cantidad mínima y máxima de tokens para obtener resúmenes breves o análisis detallados.

Control de temperatura

Reduce la temperatura para una extracción factual precisa, súbela para respuestas más descriptivas.

Prompt del sistema personalizado

Establece un rol o contexto antes de cada sesión para mantener respuestas coherentes en todo tu flujo de trabajo.

Top-k y muestreo de núcleo

Ajusta finamente cómo el modelo selecciona tokens para obtener salidas más variadas o más centradas.

Control de secuencia de parada

Define tokens de parada personalizados para finalizar la generación exactamente donde lo necesites.

Casos de uso

Extrae los valores de una tabla de datos en un documento escaneado subiendo la imagen y pidiendo al modelo que enumere cada fila

Pregunta qué tendencia muestra un gráfico de barras o de líneas y recibe un resumen escrito en lenguaje sencillo

Describe el contenido de una infografía para convertir información visual en texto buscable y copiable

Lee las etiquetas y relaciones en un diagrama técnico pidiendo al modelo que explique cada componente

Obtén cifras específicas de una captura de pantalla de un gráfico financiero sin leer manualmente cada marca del eje

Genera una descripción escrita de una gráfica científica subiendo la imagen y pidiendo los hallazgos principales

Transcribe una tabla o formulario manuscrito subiendo una foto y pidiendo al modelo que enumere el contenido de las celdas

Cambiar Categoría

Efectos

Texto a Imagen

Texto a Imagen

Texto a Video

Modelos de Lenguaje Extensos

Modelos de Lenguaje Extensos

Texto a Voz

Texto a Voz

Super Resolución

Super Resolución

Sincronización Labial

Generación de Música con IA

Generación de Música con IA

Edición de Video

Voz a Texto

Voz a Texto

Mejorar Videos con IA

Eliminar Fondos

Eliminar Fondos