• Logo Picasso IA
    Logo Picasso IA
  • Inicio
  • IA Imagen
    Nano Banana 2
  • IA Video
    Veo 3.1 Lite
  • IA Chat
    Gemini 3 Pro
  • Editar Imágenes
  • Mejorar Imagen
  • Eliminar Fondo
  • Texto a Voz
  • Efectos
  • AI Toolkit
    NEW
  • Generaciones
  • Facturación
  • Soporte
  • Cuenta
Videos Ilimitados YA DISPONIBLES · Nano Banana 2 Y GPT Image 2.0 ILIMITADOS HASTA EL 25 de junioMejorar
  1. Colección
  2. Modelos de Lenguaje Grandes (LLMs)
  3. Granite Vision 4.1 4b

Granite Vision 4.1 4B: Extractor de tablas y gráficos con IA

Granite Vision 4.1 4B es un modelo compacto de visión y lenguaje diseñado específicamente para la extracción estructurada de documentos. Si alguna vez has tenido que copiar manualmente datos de un informe escaneado, un gráfico en un PDF o una tabla en una diapositiva de presentación, este modelo hace ese trabajo por ti. Lee la imagen del documento y devuelve la información como texto limpio y estructurado. El modelo maneja tres tareas de extracción distintas: lectura de gráficos, análisis de tablas y detección de pares etiqueta-valor. Sube un informe financiero y extrae los datos tabulares fila por fila. Muéstrale un gráfico de barras y devuelve los números subyacentes. Púntalo a una factura y extrae los nombres de los campos junto con sus valores, listos para pegarlos directamente en una hoja de cálculo. Esto encaja de forma natural en flujos de trabajo en los que los documentos llegan como imágenes o archivos escaneados. Investigadores, analistas y operadores de contenido pueden evitar la reintroducción manual y obtener resultados estructurados en segundos. Ejecútalo en Picasso IA para ver cómo maneja tus documentos sin ninguna configuración.

Oficial

Ibm Granite

9.7k ejecuciones

Granite Vision 4.1 4b

2026-05-15

Uso comercial

Granite Vision 4.1 4B: Extractor de tablas y gráficos con IA

Tabla de contenidos

  • Descripción general
  • Cómo funciona
  • Preguntas frecuentes
  • Costo de Créditos
  • Características
  • Casos de uso
Obtén Nano Banana Pro

Descripción general

Granite Vision 4.1 4B es un modelo de visión y lenguaje diseñado para extraer datos estructurados de documentos complejos sin copiar ni reformatear manualmente. Si has pasado tiempo volviendo a escribir tablas de PDF, entrecerrando los ojos para leer los ejes de un gráfico o uniendo pares clave-valor de facturas escaneadas, este modelo hace ese trabajo en segundos. En Picasso IA, el proceso consta de tres pasos: subir la imagen del documento, describir lo que necesitas y leer el resultado. Con 4 mil millones de parámetros, es lo suficientemente compacto como para devolver respuestas rápidamente sin perder precisión en los tipos de documentos para los que fue creado específicamente, incluidos gráficos, tablas y formularios estructurados.

Cómo funciona

  • Sube una o más imágenes de documentos, como una captura de pantalla de una página PDF, una foto de una tabla impresa o un gráfico exportado de una presentación
  • Escribe un prompt que describa los datos que quieres, por ejemplo "Extrae todas las filas de la tabla de ingresos" o "Devuelve la clave y el valor de cada campo en esta factura"
  • Opcionalmente, escribe un prompt de sistema para definir el formato de salida, como JSON, valores separados por comas o texto plano etiquetado
  • El modelo lee la imagen y devuelve una respuesta de texto estructurada en torno a lo que pediste
  • Copia el resultado y pégalo directamente en tu hoja de cálculo, base de datos o informe

Preguntas frecuentes

¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre Granite Vision 4.1 4B en Picasso IA, ajusta la configuración que quieras y pulsa generar.

¿Es gratis para probar? Sí, puedes ejecutar el modelo en Picasso IA sin una suscripción de pago para probarlo primero con tus propios documentos.

¿Cuánto tarda en obtener resultados? La mayoría de las extracciones se completan en unos pocos segundos. El tamaño de 4 mil millones de parámetros se eligió en parte por velocidad, así que no tendrás que esperar mucho incluso con documentos detallados.

¿Qué tipos de documentos maneja bien? Funciona de forma fiable con tablas de datos impresas, gráficos financieros, facturas, formularios estructurados y cualquier imagen en la que la información esté organizada en un diseño coherente. Los escaneos muy degradados o las páginas con mucha escritura a mano pueden reducir la precisión.

¿Puedo controlar el formato en el que llega la salida? Sí. Especifica el formato en tu prompt de sistema o en el propio prompt. Pide JSON, filas numeradas, texto plano etiquetado o cualquier otra estructura y el modelo seguirá esas instrucciones de forma consistente.

¿Cuántas veces puedo ejecutar el modelo? Puedes ejecutar tantas extracciones como necesites. Cada solicitud se procesa de forma independiente, así que puedes probar distintos prompts en el mismo documento hasta que la salida coincida con lo que buscas.

¿Dónde puedo usar lo que devuelve el modelo? La salida de texto es simple y está lista para pegar en cualquier herramienta, desde una hoja de cálculo hasta una aplicación de gestión de proyectos. No hay marcas de agua ni restricciones de formato en lo que genera el modelo.

Costo de Créditos

Cada generación consume 1 crédito

1 crédito

o 5 créditos para 5 generaciones

Características

Todo lo que este modelo puede hacer por ti

Huella compacta de 4B

Funciona rápido sin las exigencias de hardware de los VLM a gran escala, lo que lo hace práctico para el trabajo diario con documentos.

Extracción de gráficos

Lee gráficos de barras, gráficos circulares y gráficos de líneas y devuelve los datos subyacentes en texto plano.

Análisis de tablas

Convierte tablas de documentos o imágenes escaneadas en una salida estructurada limpia de filas y columnas.

Detección de pares etiqueta-valor

Identifica los nombres de los campos y sus valores asociados en formularios, facturas e informes.

Entrada de visión y lenguaje

Acepta tanto una imagen como un prompt de texto, para que puedas hacer preguntas específicas sobre un documento.

Respuestas en streaming

Devuelve la salida mientras la genera, para que veas los resultados llegar progresivamente en lugar de esperar toda la respuesta.

Longitud de salida ajustable

Establece un límite de tokens para obtener resúmenes concisos o extracciones detalladas completas según lo necesites.

Resultados reproducibles

Establece un valor de seed para obtener la misma salida cuando vuelvas a ejecutar un documento a través del modelo.

Casos de uso

Sube una foto de una tabla impresa y recibe los datos como filas separadas por comas, listas para pegar en una hoja de cálculo

Envía una imagen de un gráfico y pide al modelo que devuelva los valores numéricos detrás de las barras, líneas o segmentos

Procesa la imagen escaneada de una factura para extraer automáticamente las etiquetas de los campos y sus importes correspondientes

Sube una página de un trabajo de investigación que contenga una figura y extrae los valores de datos de los gráficos incrustados en la imagen

Convierte una captura de pantalla de una tabla de precios en texto estructurado sin volver a escribir ningún dato manualmente

Envía una página de documento que mezcle texto y tablas y luego recupera solo las secciones tabulares como salida estructurada limpia

Extrae campos etiquetados de la imagen de un formulario, como un documento fiscal o una hoja de registro, para agilizar la entrada de datos

Cambiar Categoría

Efectos

Texto a Imagen

Texto a Video

Modelos de Lenguaje Extensos

Texto a Voz

Super Resolución

Sincronización Labial

Generación de Música con IA

Edición de Video

Voz a Texto

Mejorar Videos con IA

Eliminar Fondos