Granite Vision 4.1 4B es un modelo compacto de visión y lenguaje diseñado específicamente para la extracción estructurada de documentos. Si alguna vez has tenido que copiar manualmente datos de un informe escaneado, un gráfico en un PDF o una tabla en una diapositiva de presentación, este modelo hace ese trabajo por ti. Lee la imagen del documento y devuelve la información como texto limpio y estructurado. El modelo maneja tres tareas de extracción distintas: lectura de gráficos, análisis de tablas y detección de pares etiqueta-valor. Sube un informe financiero y extrae los datos tabulares fila por fila. Muéstrale un gráfico de barras y devuelve los números subyacentes. Púntalo a una factura y extrae los nombres de los campos junto con sus valores, listos para pegarlos directamente en una hoja de cálculo. Esto encaja de forma natural en flujos de trabajo en los que los documentos llegan como imágenes o archivos escaneados. Investigadores, analistas y operadores de contenido pueden evitar la reintroducción manual y obtener resultados estructurados en segundos. Ejecútalo en Picasso IA para ver cómo maneja tus documentos sin ninguna configuración.
Granite Vision 4.1 4B es un modelo de visión y lenguaje diseñado para extraer datos estructurados de documentos complejos sin copiar ni reformatear manualmente. Si has pasado tiempo volviendo a escribir tablas de PDF, entrecerrando los ojos para leer los ejes de un gráfico o uniendo pares clave-valor de facturas escaneadas, este modelo hace ese trabajo en segundos. En Picasso IA, el proceso consta de tres pasos: subir la imagen del documento, describir lo que necesitas y leer el resultado. Con 4 mil millones de parámetros, es lo suficientemente compacto como para devolver respuestas rápidamente sin perder precisión en los tipos de documentos para los que fue creado específicamente, incluidos gráficos, tablas y formularios estructurados.
¿Necesito habilidades de programación o conocimientos técnicos para usar esto? No, solo abre Granite Vision 4.1 4B en Picasso IA, ajusta la configuración que quieras y pulsa generar.
¿Es gratis para probar? Sí, puedes ejecutar el modelo en Picasso IA sin una suscripción de pago para probarlo primero con tus propios documentos.
¿Cuánto tarda en obtener resultados? La mayoría de las extracciones se completan en unos pocos segundos. El tamaño de 4 mil millones de parámetros se eligió en parte por velocidad, así que no tendrás que esperar mucho incluso con documentos detallados.
¿Qué tipos de documentos maneja bien? Funciona de forma fiable con tablas de datos impresas, gráficos financieros, facturas, formularios estructurados y cualquier imagen en la que la información esté organizada en un diseño coherente. Los escaneos muy degradados o las páginas con mucha escritura a mano pueden reducir la precisión.
¿Puedo controlar el formato en el que llega la salida? Sí. Especifica el formato en tu prompt de sistema o en el propio prompt. Pide JSON, filas numeradas, texto plano etiquetado o cualquier otra estructura y el modelo seguirá esas instrucciones de forma consistente.
¿Cuántas veces puedo ejecutar el modelo? Puedes ejecutar tantas extracciones como necesites. Cada solicitud se procesa de forma independiente, así que puedes probar distintos prompts en el mismo documento hasta que la salida coincida con lo que buscas.
¿Dónde puedo usar lo que devuelve el modelo? La salida de texto es simple y está lista para pegar en cualquier herramienta, desde una hoja de cálculo hasta una aplicación de gestión de proyectos. No hay marcas de agua ni restricciones de formato en lo que genera el modelo.
Todo lo que este modelo puede hacer por ti
Funciona rápido sin las exigencias de hardware de los VLM a gran escala, lo que lo hace práctico para el trabajo diario con documentos.
Lee gráficos de barras, gráficos circulares y gráficos de líneas y devuelve los datos subyacentes en texto plano.
Convierte tablas de documentos o imágenes escaneadas en una salida estructurada limpia de filas y columnas.
Identifica los nombres de los campos y sus valores asociados en formularios, facturas e informes.
Acepta tanto una imagen como un prompt de texto, para que puedas hacer preguntas específicas sobre un documento.
Devuelve la salida mientras la genera, para que veas los resultados llegar progresivamente en lugar de esperar toda la respuesta.
Establece un límite de tokens para obtener resúmenes concisos o extracciones detalladas completas según lo necesites.
Establece un valor de seed para obtener la misma salida cuando vuelvas a ejecutar un documento a través del modelo.