• Logo Picasso IA
    Logo Picasso IA
  • Início
  • IA Imagem
    Nano Banana 2
  • IA Vídeo
    Veo 3.1 Lite
  • IA Chat
    Gemini 3 Pro
  • Editar Imagens
  • Melhorar Imagem
  • Remover Fundo
  • Texto para Fala
  • Efeitos
  • AI Toolkit
    NEW
  • Gerações
  • Faturamento
  • Suporte
  • Conta
Vídeos Ilimitados JÁ DISPONÍVEIS · Nano Banana 2 E GPT Image 2.0 ILIMITADOS ATÉ 25 de junhoMelhorar
  1. Coleção
  2. Modelos de Linguagem Grandes (LLMs)
  3. Granite Vision 4.1 4b

Granite Vision 4.1 4B: Extrator de Gráficos e Tabelas com IA

Granite Vision 4.1 4B é um modelo compacto de visão e linguagem criado especificamente para extração estruturada de documentos. Se você já precisou copiar manualmente dados de um relatório digitalizado, de um gráfico em um PDF ou de uma tabela em um slide de apresentação, este modelo faz esse trabalho por você. Ele lê a imagem do documento e retorna as informações como texto limpo e estruturado. O modelo lida com três tarefas distintas de extração: leitura de gráficos, análise de tabelas e detecção de pares rótulo-valor. Envie um relatório financeiro e ele extrai os dados tabulares linha por linha. Mostre um gráfico de barras e ele retorna os números subjacentes. Aponte para uma fatura e ele extrai os nomes dos campos junto com seus valores, prontos para colar diretamente em uma planilha. Isso se encaixa naturalmente em fluxos de trabalho em que os documentos chegam como imagens ou arquivos digitalizados. Pesquisadores, analistas e operadores de conteúdo podem pular a reentrada manual e obter saída estruturada em segundos. Execute-o no Picasso IA para ver como ele lida com seus documentos sem nenhuma configuração.

Oficial

Ibm Granite

9.7k execuções

Granite Vision 4.1 4b

2026-05-15

Uso comercial

Granite Vision 4.1 4B: Extrator de Gráficos e Tabelas com IA

Índice

  • Visão geral
  • Como funciona
  • Perguntas frequentes
  • Custo de Créditos
  • Recursos
  • Casos de uso
Obtenha Nano Banana Pro

Visão geral

Granite Vision 4.1 4B é um modelo de visão e linguagem criado para extrair dados estruturados de documentos complexos sem nenhuma cópia ou reformatação manual. Se você já passou tempo redigitando tabelas de PDFs, forçando a visão para ler valores nos eixos de gráficos ou juntando pares de chave e valor de faturas digitalizadas, este modelo faz esse trabalho em segundos. No Picasso IA, o processo leva três etapas: enviar a imagem do documento, descrever o que você precisa e ler o resultado. Com 4 bilhões de parâmetros, ele é compacto o suficiente para retornar respostas rapidamente, mantendo a precisão nos tipos de documentos para os quais foi construído especificamente, incluindo gráficos, tabelas e formulários estruturados.

Como funciona

  • Envie uma ou mais imagens de documentos, como uma captura de tela de uma página de PDF, uma foto de uma tabela impressa ou um gráfico exportado de uma apresentação
  • Escreva um prompt descrevendo os dados que você quer, por exemplo "Extraia todas as linhas da tabela de receita" ou "Retorne a chave e o valor de cada campo nesta fatura"
  • Opcionalmente, escreva um prompt de sistema para definir o formato de saída, como JSON, valores separados por vírgula ou texto simples rotulado
  • O modelo lê a imagem e retorna uma resposta em texto estruturada de acordo com o que você pediu
  • Copie o resultado e cole-o diretamente na sua planilha, banco de dados ou relatório

Perguntas frequentes

Preciso de habilidades de programação ou conhecimento técnico para usar isto? Não, basta abrir o Granite Vision 4.1 4B no Picasso IA, ajustar as configurações que desejar e clicar em gerar.

É grátis para experimentar? Sim, você pode executar o modelo no Picasso IA sem uma assinatura paga para testá-lo primeiro em seus próprios documentos.

Quanto tempo leva para obter resultados? A maioria das extrações é concluída em poucos segundos. O tamanho de 4 bilhões de parâmetros foi escolhido em parte pela velocidade, então você não fica esperando muito, mesmo em documentos detalhados.

Que tipos de documentos ele lida bem? Ele tem bom desempenho em tabelas de dados impressas, gráficos financeiros, faturas, formulários estruturados e qualquer imagem em que as informações estejam organizadas em um layout consistente. Digitalizações muito degradadas ou páginas com muita escrita à mão podem reduzir a precisão.

Posso controlar em que formato a saída vem? Sim. Especifique o formato no seu prompt de sistema ou no próprio prompt. Peça JSON, linhas numeradas, texto simples rotulado ou qualquer outra estrutura, e o modelo seguirá essas instruções de forma consistente.

Quantas vezes posso executar o modelo? Você pode executar quantas extrações precisar. Cada solicitação é processada de forma independente, então você pode tentar prompts diferentes no mesmo documento até que a saída corresponda ao que você procura.

Onde posso usar o que o modelo retorna? A saída em texto é simples e está pronta para colar em qualquer ferramenta, de uma planilha a um aplicativo de gerenciamento de projetos. Não há marcas d'água nem restrições de formato no que o modelo gera.

Custo de Créditos

Cada geração consome 1 crédito

1 crédito

ou 5 créditos para 5 gerações

Recursos

Tudo o que este modelo pode fazer por você

Pegada compacta de 4B

Funciona rapidamente sem as exigências de hardware dos VLMs de grande porte, tornando-o prático para o trabalho diário com documentos.

Extração de gráficos

Lê gráficos de barras, gráficos de pizza e gráficos de linhas e retorna os dados subjacentes como texto simples.

Análise de tabelas

Converte tabelas em documentos digitalizados ou imagens em saída estruturada limpa de linhas e colunas.

Detecção de pares rótulo-valor

Identifica nomes de campos e seus valores associados em formulários, faturas e relatórios.

Entrada de visão e linguagem

Aceita tanto uma imagem quanto um prompt de texto, para que você possa fazer perguntas específicas sobre um documento.

Respostas em streaming

Retorna a saída à medida que a gera, para que você veja os resultados chegarem progressivamente em vez de esperar a resposta completa.

Comprimento de saída ajustável

Defina um limite de tokens para obter resumos concisos ou extrações detalhadas completas, dependendo da sua necessidade.

Resultados reproduzíveis

Defina um valor de seed para obter a mesma saída quando você executar novamente um documento no modelo.

Casos de uso

Envie a foto de uma tabela impressa e receba de volta os dados como linhas separadas por vírgulas, prontas para colar em uma planilha

Envie uma imagem de gráfico e peça ao modelo que retorne os valores numéricos por trás das barras, linhas ou segmentos

Processe a imagem de uma fatura digitalizada para extrair automaticamente os rótulos dos campos e seus valores correspondentes

Envie a página de um artigo de pesquisa contendo uma figura e extraia os valores de dados dos gráficos incorporados na imagem

Converta a captura de tela de uma tabela de preços em texto estruturado sem redigitar nenhum dado manualmente

Envie uma página de documento que misture texto e tabelas e depois recupere apenas as seções tabulares como saída estruturada limpa

Extraia campos rotulados de uma imagem de formulário, como um documento fiscal ou uma folha de registro, para acelerar a entrada de dados

Mudar Categoria

Efeitos

Texto para Imagem

Texto para Vídeo

Modelos de Linguagem Extensos

Texto para Fala

Super Resolução

Sincronização Labial

Geração de Música com IA

Edição de Vídeo

Fala para Texto

Melhorar Vídeos com IA

Remover Fundos