• Logo Picasso IA
    Logo Picasso IA
  • Accueil
  • IA Image
    Nano Banana 2
  • IA Vidéo
    Veo 3.1 Lite
  • IA Chat
    Gemini 3 Pro
  • Modifier les Images
  • Améliorer l'Image
  • Supprimer l'Arrière-plan
  • Texte en Parole
  • Effets
  • AI Toolkit
    NEW
  • Générations
  • Facturation
  • Support
  • Compte
Vidéos Illimitées SONT LÀ · Nano Banana 2 ET GPT Image 2.0 ILLIMITÉS JUSQU'AU 25 juinAméliorer
  1. Collection
  2. Grands Modèles de Langage (LLMs)
  3. Granite Vision 4.1 4b

Granite Vision 4.1 4B : extracteur d'images de tableaux et de graphiques par IA

Granite Vision 4.1 4B est un modèle vision-langage compact conçu spécialement pour l'extraction structurée de documents. Si vous avez déjà dû copier manuellement des données depuis un rapport numérisé, un graphique dans un PDF ou un tableau dans une diapositive de présentation, ce modèle fait ce travail pour vous. Il lit l'image du document et renvoie les informations sous forme de texte propre et structuré. Le modèle gère trois tâches d'extraction distinctes : la lecture de graphiques, l'analyse de tableaux et la détection de paires étiquette-valeur. Téléchargez un rapport financier et il extrait les données tabulaires ligne par ligne. Affichez-lui un graphique à barres et il renvoie les chiffres sous-jacents. Pointez-le vers une facture et il extrait les noms des champs ainsi que leurs valeurs, prêts à être collés directement dans une feuille de calcul. Cela s'intègre naturellement dans les flux de travail où les documents arrivent sous forme d'images ou de fichiers numérisés. Les chercheurs, analystes et opérateurs de contenu peuvent éviter la saisie manuelle et obtenir une sortie structurée en quelques secondes. Exécutez-le sur Picasso IA pour voir comment il traite vos documents sans aucune configuration.

Officiel

Ibm Granite

9.7k exécutions

Granite Vision 4.1 4b

2026-05-15

Usage commercial

Granite Vision 4.1 4B : extracteur d'images de tableaux et de graphiques par IA

Table des matières

  • Aperçu
  • Comment ça marche
  • Questions fréquentes
  • Coût des Crédits
  • Fonctionnalités
  • Cas d'utilisation
Obtenir Nano Banana Pro

Aperçu

Granite Vision 4.1 4B est un modèle vision-langage conçu pour extraire des données structurées à partir de documents complexes sans aucune copie ou mise en forme manuelle. Si vous avez déjà passé du temps à ressaisir des tableaux depuis des PDF, à plisser les yeux sur les axes d'un graphique pour lire les nombres ou à reconstituer des paires clé-valeur à partir de factures numérisées, ce modèle effectue ce travail en quelques secondes. Sur Picasso IA, le processus se déroule en trois étapes : téléchargez l'image du document, décrivez ce dont vous avez besoin et lisez le résultat. Avec 4 milliards de paramètres, il est suffisamment compact pour fournir des réponses rapidement tout en conservant sa précision sur les types de documents pour lesquels il a été spécialement conçu, notamment les graphiques, les tableaux et les formulaires structurés.

Comment ça marche

  • Téléchargez une ou plusieurs images de documents, comme une capture d'écran d'une page PDF, une photo d'un tableau imprimé ou un graphique exporté depuis une présentation
  • Rédigez un prompt décrivant les données que vous souhaitez, par exemple "Extract all rows from the revenue table" ou "Return the key and value from each field in this invoice"
  • Rédigez éventuellement un system prompt pour définir le format de sortie, comme JSON, des valeurs séparées par des virgules ou du texte brut étiqueté
  • Le modèle lit l'image et renvoie une réponse textuelle structurée autour de ce que vous avez demandé
  • Copiez le résultat et collez-le directement dans votre feuille de calcul, base de données ou rapport

Questions fréquentes

Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser cela ? Non, ouvrez simplement Granite Vision 4.1 4B sur Picasso IA, ajustez les paramètres souhaités et cliquez sur générer.

Est-ce gratuit à essayer ? Oui, vous pouvez exécuter le modèle sur Picasso IA sans abonnement payant pour le tester d'abord sur vos propres documents.

Combien de temps faut-il pour obtenir des résultats ? La plupart des extractions se terminent en quelques secondes. La taille de 4 milliards de paramètres a été choisie en partie pour la vitesse, donc vous n'attendez pas longtemps même avec des documents détaillés.

Quels types de documents gère-t-il bien ? Il fonctionne de manière fiable sur les tableaux de données imprimés, les graphiques financiers, les factures, les formulaires structurés et toute image où les informations sont organisées dans une mise en page cohérente. Les scans fortement dégradés ou les pages très manuscrites peuvent réduire la précision.

Puis-je contrôler le format de sortie ? Oui. Indiquez le format dans votre system prompt ou dans le prompt lui-même. Demandez du JSON, des lignes numérotées, du texte brut étiqueté ou toute autre structure, et le modèle suivra ces instructions de manière cohérente.

Combien de fois puis-je exécuter le modèle ? Vous pouvez effectuer autant d'extractions que nécessaire. Chaque requête est traitée indépendamment, vous pouvez donc essayer différents prompts sur le même document jusqu'à ce que la sortie corresponde à ce que vous recherchez.

Où puis-je utiliser ce que le modèle renvoie ? Le texte de sortie est brut et prêt à être collé dans n'importe quel outil, d'une feuille de calcul à une application de gestion de projet. Il n'y a ni filigrane ni restriction de format sur ce que le modèle génère.

Coût des Crédits

Chaque génération consomme 1 crédit

1 crédit

ou 5 crédits pour 5 générations

Fonctionnalités

Tout ce que ce modèle peut faire pour vous

Empreinte compacte de 4B

Fonctionne rapidement sans les exigences matérielles des VLM à grande échelle, ce qui le rend pratique pour le travail documentaire quotidien.

Extraction de graphiques

Lit les graphiques à barres, les diagrammes circulaires et les courbes, puis renvoie les données sous-jacentes en texte brut.

Analyse de tableaux

Convertit les tableaux présents dans des documents numérisés ou des images en une sortie propre et structurée en lignes et colonnes.

Détection de paires étiquette-valeur

Identifie les noms des champs et leurs valeurs associées dans les formulaires, factures et rapports.

Entrée vision-langage

Accepte à la fois une image et un prompt texte, afin que vous puissiez poser des questions précises sur un document.

Réponses en streaming

Renvoie la sortie au fur et à mesure de sa génération, afin que vous voyiez les résultats arriver progressivement plutôt que d'attendre la réponse complète.

Longueur de sortie ajustable

Définissez une limite de tokens pour obtenir des résumés concis ou des extractions détaillées complètes selon vos besoins.

Résultats reproductibles

Définissez une valeur de seed pour obtenir la même sortie lorsque vous relancez un document dans le modèle.

Cas d'utilisation

Téléchargez une photo d'un tableau imprimé et récupérez les données sous forme de lignes séparées par des virgules, prêtes à être collées dans une feuille de calcul

Soumettez l'image d'un graphique et demandez au modèle de renvoyer les valeurs numériques derrière les barres, les lignes ou les segments

Traitez l'image d'une facture numérisée pour extraire automatiquement les libellés des champs et leurs montants correspondants

Téléchargez une page d'article de recherche contenant une figure et extrayez les valeurs de données à partir des graphiques intégrés dans l'image

Convertissez une capture d'écran d'un tableau de prix en texte structuré sans ressaisir manuellement les données

Soumettez une page de document qui mélange texte et tableaux, puis récupérez uniquement les sections tabulaires sous forme de sortie propre et structurée

Extrayez les champs libellés d'une image de formulaire, comme un document fiscal ou une feuille d'inscription, pour accélérer la saisie des données

Changer de Catégorie

Effets

Texte en image

Texte en vidéo

Grands Modèles de Langage

Texte en parole

Super résolution

Synchronisation labiale

Génération de musique IA

Édition vidéo

Parole en texte

Amélioration vidéo IA

Suppression d'arrière-plan