Granite Vision 4.1 4B est un modèle vision-langage compact conçu spécialement pour l'extraction structurée de documents. Si vous avez déjà dû copier manuellement des données depuis un rapport numérisé, un graphique dans un PDF ou un tableau dans une diapositive de présentation, ce modèle fait ce travail pour vous. Il lit l'image du document et renvoie les informations sous forme de texte propre et structuré. Le modèle gère trois tâches d'extraction distinctes : la lecture de graphiques, l'analyse de tableaux et la détection de paires étiquette-valeur. Téléchargez un rapport financier et il extrait les données tabulaires ligne par ligne. Affichez-lui un graphique à barres et il renvoie les chiffres sous-jacents. Pointez-le vers une facture et il extrait les noms des champs ainsi que leurs valeurs, prêts à être collés directement dans une feuille de calcul. Cela s'intègre naturellement dans les flux de travail où les documents arrivent sous forme d'images ou de fichiers numérisés. Les chercheurs, analystes et opérateurs de contenu peuvent éviter la saisie manuelle et obtenir une sortie structurée en quelques secondes. Exécutez-le sur Picasso IA pour voir comment il traite vos documents sans aucune configuration.
Granite Vision 4.1 4B est un modèle vision-langage conçu pour extraire des données structurées à partir de documents complexes sans aucune copie ou mise en forme manuelle. Si vous avez déjà passé du temps à ressaisir des tableaux depuis des PDF, à plisser les yeux sur les axes d'un graphique pour lire les nombres ou à reconstituer des paires clé-valeur à partir de factures numérisées, ce modèle effectue ce travail en quelques secondes. Sur Picasso IA, le processus se déroule en trois étapes : téléchargez l'image du document, décrivez ce dont vous avez besoin et lisez le résultat. Avec 4 milliards de paramètres, il est suffisamment compact pour fournir des réponses rapidement tout en conservant sa précision sur les types de documents pour lesquels il a été spécialement conçu, notamment les graphiques, les tableaux et les formulaires structurés.
Ai-je besoin de compétences en programmation ou de connaissances techniques pour utiliser cela ? Non, ouvrez simplement Granite Vision 4.1 4B sur Picasso IA, ajustez les paramètres souhaités et cliquez sur générer.
Est-ce gratuit à essayer ? Oui, vous pouvez exécuter le modèle sur Picasso IA sans abonnement payant pour le tester d'abord sur vos propres documents.
Combien de temps faut-il pour obtenir des résultats ? La plupart des extractions se terminent en quelques secondes. La taille de 4 milliards de paramètres a été choisie en partie pour la vitesse, donc vous n'attendez pas longtemps même avec des documents détaillés.
Quels types de documents gère-t-il bien ? Il fonctionne de manière fiable sur les tableaux de données imprimés, les graphiques financiers, les factures, les formulaires structurés et toute image où les informations sont organisées dans une mise en page cohérente. Les scans fortement dégradés ou les pages très manuscrites peuvent réduire la précision.
Puis-je contrôler le format de sortie ? Oui. Indiquez le format dans votre system prompt ou dans le prompt lui-même. Demandez du JSON, des lignes numérotées, du texte brut étiqueté ou toute autre structure, et le modèle suivra ces instructions de manière cohérente.
Combien de fois puis-je exécuter le modèle ? Vous pouvez effectuer autant d'extractions que nécessaire. Chaque requête est traitée indépendamment, vous pouvez donc essayer différents prompts sur le même document jusqu'à ce que la sortie corresponde à ce que vous recherchez.
Où puis-je utiliser ce que le modèle renvoie ? Le texte de sortie est brut et prêt à être collé dans n'importe quel outil, d'une feuille de calcul à une application de gestion de projet. Il n'y a ni filigrane ni restriction de format sur ce que le modèle génère.
Tout ce que ce modèle peut faire pour vous
Fonctionne rapidement sans les exigences matérielles des VLM à grande échelle, ce qui le rend pratique pour le travail documentaire quotidien.
Lit les graphiques à barres, les diagrammes circulaires et les courbes, puis renvoie les données sous-jacentes en texte brut.
Convertit les tableaux présents dans des documents numérisés ou des images en une sortie propre et structurée en lignes et colonnes.
Identifie les noms des champs et leurs valeurs associées dans les formulaires, factures et rapports.
Accepte à la fois une image et un prompt texte, afin que vous puissiez poser des questions précises sur un document.
Renvoie la sortie au fur et à mesure de sa génération, afin que vous voyiez les résultats arriver progressivement plutôt que d'attendre la réponse complète.
Définissez une limite de tokens pour obtenir des résumés concis ou des extractions détaillées complètes selon vos besoins.
Définissez une valeur de seed pour obtenir la même sortie lorsque vous relancez un document dans le modèle.