• Picasso IA लोगो
    Logo Picasso IA
  • होम
  • AI इमेज
    Nano Banana 2
  • AI वीडियो
    Veo 3.1 Lite
  • AI चैट
    Gemini 3 Pro
  • इमेज एडिट करें
  • इमेज सुधारें
  • बैकग्राउंड हटाएं
  • टेक्स्ट टू स्पीच
  • इफ़ेक्ट्स
  • AI Toolkit
    NEW
  • पीढ़ियाँ
  • बिलिंग
  • सहायता
  • खाता
असीमित वीडियो अब उपलब्ध · Nano Banana 2 और GPT Image 2.0 असीमित 25 जून तकअपग्रेड
  1. संग्रह
  2. लार्ज लैंग्वेज मॉडल (LLMs)
  3. Granite Vision 4.1 4b

Granite Vision 4.1 4B: AI चार्ट और तालिका एक्सट्रैक्टर

Granite Vision 4.1 4B एक कॉम्पैक्ट विज़न-भाषा मॉडल है, जिसे विशेष रूप से संरचित दस्तावेज़ निष्कर्षण के लिए बनाया गया है। यदि आपको कभी स्कैन की गई रिपोर्ट, PDF में मौजूद चार्ट, या प्रेज़ेंटेशन स्लाइड की तालिका से डेटा हाथ से कॉपी करना पड़ा हो, तो यह मॉडल वह काम आपके लिए करता है। यह दस्तावेज़ छवि को पढ़ता है और जानकारी को साफ़, संरचित पाठ के रूप में लौटाता है। यह मॉडल तीन अलग-अलग निष्कर्षण कार्यों को संभालता है: चार्ट पढ़ना, तालिका पार्सिंग, और लेबल-मूल्य युग्म पहचान। एक वित्तीय रिपोर्ट अपलोड करें और यह सारणीबद्ध डेटा को पंक्ति दर पंक्ति निकाल देता है। इसे एक बार चार्ट दिखाएँ और यह अंतर्निहित संख्याएँ लौटाता है। इसे किसी इनवॉइस पर इंगित करें और यह फ़ील्ड नामों के साथ उनके मान निकाल देता है, जो सीधे स्प्रेडशीट में पेस्ट करने के लिए तैयार होते हैं। यह उन कार्यप्रवाहों में स्वाभाविक रूप से फिट बैठता है जहाँ दस्तावेज़ छवियों या स्कैन की गई फ़ाइलों के रूप में आते हैं। शोधकर्ता, विश्लेषक, और कंटेंट ऑपरेटर मैन्युअल पुनः-प्रविष्टि को छोड़कर सेकंडों में संरचित आउटपुट प्राप्त कर सकते हैं। अपने दस्तावेज़ों पर यह कैसे काम करता है, यह देखने के लिए इसे Picasso IA पर चलाएँ, बिना किसी सेटअप के।

आधिकारिक

Ibm Granite

9.7k रन

Granite Vision 4.1 4b

2026-05-15

व्यावसायिक उपयोग

Granite Vision 4.1 4B: AI चार्ट और तालिका एक्सट्रैक्टर

विषय-सूची

  • अवलोकन
  • यह कैसे काम करता है
  • अक्सर पूछे जाने वाले प्रश्न
  • क्रेडिट लागत
  • विशेषताएँ
  • उपयोग के मामले
Nano Banana Pro प्राप्त करें

अवलोकन

Granite Vision 4.1 4B एक विज़न-भाषा मॉडल है, जिसे बिना किसी मैन्युअल कॉपीिंग या पुनःस्वरूपण के जटिल दस्तावेज़ों से संरचित डेटा निकालने के लिए बनाया गया है। यदि आपने कभी PDF से तालिकाएँ दोबारा टाइप करने, संख्याएँ पढ़ने के लिए चार्ट अक्षों को ध्यान से देखने, या स्कैन की गई इनवॉइस से key-value युग्मों को जोड़ने में समय बिताया है, तो यह मॉडल वह काम सेकंडों में संभाल लेता है। Picasso IA पर, प्रक्रिया तीन चरणों में होती है: दस्तावेज़ छवि अपलोड करें, अपनी आवश्यकता बताएं, और परिणाम पढ़ें। 4 billion parameters पर, यह उन दस्तावेज़ प्रकारों पर अपनी सटीकता बनाए रखते हुए तेज़ी से उत्तर देने के लिए पर्याप्त कॉम्पैक्ट है, जिनके लिए इसे विशेष रूप से बनाया गया था, जिसमें चार्ट, तालिकाएँ, और संरचित फ़ॉर्म शामिल हैं।

यह कैसे काम करता है

  • एक या अधिक दस्तावेज़ छवियाँ अपलोड करें, जैसे PDF पृष्ठ का स्क्रीनशॉट, मुद्रित तालिका की तस्वीर, या स्लाइड डेक से निर्यात किया गया चार्ट
  • अपने इच्छित डेटा का वर्णन करने वाला prompt लिखें, उदाहरण के लिए "राजस्व तालिका से सभी पंक्तियाँ निकालें" या "इस इनवॉइस के प्रत्येक फ़ील्ड से key और value लौटाएँ"
  • वैकल्पिक रूप से आउटपुट फ़ॉर्मैट परिभाषित करने के लिए system prompt लिखें, जैसे JSON, कॉमा से अलग किए गए मान, या लेबलयुक्त सादा पाठ
  • मॉडल छवि पढ़ता है और आपकी माँग के अनुसार संरचित पाठ प्रतिक्रिया लौटाता है
  • परिणाम कॉपी करें और उसे सीधे अपनी स्प्रेडशीट, डेटाबेस, या रिपोर्ट में पेस्ट करें

अक्सर पूछे जाने वाले प्रश्न

क्या इसका उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान चाहिए? नहीं, बस Picasso IA पर Granite Vision 4.1 4B खोलें, अपनी इच्छित सेटिंग्स समायोजित करें, और generate दबाएँ।

क्या इसे आज़माना निःशुल्क है? हाँ, आप अपने दस्तावेज़ों पर पहले परीक्षण करने के लिए Picasso IA पर बिना paid subscription के मॉडल चला सकते हैं।

परिणाम प्राप्त करने में कितना समय लगता है? अधिकांश निष्कर्षण कुछ सेकंडों में पूरे हो जाते हैं। 4 billion parameter आकार को आंशिक रूप से गति के लिए चुना गया था, इसलिए विस्तृत दस्तावेज़ों पर भी आपको लंबा इंतज़ार नहीं करना पड़ता।

यह किन प्रकार के दस्तावेज़ों पर अच्छी तरह काम करता है? यह मुद्रित डेटा तालिकाओं, वित्तीय चार्टों, इनवॉइस, संरचित फ़ॉर्मों, और किसी भी ऐसी छवि पर भरोसेमंद रूप से काम करता है जहाँ जानकारी एक सुसंगत लेआउट में व्यवस्थित हो। अत्यधिक क्षतिग्रस्त स्कैन या बहुत घनी हस्तलिखित पृष्ठ सटीकता कम कर सकते हैं।

क्या मैं आउटपुट किस फ़ॉर्मैट में आए, इसे नियंत्रित कर सकता हूँ? हाँ। फ़ॉर्मैट को अपने system prompt में या prompt के भीतर निर्दिष्ट करें। JSON, क्रमांकित पंक्तियाँ, लेबलयुक्त सादा पाठ, या किसी अन्य संरचना के लिए कहें, और मॉडल उन निर्देशों का निरंतर पालन करेगा।

मैं मॉडल को कितनी बार चला सकता हूँ? आप जितने निष्कर्षण चाहते हैं, उतने चला सकते हैं। प्रत्येक अनुरोध स्वतंत्र रूप से संसाधित होता है, इसलिए आप उसी दस्तावेज़ पर अलग-अलग prompt आज़मा सकते हैं जब तक कि आउटपुट आपकी अपेक्षा के अनुसार न हो जाए।

मॉडल जो लौटाता है, उसे मैं कहाँ उपयोग कर सकता हूँ? पाठ आउटपुट सादा है और किसी भी टूल में पेस्ट करने के लिए तैयार है, स्प्रेडशीट से लेकर प्रोजेक्ट प्रबंधन ऐप तक। मॉडल जो उत्पन्न करता है, उस पर कोई watermark या फ़ॉर्मैट प्रतिबंध नहीं हैं।

क्रेडिट लागत

प्रत्येक जेनरेशन 1 क्रेडिट का उपयोग करता है

1 क्रेडिट

या 5 क्रेडिट्स 5 जेनेरेशन के लिए

विशेषताएँ

यह मॉडल आपके लिए क्या कर सकता है

कॉम्पैक्ट 4B फ़ुटप्रिंट

पूर्ण-स्तरीय VLMs की हार्डवेयर मांगों के बिना तेज़ी से चलता है, जिससे यह रोज़मर्रा के दस्तावेज़ कार्य के लिए व्यावहारिक बनता है।

चार्ट निष्कर्षण

बार चार्ट, पाई चार्ट, और लाइन ग्राफ़ पढ़ता है और अंतर्निहित डेटा को सादा पाठ के रूप में लौटाता है।

तालिका पार्सिंग

स्कैन किए गए दस्तावेज़ों या छवियों की तालिकाओं को साफ़ पंक्ति-और-स्तंभ संरचित आउटपुट में बदलता है।

लेबल-मूल्य युग्म पहचान

फ़ॉर्म, इनवॉइस, और रिपोर्ट में फ़ील्ड नामों तथा उनके संबंधित मानों की पहचान करता है।

विज़न-भाषा इनपुट

एक छवि और एक पाठ prompt दोनों स्वीकार करता है, ताकि आप किसी दस्तावेज़ के बारे में विशिष्ट प्रश्न पूछ सकें।

स्ट्रीमिंग प्रतिक्रियाएँ

आउटपुट को उत्पन्न होते ही लौटाता है, ताकि आप पूर्ण प्रतिक्रिया की प्रतीक्षा करने के बजाय परिणामों को क्रमिक रूप से आते हुए देख सकें।

समायोज्य आउटपुट लंबाई

अपनी आवश्यकता के अनुसार संक्षिप्त सारांश या पूर्ण विस्तृत निष्कर्षण पाने के लिए token सीमा निर्धारित करें।

पुनरुत्पादनीय परिणाम

एक seed मान सेट करें ताकि जब आप किसी दस्तावेज़ को मॉडल से दोबारा चलाएँ, तो वही आउटपुट मिले।

उपयोग के मामले

मुद्रित तालिका की तस्वीर अपलोड करें और डेटा को कॉमा से अलग की गई पंक्तियों के रूप में वापस पाएं, जो स्प्रेडशीट में पेस्ट करने के लिए तैयार हों

चार्ट छवि सबमिट करें और मॉडल से बार, रेखाओं, या खंडों के पीछे के संख्यात्मक मान लौटाने के लिए कहें

स्कैन की गई इनवॉइस छवि को प्रोसेस करें ताकि फ़ील्ड लेबल और उनके संबंधित राशियों को स्वचालित रूप से निकाला जा सके

चित्र वाले शोध-पत्र के पृष्ठ को अपलोड करें और छवि में एम्बेड किए गए चार्टों से डेटा मान निकालें

प्राइसिंग तालिका के स्क्रीनशॉट को बिना किसी डेटा को हाथ से दोबारा टाइप किए संरचित पाठ में बदलें

ऐसे दस्तावेज़ पृष्ठ को सबमिट करें जिसमें पाठ और तालिकाएँ दोनों हों, फिर केवल सारणीबद्ध अनुभागों को साफ़ संरचित आउटपुट के रूप में प्राप्त करें

टैक्स दस्तावेज़ या पंजीकरण पत्रक जैसी फ़ॉर्म छवि से लेबल वाले फ़ील्ड खींचें, ताकि डेटा प्रविष्टि तेज़ हो सके

श्रेणी बदलें

इफेक्ट्स

टेक्स्ट से इमेज

टेक्स्ट से वीडियो

बड़े भाषा मॉडल

टेक्स्ट से स्पीच

सुपर रेजोल्यूशन

लिपसिंक

AI संगीत निर्माण

वीडियो संपादन

स्पीच से टेक्स्ट

AI वीडियो एन्हांस

बैकग्राउंड हटाएँ