• Picasso IA लोगो
    Logo Picasso IA
  • होम
  • AI इमेज
    Nano Banana 2
  • AI वीडियो
    Veo 3.1 Fast
  • AI चैट
    Gemini 3 Pro
  • इमेज एडिट करें
  • इमेज सुधारें
  • बैकग्राउंड हटाएं
  • टेक्स्ट टू स्पीच
  • इफ़ेक्ट्स
    NEW
  • पीढ़ियाँ
  • बिलिंग
  • सहायता
  • खाता
  1. संग्रह
  2. लार्ज लैंग्वेज मॉडल (LLMs)
  3. Granite Vision 3.3 2b

ग्रेनाइट विज़न 3.3 2B के साथ चार्ट और तालिकाएँ पढ़ें

Granite Vision 3.3 2B एक संक्षिप्त विज़न-लैंग्वेज मॉडल है, जिसे एक विशिष्ट काम के लिए बनाया गया है: दृश्य दस्तावेज़ों को पढ़ना और उनका अर्थ समझना। यदि आपका वर्कफ़्लो चार्ट, तालिकाएँ, इन्फोग्राफिक्स या तकनीकी आरेखों से डेटा निकालने से जुड़ा है, तो यह मॉडल बिना हाथ से कॉपी किए या ट्रांसक्रिप्शन किए आपके लिए एक्सट्रैक्शन संभालता है। इसे किसी वित्तीय तालिका की छवि दें और विशिष्ट पंक्ति मान पूछें। किसी वैज्ञानिक चार्ट की ओर इंगित करें और हर अनुभाग का सरल भाषा में विवरण माँगें। किसी घने इन्फोग्राफिक का स्क्रीनशॉट डालें और पूछें कि मुख्य आँकड़े क्या हैं। मॉडल दृश्य संरचना को पढ़ता है, डेटा की व्याख्या करता है, और आपके प्रश्न के लिए एक केंद्रित पाठ उत्तर देता है। यह दस्तावेज़-प्रधान वर्कफ़्लो में स्वाभाविक रूप से फिट बैठता है, जहाँ हाथ से पढ़ना धीमा और त्रुटिपूर्ण होता है। एक स्क्रीनशॉट अपलोड करें, अपना प्रश्न टाइप करें, और कुछ ही सेकंड में उत्तर पाएँ। यदि पहला उत्तर सही नहीं है, तो temperature समायोजित करें या अपने prompt को और सटीक बनाएँ और फिर से चलाएँ। अपनी छवि चुनने के अलावा किसी सेटअप की आवश्यकता नहीं है।

आधिकारिक

Ibm Granite

197.6k रन

Granite Vision 3.3 2b

2025-07-14

व्यावसायिक उपयोग

ग्रेनाइट विज़न 3.3 2B के साथ चार्ट और तालिकाएँ पढ़ें

विषय-सूची

  • अवलोकन
  • यह कैसे काम करता है
  • अक्सर पूछे जाने वाले प्रश्न
  • क्रेडिट लागत
  • विशेषताएँ
  • उपयोग के मामले
Nano Banana Pro प्राप्त करें

अवलोकन

Granite Vision 3.3 2B एक संक्षिप्त विज़न-लैंग्वेज मॉडल है, जिसे दृश्य दस्तावेज़ों से संरचित जानकारी पढ़ने और निकालने के लिए बनाया गया है, और यह उस समस्या का समाधान करता है जिसे मानक पाठ उपकरण नहीं कर सकते: तालिकाओं, चार्टों, इन्फोग्राफिक्स, प्लॉटों और आरेखों को उपयोगी डेटा के रूप में समझना। कल्पना करें कि कोई वित्तीय विश्लेषक स्कैन की गई रिपोर्ट से तिमाही आँकड़े निकाल रहा है, या कोई शोधकर्ता बिना एक भी सेल हाथ से दोबारा टाइप किए किसी कार्यविधि आरेख का ट्रांसक्रिप्शन कर रहा है। Picasso IA पर, आप एक छवि अपलोड करते हैं और एक सरल भाषा वाला प्रश्न लिखते हैं, और मॉडल कुछ ही सेकंड में एक केंद्रित, पढ़ने योग्य उत्तर देता है। 2 बिलियन parameters पर, यह उस सटीकता से समझौता किए बिना तेज़ रहता है जिसकी दस्तावेज़ निष्कर्षण कार्यों को आवश्यकता होती है।

यह कैसे काम करता है

  • एक या अधिक दस्तावेज़ छवियाँ अपलोड करें: स्कैन किए गए पृष्ठ, चार्ट स्क्रीनशॉट, प्रेज़ेंटेशन स्लाइड्स, या आरेख निर्यात
  • ठीक वही वर्णन करते हुए एक prompt लिखें जिसकी आपको आवश्यकता है, जैसे "इस बार चार्ट में डेटा का सारांश दें" या "इस पृष्ठ की तालिका से सभी पंक्ति मान निकालें"
  • प्रतिक्रिया संरचना को नियंत्रित करने के लिए वैकल्पिक रूप से एक system prompt जोड़ें, उदाहरण के लिए JSON output, क्रमांकित सूची, या markdown तालिका का अनुरोध करें
  • यदि आपको अधिक सटीक तथ्यात्मक उत्तर या लंबी स्वरूपित प्रतिक्रियाएँ चाहिए, तो temperature और max tokens समायोजित करें
  • जमा करें और निकाली गई सामग्री या संरचित उत्तर कुछ ही सेकंड में output panel में प्राप्त करें

अक्सर पूछे जाने वाले प्रश्न

क्या इसे उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान की आवश्यकता है? नहीं, बस Picasso IA पर Granite Vision 3.3 2B खोलें, अपनी इच्छित settings समायोजित करें, और generate पर क्लिक करें।

क्या इसे आज़माना निःशुल्क है? हाँ, आप बिना किसी अग्रिम लागत के Granite Vision 3.3 2B चला सकते हैं। generation credits कैसे काम करते हैं, इसके विवरण के लिए Picasso IA पर pricing अनुभाग देखें।

परिणाम पाने में कितना समय लगता है? अधिकांश अनुरोध कुछ ही सेकंड में वापस आ जाते हैं। processing time छवि की जटिलता और आपके द्वारा अनुरोधित output की लंबाई पर निर्भर करता है, लेकिन 2B parameter size बड़े vision models की तुलना में चीज़ों को तेज़ बनाए रखता है।

यह किस प्रकार की छवियों के लिए सबसे अच्छा काम करता है? यह तालिकाओं, bar charts, pie charts, इन्फोग्राफिक्स, तकनीकी आरेखों, scatter plots, और text-heavy slides पर अच्छा प्रदर्शन करता है। यह साफ़ डिजिटल छवियों और मध्यम रूप से संपीड़ित स्कैन दोनों के साथ काम करता है।

मैं किन output formats को प्राप्त कर सकता हूँ? मॉडल डिफ़ॉल्ट रूप से सादा पाठ लौटाता है। आप अपने prompt के माध्यम से स्वरूप तय कर सकते हैं: markdown table, JSON object, क्रमांकित सूची, या छोटा पैराग्राफ माँगें, और यह आपके वर्णन की गई संरचना से मेल खाएगा।

क्या मैं एक अनुरोध में कई छवियाँ भेज सकता हूँ? हाँ। मॉडल image inputs की एक array स्वीकार करता है, इसलिए आप एक साथ कई दस्तावेज़ पृष्ठ डाल सकते हैं और एक ही generation में उन पर आधारित प्रश्न पूछ सकते हैं।

यदि output में कोई विवरण छूट जाए या कुछ गलत हो जाए तो क्या होगा? अपने prompt को अधिक विशिष्ट बनाने के लिए उसे फिर से लिखने की कोशिश करें कि आपको क्या निकालना है। temperature setting को 0 के करीब कम करने से आमतौर पर संरचित डेटा के साथ काम करते समय अधिक सटीक, तथ्य-केंद्रित उत्तर मिलते हैं।

क्रेडिट लागत

प्रत्येक जेनरेशन 1 क्रेडिट का उपयोग करता है

1 क्रेडिट

या 5 क्रेडिट्स 5 जेनेरेशन के लिए

विशेषताएँ

यह मॉडल आपके लिए क्या कर सकता है

दृश्य दस्तावेज़ पठन

एक ही अनुरोध में चार्ट, तालिकाओं और इन्फोग्राफिक्स से पाठ, डेटा और संदर्भ निकालता है।

बहु-छवि इनपुट

पृष्ठों में विभाजित दस्तावेज़ों को प्रोसेस करने या दृश्य स्रोतों की तुलना करने के लिए एक साथ कई छवियाँ भेजें।

समायोज्य आउटपुट लंबाई

संक्षिप्त सारांश या विस्तृत विश्लेषण पाने के लिए न्यूनतम और अधिकतम token गणना निर्धारित करें।

temperature नियंत्रण

सटीक तथ्यात्मक निष्कर्षण के लिए temperature कम करें, और अधिक वर्णनात्मक उत्तरों के लिए इसे बढ़ाएँ।

कस्टम system prompt

अपने वर्कफ़्लो में प्रतिक्रियाएँ सुसंगत रखने के लिए प्रत्येक सत्र से पहले एक भूमिका या संदर्भ सेट करें।

Top-k और nucleus sampling

अधिक विविध या अधिक केंद्रित आउटपुट के लिए मॉडल token कैसे चुनता है, इसे सूक्ष्म रूप से समायोजित करें।

रोकने वाले अनुक्रम नियंत्रण

generation को ठीक वहीं समाप्त करने के लिए कस्टम stop tokens परिभाषित करें जहाँ आपको आवश्यकता हो।

उपयोग के मामले

अपलोड की गई छवि के माध्यम से स्कैन किए गए दस्तावेज़ में किसी डेटा तालिका से मान निकालें और मॉडल से प्रत्येक पंक्ति की सूची बनाने को कहें

पूछें कि किसी बार चार्ट या लाइन ग्राफ़ में कौन-सा रुझान दिखता है और सरल भाषा में एक लिखित सारांश प्राप्त करें

दृश्य जानकारी को खोजने योग्य, कॉपी करने योग्य पाठ में बदलने के लिए किसी इन्फोग्राफिक की सामग्री का वर्णन करें

मॉडल से प्रत्येक घटक समझाने को कहकर किसी तकनीकी आरेख में लेबल और संबंध पढ़ें

हर tick mark को हाथ से पढ़े बिना किसी वित्तीय चार्ट स्क्रीनशॉट से विशिष्ट आँकड़े निकालें

छवि अपलोड करके और मुख्य निष्कर्ष पूछकर किसी वैज्ञानिक प्लॉट का लिखित विवरण तैयार करें

एक फोटो अपलोड करके और मॉडल से सेल सामग्री सूचीबद्ध करने को कहकर किसी हस्तलिखित तालिका या फ़ॉर्म का ट्रांसक्रिप्शन करें

श्रेणी बदलें

इफेक्ट्स

टेक्स्ट से इमेज

टेक्स्ट से इमेज

टेक्स्ट से वीडियो

बड़े भाषा मॉडल

बड़े भाषा मॉडल

टेक्स्ट से स्पीच

टेक्स्ट से स्पीच

सुपर रेजोल्यूशन

सुपर रेजोल्यूशन

लिपसिंक

AI संगीत निर्माण

AI संगीत निर्माण

वीडियो संपादन

स्पीच से टेक्स्ट

स्पीच से टेक्स्ट

AI वीडियो एन्हांस

बैकग्राउंड हटाएँ

बैकग्राउंड हटाएँ