Granite Vision 3.3 2B एक संक्षिप्त विज़न-लैंग्वेज मॉडल है, जिसे एक विशिष्ट काम के लिए बनाया गया है: दृश्य दस्तावेज़ों को पढ़ना और उनका अर्थ समझना। यदि आपका वर्कफ़्लो चार्ट, तालिकाएँ, इन्फोग्राफिक्स या तकनीकी आरेखों से डेटा निकालने से जुड़ा है, तो यह मॉडल बिना हाथ से कॉपी किए या ट्रांसक्रिप्शन किए आपके लिए एक्सट्रैक्शन संभालता है। इसे किसी वित्तीय तालिका की छवि दें और विशिष्ट पंक्ति मान पूछें। किसी वैज्ञानिक चार्ट की ओर इंगित करें और हर अनुभाग का सरल भाषा में विवरण माँगें। किसी घने इन्फोग्राफिक का स्क्रीनशॉट डालें और पूछें कि मुख्य आँकड़े क्या हैं। मॉडल दृश्य संरचना को पढ़ता है, डेटा की व्याख्या करता है, और आपके प्रश्न के लिए एक केंद्रित पाठ उत्तर देता है। यह दस्तावेज़-प्रधान वर्कफ़्लो में स्वाभाविक रूप से फिट बैठता है, जहाँ हाथ से पढ़ना धीमा और त्रुटिपूर्ण होता है। एक स्क्रीनशॉट अपलोड करें, अपना प्रश्न टाइप करें, और कुछ ही सेकंड में उत्तर पाएँ। यदि पहला उत्तर सही नहीं है, तो temperature समायोजित करें या अपने prompt को और सटीक बनाएँ और फिर से चलाएँ। अपनी छवि चुनने के अलावा किसी सेटअप की आवश्यकता नहीं है।
Granite Vision 3.3 2B एक संक्षिप्त विज़न-लैंग्वेज मॉडल है, जिसे दृश्य दस्तावेज़ों से संरचित जानकारी पढ़ने और निकालने के लिए बनाया गया है, और यह उस समस्या का समाधान करता है जिसे मानक पाठ उपकरण नहीं कर सकते: तालिकाओं, चार्टों, इन्फोग्राफिक्स, प्लॉटों और आरेखों को उपयोगी डेटा के रूप में समझना। कल्पना करें कि कोई वित्तीय विश्लेषक स्कैन की गई रिपोर्ट से तिमाही आँकड़े निकाल रहा है, या कोई शोधकर्ता बिना एक भी सेल हाथ से दोबारा टाइप किए किसी कार्यविधि आरेख का ट्रांसक्रिप्शन कर रहा है। Picasso IA पर, आप एक छवि अपलोड करते हैं और एक सरल भाषा वाला प्रश्न लिखते हैं, और मॉडल कुछ ही सेकंड में एक केंद्रित, पढ़ने योग्य उत्तर देता है। 2 बिलियन parameters पर, यह उस सटीकता से समझौता किए बिना तेज़ रहता है जिसकी दस्तावेज़ निष्कर्षण कार्यों को आवश्यकता होती है।
क्या इसे उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान की आवश्यकता है? नहीं, बस Picasso IA पर Granite Vision 3.3 2B खोलें, अपनी इच्छित settings समायोजित करें, और generate पर क्लिक करें।
क्या इसे आज़माना निःशुल्क है? हाँ, आप बिना किसी अग्रिम लागत के Granite Vision 3.3 2B चला सकते हैं। generation credits कैसे काम करते हैं, इसके विवरण के लिए Picasso IA पर pricing अनुभाग देखें।
परिणाम पाने में कितना समय लगता है? अधिकांश अनुरोध कुछ ही सेकंड में वापस आ जाते हैं। processing time छवि की जटिलता और आपके द्वारा अनुरोधित output की लंबाई पर निर्भर करता है, लेकिन 2B parameter size बड़े vision models की तुलना में चीज़ों को तेज़ बनाए रखता है।
यह किस प्रकार की छवियों के लिए सबसे अच्छा काम करता है? यह तालिकाओं, bar charts, pie charts, इन्फोग्राफिक्स, तकनीकी आरेखों, scatter plots, और text-heavy slides पर अच्छा प्रदर्शन करता है। यह साफ़ डिजिटल छवियों और मध्यम रूप से संपीड़ित स्कैन दोनों के साथ काम करता है।
मैं किन output formats को प्राप्त कर सकता हूँ? मॉडल डिफ़ॉल्ट रूप से सादा पाठ लौटाता है। आप अपने prompt के माध्यम से स्वरूप तय कर सकते हैं: markdown table, JSON object, क्रमांकित सूची, या छोटा पैराग्राफ माँगें, और यह आपके वर्णन की गई संरचना से मेल खाएगा।
क्या मैं एक अनुरोध में कई छवियाँ भेज सकता हूँ? हाँ। मॉडल image inputs की एक array स्वीकार करता है, इसलिए आप एक साथ कई दस्तावेज़ पृष्ठ डाल सकते हैं और एक ही generation में उन पर आधारित प्रश्न पूछ सकते हैं।
यदि output में कोई विवरण छूट जाए या कुछ गलत हो जाए तो क्या होगा? अपने prompt को अधिक विशिष्ट बनाने के लिए उसे फिर से लिखने की कोशिश करें कि आपको क्या निकालना है। temperature setting को 0 के करीब कम करने से आमतौर पर संरचित डेटा के साथ काम करते समय अधिक सटीक, तथ्य-केंद्रित उत्तर मिलते हैं।
यह मॉडल आपके लिए क्या कर सकता है
एक ही अनुरोध में चार्ट, तालिकाओं और इन्फोग्राफिक्स से पाठ, डेटा और संदर्भ निकालता है।
पृष्ठों में विभाजित दस्तावेज़ों को प्रोसेस करने या दृश्य स्रोतों की तुलना करने के लिए एक साथ कई छवियाँ भेजें।
संक्षिप्त सारांश या विस्तृत विश्लेषण पाने के लिए न्यूनतम और अधिकतम token गणना निर्धारित करें।
सटीक तथ्यात्मक निष्कर्षण के लिए temperature कम करें, और अधिक वर्णनात्मक उत्तरों के लिए इसे बढ़ाएँ।
अपने वर्कफ़्लो में प्रतिक्रियाएँ सुसंगत रखने के लिए प्रत्येक सत्र से पहले एक भूमिका या संदर्भ सेट करें।
अधिक विविध या अधिक केंद्रित आउटपुट के लिए मॉडल token कैसे चुनता है, इसे सूक्ष्म रूप से समायोजित करें।
generation को ठीक वहीं समाप्त करने के लिए कस्टम stop tokens परिभाषित करें जहाँ आपको आवश्यकता हो।