Granite Vision 4.1 4B एक कॉम्पैक्ट विज़न-भाषा मॉडल है, जिसे विशेष रूप से संरचित दस्तावेज़ निष्कर्षण के लिए बनाया गया है। यदि आपको कभी स्कैन की गई रिपोर्ट, PDF में मौजूद चार्ट, या प्रेज़ेंटेशन स्लाइड की तालिका से डेटा हाथ से कॉपी करना पड़ा हो, तो यह मॉडल वह काम आपके लिए करता है। यह दस्तावेज़ छवि को पढ़ता है और जानकारी को साफ़, संरचित पाठ के रूप में लौटाता है। यह मॉडल तीन अलग-अलग निष्कर्षण कार्यों को संभालता है: चार्ट पढ़ना, तालिका पार्सिंग, और लेबल-मूल्य युग्म पहचान। एक वित्तीय रिपोर्ट अपलोड करें और यह सारणीबद्ध डेटा को पंक्ति दर पंक्ति निकाल देता है। इसे एक बार चार्ट दिखाएँ और यह अंतर्निहित संख्याएँ लौटाता है। इसे किसी इनवॉइस पर इंगित करें और यह फ़ील्ड नामों के साथ उनके मान निकाल देता है, जो सीधे स्प्रेडशीट में पेस्ट करने के लिए तैयार होते हैं। यह उन कार्यप्रवाहों में स्वाभाविक रूप से फिट बैठता है जहाँ दस्तावेज़ छवियों या स्कैन की गई फ़ाइलों के रूप में आते हैं। शोधकर्ता, विश्लेषक, और कंटेंट ऑपरेटर मैन्युअल पुनः-प्रविष्टि को छोड़कर सेकंडों में संरचित आउटपुट प्राप्त कर सकते हैं। अपने दस्तावेज़ों पर यह कैसे काम करता है, यह देखने के लिए इसे Picasso IA पर चलाएँ, बिना किसी सेटअप के।
Granite Vision 4.1 4B एक विज़न-भाषा मॉडल है, जिसे बिना किसी मैन्युअल कॉपीिंग या पुनःस्वरूपण के जटिल दस्तावेज़ों से संरचित डेटा निकालने के लिए बनाया गया है। यदि आपने कभी PDF से तालिकाएँ दोबारा टाइप करने, संख्याएँ पढ़ने के लिए चार्ट अक्षों को ध्यान से देखने, या स्कैन की गई इनवॉइस से key-value युग्मों को जोड़ने में समय बिताया है, तो यह मॉडल वह काम सेकंडों में संभाल लेता है। Picasso IA पर, प्रक्रिया तीन चरणों में होती है: दस्तावेज़ छवि अपलोड करें, अपनी आवश्यकता बताएं, और परिणाम पढ़ें। 4 billion parameters पर, यह उन दस्तावेज़ प्रकारों पर अपनी सटीकता बनाए रखते हुए तेज़ी से उत्तर देने के लिए पर्याप्त कॉम्पैक्ट है, जिनके लिए इसे विशेष रूप से बनाया गया था, जिसमें चार्ट, तालिकाएँ, और संरचित फ़ॉर्म शामिल हैं।
क्या इसका उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान चाहिए? नहीं, बस Picasso IA पर Granite Vision 4.1 4B खोलें, अपनी इच्छित सेटिंग्स समायोजित करें, और generate दबाएँ।
क्या इसे आज़माना निःशुल्क है? हाँ, आप अपने दस्तावेज़ों पर पहले परीक्षण करने के लिए Picasso IA पर बिना paid subscription के मॉडल चला सकते हैं।
परिणाम प्राप्त करने में कितना समय लगता है? अधिकांश निष्कर्षण कुछ सेकंडों में पूरे हो जाते हैं। 4 billion parameter आकार को आंशिक रूप से गति के लिए चुना गया था, इसलिए विस्तृत दस्तावेज़ों पर भी आपको लंबा इंतज़ार नहीं करना पड़ता।
यह किन प्रकार के दस्तावेज़ों पर अच्छी तरह काम करता है? यह मुद्रित डेटा तालिकाओं, वित्तीय चार्टों, इनवॉइस, संरचित फ़ॉर्मों, और किसी भी ऐसी छवि पर भरोसेमंद रूप से काम करता है जहाँ जानकारी एक सुसंगत लेआउट में व्यवस्थित हो। अत्यधिक क्षतिग्रस्त स्कैन या बहुत घनी हस्तलिखित पृष्ठ सटीकता कम कर सकते हैं।
क्या मैं आउटपुट किस फ़ॉर्मैट में आए, इसे नियंत्रित कर सकता हूँ? हाँ। फ़ॉर्मैट को अपने system prompt में या prompt के भीतर निर्दिष्ट करें। JSON, क्रमांकित पंक्तियाँ, लेबलयुक्त सादा पाठ, या किसी अन्य संरचना के लिए कहें, और मॉडल उन निर्देशों का निरंतर पालन करेगा।
मैं मॉडल को कितनी बार चला सकता हूँ? आप जितने निष्कर्षण चाहते हैं, उतने चला सकते हैं। प्रत्येक अनुरोध स्वतंत्र रूप से संसाधित होता है, इसलिए आप उसी दस्तावेज़ पर अलग-अलग prompt आज़मा सकते हैं जब तक कि आउटपुट आपकी अपेक्षा के अनुसार न हो जाए।
मॉडल जो लौटाता है, उसे मैं कहाँ उपयोग कर सकता हूँ? पाठ आउटपुट सादा है और किसी भी टूल में पेस्ट करने के लिए तैयार है, स्प्रेडशीट से लेकर प्रोजेक्ट प्रबंधन ऐप तक। मॉडल जो उत्पन्न करता है, उस पर कोई watermark या फ़ॉर्मैट प्रतिबंध नहीं हैं।
यह मॉडल आपके लिए क्या कर सकता है
पूर्ण-स्तरीय VLMs की हार्डवेयर मांगों के बिना तेज़ी से चलता है, जिससे यह रोज़मर्रा के दस्तावेज़ कार्य के लिए व्यावहारिक बनता है।
बार चार्ट, पाई चार्ट, और लाइन ग्राफ़ पढ़ता है और अंतर्निहित डेटा को सादा पाठ के रूप में लौटाता है।
स्कैन किए गए दस्तावेज़ों या छवियों की तालिकाओं को साफ़ पंक्ति-और-स्तंभ संरचित आउटपुट में बदलता है।
फ़ॉर्म, इनवॉइस, और रिपोर्ट में फ़ील्ड नामों तथा उनके संबंधित मानों की पहचान करता है।
एक छवि और एक पाठ prompt दोनों स्वीकार करता है, ताकि आप किसी दस्तावेज़ के बारे में विशिष्ट प्रश्न पूछ सकें।
आउटपुट को उत्पन्न होते ही लौटाता है, ताकि आप पूर्ण प्रतिक्रिया की प्रतीक्षा करने के बजाय परिणामों को क्रमिक रूप से आते हुए देख सकें।
अपनी आवश्यकता के अनुसार संक्षिप्त सारांश या पूर्ण विस्तृत निष्कर्षण पाने के लिए token सीमा निर्धारित करें।
एक seed मान सेट करें ताकि जब आप किसी दस्तावेज़ को मॉडल से दोबारा चलाएँ, तो वही आउटपुट मिले।