Isaac 0.1 एक 2-अरब-पैरामीटर विज़न मॉडल है, जिसे वास्तविक दुनिया की छवियों को पढ़ने और संरचित, उपयोगी उत्तर देने के लिए बनाया गया है। यह इस तरह के प्रश्नों को संभालता है कि सड़क पार करना सुरक्षित है या नहीं, कोई विशिष्ट संकेत कहाँ स्थित है, और फ्रेम में कौन-सी वस्तुएँ दिखाई देती हैं। एक अस्पष्ट कैप्शन के बजाय, आपको बाउंडिंग बॉक्स, सटीक निर्देशांक, बहुभुज रूपरेखाएँ, या सादा पाठ मिलता है, यह इस पर निर्भर करता है कि आपके कार्य के लिए कौन-सा प्रारूप उपयुक्त है। मॉडल एक प्राकृतिक-भाषा प्रॉम्प्ट के साथ एक छवि को पढ़ता है और आपके द्वारा चुने गए आउटपुट प्रकार को लौटाता है। पता चली वस्तुओं के चारों ओर आयताकार क्षेत्र प्राप्त करने के लिए बाउंडिंग बॉक्स माँगें। सटीक आकार की रूपरेखाओं के लिए बहुभुज माँगें, या सटीक पिक्सेल स्थितियों के लिए निर्देशांक माँगें। यदि आप सादा पाठ पसंद करते हैं, तो आपको सीधे एक छोटा लिखित उत्तर मिलता है। चारों प्रतिक्रिया मोड एक ही छवि-और-प्रॉम्प्ट इनपुट से चलते हैं। एक ट्रैफिक सुरक्षा जाँचकर्ता, फोटो पाइपलाइन में एक गुणवत्ता नियंत्रण चरण, किसी पेज पर क्षेत्रों का पता लगाने वाला दस्तावेज़ स्कैनर, या एक प्रोटोटाइप जो गोदाम की फोटो में वस्तुओं को चिह्नित करता है—Isaac 0.1 हर उस जगह उपयुक्त है जहाँ कार्य छवि को देखकर किसी विशिष्ट प्रश्न का उत्तर देना है। Picasso IA पर इसे बिना एक भी कोड की पंक्ति लिखे चलाएँ।
Isaac 0.1 एक 2-अरब-पैरामीटर ओपन-सोर्स विज़न मॉडल है जो छवियों का विश्लेषण करता है और प्राकृतिक भाषा के प्रश्नों के लिए संरचित स्थानिक उत्तर देता है। जहाँ अधिकांश इमेज AI टूल नई दृश्य सामग्री बनाते हैं, Isaac 0.1 वह पढ़ता है जो पहले से फोटो में मौजूद है: यह पहचानी गई वस्तुओं के चारों ओर बाउंडिंग बॉक्स बना सकता है, सटीक निर्देशांक इंगित कर सकता है, बहुभुज रूपरेखाएँ ट्रेस कर सकता है, या जो कुछ यह पाता है उसका सादा-पाठ विवरण लिख सकता है। Picasso IA पर, आप कोई भी छवि अपलोड करते हैं, सादे भाषा में एक प्रश्न पूछते हैं, और सेकंडों में सटीक स्थानीयकरण डेटा प्राप्त करते हैं। कोई सेटअप नहीं, कोई कोड नहीं, कोई कॉन्फ़िगरेशन फ़ाइल नहीं।
क्या इसे उपयोग करने के लिए मुझे प्रोग्रामिंग कौशल या तकनीकी ज्ञान चाहिए? नहीं, बस Picasso IA पर Isaac 0.1 खोलें, अपनी इच्छित सेटिंग्स समायोजित करें, और generate दबाएँ।
क्या इसे आज़माना निःशुल्क है? हाँ, शुरू करने के लिए आप Isaac 0.1 को बिना किसी भुगतान वाली सदस्यता के चला सकते हैं। जनरेशन सीमाओं और क्रेडिट उपयोग के लिए वर्तमान योजना विवरण देखें।
परिणाम प्राप्त करने में कितना समय लगता है? अधिकांश अनुरोध कुछ सेकंडों में पूरे हो जाते हैं। प्रसंस्करण समय छवि के आकार और आपके द्वारा चुने गए स्थानिक आउटपुट के प्रकार पर निर्भर करता है।
कौन-से आउटपुट प्रारूप समर्थित हैं? Isaac 0.1 बाउंडिंग बॉक्स निर्देशांक, बिंदु स्थान, बहुभुज सीमाएँ, या सादा-पाठ विवरण लौटाता है। मॉडल चलाने से पहले आप प्रतिक्रिया प्रकार चयनकर्ता का उपयोग करके प्रारूप चुनते हैं।
क्या मैं आउटपुट को अपने स्वयं के प्रोजेक्ट्स में उपयोग कर सकता हूँ? हाँ। Isaac 0.1 द्वारा लौटाया गया संरचित डेटा, जैसे बाउंडिंग बॉक्स निर्देशांक या बहुभुज रूपरेखाएँ, कॉपी किया जा सकता है और आपके द्वारा बनाए जा रहे किसी भी एप्लिकेशन, स्प्रेडशीट, या वर्कफ़्लो में उपयोग किया जा सकता है।
किस प्रकार की छवियाँ सबसे बेहतर काम करती हैं? मॉडल स्पष्ट, अच्छी रोशनी वाली तस्वीरों पर बेहतर प्रदर्शन करता है जिनमें विषय स्पष्ट हों। धुंधली, बहुत अधिक क्रॉप की गई, या बहुत कम-रिज़ॉल्यूशन वाली छवियाँ स्थानिक आउटपुट की सटीकता को कम कर सकती हैं।
यदि मैं परिणाम से संतुष्ट नहीं हूँ तो क्या होता है? अपने प्रॉम्प्ट को फिर से शब्दबद्ध करें ताकि आप जो स्थानित या वर्णित करना चाहते हैं, उसके बारे में अधिक विशिष्ट हो सके। प्रतिक्रिया प्रकार बदलना, उदाहरण के लिए "box" से "polygon" में, कुछ प्रकार की वस्तुओं के लिए अधिक उपयोगी आउटपुट भी दे सकता है।
यह मॉडल आपके लिए क्या कर सकता है
आपकी चयन के आधार पर परिणाम बाउंडिंग बॉक्स, बहुभुज आकृतियों, बिंदु निर्देशांकों, या सादे पाठ के रूप में लौटाता है।
2-अरब-पैरामीटर के पूर्ण मॉडल को वास्तविक छवियों पर तेज़ अनुमान के लिए उपयुक्त आकार में समेटता है।
छवि के बारे में किसी भी प्राकृतिक-भाषा प्रश्न को स्वीकार करता है, केवल पूर्वनिर्धारित श्रेणियों तक सीमित नहीं।
बाउंडिंग बॉक्स और बहुभुज मोड प्रत्येक पहचानी गई वस्तु के चारों ओर सटीक पिक्सेल क्षेत्र लौटाते हैं।
Picasso IA पर बिना किसी सेटअप या API कॉल के सीधे अपने ब्राउज़र में मॉडल चलाएँ।
संक्षिप्त उत्तर या लंबा विवरण एक ही रन में पाने के लिए अधिकतम टोकन गणना समायोजित करें।
एक खुले 2B-पैरामीटर मॉडल पर निर्मित, मालिकाना प्रतिबंधों के बिना ऑडिटेबल और पुनरुत्पादनीय।