paligemma 2

Google ने गुरुवारी त्याच्या PaliGemma कृत्रिम बुद्धिमत्ता (AI) दृष्टी-भाषा मॉडेलचा उत्तराधिकारी सादर केला. PaliGemma 2 डब केलेले, AI मॉडेल्सचे कुटुंब जुन्या पिढीच्या क्षमतेनुसार सुधारते. माउंटन व्ह्यू-आधारित टेक जायंटने सांगितले की दृष्टी-भाषा मॉडेल प्रतिमा आणि इतर व्हिज्युअल मालमत्तांसारख्या व्हिज्युअल इनपुट पाहू, समजू आणि संवाद साधू शकते. हे Gemma 2 स्मॉल लँग्वेज मॉडेल (SLM) वापरून तयार केले आहे जे ऑगस्टमध्ये रिलीज झाले होते. विशेष म्हणजे, टेक जायंटने दावा केला आहे की मॉडेल अपलोड केलेल्या प्रतिमांमधील भावनांचे विश्लेषण करू शकते.

Google PaliGemma AI मॉडेल

मध्ये अ ब्लॉग पोस्टटेक जायंटने नवीन PaliGemma 2 AI मॉडेलचे तपशीलवार वर्णन केले आहे. Google कडे अनेक दृष्टी-भाषा मॉडेल्स आहेत, तर पालीगेमा हे जेम्मा कुटुंबातील असे पहिले मॉडेल होते. व्हिजन मॉडेल्स ठराविक मोठ्या भाषा मॉडेल्स (LLM) पेक्षा भिन्न आहेत कारण त्यांच्याकडे अतिरिक्त एन्कोडर आहेत जे दृश्य सामग्रीचे विश्लेषण करू शकतात आणि परिचित डेटा फॉर्ममध्ये रूपांतरित करू शकतात. अशा प्रकारे, दृष्टी मॉडेल तांत्रिकदृष्ट्या बाह्य जगाला “पाहू” आणि समजू शकतात.

लहान व्हिजन मॉडेलचा एक फायदा असा आहे की ते मोठ्या प्रमाणात ऍप्लिकेशन्ससाठी वापरले जाऊ शकते कारण लहान मॉडेल वेग आणि अचूकतेसाठी ऑप्टिमाइझ केले जातात. PaliGemma 2 ओपन-सोर्स्ड असल्याने, डेव्हलपर ॲप्स तयार करण्यासाठी त्याच्या क्षमता वापरू शकतात.

PaliGemma 2 3 अब्ज, 10 अब्ज आणि 28 अब्ज अशा तीन वेगवेगळ्या पॅरामीटर आकारात येतो. हे 224p, 448p, 896p रिझोल्यूशनमध्ये देखील उपलब्ध आहे. यामुळे, टेक जायंटचा दावा आहे की विस्तृत कार्यांसाठी एआय मॉडेलची कार्यक्षमता ऑप्टिमाइझ करणे सोपे आहे. Google म्हणते की ते प्रतिमांसाठी तपशीलवार, संदर्भानुसार संबंधित मथळे व्युत्पन्न करते. हे केवळ वस्तू ओळखू शकत नाही तर कृती, भावना आणि दृश्याचे संपूर्ण वर्णन देखील करू शकते.

Google ने हायलाइट केले की हे साधन रासायनिक सूत्र ओळख, संगीत स्कोअर ओळख, अवकाशीय तर्क आणि छातीचा एक्स-रे अहवाल तयार करण्यासाठी वापरले जाऊ शकते. कंपनीने ए कागद ऑनलाइन प्री-प्रिंट जर्नल arXiv मध्ये.

विकसक आणि AI उत्साही PaliGemma 2 मॉडेल आणि त्याचा कोड Hugging Face आणि Kaggle वर डाउनलोड करू शकतात. येथे आणि येथेएआय मॉडेल हगिंग फेस ट्रान्सफॉर्मर्स, केरास, पायटॉर्च, जेएएक्स आणि Gemma.cpp सारख्या फ्रेमवर्कला समर्थन देते.

Source link

Google ने PaliGemma 2 फॅमिली ऑफ ओपन सोर्स AI व्हिजन-लँग्वेज मॉडेल्स सादर केले

Google ने गुरुवारी त्याच्या PaliGemma कृत्रिम बुद्धिमत्ता (AI) दृष्टी-भाषा मॉडेलचा उत्तराधिकारी सादर केला. PaliGemma 2 डब केलेले, AI मॉडेल्सचे कुटुंब जुन्या पिढीच्या क्षमतेनुसार सुधारते. ...