एलएलएम

Google ने गुरुवारी त्याच्या PaliGemma कृत्रिम बुद्धिमत्ता (AI) दृष्टी-भाषा मॉडेलचा उत्तराधिकारी सादर केला. PaliGemma 2 डब केलेले, AI मॉडेल्सचे कुटुंब जुन्या पिढीच्या क्षमतेनुसार सुधारते. माउंटन व्ह्यू-आधारित टेक जायंटने सांगितले की दृष्टी-भाषा मॉडेल प्रतिमा आणि इतर व्हिज्युअल मालमत्तांसारख्या व्हिज्युअल इनपुट पाहू, समजू आणि संवाद साधू शकते. हे Gemma 2 स्मॉल लँग्वेज मॉडेल (SLM) वापरून तयार केले आहे जे ऑगस्टमध्ये रिलीज झाले होते. विशेष म्हणजे, टेक जायंटने दावा केला आहे की मॉडेल अपलोड केलेल्या प्रतिमांमधील भावनांचे विश्लेषण करू शकते.

Google PaliGemma AI मॉडेल

मध्ये अ ब्लॉग पोस्टटेक जायंटने नवीन PaliGemma 2 AI मॉडेलचे तपशीलवार वर्णन केले आहे. Google कडे अनेक दृष्टी-भाषा मॉडेल्स आहेत, तर पालीगेमा हे जेम्मा कुटुंबातील असे पहिले मॉडेल होते. व्हिजन मॉडेल्स ठराविक मोठ्या भाषा मॉडेल्स (LLM) पेक्षा भिन्न आहेत कारण त्यांच्याकडे अतिरिक्त एन्कोडर आहेत जे दृश्य सामग्रीचे विश्लेषण करू शकतात आणि परिचित डेटा फॉर्ममध्ये रूपांतरित करू शकतात. अशा प्रकारे, दृष्टी मॉडेल तांत्रिकदृष्ट्या बाह्य जगाला “पाहू” आणि समजू शकतात.

लहान व्हिजन मॉडेलचा एक फायदा असा आहे की ते मोठ्या प्रमाणात ऍप्लिकेशन्ससाठी वापरले जाऊ शकते कारण लहान मॉडेल वेग आणि अचूकतेसाठी ऑप्टिमाइझ केले जातात. PaliGemma 2 ओपन-सोर्स्ड असल्याने, डेव्हलपर ॲप्स तयार करण्यासाठी त्याच्या क्षमता वापरू शकतात.

PaliGemma 2 3 अब्ज, 10 अब्ज आणि 28 अब्ज अशा तीन वेगवेगळ्या पॅरामीटर आकारात येतो. हे 224p, 448p, 896p रिझोल्यूशनमध्ये देखील उपलब्ध आहे. यामुळे, टेक जायंटचा दावा आहे की विस्तृत कार्यांसाठी एआय मॉडेलची कार्यक्षमता ऑप्टिमाइझ करणे सोपे आहे. Google म्हणते की ते प्रतिमांसाठी तपशीलवार, संदर्भानुसार संबंधित मथळे व्युत्पन्न करते. हे केवळ वस्तू ओळखू शकत नाही तर कृती, भावना आणि दृश्याचे संपूर्ण वर्णन देखील करू शकते.

Google ने हायलाइट केले की हे साधन रासायनिक सूत्र ओळख, संगीत स्कोअर ओळख, अवकाशीय तर्क आणि छातीचा एक्स-रे अहवाल तयार करण्यासाठी वापरले जाऊ शकते. कंपनीने ए कागद ऑनलाइन प्री-प्रिंट जर्नल arXiv मध्ये.

विकसक आणि AI उत्साही PaliGemma 2 मॉडेल आणि त्याचा कोड Hugging Face आणि Kaggle वर डाउनलोड करू शकतात. येथे आणि येथेएआय मॉडेल हगिंग फेस ट्रान्सफॉर्मर्स, केरास, पायटॉर्च, जेएएक्स आणि Gemma.cpp सारख्या फ्रेमवर्कला समर्थन देते.

Source link

Google ने PaliGemma 2 फॅमिली ऑफ ओपन सोर्स AI व्हिजन-लँग्वेज मॉडेल्स सादर केले

Google ने गुरुवारी त्याच्या PaliGemma कृत्रिम बुद्धिमत्ता (AI) दृष्टी-भाषा मॉडेलचा उत्तराधिकारी सादर केला. PaliGemma 2 डब केलेले, AI मॉडेल्सचे कुटुंब जुन्या पिढीच्या क्षमतेनुसार सुधारते. ...

Amazon Web Services (AWS) ने मल्टीमॉडल AI मॉडेल्सच्या नोव्हा फॅमिली ची घोषणा केली

ऍमेझॉन वेब सर्व्हिसेस (AWS), टेक जायंटचा क्लाउड कंप्युटिंग विभाग, ने मंगळवारी कृत्रिम बुद्धिमत्ता (AI) मॉडेलचे नोव्हा फॅमिली सादर केले. नोव्हा ब्रँडिंग अंतर्गत पाच भिन्न ...

वर्ल्ड लॅब्सने AI प्रणालीचे अनावरण केले जे प्रतिमा वापरून 3D परस्परसंवादी जग निर्माण करू शकते

वर्ल्ड लॅब्स, आर्टिफिशियल इंटेलिजन्स (AI) स्टार्टअपने सोमवारी त्यांच्या पहिल्या AI प्रणालीचे अनावरण केले. सध्या अनामित AI प्रणाली इमेज इनपुट वापरून परस्पर 3D जग निर्माण ...

चेमेलियन एआय मॉडेल जे चेहर्यावरील ओळख साधनांपासून प्रतिमा संरक्षित करण्यासाठी डिजिटल मास्क जोडू शकते अनावरण

संशोधकांच्या गटाने एक कृत्रिम बुद्धिमत्ता (AI) प्रणाली विकसित केली आहे जी वापरकर्त्यांना वाईट कलाकारांद्वारे अवांछित चेहर्यावरील स्कॅनिंगपासून वाचवू शकते. डब केलेले गिरगिट, एआय मॉडेल ...

मिठी मारणारा चेहरा कार्यक्षमतेवर केंद्रित मुक्त-स्रोत SmolVLM व्हिजन लँग्वेज मॉडेल सादर करतो

कृत्रिम बुद्धिमत्ता (AI) आणि मशीन लर्निंग (ML) प्लॅटफॉर्म, Hugging Face ने गेल्या आठवड्यात एक नवीन दृष्टी-केंद्रित AI मॉडेल सादर केले. डब केलेले SmolVLM (जेथे ...

अलिबाबाच्या संशोधकांनी ओपनएआयच्या o1 चे आणखी एक तर्क-केंद्रित प्रतिस्पर्धी म्हणून मार्को-ओ1 एआय मॉडेलचे अनावरण केले

अलीबाबाने अलीकडेच मार्को-ओ१ डब केलेले तर्क-केंद्रित कृत्रिम बुद्धिमत्ता (AI) मॉडेल सादर केले. मॉडेल QwQ-32B मोठ्या भाषेच्या मॉडेलसारखे आहे, जे प्रगत तर्क क्षमता आवश्यक असलेल्या ...

Nvidia ने Fugatto AI मॉडेल पदार्पण केले जे संगीत, आवाज आणि ध्वनी प्रभाव निर्माण करू शकते

Nvidia ने सोमवारी एक नवीन कृत्रिम बुद्धिमत्ता (AI) मॉडेल सादर केले जे विविध प्रकारचे ऑडिओ तयार करू शकते आणि विविध प्रकारचे आवाज मिक्स करू ...

Lightricks ने रिअल-टाइम व्हिडिओ जनरेशन क्षमतेसह मुक्त-स्रोत LTX व्हिडिओ एआय मॉडेल सादर केले

लाइटट्रिक्स, प्रतिमा आणि व्हिडिओ संपादनावर लक्ष केंद्रित करणारी सॉफ्टवेअर कंपनी, गेल्या आठवड्यात पूर्वावलोकनात ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस (AI) व्हिडिओ मॉडेल जारी केले. LTX व्हिडिओ डब ...