एलएलएम

Google ने गुरुवारी त्याच्या PaliGemma कृत्रिम बुद्धिमत्ता (AI) दृष्टी-भाषा मॉडेलचा उत्तराधिकारी सादर केला. PaliGemma 2 डब केलेले, AI मॉडेल्सचे कुटुंब जुन्या पिढीच्या क्षमतेनुसार सुधारते. माउंटन व्ह्यू-आधारित टेक जायंटने सांगितले की दृष्टी-भाषा मॉडेल प्रतिमा आणि इतर व्हिज्युअल मालमत्तांसारख्या व्हिज्युअल इनपुट पाहू, समजू आणि संवाद साधू शकते. हे Gemma 2 स्मॉल लँग्वेज मॉडेल (SLM) वापरून तयार केले आहे जे ऑगस्टमध्ये रिलीज झाले होते. विशेष म्हणजे, टेक जायंटने दावा केला आहे की मॉडेल अपलोड केलेल्या प्रतिमांमधील भावनांचे विश्लेषण करू शकते.

Google PaliGemma AI मॉडेल

मध्ये अ ब्लॉग पोस्टटेक जायंटने नवीन PaliGemma 2 AI मॉडेलचे तपशीलवार वर्णन केले आहे. Google कडे अनेक दृष्टी-भाषा मॉडेल्स आहेत, तर पालीगेमा हे जेम्मा कुटुंबातील असे पहिले मॉडेल होते. व्हिजन मॉडेल्स ठराविक मोठ्या भाषा मॉडेल्स (LLM) पेक्षा भिन्न आहेत कारण त्यांच्याकडे अतिरिक्त एन्कोडर आहेत जे दृश्य सामग्रीचे विश्लेषण करू शकतात आणि परिचित डेटा फॉर्ममध्ये रूपांतरित करू शकतात. अशा प्रकारे, दृष्टी मॉडेल तांत्रिकदृष्ट्या बाह्य जगाला “पाहू” आणि समजू शकतात.

लहान व्हिजन मॉडेलचा एक फायदा असा आहे की ते मोठ्या प्रमाणात ऍप्लिकेशन्ससाठी वापरले जाऊ शकते कारण लहान मॉडेल वेग आणि अचूकतेसाठी ऑप्टिमाइझ केले जातात. PaliGemma 2 ओपन-सोर्स्ड असल्याने, डेव्हलपर ॲप्स तयार करण्यासाठी त्याच्या क्षमता वापरू शकतात.

PaliGemma 2 3 अब्ज, 10 अब्ज आणि 28 अब्ज अशा तीन वेगवेगळ्या पॅरामीटर आकारात येतो. हे 224p, 448p, 896p रिझोल्यूशनमध्ये देखील उपलब्ध आहे. यामुळे, टेक जायंटचा दावा आहे की विस्तृत कार्यांसाठी एआय मॉडेलची कार्यक्षमता ऑप्टिमाइझ करणे सोपे आहे. Google म्हणते की ते प्रतिमांसाठी तपशीलवार, संदर्भानुसार संबंधित मथळे व्युत्पन्न करते. हे केवळ वस्तू ओळखू शकत नाही तर कृती, भावना आणि दृश्याचे संपूर्ण वर्णन देखील करू शकते.

Google ने हायलाइट केले की हे साधन रासायनिक सूत्र ओळख, संगीत स्कोअर ओळख, अवकाशीय तर्क आणि छातीचा एक्स-रे अहवाल तयार करण्यासाठी वापरले जाऊ शकते. कंपनीने ए कागद ऑनलाइन प्री-प्रिंट जर्नल arXiv मध्ये.

विकसक आणि AI उत्साही PaliGemma 2 मॉडेल आणि त्याचा कोड Hugging Face आणि Kaggle वर डाउनलोड करू शकतात. येथे आणि येथेएआय मॉडेल हगिंग फेस ट्रान्सफॉर्मर्स, केरास, पायटॉर्च, जेएएक्स आणि Gemma.cpp सारख्या फ्रेमवर्कला समर्थन देते.

Source link

Google ने PaliGemma 2 फॅमिली ऑफ ओपन सोर्स AI व्हिजन-लँग्वेज मॉडेल्स सादर केले

By mind4talk

—

December 7, 2024

Amazon Web Services (AWS) ने मल्टीमॉडल AI मॉडेल्सच्या नोव्हा फॅमिली ची घोषणा केली

By mind4talk

—

December 5, 2024

ऍमेझॉन वेब सर्व्हिसेस (AWS), टेक जायंटचा क्लाउड कंप्युटिंग विभाग, ने मंगळवारी कृत्रिम बुद्धिमत्ता (AI) मॉडेलचे नोव्हा फॅमिली सादर केले. नोव्हा ब्रँडिंग अंतर्गत पाच भिन्न ...

वर्ल्ड लॅब्सने AI प्रणालीचे अनावरण केले जे प्रतिमा वापरून 3D परस्परसंवादी जग निर्माण करू शकते

By mind4talk

—

December 4, 2024

वर्ल्ड लॅब्स, आर्टिफिशियल इंटेलिजन्स (AI) स्टार्टअपने सोमवारी त्यांच्या पहिल्या AI प्रणालीचे अनावरण केले. सध्या अनामित AI प्रणाली इमेज इनपुट वापरून परस्पर 3D जग निर्माण ...

चेमेलियन एआय मॉडेल जे चेहर्यावरील ओळख साधनांपासून प्रतिमा संरक्षित करण्यासाठी डिजिटल मास्क जोडू शकते अनावरण

By mind4talk

—

December 2, 2024

संशोधकांच्या गटाने एक कृत्रिम बुद्धिमत्ता (AI) प्रणाली विकसित केली आहे जी वापरकर्त्यांना वाईट कलाकारांद्वारे अवांछित चेहर्यावरील स्कॅनिंगपासून वाचवू शकते. डब केलेले गिरगिट, एआय मॉडेल ...

मिठी मारणारा चेहरा कार्यक्षमतेवर केंद्रित मुक्त-स्रोत SmolVLM व्हिजन लँग्वेज मॉडेल सादर करतो

By mind4talk

—

December 2, 2024

कृत्रिम बुद्धिमत्ता (AI) आणि मशीन लर्निंग (ML) प्लॅटफॉर्म, Hugging Face ने गेल्या आठवड्यात एक नवीन दृष्टी-केंद्रित AI मॉडेल सादर केले. डब केलेले SmolVLM (जेथे ...

अलिबाबाच्या संशोधकांनी ओपनएआयच्या o1 चे आणखी एक तर्क-केंद्रित प्रतिस्पर्धी म्हणून मार्को-ओ1 एआय मॉडेलचे अनावरण केले

By mind4talk

—

December 2, 2024

अलीबाबाने अलीकडेच मार्को-ओ१ डब केलेले तर्क-केंद्रित कृत्रिम बुद्धिमत्ता (AI) मॉडेल सादर केले. मॉडेल QwQ-32B मोठ्या भाषेच्या मॉडेलसारखे आहे, जे प्रगत तर्क क्षमता आवश्यक असलेल्या ...

Nvidia ने Fugatto AI मॉडेल पदार्पण केले जे संगीत, आवाज आणि ध्वनी प्रभाव निर्माण करू शकते

By mind4talk

—

November 27, 2024

Nvidia ने सोमवारी एक नवीन कृत्रिम बुद्धिमत्ता (AI) मॉडेल सादर केले जे विविध प्रकारचे ऑडिओ तयार करू शकते आणि विविध प्रकारचे आवाज मिक्स करू ...

Lightricks ने रिअल-टाइम व्हिडिओ जनरेशन क्षमतेसह मुक्त-स्रोत LTX व्हिडिओ एआय मॉडेल सादर केले

By mind4talk

—

November 26, 2024

लाइटट्रिक्स, प्रतिमा आणि व्हिडिओ संपादनावर लक्ष केंद्रित करणारी सॉफ्टवेअर कंपनी, गेल्या आठवड्यात पूर्वावलोकनात ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस (AI) व्हिडिओ मॉडेल जारी केले. LTX व्हिडिओ डब ...

एलएलएम

Google PaliGemma AI मॉडेल

Google ने PaliGemma 2 फॅमिली ऑफ ओपन सोर्स AI व्हिजन-लँग्वेज मॉडेल्स सादर केले

Amazon Web Services (AWS) ने मल्टीमॉडल AI मॉडेल्सच्या नोव्हा फॅमिली ची घोषणा केली

वर्ल्ड लॅब्सने AI प्रणालीचे अनावरण केले जे प्रतिमा वापरून 3D परस्परसंवादी जग निर्माण करू शकते

चेमेलियन एआय मॉडेल जे चेहर्यावरील ओळख साधनांपासून प्रतिमा संरक्षित करण्यासाठी डिजिटल मास्क जोडू शकते अनावरण

मिठी मारणारा चेहरा कार्यक्षमतेवर केंद्रित मुक्त-स्रोत SmolVLM व्हिजन लँग्वेज मॉडेल सादर करतो

Nvidia ने Fugatto AI मॉडेल पदार्पण केले जे संगीत, आवाज आणि ध्वनी प्रभाव निर्माण करू शकते

Lightricks ने रिअल-टाइम व्हिडिओ जनरेशन क्षमतेसह मुक्त-स्रोत LTX व्हिडिओ एआय मॉडेल सादर केले

Latest News

अण्णासाहेब पाटील महामंडळ कर्ज योजना 2025 | Annasaheb Patil Loan 2025

मुलांच्या आरोग्यासाठी दररोजच्या आहारात समाविष्ट कराव्यात अशा १० गोष्टी

ऑफिसमध्ये काम करताना आरोग्याची काळजी कशी घ्यावी?

महिलांच्या आरोग्यविषयक सामान्य समस्या व उपाय

रोगप्रतिकारशक्ती वाढवण्यासाठी घरगुती उपाय आणि आहार

प्रत्येक वयोगटासाठी योग्य झोपेचे तास आणि झोप सुधारण्यासाठी उपाय ?

Categories

Quakes Links

Follow Us On