मिठी मारणारा चेहरा कार्यक्षमतेवर केंद्रित मुक्त-स्रोत SmolVLM व्हिजन लँग्वेज मॉडेल सादर करतो

कृत्रिम बुद्धिमत्ता (AI) आणि मशीन लर्निंग (ML) प्लॅटफॉर्म, Hugging Face ने गेल्या आठवड्यात एक नवीन दृष्टी-केंद्रित AI मॉडेल सादर केले. डब केलेले SmolVLM (जेथे VLM हे व्हिजन लँग्वेज मॉडेलचे संक्षिप्त रूप आहे), हे कॉम्पॅक्ट-आकाराचे मॉडेल आहे जे कार्यक्षमतेवर केंद्रित आहे. कंपनीचा दावा आहे की त्याच्या लहान आकारामुळे आणि उच्च कार्यक्षमतेमुळे, हे एंटरप्राइजेस आणि AI उत्साही लोकांसाठी उपयुक्त ठरू शकते ज्यांना त्याच्या पायाभूत सुविधांमध्ये जास्त गुंतवणूक न करता AI क्षमता हवी आहे. हगिंग फेसने वैयक्तिक आणि व्यावसायिक वापरासाठी Apache 2.0 लायसन्स अंतर्गत SmolVLM व्हिजन मॉडेल देखील ओपन-सोर्स केले आहे.

मिठी मारणारा चेहरा SmolVLM सादर करतो

मध्ये अ ब्लॉग पोस्टहगिंग फेसने नवीन ओपन-सोर्स व्हिजन मॉडेलचे तपशीलवार वर्णन केले. कंपनीने AI मॉडेलला त्याच्या स्मरणशक्तीच्या कार्यक्षम वापरासाठी आणि जलद अनुमानासाठी “अत्याधुनिक” म्हटले आहे. छोट्या व्हिजन मॉडेलची उपयुक्तता अधोरेखित करून, कंपनीने AI फर्म्सच्या मॉडेल्सना अधिक कार्यक्षम आणि किफायतशीर बनवण्याचा अलीकडील ट्रेंड लक्षात घेतला.

मिठी मारणे चेहरा svm इकोसिस्टम लहान दृष्टी मॉडेल इकोसिस्टम

लहान दृष्टी मॉडेल इकोसिस्टम
फोटो क्रेडिट: मिठी मारणारा चेहरा

SmolVLM कुटुंबात तीन AI मॉडेल प्रकार आहेत, प्रत्येकामध्ये दोन अब्ज पॅरामीटर्स आहेत. प्रथम SmolVLM-Base आहे, जे मानक मॉडेल आहे. या व्यतिरिक्त, SmolVLM-Synthetic हे सिंथेटिक डेटावर प्रशिक्षित केलेले फाइन-ट्यून केलेले प्रकार आहे (एआय किंवा संगणकाद्वारे व्युत्पन्न केलेला डेटा), आणि SmolVLM इंस्ट्रक्ट हा सूचना प्रकार आहे जो अंतिम-वापरकर्ता-केंद्रित अनुप्रयोग तयार करण्यासाठी वापरला जाऊ शकतो.

तांत्रिक तपशीलांकडे येत असताना, व्हिजन मॉडेल फक्त 5.02GB GPU RAM सह ऑपरेट करू शकते, जे Qwen2-VL 2B च्या 13.7GB GPU रॅम आणि InternVL2 2B च्या 10.52GB GPU RAM च्या आवश्यकतेपेक्षा लक्षणीयरीत्या कमी आहे. यामुळे, हगिंग फेसचा दावा आहे की AI मॉडेल लॅपटॉपवर ऑन-डिव्हाइस चालू शकते.

SmolVLM कोणत्याही क्रमाने मजकूर आणि प्रतिमांचा क्रम स्वीकारू शकते आणि वापरकर्त्याच्या प्रश्नांना प्रतिसाद देण्यासाठी त्यांचे विश्लेषण करू शकते. हे 81 व्हिज्युअल डेटा टोकनमध्ये 384 x 384p रिझोल्यूशन इमेज पॅच एन्कोड करते. कंपनीने दावा केला आहे की Qwen2-VL ला आवश्यक असलेल्या 16,000 टोकनच्या विरोधात हे AI ला चाचणी प्रॉम्प्ट्स आणि 1,200 टोकन्समध्ये एकल प्रतिमा एन्कोड करण्यास सक्षम करते.

या वैशिष्ट्यांसह, हगिंग फेस ठळकपणे दाखवते की SmolVLM लहान उद्योग आणि AI उत्साही द्वारे सहजपणे वापरता येऊ शकते आणि मोठ्या अपग्रेडची आवश्यकता असलेल्या टेक स्टॅकशिवाय स्थानिकीकृत प्रणालींवर तैनात केले जाऊ शकते. एंटरप्रायझेस महत्त्वपूर्ण खर्च न करता मजकूर आणि प्रतिमा-आधारित अनुमानांसाठी AI मॉडेल देखील चालवण्यास सक्षम असतील.

नवीनतम तंत्रज्ञान बातम्या आणि पुनरावलोकनांसाठी, गॅझेट्स 360 वर फॉलो करा एक्स, फेसबुक, WhatsApp, धागे आणि Google बातम्यागॅझेट्स आणि तंत्रज्ञानावरील नवीनतम व्हिडिओंसाठी, आमचे सदस्यता घ्या YouTube चॅनेलतुम्हाला शीर्ष प्रभावकारांबद्दल सर्वकाही जाणून घ्यायचे असल्यास, आमच्या इन-हाउसचे अनुसरण करा कोण आहे 360 वर इंस्टाग्राम आणि YouTube,

Vivo X200, Vivo X200 Pro डिसेंबरच्या दुसऱ्या आठवड्यात भारतात अधिकृतपणे जाण्यासाठी सूचित केले आहे; विक्रीची तारीख लीक झाली



Source link

Join WhatsApp

Join Now

Leave a Comment