अलीबाबाने गुरुवारी एक नवीन कृत्रिम बुद्धिमत्ता (AI) मॉडेल जारी केले, जे तर्क क्षमतामध्ये OpenAI च्या GPT-o1 मालिकेतील मॉडेलला टक्कर देईल असे म्हटले जाते. प्रिव्ह्यूमध्ये लॉन्च केलेले, QwQ-32B लार्ज लँग्वेज मॉडेल (LLM) अनेक गणिती आणि तार्किक तर्क-संबंधित बेंचमार्क्समध्ये GPT-o1-पूर्वावलोकनला मागे टाकते. नवीन एआय मॉडेल हगिंग फेसवर डाउनलोड करण्यासाठी उपलब्ध आहे, तथापि ते पूर्णपणे मुक्त स्रोत नाही. अलीकडे, दुसऱ्या चिनी AI फर्मने एक ओपन-सोर्स AI मॉडेल DeepSeek-R1 जारी केले, ज्याचा दावा ChatGPT-निर्मात्याच्या तर्क-केंद्रित पाया मॉडेलला टक्कर देण्याचा दावा करण्यात आला.
अलीबाबा QwQ-32B AI मॉडेल
मध्ये अ ब्लॉग पोस्टअलीबाबाने त्याच्या नवीन तर्क-केंद्रित एलएलएमचे तपशीलवार वर्णन केले आणि त्याच्या क्षमता आणि मर्यादा हायलाइट केल्या. QwQ-32B सध्या पूर्वावलोकन म्हणून उपलब्ध आहे. नावाप्रमाणेच, हे 32 अब्ज पॅरामीटर्सवर तयार केले गेले आहे आणि 32,000 टोकन्सची संदर्भ विंडो आहे. मॉडेलने प्रशिक्षणपूर्व आणि प्रशिक्षणानंतरचे दोन्ही टप्पे पूर्ण केले आहेत.
त्याच्या आर्किटेक्चरकडे येत असताना, चिनी टेक जायंटने उघड केले की एआय मॉडेल ट्रान्सफॉर्मर तंत्रज्ञानावर आधारित आहे. पोझिशनल एन्कोडिंगसाठी, QwQ-32B रोटरी पोझिशन एम्बेडिंग्ज (RoPE), स्विच्ड गेटेड लिनियर युनिट (SwiGLU) आणि रूट मीन स्क्वेअर नॉर्मलायझेशन (RMSNorm) फंक्शन्स, तसेच अटेन्शन क्वेरी-की-व्हॅल्यू बायस (लक्ष QKV) वापरते.
OpenAI GPT-o1 प्रमाणेच, AI मॉडेल वापरकर्त्याच्या क्वेरीचे मूल्यांकन करताना आणि योग्य प्रतिसाद शोधण्याचा प्रयत्न करताना त्याचे अंतर्गत एकपात्री शब्द दाखवते. ही अंतर्गत विचार प्रक्रिया QwQ-32B विविध सिद्धांतांची चाचणी घेऊ देते आणि अंतिम उत्तर सादर करण्यापूर्वी स्वतःची वस्तुस्थिती तपासू देते. अलिबाबाचा दावा आहे की LLM ने MATH-500 बेंचमार्कमध्ये 90.6 टक्के आणि AI मॅथेमॅटिकल इव्हॅल्युएशन (AIME) बेंचमार्कमध्ये 50 टक्के गुण मिळवले आहेत आणि OpenAI च्या तर्क-केंद्रित मॉडेल्सला मागे टाकले आहे.
विशेष म्हणजे, चांगल्या तर्कशक्तीसह AI मॉडेल्स अधिक बुद्धिमान किंवा सक्षम बनल्याचा पुरावा नाहीत. हा फक्त एक नवीन दृष्टीकोन आहे, ज्याला टेस्ट-टाइम कंप्युट देखील म्हणतात, जे मॉडेलला कार्य पूर्ण करण्यासाठी अतिरिक्त प्रक्रिया वेळ घालवू देते. परिणामी, AI अधिक अचूक प्रतिसाद देऊ शकते आणि अधिक जटिल प्रश्न सोडवू शकते. अनेक इंडस्ट्री दिग्गजांनी निदर्शनास आणून दिले आहे की नवीन LLM त्यांच्या जुन्या आवृत्त्यांप्रमाणेच सुधारत नाहीत, असे सुचविते की विद्यमान आर्किटेक्चर संपृक्ततेच्या बिंदूवर पोहोचत आहेत.
QwQ-32B प्रश्नांवर अतिरिक्त प्रक्रिया वेळ घालवते म्हणून, त्याला अनेक मर्यादा देखील आहेत. अलीबाबाने सांगितले की AI मॉडेल काहीवेळा भाषांचे मिश्रण करू शकते किंवा त्यांच्यामध्ये स्विच करू शकते ज्यामुळे भाषा-मिश्रण आणि कोड-स्विचिंग सारख्या समस्या उद्भवतात. हे तर्काच्या लूपमध्ये देखील प्रवेश करते आणि गणित आणि तर्क कौशल्यांव्यतिरिक्त, इतर क्षेत्रांमध्ये अजूनही सुधारणा आवश्यक आहेत.
उल्लेखनीय म्हणजे, अलीबाबाने एआय मॉडेल हगिंग फेसद्वारे उपलब्ध करून दिले आहे सूची आणि व्यक्ती आणि उपक्रम दोन्ही वैयक्तिक, शैक्षणिक आणि व्यावसायिक हेतूंसाठी Apache 2.0 परवान्याअंतर्गत डाउनलोड करू शकतात. तथापि, कंपनीने मॉडेलचे वजन आणि डेटा उपलब्ध करून दिलेला नाही, याचा अर्थ वापरकर्ते मॉडेलची प्रतिकृती बनवू शकत नाहीत किंवा आर्किटेक्चर कसे कार्य करते हे समजू शकत नाही.









