Nvidia ने सोमवारी एक नवीन कृत्रिम बुद्धिमत्ता (AI) मॉडेल सादर केले जे विविध प्रकारचे ऑडिओ तयार करू शकते आणि विविध प्रकारचे आवाज मिक्स करू शकते. टेक जायंट फाउंडेशन मॉडेलला फुगाट्टो म्हणतो, जे फाउंडेशनल जनरेटिव्ह ऑडिओ ट्रान्सफॉर्मर ओपस 1 साठी लहान आहे. बीटोव्हन आणि सुनो सारखे ऑडिओ-केंद्रित AI प्लॅटफॉर्म अस्तित्वात असताना, कंपनीने ठळक केले की फुगाटो वापरकर्त्यांना इच्छित आउटपुटवर बारीक नियंत्रण प्रदान करते. AI मॉडेल विशिष्ट प्रॉम्प्टच्या आधारे संगीत, आवाज आणि ध्वनीचे कोणतेही मिश्रण तयार किंवा बदलू शकते.
Nvidia ने AI ऑडिओ मॉडेल Fugatto सादर केले आहे
मध्ये अ ब्लॉग पोस्टटेक जायंटने त्याचे नवीन लार्ज लँग्वेज मॉडेल (LLM) तपशीलवार सांगितले. Nvidia ने सांगितले की Fugatto म्युझिक स्निपेट्स व्युत्पन्न करू शकतो, विद्यमान गाण्यातील वाद्ये काढू किंवा जोडू शकतो, आवाजात उच्चारण किंवा भावना बदलू शकतो आणि “लोकांना यापूर्वी कधीही ऐकलेले आवाज देखील तयार करू देऊ शकतात.”
एआय मॉडेल इनपुट म्हणून मजकूर आणि ऑडिओ फायली दोन्ही स्वीकारते आणि वापरकर्ते त्यांच्या विनंत्या चांगल्या-ट्यून करण्यासाठी दोन्ही एकत्र करू शकतात. हुड अंतर्गत, फाउंडेशन मॉडेलचे आर्किटेक्चर स्पीच मॉडेलिंग, ऑडिओ व्होकोडिंग आणि ऑडिओ समजण्याच्या कंपनीच्या मागील कामावर आधारित आहे. त्याची पूर्ण आवृत्ती 2.5 बिलियन पॅरामीटर्स वापरते आणि Nvidia DGX सिस्टमच्या डेटासेटवर प्रशिक्षित होते.
Nvidia ने ठळकपणे ठळक केले की फुगाटो बनवणाऱ्या संघाने ब्राझील, चीन, भारत, जॉर्डन आणि दक्षिण कोरिया यासह जागतिक स्तरावर विविध देशांमधून सहकार्य केले. एआय मॉडेलच्या बहु-उच्चार आणि बहुभाषिक क्षमता विकसित करण्यात विविध वंशातील लोकांच्या सहकार्यानेही योगदान दिले आहे, असे कंपनीने म्हटले आहे.
AI ऑडिओ मॉडेलच्या क्षमतांकडे येत असताना, टेक जायंटने ठळकपणे सांगितले की त्यात ऑडिओ आउटपुट प्रकार व्युत्पन्न करण्याची क्षमता आहे ज्यावर ते पूर्व-प्रशिक्षित नव्हते. उदाहरणावर प्रकाश टाकताना, Nvidia म्हणाली, “फुगाटो ट्रम्पेट बार्क किंवा सॅक्सोफोन म्याऊ बनवू शकतो. वापरकर्ते जे काही वर्णन करू शकतात ते मॉडेल तयार करू शकतात.
याव्यतिरिक्त, Fugatto ComposableART नावाच्या तंत्राचा वापर करून विशिष्ट ऑडिओ क्षमता एकत्र करू शकतो. यासह, वापरकर्ते एआय मॉडेलला दु:खी भावनेने फ्रेंच बोलणाऱ्या व्यक्तीचा ऑडिओ तयार करण्यास सांगू शकतात. वापरकर्ते विशिष्ट सूचनांसह दु: ख आणि उच्चाराचा जडपणा नियंत्रित करू शकतात.
पुढे, फाउंडेशन मॉडेल टेम्पोरल इंटरपोलेशनसह ऑडिओ किंवा कालांतराने बदलणारे आवाज देखील तयार करू शकते. उदाहरणार्थ, वापरकर्ते गडगडाटासह पावसाच्या वादळाचा आवाज व्युत्पन्न करू शकतात जे अंतरावर कमी होतात. या साउंडस्केप्सवरही प्रयोग केले जाऊ शकतात आणि मॉडेलने यापूर्वी कधीही प्रक्रिया न केलेला ध्वनी असला तरीही तो ते तयार करू शकतो.
सध्या, कंपनीने एआय मॉडेल वापरकर्त्यांना किंवा उपक्रमांना उपलब्ध करून देण्याची कोणतीही योजना शेअर केलेली नाही.