एनविडिया के शोधकर्ताओं ने एक नया आर्टिफिशियल इंटेलिजेंस (AI) ऑडियो जनरेटर ‘फुगाट्टो’ विकसित किया है, जिसके बारे में दावा किया गया है कि यह ऐसे साउंड्स बना सकता है, जो पहले कभी नहीं सुने गए।
फुगाट्टो (Foundational Generative Audio Transformer Opus 1) को “साउंड्स की स्विस आर्मी नाइफ” के रूप में तैयार किया गया है। एनविडिया ने 25 नवंबर 2024 को एक ब्लॉग पोस्ट में लिखा कि यह उपयोगकर्ताओं को साधारण टेक्स्ट प्रॉम्प्ट के माध्यम से ऑडियो एडिट या जनरेट करने की सुविधा देता है।
उदाहरण के लिए, यूजर्स किसी गाने से एक खास इंस्ट्रूमेंट हटाने, किसी की आवाज का एक्सेंट बदलने आदि के लिए निर्देश दे सकते हैं।
एनविडिया के एप्लाइड ऑडियो रिसर्च मैनेजर और फुगाट्टो के डेवलपर्स में से एक राफेल वैले ने कहा,
“हम एक ऐसा मॉडल बनाना चाहते थे, जो इंसानों की तरह साउंड्स को समझ सके और जनरेट कर सके।”
फुगाट्टो के उपयोग की संभावनाएं
फुगाट्टो का उपयोग कई क्षेत्रों में किया जा सकता है:
- विज्ञापन एजेंसियां अलग-अलग क्षेत्रों के लिए विभिन्न एक्सेंट और इमोशंस के साथ वॉयसओवर बना सकती हैं।
- ऑनलाइन कोर्स किसी परिवार के सदस्य या दोस्त की आवाज में तैयार किए जा सकते हैं।
- वीडियो गेम्स में तुरंत नए ऑडियो एसेट्स बनाए जा सकते हैं।
यहां तक कि फुगाट्टो से सैक्सोफोन की आवाज में ‘म्याऊं’ या ट्रम्पेट की आवाज में ‘भौंकने’ की ध्वनियां भी तैयार की जा सकती हैं। इसका दायरा यूजर की कल्पना पर निर्भर करता है।
अप्रत्याशित क्षमताएं
शोधकर्ताओं ने पाया कि फुगाट्टो ऐसे काम भी कर सकता है, जिनके लिए इसे प्रशिक्षित नहीं किया गया था। उदाहरण के लिए, एक टेक्स्ट प्रॉम्प्ट से यह हाई-क्वालिटी सिंगिंग वॉयस भी जनरेट कर सकता है।
यह ComposableART नामक तकनीक का उपयोग करता है, जो कई निर्देशों को जोड़ने की सुविधा देता है। जैसे, एक टेक्स्ट को फ्रेंच एक्सेंट में और उदास भावनाओं के साथ बोलने का निर्देश दिया जा सकता है।
टेम्पोरल इंटरपोलेशन की मदद से यह समय के साथ बदलते साउंड्स भी बना सकता है। उदाहरण के तौर पर, यह एक बारिश के तूफान की आवाजें बना सकता है, जिसमें धीरे-धीरे तेज़ गर्जन और फिर धीमी होती गड़गड़ाहट शामिल हो।
विविधता और प्रशिक्षण
फुगाट्टो एक विविध टीम द्वारा विकसित किया गया है, जिसमें भारत, ब्राज़ील, चीन, जॉर्डन और दक्षिण कोरिया के लोग शामिल हैं। एनविडिया का दावा है कि इस विविधता ने फुगाट्टो की मल्टी-एक्सेंट और बहुभाषी क्षमताओं को और मजबूत किया है।
इस टूल के पूर्ण संस्करण को 2.5 अरब पैरामीटर्स के साथ तैयार किया गया है और इसे NVIDIA DGX सिस्टम्स पर 32 NVIDIA H100 टेंसर कोर जीपीयू के साथ ट्रेन किया गया है।
एआई का खतरा और संभावित मुद्दे
हालांकि, इसके कुछ नकारात्मक पहलू भी हैं। एआई के बढ़ते उपयोग से नौकरियों पर संकट और कॉपीराइट उल्लंघन की चिंताएं उठ रही हैं।
- ऑस्ट्रेलियन वॉयस एक्टर्स एसोसिएशन ने चेतावनी दी है कि लगभग 5,000 स्थानीय वॉयस एक्टर्स की नौकरियां एआई से खतरे में हैं।
- म्यूजिक इंडस्ट्री भी जनरेटिव एआई के कॉपीराइट उल्लंघन को लेकर चिंतित है। हाल ही में, Recording Industry Association of America ने एआई टूल्स के खिलाफ मुकदमा दर्ज किया है।
रचनात्मक सहयोग का अवसर
हालांकि, इस तकनीक का सकारात्मक पक्ष भी है। कलाकार इसे अपनी रचनाओं में सहायक उपकरण के रूप में उपयोग कर सकते हैं।
वन टेक ऑडियो के सह-संस्थापक और मल्टी-प्लेटिनम निर्माता इदो ज़मिशलानी ने कहा,
“साउंड मेरी प्रेरणा है। यह मुझे म्यूजिक बनाने के लिए प्रेरित करता है। यह विचार कि मैं स्टूडियो में तुरंत नए साउंड्स बना सकता हूं, अविश्वसनीय है।”
निष्कर्ष:
फुगाट्टो जैसी एआई तकनीकें साउंड जनरेशन के क्षेत्र में नए आयाम खोल सकती हैं। हालांकि, इसके साथ आने वाली चुनौतियों का समाधान ढूंढना भी जरूरी है।