گوگل دیپ‌مایند از لیرایا ۳ رونمایی کرد: نسل جدید تولید موسیقی هوش مصنوعی در اپ جِمینی

مدل تولید موسیقی قادر است دستورات متنی را به کلیپ‌های صوتی کاملاً تولید شده تبدیل کند.

0 خواندن این مطلب 2 دقیقه زمان میبرد

گوگل دیپ‌مایند روز چهارشنبه از لیرایا ۳، جدیدترین مدل تولید موسیقی مبتنی بر هوش مصنوعی خود رونمایی کرد. به گفته این غول فناوری مستقر در مانتین ویو، مدل جدید در اپلیکیشن جِمینی برای اندروید و iOS ادغام شده و طراحی شده است تا به کاربران کمک کند با استفاده از دستورات متنی ساده، ترک‌های موسیقی با کیفیت بالا تولید کنند، با بهره‌گیری از هوش مصنوعی مولتی‌مدال مولد. لیرایا ۳ به عنوان ابزاری متمرکز بر خالقان محتوا معرفی شده که هدف آن ساده‌سازی تولید موسیقی برای شبکه‌های اجتماعی، ویدئو و داستان‌سرایی دیجیتال است.

گوگل دیپ‌مایند در یک پست وبلاگی توضیح داد که لیرایا ۳ قابلیت‌های جدیدی برای خلق موسیقی درون اپ جِمینی فراهم می‌کند. کاربران می‌توانند با توصیف ژانر، حالت، تمپو یا سازهای مورد نظر، ترک‌های اصلی تا ۳۰ ثانیه تولید کنند. مدل تولید موسیقی دستورات متنی را به کلیپ‌های صوتی کاملاً تولید شده تبدیل می‌کند که شامل لایه‌های سازبندی و خروجی صوتی صیقل یافته است.

در مقایسه با نسخه‌های قبلی، ادعا شده لیرایا ۳ چندین قابلیت بهبود یافته ارائه می‌دهد. ابتدا، قادر است به طور خودکار بر اساس دستور، متن ترانه تولید کند و همچنین کنترل بیشتری بر عناصری مانند سبک، وکال و تمپو فراهم می‌آورد. علاوه بر این، کیفیت صوتی بهبود یافته، سازبندی غنی‌تر و انسجام بهتر در قطعات طولانی‌تر را ارائه می‌دهد.

فراتر از تولید متن به آهنگ، Lyria 3 در Gemini به کاربران اجازه می‌دهد موسیقی‌ای الهام‌گرفته از عکس‌ها و ویدیوها خلق کنند. برای مثال، یک تصویر غروب یا کلیپ کوتاه سفر می‌تواند به عنوان ورودی خلاقانه استفاده شود، و Lyria 3 یک موسیقی متن تولید می‌کند که با لحن و فضای بصری هماهنگ است. هر آهنگ تولید شده همچنین می‌تواند شامل کاور آرت سفارشی تولید شده توسط هوش مصنوعی باشد، که کار بسته‌بندی و اشتراک‌گذاری آثار را برای خالقان آسان‌تر می‌کند.

گوگل همچنین قابلیت‌های Lyria را به YouTube Dream Track گسترش داده است، جایی که کاربران می‌توانند با موسیقی تولید شده توسط هوش مصنوعی برای Shorts و سایر فرمت‌های محتوا آزمایش کنند. Dream Track به خالقان امکان می‌دهد سبک‌ها و تم‌های موسیقی مختلف را با استفاده از فناوری مشابه هوش مصنوعی مولد کاوش کنند.

برای پاسخ به نگرانی‌ها درباره اصالت رسانه‌های تولید شده توسط هوش مصنوعی، گوگل فناوری واترمارک SynthID خود را در خروجی‌های Lyria 3 جاسازی کرده است. این فناوری به طور نامرئی صوت تولید شده را با متادیتایی علامت‌گذاری می‌کند که به شناسایی آن به عنوان محتوای تولید شده توسط هوش مصنوعی برای شفافیت و استفاده مسئولانه کمک می‌کند.

شرکت همچنین اعلام کرده است که این مدل بخشی از تلاش گسترده‌تر آن برای هوش مصنوعی چندوجهی است، جایی که تولید متن، تصویر، صوت و ویدیو در یک پلتفرم واحد همزیستی دارند.

طبق گفته این غول فناوری، Lyria 3 در اپلیکیشن Gemini برای همه کاربران بالای ۱۸ سال به زبان‌های انگلیسی، آلمانی، اسپانیایی، فرانسوی، هندی، ژاپنی، کره‌ای و پرتغالی، هم‌اکنون روی دسکتاپ در دسترس است. عرضه آن در اپلیکیشن Gemini برای اندروید و iOS طی چند روز آینده انجام خواهد شد. مشترکین Google AI Plus، Pro و Ultra می‌توانند از محدودیت‌های بالاتر بهره‌مند شوند.