۰۵ آذر ۱۴۰۳
به روز شده در: ۰۵ آذر ۱۴۰۳ - ۱۹:۰۱
فیلم بیشتر »»
کد ۸۷۸۴۵۸
انتشار: ۱۳:۲۰ - ۲۴-۱۱-۱۴۰۱

هوش مصنوعی جدید گوگل می تواند هر نوع موسیقی را از روی متن تولید کند

هوش مصنوعی جدید گوگل می تواند هر نوع موسیقی را از روی متن تولید کند
MusicLM یک مدل یادگیری ماشینی است که می‌تواند متن توصیفی را با هزاران صدا مطابقت دهد.

تمامی صنایع کم و بیش خطر عدم توانائی رقابت با هوش مصنوعی را از هم‌اکنون می‌توانند حس کنند، از رستوران‌های فست‌فود تا مهندسی نرم‌افزار.

شاید تا اکنون به این نتیجه رسیده باشید که ما به سمت یک واقعیت باشکوه و شبیه اسکای‌نت می‌رویم که در آن هوش مصنوعی به طرز خطرناکی به ذی‌شعور بودن نزدیک شده است. ما هنوز به آن مقطع نرسیده‌ایم، اما همه چیز با شتاب در حال تغییر است؛ و تمامی صنایع کم و بیش خطر عدم توانائی رقابت با هوش مصنوعی را از هم‌اکنون می‌توانند حس کنند، از رستوران‌های فست‌فود تا مهندسی نرم‌افزار.
 
اکنون گوگل به ما نشان می‌دهد که هوش مصنوعی چقدر می‌تواند در ساخت موسیقی هوشمند باشد. گروهی از محققان این غول فناوری یک ابزار هوش مصنوعی به نام MusicLM را معرفی کرده‌اند، که می‌تواند بر اساس متن آموزشی موسیقی بسازد. البته در گذشته نیز دیگران چنین قابلیتی ارائه کرده بودند، اما به نظر می‌رسد MusicLM نشان دهنده یک جهش کوانتومی در قابلیت‌هایی است که این نوع سیستم‌ها می‌توانند داشته باشند.
 
موزیک‌ال‌ام چگونه کار می‌کند؟
 
MusicLM یک مدل یادگیری ماشینی است که می‌تواند متن توصیفی را با هزاران صدا مطابقت دهد. کاربران می‌توانند هوش مصنوعی را برای ایجاد آهنگ‌هایی با طول‌های مختلف با پارامترهایی که نوع ضرباهنگ، ریتم و تأثیرات فرهنگی مورد نظرشان را توصیف می‌کنند بسازند، چه این موسیقی متن فیلم 8 بیتی آماده‌سازی‌شده برای گیم باشد و چه یک سرود رگیتون (محلی آمریکایی جنوبی). حتی می‌توانید به آن دستور دهید تا اشعار را به ضرباهنگ اضافه کند، اگرچه اگر بخواهیم بر اساس نمونه‌هایی که خود گوگل منتشر کرده است قضاوت کنیم به نظر می‌رسد که کم و بیش حرف‌های شکسته و نامفهومی تولید می‌کند (البته حرف‌های نامفهوم بسیار آهنگین).

همچنین کاربر می‌تواند آهنگی را به صورت زمزمه یا سوت به آن ورودی دهد و از آن به صورت یک ملودی دقیق خروجی بگیرد. این هوش مصنوعی همچنین می‌تواند همه اینها را به صورت متوالی تولید کند و به کاربران این امکان را می‌دهد تا آهنگ‌های کاملی را بسازند که می‌تواند ضرباهنگ آنها در بخش‌های مختلف پایین و بالا برود. این ابزار همه این متغیرها را می‌گیرد و به‌طور یکپارچه یک ترکیب صوتی کامل با فرکانس ۲۴ کیلوهرتز، از ۱۵ ثانیه تا ۵ دقیقه، تولید می‌کند.
 
در یک وایت‌پیپر که جزئیات تحقیقات این پروژه را مورد بررسی قرار داده آمده است که MusicLM بر پایه ابزار AudioLM ساخته شده است، که می‌تواند یک قطعه موسیقی را بشنود و سعی کند آن را شبیه‌سازی کند. با این حال، اعضای این پروژه توضیح می‌دهند که پیاده‌سازی یک راه‌حل متن‌محور، کاری بسیار پیچیده‌تر است، زیرا آموزش دقیق مدل درباره پیچیدگی‌های صداها از طریق تعاریف روزمره انسانی بسیار دشوارتر است. به‌علاوه، این ابزار کتابخانه‌ای از نمونه‌های بسیار زیاد برای کار با سایر الگوریتم‌های یادگیری ماشینی مبتنی بر تصویر را نداشته است، اگرچه به نظر می‌رسد که MusicLM بر این خلاء تا حدود قابل توجهی غلبه کرده است.

منبع: اسلش‌گیر

ارسال به دوستان