تمامی صنایع کم و بیش خطر عدم توانائی رقابت با هوش مصنوعی را از هماکنون میتوانند حس کنند، از رستورانهای فستفود تا مهندسی نرمافزار.
شاید تا اکنون به این نتیجه رسیده باشید که ما به سمت یک واقعیت باشکوه و شبیه اسکاینت میرویم که در آن هوش مصنوعی به طرز خطرناکی به ذیشعور بودن نزدیک شده است. ما هنوز به آن مقطع نرسیدهایم، اما همه چیز با شتاب در حال تغییر است؛ و تمامی صنایع کم و بیش خطر عدم توانائی رقابت با هوش مصنوعی را از هماکنون میتوانند حس کنند، از رستورانهای فستفود تا مهندسی نرمافزار.
اکنون گوگل به ما نشان میدهد که هوش مصنوعی چقدر میتواند در ساخت موسیقی هوشمند باشد. گروهی از محققان این غول فناوری یک ابزار هوش مصنوعی به نام MusicLM را معرفی کردهاند، که میتواند بر اساس متن آموزشی موسیقی بسازد. البته در گذشته نیز دیگران چنین قابلیتی ارائه کرده بودند، اما به نظر میرسد MusicLM نشان دهنده یک جهش کوانتومی در قابلیتهایی است که این نوع سیستمها میتوانند داشته باشند.
موزیکالام چگونه کار میکند؟
MusicLM یک مدل یادگیری ماشینی است که میتواند متن توصیفی را با هزاران صدا مطابقت دهد. کاربران میتوانند هوش مصنوعی را برای ایجاد آهنگهایی با طولهای مختلف با پارامترهایی که نوع ضرباهنگ، ریتم و تأثیرات فرهنگی مورد نظرشان را توصیف میکنند بسازند، چه این موسیقی متن فیلم 8 بیتی آمادهسازیشده برای گیم باشد و چه یک سرود رگیتون (محلی آمریکایی جنوبی). حتی میتوانید به آن دستور دهید تا اشعار را به ضرباهنگ اضافه کند، اگرچه اگر بخواهیم بر اساس نمونههایی که خود گوگل منتشر کرده است قضاوت کنیم به نظر میرسد که کم و بیش حرفهای شکسته و نامفهومی تولید میکند (البته حرفهای نامفهوم بسیار آهنگین).
همچنین کاربر میتواند آهنگی را به صورت زمزمه یا سوت به آن ورودی دهد و از آن به صورت یک ملودی دقیق خروجی بگیرد. این هوش مصنوعی همچنین میتواند همه اینها را به صورت متوالی تولید کند و به کاربران این امکان را میدهد تا آهنگهای کاملی را بسازند که میتواند ضرباهنگ آنها در بخشهای مختلف پایین و بالا برود. این ابزار همه این متغیرها را میگیرد و بهطور یکپارچه یک ترکیب صوتی کامل با فرکانس ۲۴ کیلوهرتز، از ۱۵ ثانیه تا ۵ دقیقه، تولید میکند.
در یک وایتپیپر که جزئیات تحقیقات این پروژه را مورد بررسی قرار داده آمده است که MusicLM بر پایه ابزار AudioLM ساخته شده است، که میتواند یک قطعه موسیقی را بشنود و سعی کند آن را شبیهسازی کند. با این حال، اعضای این پروژه توضیح میدهند که پیادهسازی یک راهحل متنمحور، کاری بسیار پیچیدهتر است، زیرا آموزش دقیق مدل درباره پیچیدگیهای صداها از طریق تعاریف روزمره انسانی بسیار دشوارتر است. بهعلاوه، این ابزار کتابخانهای از نمونههای بسیار زیاد برای کار با سایر الگوریتمهای یادگیری ماشینی مبتنی بر تصویر را نداشته است، اگرچه به نظر میرسد که MusicLM بر این خلاء تا حدود قابل توجهی غلبه کرده است.
منبع: اسلشگیر