هوش مصنوعی MM1 اپل معرفی شد؛ ادغام متن با اطلاعات بصری

مدل هوش مصنوعی اپل می‌تواند با ادغام اطلاعات متنی و تصویری، عکس‌ها را بفهمد و به درخواست کاربر در مورد آن‌ها پاسخ دهد.

محققان اپل روش جدیدی برای آموزش مدل‌های زبانی بزرگ (LLM) توسعه داده‌اند که به‌طور پیوسته اطلاعات متنی و بصری را ادغام می‌کند و قادر است تصاویر را با دقت بالایی توصیف کند.

به گزارش زومیت، یافته‌های اپل که در مقاله‌ای با عنوان «MM1: روش‌ها، تحلیل‌ و بینش‌ها از پیش‌آموزش LLM چند وجهی» توضیح داده شده است، رویکرد جدیدی برای ایجاد سیستم‌های هوش مصنوعی هوشمندتر و انعطاف‌پذیرتر را نشان می‌دهد.

کانال عصر ایران در تلگرام

نویسندگان مقاله ادعا می‌کنند که با استفاده از مجموعه‌داده‌های متن-تصویر شامل ترکیب عکس و توضیح مربوط به آن و داده‌های متنی تنها برای تعلیم مدل MM1، استاندارد بهتری برای توانایی هوش مصنوعی در انجام وظایفی مانند شرح تصاویر، پاسخگویی به سؤالات بصری و استنباط زبان طبیعی با سطح دقت بالاتر را ایجاد کرده‌اند.

تحقیقات اپل بر ترکیب انواع مختلف داده‌های آموزشی و معماری‌های مدل تمرکز دارد که به هوش مصنوعی امکان می‌دهند زبان طبیعی را بر اساس ادغام نشانه‌های تصویری و زبانی درک و تولید کند. این قابلیت برای انجام وظایفی که نیازمند فهم عمیق‌تری از جهان هستند (مانند تفسیر عکس‌های پیچیده یا پاسخگویی به سؤالاتی که عناصر بصری در آن‌ها دخیل‌اند) حیاتی است.

مقاله‌ی اپل قابلیت‌های استثنایی یادگیری درون‌متنی MM1 را به‌ویژه در پیکربندی ۳۰ میلیارد پارامتری مدل‌های چند وجهی نشان می‌دهد. به‌نظر می‌رسد این مدل توانایی‌های قابل توجهی برای استدلال چندمرحله‌ای روی تصاویر چندگانه دارد.

تحقیق مورد بحث، در راستای بخشی از ابتکار خالق مک بوک برای بهبود توانایی‌های هوش مصنوعی خود در مواجهه با رقبا انجام شده است. امسال شاهد رونمایی از ابزار Galaxy AI برای مدل‌های مختلف گوشی سامسونگ مانند گلکسی S24 اولترا بودیم و حالا اپل احساس خطر می‌کند.

مارک گرمن، افشاگر نام‌آشنای مسائل اپل، اعلام کرده که این شرکت در حال گفت‌وگو با گوگل برای دریافت مجوز استفاده از جمنای برای قدرت‌بخشی به ویژگی‌هایی جدیدی است که همزمان با iOS 18 به گوشی آیفون خصوصاً سری آیفون ۱۶ خواهند آمد.