محققان اپل روش جدیدی برای آموزش مدلهای زبانی بزرگ (LLM) توسعه دادهاند که بهطور پیوسته اطلاعات متنی و بصری را ادغام میکند و قادر است تصاویر را با دقت بالایی توصیف کند.
به گزارش زومیت، یافتههای اپل که در مقالهای با عنوان «MM1: روشها، تحلیل و بینشها از پیشآموزش LLM چند وجهی» توضیح داده شده است، رویکرد جدیدی برای ایجاد سیستمهای هوش مصنوعی هوشمندتر و انعطافپذیرتر را نشان میدهد.
نویسندگان مقاله ادعا میکنند که با استفاده از مجموعهدادههای متن-تصویر شامل ترکیب عکس و توضیح مربوط به آن و دادههای متنی تنها برای تعلیم مدل MM1، استاندارد بهتری برای توانایی هوش مصنوعی در انجام وظایفی مانند شرح تصاویر، پاسخگویی به سؤالات بصری و استنباط زبان طبیعی با سطح دقت بالاتر را ایجاد کردهاند.
تحقیقات اپل بر ترکیب انواع مختلف دادههای آموزشی و معماریهای مدل تمرکز دارد که به هوش مصنوعی امکان میدهند زبان طبیعی را بر اساس ادغام نشانههای تصویری و زبانی درک و تولید کند. این قابلیت برای انجام وظایفی که نیازمند فهم عمیقتری از جهان هستند (مانند تفسیر عکسهای پیچیده یا پاسخگویی به سؤالاتی که عناصر بصری در آنها دخیلاند) حیاتی است.
مقالهی اپل قابلیتهای استثنایی یادگیری درونمتنی MM1 را بهویژه در پیکربندی ۳۰ میلیارد پارامتری مدلهای چند وجهی نشان میدهد. بهنظر میرسد این مدل تواناییهای قابل توجهی برای استدلال چندمرحلهای روی تصاویر چندگانه دارد.
تحقیق مورد بحث، در راستای بخشی از ابتکار خالق مک بوک برای بهبود تواناییهای هوش مصنوعی خود در مواجهه با رقبا انجام شده است. امسال شاهد رونمایی از ابزار Galaxy AI برای مدلهای مختلف گوشی سامسونگ مانند گلکسی S24 اولترا بودیم و حالا اپل احساس خطر میکند.
مارک گرمن، افشاگر نامآشنای مسائل اپل، اعلام کرده که این شرکت در حال گفتوگو با گوگل برای دریافت مجوز استفاده از جمنای برای قدرتبخشی به ویژگیهایی جدیدی است که همزمان با iOS 18 به گوشی آیفون خصوصاً سری آیفون ۱۶ خواهند آمد.