عملکرد مدل هوش مصنوعی O3 شرکت OpenAI کمتر از انتظارات ظاهر شد

۱۴۰۴/۰۲/۰۱
16:22:54

مدل هوش مصنوعی جدید OpenAI با نام O3 که در آذرماه ۱۴۰۳ رونمایی شد، برخلاف ادعای اولیه شرکت، در ارزیابی‌های مستقل نتوانسته عملکرد چشمگیری از خود نشان دهد. در زمان معرفی، OpenAI اعلام کرده بود که O3 قادر است به بیش از ۲۵ درصد سؤالات چالش‌برانگیز ریاضی مجموعه FrontierMath پاسخ صحیح دهد؛ رقمی قابل توجه که آن را بالاتر از بسیاری از مدل‌های هوش مصنوعی موجود قرار می‌داد. اما بررسی‌های جدید مؤسسه مستقل Epoch AI، این ادعا را زیر سؤال برده است. طبق گزارش Epoch، مدل O3 تنها حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده است؛ رقمی بسیار کمتر از آنچه OpenAI در ابتدا مطرح کرده بود. این اختلاف فاحش، بار دیگر بحث‌هایی را درباره شفافیت ارزیابی‌ها و روش‌های بنچمارک‌گیری شرکت‌های توسعه‌دهنده هوش مصنوعی به راه انداخته است. گمان می‌رود نسخه‌ای که در بنچمارک‌های اولیه استفاده شده، با نسخه عمومی منتشرشده تفاوت داشته و از منابع پردازشی بیشتری برخوردار بوده است. تفاوت نسخه عمومی و نسخه بنچمارک بنیاد ARC Prize نیز در واکنش به این موضوع اعلام کرد که نسخه عمومی مدل O3 با آنچه در بنچمارک‌های اولیه استفاده شده تفاوت دارد. به گفته این بنیاد، مدل نهایی برای کاربردهای روزمره مانند چت و تولید متن بهینه‌سازی شده و عملکرد روان‌تری در دنیای واقعی دارد، هرچند که در آزمون‌های سنگین ریاضی، امتیاز کمتری کسب می‌کند. واکنش OpenAI OpenAI نیز در بیانیه‌ای تأیید کرد که برای بهینه‌سازی هزینه و سرعت پاسخ‌دهی، مدل O3 دستخوش تغییراتی شده و همین موضوع می‌تواند منجر به تفاوت عملکرد در ارزیابی‌ها شود. این شرکت همچنین وعده داده که به‌زودی نسخه پیشرفته‌تری از این مدل با نام O3-Pro را منتشر خواهد کرد. ماجرای اختلاف عملکرد مدل O3 نشان می‌دهد که بنچمارک‌های هوش مصنوعی، به‌ویژه زمانی که توسط شرکت‌های توسعه‌دهنده منتشر می‌شوند، همیشه معیار قابل اعتمادی نیستند. در شرایط رقابتی فعلی، گاهی شرکت‌ها برای جلب توجه، بخشی از واقعیت را با گزینش‌های خاص به نمایش می‌گذارند.

آژانس اخبار سایبری ایران

عملکرد مدل هوش مصنوعی O3 شرکت OpenAI کمتر از انتظارات ظاهر شد