مدل هوش مصنوعی جدید OpenAI با نام O3 که در آذرماه ۱۴۰۳ رونمایی شد، برخلاف ادعای اولیه شرکت، در ارزیابیهای مستقل نتوانسته عملکرد چشمگیری از خود نشان دهد. در زمان معرفی، OpenAI اعلام کرده بود که O3 قادر است به بیش از ۲۵ درصد سؤالات چالشبرانگیز ریاضی مجموعه FrontierMath پاسخ صحیح دهد؛ رقمی قابل توجه که آن را بالاتر از بسیاری از مدلهای هوش مصنوعی موجود قرار میداد. اما بررسیهای جدید مؤسسه مستقل Epoch AI، این ادعا را زیر سؤال برده است. طبق گزارش Epoch، مدل O3 تنها حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده است؛ رقمی بسیار کمتر از آنچه OpenAI در ابتدا مطرح کرده بود. این اختلاف فاحش، بار دیگر بحثهایی را درباره شفافیت ارزیابیها و روشهای بنچمارکگیری شرکتهای توسعهدهنده هوش مصنوعی به راه انداخته است. گمان میرود نسخهای که در بنچمارکهای اولیه استفاده شده، با نسخه عمومی منتشرشده تفاوت داشته و از منابع پردازشی بیشتری برخوردار بوده است. تفاوت نسخه عمومی و نسخه بنچمارک بنیاد ARC Prize نیز در واکنش به این موضوع اعلام کرد که نسخه عمومی مدل O3 با آنچه در بنچمارکهای اولیه استفاده شده تفاوت دارد. به گفته این بنیاد، مدل نهایی برای کاربردهای روزمره مانند چت و تولید متن بهینهسازی شده و عملکرد روانتری در دنیای واقعی دارد، هرچند که در آزمونهای سنگین ریاضی، امتیاز کمتری کسب میکند. واکنش OpenAI OpenAI نیز در بیانیهای تأیید کرد که برای بهینهسازی هزینه و سرعت پاسخدهی، مدل O3 دستخوش تغییراتی شده و همین موضوع میتواند منجر به تفاوت عملکرد در ارزیابیها شود. این شرکت همچنین وعده داده که بهزودی نسخه پیشرفتهتری از این مدل با نام O3-Pro را منتشر خواهد کرد. ماجرای اختلاف عملکرد مدل O3 نشان میدهد که بنچمارکهای هوش مصنوعی، بهویژه زمانی که توسط شرکتهای توسعهدهنده منتشر میشوند، همیشه معیار قابل اعتمادی نیستند. در شرایط رقابتی فعلی، گاهی شرکتها برای جلب توجه، بخشی از واقعیت را با گزینشهای خاص به نمایش میگذارند.