رویکردی نوین به نام «جریانهای تجربه» (Streams) زمینهای را برای هوش مصنوعی فراهم کرده است تا بدون دخالت انسانی و تنها از طریق تعامل با محیط، به یادگیری بپردازد؛ گامی بزرگ بهسوی توسعه عاملهای واقعاً هوشمند.
رویکردی نوین به نام «جریانهای تجربه» (Streams) زمینهای را برای هوش مصنوعی فراهم کرده است تا بدون دخالت انسانی و تنها از طریق تعامل با محیط، به یادگیری بپردازد؛ گامی بزرگ بهسوی توسعه عاملهای واقعاً هوشمند. آیا ماشینها میتوانند مانند انسانها تجربه کسب کنند؟ پژوهشگران هوش مصنوعی در سالهای اخیر تلاش کردهاند از محدودیتهای مدلهای سنتی فراتر بروند؛ مدلهایی که بیشتر برای موفقیت در بنچمارکها طراحی شدهاند تا درک واقعی. اکنون، مدلهای مولد مانند GPT با عبور از آزمون تورینگ، انسانگونه به نظر میرسند، اما سؤال اساسی این است: آیا آنها واقعاً میفهمند؟ چالش آموزش ایستا در دنیای پویا پژوهشگران دیپمایند معتقدند چالش اصلی، نه در کیفیت آزمونها بلکه در ماهیت ایستا و محدود دادههای آموزشی است. این دادهها معمولاً از منابعی چون ویکیپدیا و کتابها گرفته میشوند و توان سازگاری با شرایط پویا و نامعلوم دنیای واقعی را ندارند. به همین دلیل، مدلها در مواجهه با موقعیتهای جدید، ناتوان از یادگیری و بهروزرسانی دانش خود باقی میمانند. بهسوی یادگیری تجربی؛ چشماندازی نو در مقالهای منتشرشده از سوی پژوهشگران دیپمایند در ۱۱ آوریل ۲۰۲۵ – که بخشی از کتاب در دست انتشار «طراحی یک هوش» از انتشارات MIT است – ایدهای مطرح شده است: هوش مصنوعی باید بتواند از محیط یاد بگیرد، بدون تکیه به دادههای از پیش آماده. این یعنی، مدلها باید بتوانند از طریق تعامل با جهان واقعی، بازخورد دریافت کنند و اهداف خود را بر اساس آن تعیین کنند. «تواناییهای خارقالعاده زمانی پدیدار میشوند که پتانسیل کامل یادگیری تجربی مورد استفاده قرار گیرد.» — دیوید سیلور و ریچارد ساتن، دیپمایند یادگیری تقویتی، پایهای برای هوش واقعی سیلور (خالق آلفازِرو) و ساتن (پدر یادگیری تقویتی) از پیشگامان این مسیر هستند. یادگیری تقویتی، روشی است که ماشینها را با آزمون و خطا و دریافت پاداش یا جریمه، قادر به بهبود عملکردشان میسازد. با وجود مزایای فراوان، کاربرد آن در دنیای واقعی بهدلیل نیاز به طراحی دقیق سیستم پاداش، چالشبرانگیز است. «جریانهای تجربه»؛ احیای یادگیری تقویتی در عصر مدلهای مولد رویکرد Streams که توسط سیلور و ساتن معرفی شده، بر پایه یادگیری تقویتی طراحی شده تا نواقص مدلهای زبانی بزرگ مانند GPT را برطرف کند. بهگفتهی این پژوهشگران، پس از موفقیت مدلهایی مانند آلفازِرو و آلفاگو، گرایش به مدلهای مولد افزایش یافت و یادگیری تقویتی تا حدی کنار گذاشته شد. این در حالی است که مدلهای مولد، با وجود انعطافپذیری بالا، بیش از حد به دستورات کاربر (پرامپتها) وابستهاند. محدودیت مدلهای مولد در کشف مستقل دانش مدلهای امروزی به جای تحلیل مستقل، به بازتولید پاسخها براساس اطلاعات دریافتی از انسانها بسنده میکنند. این وابستگی به قضاوت انسانی، مرزهایی بر تفکر خلاقانه و کشف راهکارهای نوین توسط هوش مصنوعی تحمیل میکند. به بیان سیلور و ساتن، برای دستیابی به هوش واقعی، عامل هوشمند باید بتواند مانند انسانها، بدون هدایت مستقیم و تنها از طریق تجربه، آموختههایش را بسازد، اصلاح کند و بهبود دهد.