به گزارش همشهری آنلاین و به نقل از زد دی نت، دانشمندان در مطالعه خود عملکرد چتبات شرکت OpenAI را طی چند ماه در ۴ کار متنوع حل مسائل ریاضی، پاسخ دادن به پرسشهای حساس، تولید کد نرمافزاری و استدلال بصری مقایسه کردهاند.
قابلتوجهترین نتیجه عنوان شده توسط آنها احتمالا به قابلیت مدل GPT-۴ در حل مسائل ریاضی مربوط میشود که در ۹۷.۶ درصد از سؤالهای ماه مارس پاسخ درست ارائه کرده، ولی فقط ۳ ماه بعد، دقت آن به ۲.۴ درصد کاهش پیدا کرده است!
در مقابل، GPT-۳.۵ عملاً مسیر معکوسی داشته است. هرچند نسخه مارس آن فقط در ۷.۴ درصد مواقع این سؤالات را بهدرستی پاسخ داده، اما در ماه ژوئن موفق شده تا میزان دقیق بودن پاسخهای خود را تا ۸۶.۸ درصد افزایش دهد.
مانی که محققان از مدلها خواستند تا کد بنویسند یا یک آزمایش استدلال بصری (پیشبینی شکل بعدی یک الگو) انجام دهند نیز نتایج مشابهی وجود داشته است.