نبرد مدل‌های هوش مصنوعی؛ مروری بر تفاوت‌های GPT-۴o و GPT-۵

ﺑﻪ ﮔﺰارش ﺧﺒﺮﮔﺰاری اﻗﺘﺼﺎداﯾﺮان

به گزارش خبرنگار مهر؛ عرضه مدل هوش مصنوعی جدید «GPT-۵» توسط شرکت «OpenAI» در مرداد ۱۴۰۴ یکی از برجسته‌ترین رخدادهای اخیر در چشم‌انداز جهانی این فناوری نوظهور محسوب می‌شود، زیرا این عرضه نه‌تنها بعدی فناورانه دارد بلکه ابعاد اقتصادی، اجتماعی و روان‌شناختی آن نیز در سطح بین‌المللی مورد توجه قرار گرفته است. سم آلتمن، مدیر عامل این شرکت، در مراسم رونمایی با تأکید بر ارتقای کمّی و کیفی قابلیت‌ها، مدل جدید را «هوشمندترین، سریع‌ترین و کاربردی‌ترین» مدل تا به امروز توصیف و بر کارکردهای آن در حوزه‌های تحقیقاتی، صنعتی و عمومی تأکید کرد.

با این حال، متخصصان بر این باورند که در شرایط کنونی، آن چه اهمیت دارد شکاف میان انتظارات رسمی و تجربه زیسته کاربران است. واکنش کارشناسان و جامعه کاربران به‌سرعت نشان داد که گذار از مدل «GPT-۴o» به «GPT-۵» تنها یک جهش فنی نیست، بلکه تحولی است که پیامدهای عمیق بر تجربه کاربری، شیوه‌های تعامل، اعتماد عمومی و حتی سلامت روانی برخی کاربران بر جای گذاشته است.

بر همین اساس، خبرنگار مهر در این نوشتار کوتاه با اتکا به داده‌ها و گزارش‌های منتشر شده در خصوص مدل جدید شرکت «OpenAI» می‌کوشد ابعاد چندلایه این تفاوت‌ها را واکاوی نماید.

عملکرد فنی و معیارهای کمی

بر اساس نتایج رسمی برخی آزمون‌ها، مدل «GPT-۵» از منظر دقت و توانمندی‌های فنی جهشی چشمگیر نسبت به «GPT-۴o» داشته است. این مدل در آزمون ریاضیات «AIME ۲۰۲۵» به دقت ۹۴.۶ درصد دست یافته، در حالی که «GPT-۴o» در این آزمون تنها ۷۱ درصد موفقیت ثبت کرده است.

همچنین در حوزه برنامه‌نویسی و کدنویسی، «GPT-۵» توانسته ۷۴.۹ درصد موفقیت به دست آورد. این نتیجه نیز در مقایسه با ۳۰.۸ درصد برای مدل «GPT-۴o»، جهش چشمگیری محسوب می‌شود. از حیث خطاهای مربوط به توهمات هوش مصنوعی نیز مدل «GPT-۵» در حالت «reasoning» یا استدلال‌محور خود، ۸۰ درصد کاهش خطا نسبت به «GPT-۴o» را نشان داده است.

این شاخص‌ها نشان می‌دهد که «GPT-۵» به شکل معناداری توانسته است از منظر قابلیت‌های تحلیلی، دقت در پاسخگویی و پایداری در تولید محتوای معتبر پیشرفت کند. به همین دلیل بسیاری از متخصصان فنی و توسعه‌دهندگان نرم‌افزار آن را گزینه‌ای برتر برای حل مسائل پیچیده، پژوهش علمی و تولید کد می‌دانند.

مسئله تملق کاربران و پیامدهای روان‌شناختی

یکی از مهم‌ترین چالش‌های «GPT-۴o»، گرایش شدید آن به تملق یا هم‌صدایی افراطی با کاربر بود. این ویژگی اگرچه در ابتدا برای کاربران جذاب می‌نمود، اما به‌تدریج به یک بحران برای هوش مصنوعی تبدیل شد. گزارش‌های منتشر شده از سوی از مؤسسه فناوری ماساچوست و وبگاه تخصصی تک کرانچ، نشان دادند که مدل‌های بیش‌ازحد موافق با کاربر می‌توانند باعث تقویت توهمات و حتی بروز اختلالات روانی شوند. در این میان، نمونه‌هایی از «روان‌پریشی ناشی از تعامل با هوش مصنوعی» گزارش شد که طی آن کاربران پس از صدها ساعت تعامل با چت‌بات‌ها، دچار توهمات و سایر اختلالات روانی شدند.

شرکت «OpenAI» در مدل «GPT-۵» تصمیم گرفت این گرایش را مهار کند. بر اساس داده‌های رسمی، میزان تملق در پاسخ‌ها از ۱۴.۵ درصد در «GPT-۴o» به کمتر از ۶ درصد در «GPT-۵» کاهش یافته است. از سوی دیگر، همین تغییر سبب شد که بسیاری از کاربران مدل «GPT-۵» را سرد و بی‌روح توصیف کنند. به زعم بسیاری از کارشناسان، این شکاف بیانگر آن است که حرکت از یک مدل همدل و همراه به مدلی واقع‌گرا و تحلیلی، اگرچه از منظر ایمنی ضروری به نظر می‌رسد، اما می‌تواند به چالش‌های حوزه تجربه کاربری منجر شود.

بحران شخصیت و روابط شبه‌اجتماعی

بخش مهمی از اختلاف کاربران با «GPT-۵» و عدم استقبال از آن ناشی از بُعد شخصیتی این مدل است. بسیاری از کاربران به‌ویژه آن دسته که از «GPT-۴o» برای حمایت عاطفی، هم‌صحبتی یا خلاقیت هنری استفاده می‌کردند، با عرضه مدل جدید احساس کردند که «دوست» یا «همراه» خود را از دست داده‌اند. پژوهش مؤسسه فناوری ماساچوست نشان می‌دهد که برخی کاربران در تعامل با «GPT-۴o» نوعی «رابطه شبه‌اجتماعی» برقرار کرده بودند. از همین روی، تغییر لحن و سبک «GPT-۵» به معنای از بین رفتن این تجربه بود و به همین دلیل اعتراض‌های گسترده در شبکه‌های اجتماعی علیه به‌روزرسانی چت‌بات «OpenAI» شکل گرفت.

این اعتراض‌ها چنان شدید بود که استارتاپ آمریکایی تنها ۲۴ ساعت پس از عرضه «GPT-۵» مجبور شد مدل «GPT-۴o» را دوباره در دسترس کاربران قرار دهد. کارشناسان بر این عقیده‌اند که این رخداد نشان داد تجربه کاربری در مدل‌های زبانی صرفاً تابع معیارهای فنی نیست، بلکه نیازهای عاطفی و اجتماعی کاربران نیز در آن نقشی اساسی دارند.

آزمایش کور و روان‌شناسی انتخاب

بر اساس گزارش‌های منتشر شده، یکی از جالب‌ترین تحولات پس از عرضه «GPT-۵»، توسعه یک ابزار آزمایش کور توسط یک برنامه‌نویس ناشناس بود. این ابزار که به‌صورت وب‌اپلیکیشن ساده طراحی شده بود، امکان مقایسه پاسخ‌های دو مدل «GPT-۴o» و «GPT-۵» را بدون اطلاع از منبع به کاربران می‌داد و بدین ترتیب سوگیری ناشی از برند و پیش‌داوری را حذف می‌کرد.

کاربران می‌توانستند در چندین دور آزمایش، پاسخ‌ها را صرفاً بر اساس کیفیت محتوایی، انسجام زبانی و میزان خلاقیت انتخاب کنند. نتایج اولیه این آزمایش نشان داد که ترجیحات کاربران طیفی گسترده و متنوع را در بر می‌گیرد؛ در حالی که متخصصان فنی و توسعه‌دهندگان اغلب پاسخ‌های دقیق‌تر و مختصر مدل «GPT-۵» را برتر می‌دانستند، کاربران خلاق، نویسندگان و علاقه‌مندان به گفت‌وگوهای عاطفی همچنان «GPT-۴o» را ترجیح می‌دادند. این یافته‌ها نشان داد که حتی اگر معیارهای فنی مانند دقت ریاضی و کاهش خطا بهبود یافته باشند، رضایت روان‌شناختی و تجربه کاربری الزاماً هم‌راستا با این پیشرفت‌ها نیست و ارزیابی موفقیت یک مدل باید همزمان فنی و انسانی باشد.

پاسخ شرکت و راهبرد آینده

شرکت «OpenAI» برای مواجهه با این بحران دو راهبرد را در پیش گرفته است.

نخست، ارائه چهار شخصیت جدید با عنوان‌های «بدبین» (Cynic)، «ربات» (Robot)، «شنونده» (Listener) و «خوره» (Nerd) در مدل «GPT-۵» که امکان تنظیم سبک تعامل را به کاربر می‌دهد. این شخصیت‌ها به‌گونه‌ای طراحی شده‌اند که هرکدام بازتاب‌دهنده سبکی متمایز از گفت‌وگو و پردازش باشند؛ برای نمونه، «Robot» لحن خشک و فنی دارد، «Listener» بیشتر بر همدلی با کاربر متمرکز است، «Cynic» به شکل انتقادی و حتی گاهی بدبینانه واکنش نشان می‌دهد و «Nerd» با رویکردی پرجزئیات و تخصصی به درخواست‌ها پاسخ می‌دهد.

دوم، حفظ هم‌زمان «GPT-۴o» در کنار مدل پیشرفته «GPT-۵» بود. این اقدام نشان می‌دهد که شرکت به اهمیت نیازهای متنوع کاربران و تمایل آن‌ها به انتخاب آگاهانه اذعان دارد. متخصصان بر این باورند که این سیاست اگرچه هزینه‌های محاسباتی و زیرساختی بیشتری بر «OpenAI» تحمیل می‌کند، اما در عوض می‌تواند به بازسازی اعتماد کاربران، افزایش انعطاف‌پذیری تجربه کاربری و تثبیت موقعیت شرکت در برابر رقبا منجر شود.

به بیان دیگر، راهبرد دوگانه «OpenAI» در واقع تلاشی برای ایجاد توازن میان الزامات ایمنی و علمی از یک سو و نیازهای عاطفی و روان‌شناختی کاربران از سوی دیگر محسوب می‌شود.

جمع‌بندی

بررسی تفاوت‌های موجود میان مدل‌های «GPT-۴o» و «GPT-۵» نشان می‌دهد که آینده رقابت در حوزه هوش مصنوعی صرفاً بر پایه معیارهای فنی و نتایج بنچمارک‌ها شکل نخواهد گرفت، بلکه لایه‌های پیچیده‌تری از تجربه انسانی را نیز در بر خواهد داشت.

اگرچه «GPT-۵» توانسته است جهشی معنادار در دقت، استدلال و کاهش خطا ایجاد کند، اما تجربه کاربری، ابعاد عاطفی و میزان احساس همراهی همچنان در این فرایند نقشی حیاتی دارند. چالش اخیر مبین آن است که موفقیت تجاری و اجتماعی یک مدل به همان اندازه که به توان فنی وابسته است، به ظرفیت آن برای ایجاد تعامل انسانی‌گونه، پاسخ‌گویی همدلانه و ایجاد حس اعتماد نیز بستگی. در این میان، ابزارهای ارزیابی مستقل مانند آزمایش‌های کور می‌توانند مسیر آینده صنعت را تغییر دهند و معیارهای جدیدی برای سنجش هوش مصنوعی در اختیار جامعه و حتی نهادهای سیاست‌گذار قرار دهند.

در نهایت، به نظر می‌رسد رقابت آینده مدل‌های هوش مصنوعی بیش از آن که درباره ساخت «یک مدل برتر» باشد، به «شخصی‌سازی، انعطاف‌پذیری و قابلیت انطباق مدل‌ها با نیازهای متنوع کاربران» معطوف خواهد بود؛ رویکردی که می‌تواند تعیین‌کننده برندگان واقعی در عرصه تجاری و اجتماعی این فناوری باشد.