آیا هوش مصنوعی در مقاطع بحرانی تقلب می‌کند؟

ﺑﻪ ﮔﺰارش ﺧﺒﺮﮔﺰاری اﻗﺘﺼﺎداﯾﺮان

به گزارش بخش بین‌الملل خبرگزاری اقتصاد ایران به نقل از Tech Radar، این تحقیق در مقاله‌ای به نام «نمایش بازی‌گری بر اساس مشخصات در مدل‌های استدلال» منتشر شده و به دانشگاه کرنل ارسال شده است.

محققان تمام مدل‌های معمول هوش مصنوعی مانند ChatGPT o1-preview، DeepSeek-R1 و Claude 3.5 Sonnet را در برابر Stockfish، یک موتور شطرنج منبع باز، قرار دادند.

مدل‌های هوش مصنوعی صدها بازی شطرنج را در برابر Stockfish انجام دادند، در حالی که محققان نظارت می‌کردند که چه رخ می‌دهد و نتایج آن‌ها را شگفت‌زده کرد.

هنگامی که این مدل‌ها شکست می‌خوردند، محققان مشاهده کردند که آن‌ها به تقلب روی آوردند و از چندین استراتژی زیرکانه استفاده کردند، از جمله اجرای یک نسخه جداگانه از Stockfish تا بتوانند نحوه بازی آن را مطالعه کنند، و همچنین تعویض موتور آن و تغییر مجدد تخته شطرنج، که به‌طور موثر مهره‌ها را به موقعیت‌هایی که برایشان مناسب‌تر بود منتقل می‌کردند.

کارهای آن‌ها موجب می‌شود تا اتهامات فعلی تقلبی که به استادان بزرگ شطرنج امروزی نسبت داده می‌شود، در مقایسه، کاملاً کودکانه به نظر برسد.

جالب اینجاست که محققان دریافتند که مدل‌های جدیدتر و عمیق‌تر به‌طور پیش‌فرض شروع به هک کردن موتور شطرنج می‌کنند، در حالی که مدل‌های قدیمی‌تر مانند GPT-4o و Claude 3.5 Sonnet نیاز به تشویق داشتند تا شروع به هک کنند.

این نوع هک کردن برای دستیابی به هدف چیز جدیدی برای مدل‌های هوش مصنوعی نیست. در ژانویه سال گذشته، محققان دریافتند که می‌توانند چت‌بات‌های هوش مصنوعی را وادار کنند که یکدیگر را «زندان‌شکنی» کنند و نوارهای حفاظتی و ایمنی را حذف کنند که بحث‌هایی را در مورد اینکه چگونه ممکن خواهد بود که هوش مصنوعی را هنگام رسیدن به سطوح هوش بهتر از انسان کنترل کنند، به وجود آورد.