۲۵ آذر ۱۴۰۴
به روز شده در: ۲۵ آذر ۱۴۰۴ - ۱۶:۴۴
فیلم بیشتر »»
کد خبر ۱۱۱۸۶۶۶
تاریخ انتشار: ۰۷:۵۵ - ۰۹-۰۹-۱۴۰۴
کد ۱۱۱۸۶۶۶
انتشار: ۰۷:۵۵ - ۰۹-۰۹-۱۴۰۴

میزان توهم زدن مدل‌های هوش مصنوعی بر اساس پاسخ‌های نادرست یا ناقص (+ اینفوگرافی)

میزان توهم زدن مدل‌های هوش مصنوعی بر اساس پاسخ‌های نادرست یا ناقص (+ اینفوگرافی)
بالا‌ترین نرخ توهم هوش مصنوعی مربوط به Grok‑۳ با ۹۴ درصد بود، به این معنی که تقریباً تمام پاسخ‌های آن اشتباه بودند.

بسیاری از مدل‌های هوش مصنوعی امروز هنگام شناسایی و استناد به منابع خبری از یک متن، دچار مشکل شده و خطاهای زیادی تولید می‌کنند.

به گزارش روزیاتو، بالا‌ترین نرخ توهم هوش مصنوعی مربوط به Grok‑۳ با ۹۴ درصد بود، به این معنی که تقریباً تمام پاسخ‌های آن اشتباه بودند.

آیا هوش مصنوعی شما همیشه پاسخ درست می‌دهد؟ متأسفانه، «حقیقت» ارائه شده توسط آن ممکن است توهم باشد.

این اینفوگرافی، نرخ توهمات هوش مصنوعی را بر اساس مدل‌ها نشان می‌دهد.

«توهم هوش مصنوعی» به مواردی گفته می‌شود که در آن مدل زبانی اطلاعات نادرست یا بدون منبع را به عنوان حقیقت به کاربر ارائه می‌دهد.

توهم هوش مصنوعی چیست؟

«توهم هوش مصنوعی» به مواردی گفته می‌شود که در آن مدل زبانی اطلاعات نادرست یا بدون منبع را به عنوان حقیقت به کاربر ارائه می‌دهد.

این توهمات به این دلیل اتفاق می‌افتند که سیستم‌های آموزش استاندارد، حدس زدن را به جای نشان دادن عدم اطمینان، پاداش می‌دهند. تصور کنید که در یک تست چندگزینه‌ای حدس بزنید؛ احتمال اینکه درست باشد بیشتر از زمانی است که هیچ پاسخی ندهید.

نرخ توهمات هوش مصنوعی: بهترین و بدترین مدل‌ها

برای اندازه‌گیری نرخ توهمات، محققان مدل‌های شرکت‌های پیشرو در حوزه هوش مصنوعی را با متون خبری آزمایش کردند و از آن‌ها خواستند مقاله، رسانه و URL اصلی را مشخص کنند.

نکته مهم اینکه محققان، متونی را انتخاب کردند که اگر در گوگل جستجو شوند، منبع اصلی در سه نتیجه اول ظاهر می‌شود.

سپس پاسخ‌های مدل‌های هوش مصنوعی برای دقت بررسی شدند. جدول زیر نشان می‌دهد هر مدل چند درصد پاسخ نادرست یا ناقص داده است:

مدل هوش مصنوعی نرخ توهم
Perplexity ۳۷ درصد
Copilot ۴۰ درصد
Perplexity Pro ۴۵ درصد
ChatGPT Search ۶۷ درصد
Deepseek Search ۶۸ درصد
Gemini ۷۶ درصد
Grok-2 Search ۷۷ درصد
Grok-3 Search ۹۴ درصد

Grok‑۳ بدترین عملکرد را داشت و ۹۴ درصد پاسخ‌هایش توهم بود، در حالی که Perplexity دقیق‌ترین پاسخ‌ها را ارائه کرد.

نکته جالب اینکه مدل‌های پولی حتی در مواردی از نسخه‌های رایگان ضعیف‌تر عمل کردند. اکثر مدل‌ها نیز، باوجود خطاهای زیاد، هیچ نشانه‌ای از عدم اطمینان در پاسخ‌هایشان نشان ندادند.

ارسال به دوستان
رأی کمیته انضباطی صادر شد: جریمه ۵۰۰ میلیونی و محرومیت تعلیقی برای سروش رفیعی قیمت سکه پارسیان امروز سه شنبه ۲۵ آذر ۱۴۰۴/ سکه پارسیان 500 سوتی چند؟ پایان تلخ رقیب سابق علی‌اکبری؛ مبارز برزیلی در رودخانه ریو نگرو غرق شد مینو محرز: ویروس آنفلوآنزای شایع‌شده در کشور از نوع A است انتقاد هانیه رستمیان از سطح قراردادها؛ «۲۰۰ میلیون تومان هزینه سلاح و مهمات را هم پوشش نمی‌دهد» خواص ویتامین B6؛ راز سلامت مغز، خون‌سازی و بهبود خلق‌وخو استایل تمام مشکی و زمستانی «جواد عزتی» در اکران فصل دوم «وحشی»‌ (عکس) میراث ناملموس و خطر ثبت‌های انفرادی/ هویت‌های مشترک قطعه‌قطعه می‌شود عکاسی ترکیبی برای ثبت شیرجه‌های برق‌آسای سفید غاز شمالی سرپرست ستاد امر به معروف: ۵۰۰ وکیل جهادی برای حمایت از آمران به معروف به کار گرفته شدند بازی جدید «ترمیناتور»؛ اکشن دوبعدی با بازآفرینی وفادارانه صحنه‌های اصلی (فیلم) خانه جنگلی دوران مدرن! (+عکس) هشدار درباره پیامدهای اقتصادی فقر؛ افزایش کم‌خونی و کندی رشد در دختران و پسران کشور اقتصادی که نیمه پنهانش را کنار گذاشته؛ چرا زنان هنوز «هزینه» دیده می‌شوند نه «سرمایه»؟ کانسپت رادیکال سیتروئن؛ C-باگی، خودرویی سبک‌وزن برای دردسر! (+عکس)