«چتجیپیتی» در یک آزمون نگارش اخبار علمی نتوانست خوب عمل کند و در نوشتن اخبار قابل درک حوزه علمی از خبرنگاران انسانی جا ماند.
به گزارش ایسنا، «انجمن پیشبرد علوم آمریکا»(AAAS) ناشر مجله علمی مشهور «ساینس»(Science) به تازگی حکمی صادر کرده که ممکن است علاقهمندان به هوش مصنوعی را شگفتزده کند.
به نقل از تکنولوژی، این سازمان گفت که «چتجیپیتی»(ChatGPT) نمیتواند از عهده کار ظریف تبدیل تحقیقات پیچیده به اخبار قابل درک علمی برآید.
انجمن پیشبرد علوم آمریکا یک سال تمام را صرف آزمایش این موضوع کرد که آیا هوش مصنوعی میتواند با نویسندگان انسانی برابری کند یا خیر. نتایج این آزمایش چندان خوشایند نبود.
پژوهشگران انجمن پیشبرد علوم آمریکا از دسامبر ۲۰۲۳ تا دسامبر ۲۰۲۴، حدود ۶۴ مقاله علمی چالشبرانگیز را به چتجیپیتی ارائه دادند. آنها عمداً دشوارترین مقالهها را انتخاب کردند که سرشار از اصطلاحات فنی، یافتههای بحثبرانگیز، اکتشافات پیشگامانه و قالبهای نامتعارف بودند.
هوش مصنوعی سه دستورالعمل را با جزئیات متفاوت دریافت کرد و از جدیدترین مدلهای چتجیپیتی در دسترس عموم شامل هر دو دوره GPT-4 و GPT-4o استفاده کرد. هر خلاصه توسط متخصصان انسانی که به طور منظم برای مجلههای ساینس و «یورکالرت»(EurekAlert) تولید محتوا میکنند، ارزیابی شد.
آمار این آزمایش، داستان تکاندهندهای را روایت میکنند. وقتی از متخصصان ارزیابی پرسیده شد که آیا خلاصههای چتجیپیتی را میتوان به طور یکپارچه با محتوای نوشتهشده توسط انسان ترکیب کرد، میانگین امتیاز آنها فقط ۲.۲۶ از ۵ بود. عامل «جذاب بودن» حتی امتیاز پایینتری معادل ۲.۱۴ گرفت.
تنها یک مورد از ۶۴ خلاصه، امتیاز کامل را از متخصصان ارزیابی به دست آورد و ۳۰ خلاصه، کمترین امتیاز ممکن را دریافت کردند.
بازخورد کیفی، الگوهای خاصی را در شکستهای چتجیپیتی آشکار کرد. هوش مصنوعی دائماً همبستگی را با علیت اشتباه میگرفت و این یک خطای اساسی است که دقت علمی را تضعیف میکند. هوش مصنوعی دائما محتوای حیاتی را که متخصصان برای درک درست تحقیقات به آن نیاز دارند، حذف میکرد.
شاید مشکلسازترین مورد، اعتیاد چتجیپیتی به اغراق باشد. واژههایی مانند «پیشگامانه» و «جدید» بیش از اندازه تکرار میشدند و اهمیت یافتههای معمولی را بیش از اندازه بزرگ جلوه میدادند.
«ابیگیل آیزنشتات»(Abigail Eisenstadt) از نویسندگان انجمن پیشبرد علوم آمریکا، گفت: این فناوریها ممکن است پتانسیل تبدیل شدن به سیستمهای کارآمد را برای نویسندگان حوزه علمی داشته باشند، اما در حال حاضر برای زمان اوج آماده نیستند.
چتجیپیتی در رونویسی اولیه مقالهها شایستگی نشان داد، اما خبرنگاری علمی به ترجمه نیاز دارد، نه رونویسی.
نوشتن مطالب علمی واقعی مستلزم بررسی عمیق روشها، پذیرش محدودیتها و مرتبط کردن یافتهها با پیامدهای گستردهتر است. وقتی مقالات چندین نتیجه متناقض را ارائه میدادند یا وقتی خواسته میشد که دو پژوهش مرتبط با هم ترکیب شوند، هوش مصنوعی کاملاً دچار مشکل میشد.
پژوهشگران دریافتند که حتی استفاده از چتجیپیتی به عنوان نقطه آغاز، کار بیشتری را نسبت به نوشتن از ابتدا ایجاد میکند. بررسی گسترده حقایق مورد نیاز، هرگونه صرفهجویی در زمان را از بین میبرد.
این یافتهها با مسائل مربوط به قابلیت اطمینان هوش مصنوعی همسو هستند. پژوهشهای پیشین نشان داده بودند که موتورهای جستوجوی هوش مصنوعی در ۶۰ درصد موارد به منابع نادرست استناد میکنند. در ارتباطات علمی که دقت بیشترین اهمیت را دارد، چنین میزان خطایی غیرقابل قبول است.
پژوهشگران انجمن پیشبرد علوم آمریکا خاطرنشان کردند که بررسی آنها نتوانست سوگیری انسانی خبرنگاران را در نظر بگیرد. با وجود این، نتایج آن قدر منفی بودند که سوگیری به تنهایی نمیتوانست عملکرد ضعیف هوش مصنوعی را توضیح دهد.
چتجیپیتی موفق شد از ساختار و لحن خلاصههای حرفهای علمی تقلید کند، اما ساختار بدون محتوا، استانداردهای حرفهای را برآورده نمیکند.
پژوهشگران نتیجه گرفتند که چتجیپیتی، سبک و استانداردهای خلاصههای موجود در بسته مطبوعاتی مجله ساینس را برآورده نمیکند. آنها راه را برای آزمایشهای آینده باز گذاشتند تا در صورت ارائه بهروزرسانیهای عمده هوش مصنوعی، بررسیهای جدیدی انجام شود. با توجه به این که GPT-5 در ماه اوت به صورت عمومی در دسترس قرار گرفت، این موضوع مهم است.
در حال حاضر هنر پیچیده تبدیل اکتشافات علمی به فهم عمومی همچنان در دستان انسان است. قضاوت دقیق، آگاهی از شرایط و دقت که خبرنگاری علمی باکیفیت را تعریف میکنند، دشوارتر از آن چیزی هستند که پیشبینی میشد.
پربیننده ترین پست همین یک ساعت اخیر