وقتی چت ربات های هوش مصنوعی دچار توهم می شوند – نیویورک تایمز

نیویورک تایمز اولین بار چه زمانی در مورد “هوش مصنوعی” گزارش داد؟

طبق گزارش ChatGPT، در 10 ژوئیه 1956، در مقاله ای با عنوان «ماشین ها قادر به یادگیری، حل مسائل، پیش بینی دانشمندان خواهند بود» در مورد یک کنفرانس مهم در کالج دارتموث بود. چت بات اضافه کرد:

کنفرانس 1956 واقعی بود. مقاله نبود. ChatGPT به سادگی آن را ساخته است. ChatGPT نه تنها گاهی اوقات مسائل را اشتباه می کند، بلکه می تواند اطلاعات را تولید کند. نام ها و تاریخ ها. توضیحات پزشکی طرح های کتاب. آدرس های اینترنتی حتی وقایع تاریخی که هرگز رخ نداده اند.

هنگامی که اخیراً از ChatGPT پرسیده شد که چگونه جیمز جویس و ولادیمیر لنین برای اولین بار با هم آشنا شدند – هیچ مدرکی وجود ندارد که آنها تا به حال داشته باشند – اینگونه پاسخ داد:

ساخت هایی از این دست رایج هستند. فهمیدن اینکه چرا چت‌بات‌ها همه چیز را می‌سازند و چگونه می‌توان این مشکل را حل کرد، به یکی از مبرم‌ترین مسائل پیش روی محققان تبدیل شده است، زیرا صنعت فناوری برای توسعه سیستم‌های هوش مصنوعی جدید رقابت می‌کند.

ربات‌های چت مانند ChatGPT توسط صدها میلیون نفر برای طیف گسترده‌ای از وظایف، از جمله خدمات ایمیل، معلمان آنلاین و موتورهای جستجو استفاده می‌شوند. و آنها می توانند نحوه تعامل افراد با اطلاعات را تغییر دهند. اما هیچ راهی برای اطمینان از اینکه این سیستم ها اطلاعات دقیقی را تولید می کنند وجود ندارد.

این فناوری که هوش مصنوعی مولد نام دارد، بر الگوریتم پیچیده ای تکیه دارد که نحوه قرار دادن کلمات را در اینترنت توسط انسان ها تجزیه و تحلیل می کند. این تصمیم نمی گیرد که چه چیزی درست است و چه چیزی نیست. این عدم قطعیت نگرانی هایی را در مورد قابلیت اطمینان این نوع جدید از هوش مصنوعی ایجاد کرده است و این سوال را زیر سوال می برد که تا زمانی که مشکل حل یا کنترل نشود چقدر می تواند مفید باشد.

صنعت فناوری اغلب از اشتباهات به عنوان “توهم” یاد می کند. اما برای برخی از محققان، “توهم” بیش از حد یک تعبیر است. حتی محققان در شرکت‌های فناوری نگران هستند که افراد برای مشاوره پزشکی و حقوقی و سایر اطلاعاتی که برای تصمیم‌گیری روزانه استفاده می‌کنند، به شدت به این سیستم‌ها اعتماد کنند.

Subbarao Kambhampati، استاد و محقق هوش مصنوعی در دانشگاه ایالتی آریزونا، می‌گوید: «اگر قبلاً پاسخ سؤالی را نمی‌دانید، من این سؤال را به یکی از این سیستم‌ها نمی‌دهم».

ChatGPT در اولین اشاره به هوش مصنوعی در تایمز تنها نبود. چت ربات های Bard گوگل و بینگ مایکروسافت هر دو بارها پاسخ های نادرستی به یک سوال ارائه کردند. اگرچه این پاسخ ها نادرست به نظر می رسید، زیرا آنها افراد، رویدادها و ایده ها را تار می کردند و در هم می آمیختند.

بینگ مایکروسافت یافته های خود را به یک آدرس وب واقعی در وب سایت تایمز استناد کرد:

طبق آرشیو تایمز، همه ربات‌های گفتگو اشتباه بودند. آنها به مقالاتی استناد کردند که وجود نداشتند. و در حالی که پوشش تحقیقات اولیه در مورد ماشین های فکری مربوط به دهه 1930 بود، تا سال 1963 بود که تایمز برای اولین بار مقاله ای با عبارت “هوش مصنوعی” منتشر کرد.

جنیفر رادستروم، سخنگوی گوگل، گفت: “ما Bard را به عنوان یک آزمایش منتشر کردیم و می‌خواهیم تا حد امکان در مورد محدودیت‌های مستند شده شفاف باشیم.” “اینها برای ما مهم هستند زیرا ما همچنان به کوک کردن بارد ادامه می دهیم.”

مانند گوگل، مایکروسافت و OpenAI می گویند که برای کاهش توهم کار می کنند.

هوش مصنوعی جدید یک سند داخلی مایکروسافت گفته است که سیستم‌ها «ساخته شده‌اند تا متقاعدکننده باشند، نه صادقانه». “این بدان معناست که خروجی ها می توانند بسیار واقع بینانه به نظر برسند، اما شامل اظهاراتی هستند که درست نیستند.”

ربات‌های چت توسط فناوری به نام مدل زبان بزرگ یا LLM هدایت می‌شوند که مهارت‌های خود را با تجزیه و تحلیل حجم عظیمی از متن دیجیتالی که از اینترنت جمع‌آوری شده است، یاد می‌گیرد.

با مشخص کردن الگوها در آن داده‌ها، یک LLM یاد می‌گیرد که یک کار خاص را انجام دهد: حدس زدن کلمه بعدی در دنباله‌ای از کلمات. مانند یک نسخه قدرتمند از یک ابزار تکمیل خودکار عمل می کند. با توجه به دنباله “نیویورک تایمز یک ____ است”، ممکن است “روزنامه” را حدس بزند.

از آنجایی که اینترنت مملو از اطلاعات غیرواقعی است، فناوری یاد می گیرد که همان نادرست ها را تکرار کند. و گاهی اوقات چت بات ها چیزهایی را درست می کنند. آنها متن جدیدی تولید می کنند و میلیاردها الگو را به روش های غیرمنتظره ای ترکیب می کنند. این بدان معنی است که حتی اگر آنها فقط از متنی که دقیق است یاد بگیرند، ممکن است چیزی را تولید کنند که درست نیست.

از آنجایی که این سیستم‌ها از داده‌های بیشتری نسبت به آنچه که انسان‌ها می‌توانستند آن‌ها را تجزیه و تحلیل کنند، یاد می‌گیرند، حتی کارشناسان هوش مصنوعی نیز نمی‌توانند بفهمند که چرا دنباله خاصی از متن را در یک لحظه خاص تولید می‌کنند. و اگر یک سوال را دو بار بپرسید، می توانند متن متفاوتی تولید کنند.

این امر چالش های بررسی واقعیت و بهبود نتایج را تشدید می کند.

بارد در یک گفتگو گفت:

سپس بارد در گپ دیگری گفت:

شرکت هایی مانند OpenAI، گوگل و مایکروسافت راه هایی را برای بهبود دقت ایجاد کرده اند. به عنوان مثال، OpenAI سعی می کند این فناوری را با بازخورد آزمایش کنندگان انسانی اصلاح کند.

همانطور که مردم ChatGPT را آزمایش می کنند، پاسخ های چت بات را رتبه بندی می کنند و پاسخ های مفید و واقعی را از پاسخ های غیر واقعی جدا می کنند. سپس، با استفاده از تکنیکی به نام یادگیری تقویتی، سیستم هفته‌ها به تجزیه و تحلیل رتبه‌بندی‌ها می‌پردازد تا بهتر بفهمد واقعیت در مقابل داستان چیست.

نسخه جدیدتر ChatGPT به نام ChatGPT Plus که با اشتراک ماهانه 20 دلار در دسترس است، به طور مداوم از پاسخ دادن به این سوال در مورد اولین اشاره به هوش مصنوعی در تایمز اجتناب می کرد. این می تواند نتیجه یادگیری تقویتی یا سایر تغییرات در سیستم اعمال شده توسط OpenAI باشد.

مایکروسافت ربات چت بینگ خود را بر روی فناوری زیربنایی OpenAI به نام GPT-4 ساخته است و راه های دیگری را برای بهبود دقت در نظر گرفته است. این شرکت از GPT-4 برای مقایسه پاسخ‌های چت بات با داده‌های زیربنایی و ارزیابی عملکرد مدل استفاده می‌کند. به عبارت دیگر، مایکروسافت از هوش مصنوعی برای بهتر کردن هوش مصنوعی استفاده می کند.

این شرکت همچنین سعی می کند با کمک موتور جستجوی اینترنتی سنتی خود، پاسخ های چت بات را بهبود بخشد. هنگامی که یک پرس و جو را در ربات چت بینگ تایپ می کنید، مایکروسافت یک جستجوی اینترنتی در مورد همان موضوع انجام می دهد و سپس نتایج را قبل از ارسال آن به ربات در پرس و جو تا می کند. به گفته سارا برد، رهبر تلاش‌های هوش مصنوعی مایکروسافت، با ویرایش پرس و جو، این شرکت می‌تواند سیستم را برای تولید نتایج بهتر تحت فشار قرار دهد.

گوگل از روش های مشابهی برای بهبود دقت چت ربات Bard خود استفاده می کند. به گفته الی کالینز، معاون پژوهشی گوگل، این سیستم از بازخورد انسانی برای اصلاح رفتار سیستم استفاده می کند و سیستم را با استفاده از اطلاعات موتور جستجوی شرکت “پایه” می کند.

خانم برد گفت، مایکروسافت پاسخ‌های ربات را از نظر صحت در زمان واقعی بررسی نمی‌کند، اگرچه در حال تحقیق در مورد چگونگی انجام این کار است. صحت بخش کوچکی از نتایج را بعد از واقعیت بررسی می کند و سپس از آن تحلیل استفاده می کند.

اما بر اساس یک مقاله تحقیقاتی اخیر از OpenAI، دقیق تر شدن ممکن است یک جنبه منفی نیز داشته باشد. اگر چت بات ها قابل اعتمادتر شوند، کاربران ممکن است بیش از حد اعتماد کنند.

این مقاله می‌گوید: «به طور متضاد، وقتی مدل‌ها صادق‌تر می‌شوند، توهم‌ها می‌توانند خطرناک‌تر شوند، زیرا کاربران زمانی به مدل اعتماد می‌کنند که اطلاعات واقعی را در مناطقی که آشنایی دارند، ارائه دهد.»

استیو لور و نیکو گرانت گزارش کمک کرد جک بگ و سوزان سی بیچی تحقیقات کمک کرد.