Reddit می خواهد برای کمک به آموزش سیستم های هوش مصنوعی بزرگ پول دریافت کند

آوریل 18, 2023 Posted in خبر

Reddit مدتهاست که یک نقطه داغ برای گفتگو در اینترنت بوده است. حدود 57 میلیون نفر هر روز از این سایت بازدید می کنند تا در مورد موضوعات مختلف مانند آرایش، بازی های ویدیویی و اشاره گر برای شستشوی برقی راه های خانه گپ بزنند.

در سال‌های اخیر، مجموعه چت‌های Reddit یک کمک آموزشی رایگان برای شرکت‌هایی مانند گوگل، OpenAI و مایکروسافت بوده است. این شرکت‌ها از مکالمات Reddit در توسعه سیستم‌های هوش مصنوعی غول‌پیکر استفاده می‌کنند که بسیاری در سیلیکون ولی فکر می‌کنند در مسیر تبدیل شدن به صنعت فناوری بزرگ هستند.

حالا Reddit می خواهد برای آن پول دریافت کند. این شرکت روز سه‌شنبه اعلام کرد که قصد دارد از شرکت‌ها برای دسترسی به رابط برنامه‌نویسی کاربردی خود یا API، روشی که از طریق آن نهادهای خارجی می‌توانند مجموعه وسیعی از مکالمات فرد به فرد شبکه اجتماعی را دانلود و پردازش کنند، هزینه دریافت کند.

استیو هافمن، بنیانگذار و مدیر اجرایی Reddit در مصاحبه ای گفت: مجموعه داده های Reddit واقعا ارزشمند است. اما ما نیازی نداریم که همه این ارزش ها را به صورت رایگان به برخی از بزرگترین شرکت های جهان بدهیم.

این حرکت یکی از اولین نمونه های قابل توجهی است که یک شبکه اجتماعی برای دسترسی به مکالماتی که میزبانی می کند به منظور توسعه سیستم های هوش مصنوعی مانند ChatGPT، برنامه محبوب OpenAI است. این سیستم‌های هوش مصنوعی جدید روزی می‌توانند به کسب‌وکارهای بزرگ منتهی شوند، اما به احتمال زیاد به شرکت‌هایی مانند Reddit کمک چندانی نمی‌کنند. در واقع، می‌توان از آن‌ها برای ایجاد رقبا استفاده کرد – کپی‌های خودکار مکالمات Reddit.

Reddit همچنین در حال آماده شدن برای عرضه اولیه احتمالی عمومی در وال استریت در سال جاری است. این شرکت که در سال 2005 تأسیس شد، بیشتر پول خود را از طریق تبلیغات و تراکنش های تجارت الکترونیک در پلتفرم خود به دست می آورد. Reddit گفت که هنوز جزئیات مربوط به هزینه دسترسی API را بررسی می کند و قیمت ها را در هفته های آینده اعلام خواهد کرد.

انجمن‌های گفتگوی Reddit به کالاهای با ارزشی تبدیل شده‌اند، زیرا مدل‌های زبان بزرگ یا LLM به بخش مهمی از ایجاد فناوری جدید هوش مصنوعی تبدیل شده‌اند.

LLM ها اساساً الگوریتم های پیچیده ای هستند که توسط شرکت هایی مانند گوگل و OpenAI که شریک نزدیک مایکروسافت است، توسعه یافته اند. از نظر الگوریتم‌ها، مکالمات Reddit داده‌ها هستند، و آنها در میان مجموعه وسیعی از مطالبی هستند که برای توسعه آنها به LLMها وارد می‌شوند.

الگوریتم اساسی که به ساخت Bard، سرویس هوش مصنوعی مکالمه گوگل کمک کرد، تا حدی بر روی داده های Reddit آموزش داده شده است. Chat GPT OpenAI از داده های Reddit به عنوان یکی از منابع اطلاعاتی که در آن آموزش دیده است، نام می برد.

سایر شرکت ها نیز شروع به دیدن ارزش در گفتگوها و تصاویری که میزبانی می کنند، شده اند. Shutterstock، سرویس میزبانی تصویر، همچنین داده های تصویر را به OpenAI فروخت تا به ایجاد DALL-E، برنامه هوش مصنوعی کمک کند که تصاویر گرافیکی واضح را تنها با درخواست متنی مورد نیاز ایجاد می کند.

ماه گذشته، ایلان ماسک، مالک توییتر، گفت که در حال سرکوب استفاده از API توییتر است، که هزاران شرکت و توسعه‌دهنده مستقل از آن برای ردیابی میلیون‌ها مکالمه در سراسر شبکه استفاده می‌کنند. اگرچه او LLM ها را به عنوان دلیلی برای تغییر ذکر نکرد، اما هزینه های جدید می تواند به ده ها یا حتی صدها هزار دلار برسد.

سازندگان هوش مصنوعی برای ادامه بهبود مدل‌های خود به دو چیز مهم نیاز دارند: مقدار زیادی قدرت محاسباتی و حجم عظیمی از داده. برخی از بزرگترین توسعه دهندگان هوش مصنوعی قدرت محاسباتی زیادی دارند اما همچنان به دنبال داده های مورد نیاز برای بهبود الگوریتم های خود در خارج از شبکه های خود هستند. این شامل منابعی مانند ویکی پدیا، میلیون ها کتاب دیجیتالی، مقالات دانشگاهی و Reddit است.

نمایندگان گوگل، Open AI و مایکروسافت بلافاصله به درخواست اظهار نظر پاسخ ندادند.

Reddit مدت‌هاست که رابطه همزیستی با موتورهای جستجوی شرکت‌هایی مانند گوگل و مایکروسافت داشته است. موتورهای جستجو صفحات وب Reddit را به منظور فهرست بندی اطلاعات و در دسترس قرار دادن آنها برای نتایج جستجو “خزیدن” می کنند. این خزیدن یا «خراشیدن» همیشه توسط هر سایتی در اینترنت مورد استقبال قرار نمی گیرد. اما Reddit با ظاهر شدن بالاتر در نتایج جستجو سود برده است.

پویایی با LLM ها متفاوت است – آنها تا آنجا که می توانند داده ها را برای ایجاد سیستم های هوش مصنوعی جدید مانند ربات های چت به دست می آورند.

Reddit بر این باور است که داده‌های آن به‌ویژه ارزشمند هستند زیرا به‌طور مداوم به‌روزرسانی می‌شوند. آقای هافمن گفت که این تازگی و مرتبط بودن همان چیزی است که الگوریتم‌های مدل‌سازی زبان بزرگ برای تولید بهترین نتایج به آن نیاز دارند.

آقای هافمن گفت: “بیش از هر مکان دیگری در اینترنت، ردیت خانه ای برای مکالمه معتبر است.” چیزهای زیادی در سایت وجود دارد که شما می توانید آنها را فقط در درمان یا AA یا هرگز بگویید.

آقای هافمن گفت که API Reddit همچنان برای توسعه دهندگانی که می خواهند برنامه هایی بسازند که به افراد در استفاده از Reddit کمک کند، رایگان خواهد بود. آن‌ها می‌توانند از این ابزار برای ساختن یک ربات استفاده کنند که به طور خودکار ردیابی کند که آیا نظرات کاربران به قوانین پست کردن پایبند هستند یا خیر. محققانی که می خواهند داده های Reddit را برای اهداف آکادمیک یا غیرتجاری مطالعه کنند، به دسترسی رایگان به آن ادامه خواهند داد.

Reddit همچنین امیدوار است که به اصطلاح یادگیری ماشینی بیشتری را در نحوه عملکرد خود سایت بگنجاند. به عنوان مثال، می‌توان از آن برای شناسایی استفاده از متن تولید شده توسط هوش مصنوعی در Reddit استفاده کرد و برچسبی اضافه کرد که به کاربران اطلاع دهد که نظر از یک ربات آمده است.

این شرکت همچنین قول داده است که ابزارهای نرم افزاری قابل استفاده توسط مدیران را بهبود بخشد – کاربرانی که به طور داوطلبانه وقت خود را برای حفظ عملکرد روان تالارهای سایت و بهبود مکالمات بین کاربران اختصاص می دهند. و ربات‌های شخص ثالث که به گردانندگان کمک می‌کنند تا انجمن‌ها را نظارت کنند، همچنان پشتیبانی خواهند شد.

اما برای سازندگان هوش مصنوعی، زمان پرداخت هزینه فرا رسیده است.

آقای هافمن گفت: «خزیدن در Reddit، ایجاد ارزش و عدم بازگرداندن هیچ یک از آن ارزش به کاربران، چیزی است که ما با آن مشکل داریم. زمان خوبی برای سخت‌تر کردن مسائل است.»

او افزود: «ما فکر می کنیم که این عادلانه است.