همه چیزهایی که باید درباره GPT-5 بدانید!

GPT-5 در راه است و شایعات نشان می‌دهند که تاریخ انتشار آن زودتر از چیزی خواهد بود که انتظار می‌رود. در مصاحبه‌ای که سم آلتمن، مدیرعامل OpenAI، در ژانویه 2024 با بیل گیتس داشت، تأیید کرد که GPT-5 در دست توسعه است. گزارش‌ها حاکی از آن هستند که احتمالا تا اواسط سال 2024، احتمالا در همین تابستان، شاهد انتشار آن خواهیم بود.

اگرچه GPT-4 در حال حاضر انقلابی به نظر می‌رسد، آلتمن معتقد است که جهان تنها سطحی از هوش مصنوعی را تجربه کرده است. او در نشست دولت جهانی در ژانویه 2024، مدل‌های فعلی OpenAI را با روزهای اولیه تلفن‌های همراه مقایسه کرد و گفت که فناوری فعلی مانند همان تلفن‌های همراه اولیه با صفحه نمایش سیاه و سفید است که کار زیادی انجام نمی‌دهند. او معتقد است که رسیدن به سطح فناوری کنونی، دهه‌ها زمان برده است و ما اکنون تنها در ابتدای راه هوش مصنوعی قرار داریم.

GPT-5 بدون شک مورد انتظارترین انتشار LLM تا به امروز خواهد بود. این مدل هوش مصنوعی سرعت بیشتری خواهد داشت و توانایی پردازش زبان طبیعی آن بهبود یافته است. بنابراین چه چیزهایی را می‌توانیم انتظار داشته باشیم؟

یکی از مدیران اجرایی که به نسخه پیشرفته GPT-5 دسترسی داشته است، می‌گوید: «این مدل واقعا خوب کار می‌کند و به طور محسوسی بهتر است.» همانطور که GPT-4 پیشرفت قابل توجهی نسبت به نسخه قبلی خود داشت، تردیدی نیست که GPT-5 نیز همین کار را خواهد کرد. اگرچه OpenAI به روزرسانی‌هایی را تأیید نکرده است و احتمالا قبل از انتشار غافلگیرکننده آن نیز تأیید نخواهد کرد، اما پیش‌بینی‌هایی که در ادامه می‌آید، از مصاحبه با افراد مطلع، به‌روزرسانی‌های قبلی GPT و روندهای هوش مصنوعی در LLM‌های رقیب استخراج شده‌اند.

بزرگ‌ترین تفاوت بین GPT-4 و GPT-5 چیست؟ به گفته آلتمن: «هوشمندتر خواهد بود.»

آلتمن در نشست دولت جهانی تأکید کرد که بزرگترین جهش از GPT-4 به GPT-5 ساده است: هوشمندتر است. او توضیح داد که «آنچه این مدل‌ها را جادویی می‌کند، عمومی بودن آنهاست. هوشمندتر خواهد بود، بنابراین در همه چیز بهتر خواهد بود.»

اگرچه انتظار می‌رود بهبودهای زیادی ایجاد شود، اما هوشمندتر بودن مدل جدید، همه ویژگی‌های موجود LLM‌های فعلی را ارتقا خواهد داد.

آلتمن تأیید کرد که قابلیت اطمینان، یکی از تمرکزهای اصلی تکامل GPT در دو سال آینده خواهد بود. او گفت: «اگر 10,000 بار از GPT-4 یک سوال بپرسید، احتمالا یکی از آن 10,000 پاسخ، بسیار خوب است، اما همیشه نمی‌داند کدام یک بهترین پاسخ است. شما می‌خواهید بهترین پاسخ از میان 10,000 پاسخ را دریافت کنید و افزایش قابلیت اطمینان در این زمینه اهمیت دارد.»

قابلیت اطمینان همیشه یکی از نقاط ضعف GPT-4 بوده است و GPT-4 Turbo نیز تا حدی برای برطرف کردن مشکلات مربوط به یکپارچگی و دقت مدل طراحی شده است. توربو شاهد افزایش ثبات مدل و کاهش توهمات AI بود.

بنابراین، اگر شکایت‌های کاربران که مبنای درستی دارند، شنیده شود، مدل جدید قطعا برای افزایش قابلیت اطمینان نسبت به GPT-4 آموزش خواهد دید. در واقع، یکی از کارمندان ناشناس OpenAI تأیید کرد که تیم امیدوار است که نسخه بعدی قابلیت اطمینان بیشتری داشته باشد.

در مرکز هوش عمومی GPT-5، توانایی پیشرفته‌تر استدلال کردن آن است. آلتمن با گیتس به اشتراک گذاشت: «شاید مهم‌ترین حوزه‌های پیشرفت، توانایی استدلال باشد. در حال حاضر، GPT-4 تنها می‌تواند به طرز محدودی استدلال کند.»

کاربران زیادی در ردیت و مدیوم شکست‌های GPT-4 را به اشتراک گذاشته‌اند، از طعنه‌های گروهی درباره توانایی حل مسئله آن، تا توضیحات رسمی درباره توانایی محدود استدلال آن. استدلال کردن برای هوش مصنوعی بسیار دشوار است و هر گونه پیشرفت قابل توجه در این زمینه، باعث پیشرفت چشمگیر عملکرد مدل خواهد شد.

بهبود توانایی استدلال به معنای آن خواهد بود که GPT-5 در درک متن، استنتاج و حل مسئله بهتر از GPT-4 عمل خواهد کرد. با ترکیب یک پایگاه دانش بزرگتر، GPT-5 می‌تواند بهتر مقصود کاربر را درک کند و با اطلاعات بیشتر و مرتبط‌تری پاسخ دهد.

و اگر خوش شانس باشیم، GPT-5 ممکن است سرانجام مدل هوش مصنوعی باشد که بتواند معما را حل کند و به این ترتیب، بسیار فراتر از GPT-4 برود.

چندمدالیتی همیشه یکی از ویژگی‌های اصلی نسخه‌های اخیر GPT بوده است و OpenAI نشانه‌ای از کند شدن آن نشان نمی‌دهد.

OpenAI در ماه مه 2024، GPT-4o را معرفی کرد که مهارت‌های متن، صدا و بینایی آن بهبود یافته بود. این مدل می‌تواند در مکالمات طبیعی شرکت کند، ورودی‌های تصویری را تحلیل کند، تصاویر را توصیف کند و صداهای پیچیده را پردازش کند.

تغییرات در چندمدالیتی، تحولات بزرگی در نحوه تعامل ما با GPT ایجاد می‌کند. جریان طبیعی مکالمه - زمانی که مدل می‌تواند تغییرات لحنی را به درستی تفسیر کند و الگوهایی شبیه به گفتار انسانی را دنبال کند - یک جهش بزرگ در پردازش زبان طبیعی AI است.

تصویری تولید شده توسط سورا از یک زن در حال راه‌رفتن در خیابان پرتردد توکیو شب. — *یک قاب از کلیپ ۶۰ ثانیه ای تولید شده توسط سورا که یک زن در حال راه‌رفتن در توکیو را نشان می‌دهد.*

و این تنها محدود به صدا و متن نیست. OpenAI از مدل AI متن-به-ویدئوی خود به نام Sora نیز پرده برداری کرده است. این مدل AI برای تقلید از حرکات پیچیده دوربین و ایجاد شخصیت‌ها و مناظر دقیق در کلیپ‌های تا 60 ثانیه‌ای طراحی شده است.

اگر تاریخچه چندمدالیتی آنها کافی نباشد، می‌توانید صحبت‌های آلتمن، مدیرعامل OpenAI را در نظر بگیرید. او به گیتس تأیید کرد که پردازش ویدئو، همراه با استدلال، یکی از اولویت‌های اصلی مدل‌های آینده GPT خواهد بود.

چندمدالیتی یکی از بزرگ‌ترین کلمات کلیدی در آینده مدل‌های هوش مصنوعی است و به دلایل خوبی این موضوع مورد توجه است. اگرچه GPT-4o بر گسترش توانایی‌های چندمدال خود تأکید داشت، اما تعجب نخواهیم کرد اگر مدل جدید ویژگی‌های بیشتری در زمینه صدا، تصویر یا ویدئو داشته باشد.

هر به‌روزرسانی GPT، اندازه پارامتر را افزایش داده است و انتظار می‌رود GPT-5 نیز از این قاعده پیروی کند. در یک تبدیل‌کننده مانند GPT، پارامترها شامل وزن‌ها و سوگیری‌های شبکه‌های عصبی، مانند مکانیزم‌های توجه، لایه‌های پیشرو و ماتریس‌های جاسازی هستند. اندازه این پارامترها به طور مستقیم بر توانایی مدل برای یادگیری از داده‌های ورودی تأثیر می‌گذارد.

اگرچه OpenAI اندازه دقیق پارامترها را فاش نمی‌کند، اما برآوردها آن را حدود 1.5 تریلیون پارامتر تخمین می‌زنند - افزایش قابل توجهی نسبت به 175 میلیارد پارامتر GPT-3 (و جهشی غیرقابل تصور از 1.5 میلیارد پارامتر GPT-2).

کارشناس هوش مصنوعی، آلن تامپسون، که مشاور یکپارچه‌سازی AI در گوگل و مایکروسافت است، انتظار دارد که تعداد پارامترها بین 2 تا 5 تریلیون باشد. تحلیل او بر اساس دو برابر شدن قدرت پردازش و زمان آموزش است - افزایش قابل توجهی در خط زمانی آزمایش نسبت به GPT-4.

پنجره‌های متناظر نشان می‌دهند که مدل می‌تواند در یک بار چه تعداد توکن (کلمات یا زیرکلمات) را پردازش کند. یک پنجره متناظر بزرگتر به مدل این امکان را می‌دهد تا اطلاعات بیشتری از متن ورودی جذب کند و به این ترتیب، پاسخ دقیق‌تری ارائه دهد.

یکی از ضعف‌های GPT-4 توانایی محدود آن در پردازش متن است. برای مثال، GPT-4 Turbo و GPT-4o دارای پنجره متناظر 128,000 توکنی هستند، در حالی که مدل Gemini گوگل دارای پنجره متناظر تا 1 میلیون توکن است.

در حال حاضر، اگر تنها نگرانی شما داشتن یک مدل زبان بزرگ با توانایی جذب اطلاعات زیاد باشد، GPT-4 ممکن است اولین انتخاب شما نباشد. انتظار می‌رود OpenAI این مشکلات را در مدل جدید حل کند.

آلن تامپسون چه پیش‌بینی می‌کند؟ یک افزایش چشمگیر به 40 تریلیون توکن. تغییری از این نوع می‌تواند یک پیشرفت قابل توجه نسبت به مدل Gemini باشد و توانایی پاسخگویی به مجموعه داده‌های بزرگ کاربران را فراهم کند. این موضوع می‌تواند یک بازی‌گردان برای عملکرد مدل AI باشد، به ویژه برای مشتریان سازمانی OpenAI و کاربرانی که نیاز به ورودی داده‌های سنگین دارند.

GPT-4 اغلب به عنوان یک ابزار همه‌کاره استفاده می‌شود، اما نسخه‌های آینده آن شخصی‌سازی بیشتری خواهند داشت. آلتمن در پادکست گیتس تأکید کرد که قابلیت سفارشی‌سازی و شخصی‌سازی، کلید مدل‌های آینده OpenAI خواهند بود. او گفت: «مردم انتظارات بسیار متفاوتی از GPT-4 دارند: سبک‌های مختلف، مجموعه‌های مختلف فرضیات.»

OpenAI مدل‌های GPT سفارشی را معرفی کرده است که به کاربران امکان می‌دهد تا GPT را برای یک وظیفه خاص شخصی‌سازی کنند، از آموزش یک بازی تخته‌ای تا کمک به کودکان برای انجام تکالیف مدرسه. اگرچه شخصی‌سازی ممکن است در کانون به‌روزرسانی بعدی نباشد، اما انتظار می‌رود که در آینده به یک روند اصلی تبدیل شود.

پیش‌بینی‌ها درباره تاریخ انتشار OpenAI بسیار متفاوت است و از مه 2024 تا دسامبر 2024 متغیر است.

برخی از کارشناسان انتظار دارند که مدل جدید تا بعد از انتخابات آمریکا منتشر نشود و تاریخ انتشار آن نوامبر یا دسامبر 2024 باشد. بیشتر این پیش‌بینی‌ها بر اساس خط زمانی انتشار GPT-4 و دانش داخلی است.

دوره آموزش مدل جدید حدود 4 تا 6 ماه طول خواهد کشید که دو برابر زمان آموزش 3 ماهه OpenAI برای GPT-4 است. مدل جدید احتمالا قبل از انتشار، یادگیری تقویتی، آزمایش‌های تیم قرمز و آزمایش‌های بیشتر را پشت سر خواهد گذاشت، اگرچه این خط زمانی مبهم است و OpenAI ممکن است مجبور شود تاریخ انتشار را به تعویق بیندازد اگر با سناریوهای پیش‌بینی نشده مواجه شود.

GPT-5 احتمالا همچنان از اطلاعات موجود در اینترنت به عنوان داده‌های آموزشی استفاده خواهد کرد.

اگر OpenAI در مسیر خود به سوی صدر صنعت هوش مصنوعی با مشکلی مواجه شده باشد، سری شکایات درباره آموزش کامل مدل‌ها بوده است.

مدل‌های GPT با استفاده از مجموعه داده‌های عظیم گرفته شده از اینترنت آموزش می‌بینند که بسیاری از آنها حق تکثیر دارند. استفاده بدون اجازه از این داده‌ها منجر به شکایت‌ها و اقدامات قانونی گسترده‌ای شده است: شکایت از سوی نیویورک تایمز، شکایت گروهی از آژانس‌های خبری آمریکا، و ادعاهایی مبنی بر اینکه روند آموزش مدل، قوانین حفاظت از داده‌های عمومی اتحادیه اروپا را نقض می‌کند.

یک قاضی کالیفرنیایی یکی از شکایت‌های حق تکثیر OpenAI را که توسط گروهی از نویسندگان، از جمله سلبریتی‌هایی مانند سارا سیلورمن و تانهیسی کوتز، مطرح شده بود، رد کرده است. هیچ نشانه‌ای وجود ندارد که نشان دهد این شکایت‌ها به طور قابل توجهی OpenAI را تحت تأثیر قرار داده است.

اگر OpenAI مدل قیمت‌گذاری استاندارد خود را ادامه دهد، استفاده از GPT-5 هزینه‌بر خواهد بود. در حال حاضر، ChatGPT با GPT-4 تنها برای کاربران پرداخت‌کننده در دسترس است که 20 دلار در ماه هزینه دارد، در حالی که ChatGPT با GPT 3.5 به صورت رایگان در دسترس است.

در مورد قیمت API، GPT-4 به ازای هر 1 میلیون توکن ورودی 30 دلار و به ازای هر 1 میلیون توکن خروجی 60 دلار هزینه دارد (این قیمت‌ها برای نسخه 32k دو برابر می‌شوند). اگر مدل جدید همانطور که پیش‌بینی شده است قدرتمند باشد، قیمت‌ها احتمالا بالاتر از مدل‌های قبلی OpenAI خواهند بود.

با این حال، آخرین مدل OpenAI بسیار مقرون به صرفه‌تر است. GPT-4o تنها 5 دلار به ازای هر 1 میلیون توکن ورودی و 15 دلار به ازای هر 1 میلیون توکن خروجی هزینه دارد. اگرچه تفاوت قیمت برای مشتریان سازمانی مهم نیست، اما OpenAI گامی قابل توجه برای افراد و کسب و کارهای کوچک برداشته است.

خبر خوب این است که انتشار GPT-5 احتمالا GPT-4 را به مدل رایگان جدید OpenAI تبدیل خواهد کرد.

نسل بعدی مدل‌های زبان بزرگ، نحوه تعامل ما با هوش مصنوعی در زندگی روزمره را متحول خواهند کرد. برد لایت‌کپ، مدیرعامل OpenAI، در کنفرانس تکنولوژی بلومبرگ اشاره کرد که این شرکت چگونه برنامه‌ریزی می‌کند تا تعامل انسان و رایانه را با تبدیل GPT از یک LLM به یک مدل با قابلیت‌های شبیه به عامل، متحول کند.

او گفت: «آیا در سال 2026 چیزی به نام مهندس پرامپ خواهیم داشت؟ شما دوست خود را مهندسی پرامپ نمی‌کنید.»

یک مدل توانمندتر و شخصی‌تر با قابلیت‌های چندمدال بیشتر، همان چیزی را که آلتمن و OpenAI انتظار دارند، ارائه خواهد داد: غیرقابل تصور. GPT-5 یک گام دیگر به سوی این هدف خواهد بود.

منبع: botpress.com

همه چیزهایی که باید درباره GPT-5 بدانید!

مقالاتی که شاید خوشتان بیاید: