
همه چیزهایی که باید درباره GPT-5 بدانید!
GPT-5 در راه است و شایعات نشان میدهند که تاریخ انتشار آن زودتر از چیزی خواهد بود که انتظار میرود. در مصاحبهای که سم آلتمن، مدیرعامل OpenAI، در ژانویه 2024 با بیل گیتس داشت، تأیید کرد که GPT-5 در دست توسعه است. گزارشها حاکی از آن هستند که احتمالا تا اواسط سال 2024، احتمالا در همین تابستان، شاهد انتشار آن خواهیم بود.
اگرچه GPT-4 در حال حاضر انقلابی به نظر میرسد، آلتمن معتقد است که جهان تنها سطحی از هوش مصنوعی را تجربه کرده است. او در نشست دولت جهانی در ژانویه 2024، مدلهای فعلی OpenAI را با روزهای اولیه تلفنهای همراه مقایسه کرد و گفت که فناوری فعلی مانند همان تلفنهای همراه اولیه با صفحه نمایش سیاه و سفید است که کار زیادی انجام نمیدهند. او معتقد است که رسیدن به سطح فناوری کنونی، دههها زمان برده است و ما اکنون تنها در ابتدای راه هوش مصنوعی قرار داریم.
GPT-5 بدون شک مورد انتظارترین انتشار LLM تا به امروز خواهد بود. این مدل هوش مصنوعی سرعت بیشتری خواهد داشت و توانایی پردازش زبان طبیعی آن بهبود یافته است. بنابراین چه چیزهایی را میتوانیم انتظار داشته باشیم؟

یکی از مدیران اجرایی که به نسخه پیشرفته GPT-5 دسترسی داشته است، میگوید: «این مدل واقعا خوب کار میکند و به طور محسوسی بهتر است.» همانطور که GPT-4 پیشرفت قابل توجهی نسبت به نسخه قبلی خود داشت، تردیدی نیست که GPT-5 نیز همین کار را خواهد کرد. اگرچه OpenAI به روزرسانیهایی را تأیید نکرده است و احتمالا قبل از انتشار غافلگیرکننده آن نیز تأیید نخواهد کرد، اما پیشبینیهایی که در ادامه میآید، از مصاحبه با افراد مطلع، بهروزرسانیهای قبلی GPT و روندهای هوش مصنوعی در LLMهای رقیب استخراج شدهاند.
بزرگترین تفاوت بین GPT-4 و GPT-5 چیست؟ به گفته آلتمن: «هوشمندتر خواهد بود.»
آلتمن در نشست دولت جهانی تأکید کرد که بزرگترین جهش از GPT-4 به GPT-5 ساده است: هوشمندتر است. او توضیح داد که «آنچه این مدلها را جادویی میکند، عمومی بودن آنهاست. هوشمندتر خواهد بود، بنابراین در همه چیز بهتر خواهد بود.»
اگرچه انتظار میرود بهبودهای زیادی ایجاد شود، اما هوشمندتر بودن مدل جدید، همه ویژگیهای موجود LLMهای فعلی را ارتقا خواهد داد.
آلتمن تأیید کرد که قابلیت اطمینان، یکی از تمرکزهای اصلی تکامل GPT در دو سال آینده خواهد بود. او گفت: «اگر 10,000 بار از GPT-4 یک سوال بپرسید، احتمالا یکی از آن 10,000 پاسخ، بسیار خوب است، اما همیشه نمیداند کدام یک بهترین پاسخ است. شما میخواهید بهترین پاسخ از میان 10,000 پاسخ را دریافت کنید و افزایش قابلیت اطمینان در این زمینه اهمیت دارد.»
قابلیت اطمینان همیشه یکی از نقاط ضعف GPT-4 بوده است و GPT-4 Turbo نیز تا حدی برای برطرف کردن مشکلات مربوط به یکپارچگی و دقت مدل طراحی شده است. توربو شاهد افزایش ثبات مدل و کاهش توهمات AI بود.
بنابراین، اگر شکایتهای کاربران که مبنای درستی دارند، شنیده شود، مدل جدید قطعا برای افزایش قابلیت اطمینان نسبت به GPT-4 آموزش خواهد دید. در واقع، یکی از کارمندان ناشناس OpenAI تأیید کرد که تیم امیدوار است که نسخه بعدی قابلیت اطمینان بیشتری داشته باشد.
در مرکز هوش عمومی GPT-5، توانایی پیشرفتهتر استدلال کردن آن است. آلتمن با گیتس به اشتراک گذاشت: «شاید مهمترین حوزههای پیشرفت، توانایی استدلال باشد. در حال حاضر، GPT-4 تنها میتواند به طرز محدودی استدلال کند.»
کاربران زیادی در ردیت و مدیوم شکستهای GPT-4 را به اشتراک گذاشتهاند، از طعنههای گروهی درباره توانایی حل مسئله آن، تا توضیحات رسمی درباره توانایی محدود استدلال آن. استدلال کردن برای هوش مصنوعی بسیار دشوار است و هر گونه پیشرفت قابل توجه در این زمینه، باعث پیشرفت چشمگیر عملکرد مدل خواهد شد.
بهبود توانایی استدلال به معنای آن خواهد بود که GPT-5 در درک متن، استنتاج و حل مسئله بهتر از GPT-4 عمل خواهد کرد. با ترکیب یک پایگاه دانش بزرگتر، GPT-5 میتواند بهتر مقصود کاربر را درک کند و با اطلاعات بیشتر و مرتبطتری پاسخ دهد.
و اگر خوش شانس باشیم، GPT-5 ممکن است سرانجام مدل هوش مصنوعی باشد که بتواند معما را حل کند و به این ترتیب، بسیار فراتر از GPT-4 برود.
چندمدالیتی همیشه یکی از ویژگیهای اصلی نسخههای اخیر GPT بوده است و OpenAI نشانهای از کند شدن آن نشان نمیدهد.
OpenAI در ماه مه 2024، GPT-4o را معرفی کرد که مهارتهای متن، صدا و بینایی آن بهبود یافته بود. این مدل میتواند در مکالمات طبیعی شرکت کند، ورودیهای تصویری را تحلیل کند، تصاویر را توصیف کند و صداهای پیچیده را پردازش کند.
تغییرات در چندمدالیتی، تحولات بزرگی در نحوه تعامل ما با GPT ایجاد میکند. جریان طبیعی مکالمه - زمانی که مدل میتواند تغییرات لحنی را به درستی تفسیر کند و الگوهایی شبیه به گفتار انسانی را دنبال کند - یک جهش بزرگ در پردازش زبان طبیعی AI است.

و این تنها محدود به صدا و متن نیست. OpenAI از مدل AI متن-به-ویدئوی خود به نام Sora نیز پرده برداری کرده است. این مدل AI برای تقلید از حرکات پیچیده دوربین و ایجاد شخصیتها و مناظر دقیق در کلیپهای تا 60 ثانیهای طراحی شده است.
اگر تاریخچه چندمدالیتی آنها کافی نباشد، میتوانید صحبتهای آلتمن، مدیرعامل OpenAI را در نظر بگیرید. او به گیتس تأیید کرد که پردازش ویدئو، همراه با استدلال، یکی از اولویتهای اصلی مدلهای آینده GPT خواهد بود.
چندمدالیتی یکی از بزرگترین کلمات کلیدی در آینده مدلهای هوش مصنوعی است و به دلایل خوبی این موضوع مورد توجه است. اگرچه GPT-4o بر گسترش تواناییهای چندمدال خود تأکید داشت، اما تعجب نخواهیم کرد اگر مدل جدید ویژگیهای بیشتری در زمینه صدا، تصویر یا ویدئو داشته باشد.
هر بهروزرسانی GPT، اندازه پارامتر را افزایش داده است و انتظار میرود GPT-5 نیز از این قاعده پیروی کند. در یک تبدیلکننده مانند GPT، پارامترها شامل وزنها و سوگیریهای شبکههای عصبی، مانند مکانیزمهای توجه، لایههای پیشرو و ماتریسهای جاسازی هستند. اندازه این پارامترها به طور مستقیم بر توانایی مدل برای یادگیری از دادههای ورودی تأثیر میگذارد.
اگرچه OpenAI اندازه دقیق پارامترها را فاش نمیکند، اما برآوردها آن را حدود 1.5 تریلیون پارامتر تخمین میزنند - افزایش قابل توجهی نسبت به 175 میلیارد پارامتر GPT-3 (و جهشی غیرقابل تصور از 1.5 میلیارد پارامتر GPT-2).
کارشناس هوش مصنوعی، آلن تامپسون، که مشاور یکپارچهسازی AI در گوگل و مایکروسافت است، انتظار دارد که تعداد پارامترها بین 2 تا 5 تریلیون باشد. تحلیل او بر اساس دو برابر شدن قدرت پردازش و زمان آموزش است - افزایش قابل توجهی در خط زمانی آزمایش نسبت به GPT-4.
پنجرههای متناظر نشان میدهند که مدل میتواند در یک بار چه تعداد توکن (کلمات یا زیرکلمات) را پردازش کند. یک پنجره متناظر بزرگتر به مدل این امکان را میدهد تا اطلاعات بیشتری از متن ورودی جذب کند و به این ترتیب، پاسخ دقیقتری ارائه دهد.
یکی از ضعفهای GPT-4 توانایی محدود آن در پردازش متن است. برای مثال، GPT-4 Turbo و GPT-4o دارای پنجره متناظر 128,000 توکنی هستند، در حالی که مدل Gemini گوگل دارای پنجره متناظر تا 1 میلیون توکن است.
در حال حاضر، اگر تنها نگرانی شما داشتن یک مدل زبان بزرگ با توانایی جذب اطلاعات زیاد باشد، GPT-4 ممکن است اولین انتخاب شما نباشد. انتظار میرود OpenAI این مشکلات را در مدل جدید حل کند.
آلن تامپسون چه پیشبینی میکند؟ یک افزایش چشمگیر به 40 تریلیون توکن. تغییری از این نوع میتواند یک پیشرفت قابل توجه نسبت به مدل Gemini باشد و توانایی پاسخگویی به مجموعه دادههای بزرگ کاربران را فراهم کند. این موضوع میتواند یک بازیگردان برای عملکرد مدل AI باشد، به ویژه برای مشتریان سازمانی OpenAI و کاربرانی که نیاز به ورودی دادههای سنگین دارند.
GPT-4 اغلب به عنوان یک ابزار همهکاره استفاده میشود، اما نسخههای آینده آن شخصیسازی بیشتری خواهند داشت. آلتمن در پادکست گیتس تأکید کرد که قابلیت سفارشیسازی و شخصیسازی، کلید مدلهای آینده OpenAI خواهند بود. او گفت: «مردم انتظارات بسیار متفاوتی از GPT-4 دارند: سبکهای مختلف، مجموعههای مختلف فرضیات.»
OpenAI مدلهای GPT سفارشی را معرفی کرده است که به کاربران امکان میدهد تا GPT را برای یک وظیفه خاص شخصیسازی کنند، از آموزش یک بازی تختهای تا کمک به کودکان برای انجام تکالیف مدرسه. اگرچه شخصیسازی ممکن است در کانون بهروزرسانی بعدی نباشد، اما انتظار میرود که در آینده به یک روند اصلی تبدیل شود.
پیشبینیها درباره تاریخ انتشار OpenAI بسیار متفاوت است و از مه 2024 تا دسامبر 2024 متغیر است.
برخی از کارشناسان انتظار دارند که مدل جدید تا بعد از انتخابات آمریکا منتشر نشود و تاریخ انتشار آن نوامبر یا دسامبر 2024 باشد. بیشتر این پیشبینیها بر اساس خط زمانی انتشار GPT-4 و دانش داخلی است.
دوره آموزش مدل جدید حدود 4 تا 6 ماه طول خواهد کشید که دو برابر زمان آموزش 3 ماهه OpenAI برای GPT-4 است. مدل جدید احتمالا قبل از انتشار، یادگیری تقویتی، آزمایشهای تیم قرمز و آزمایشهای بیشتر را پشت سر خواهد گذاشت، اگرچه این خط زمانی مبهم است و OpenAI ممکن است مجبور شود تاریخ انتشار را به تعویق بیندازد اگر با سناریوهای پیشبینی نشده مواجه شود.
GPT-5 احتمالا همچنان از اطلاعات موجود در اینترنت به عنوان دادههای آموزشی استفاده خواهد کرد.
اگر OpenAI در مسیر خود به سوی صدر صنعت هوش مصنوعی با مشکلی مواجه شده باشد، سری شکایات درباره آموزش کامل مدلها بوده است.
مدلهای GPT با استفاده از مجموعه دادههای عظیم گرفته شده از اینترنت آموزش میبینند که بسیاری از آنها حق تکثیر دارند. استفاده بدون اجازه از این دادهها منجر به شکایتها و اقدامات قانونی گستردهای شده است: شکایت از سوی نیویورک تایمز، شکایت گروهی از آژانسهای خبری آمریکا، و ادعاهایی مبنی بر اینکه روند آموزش مدل، قوانین حفاظت از دادههای عمومی اتحادیه اروپا را نقض میکند.
یک قاضی کالیفرنیایی یکی از شکایتهای حق تکثیر OpenAI را که توسط گروهی از نویسندگان، از جمله سلبریتیهایی مانند سارا سیلورمن و تانهیسی کوتز، مطرح شده بود، رد کرده است. هیچ نشانهای وجود ندارد که نشان دهد این شکایتها به طور قابل توجهی OpenAI را تحت تأثیر قرار داده است.
اگر OpenAI مدل قیمتگذاری استاندارد خود را ادامه دهد، استفاده از GPT-5 هزینهبر خواهد بود. در حال حاضر، ChatGPT با GPT-4 تنها برای کاربران پرداختکننده در دسترس است که 20 دلار در ماه هزینه دارد، در حالی که ChatGPT با GPT 3.5 به صورت رایگان در دسترس است.
در مورد قیمت API، GPT-4 به ازای هر 1 میلیون توکن ورودی 30 دلار و به ازای هر 1 میلیون توکن خروجی 60 دلار هزینه دارد (این قیمتها برای نسخه 32k دو برابر میشوند). اگر مدل جدید همانطور که پیشبینی شده است قدرتمند باشد، قیمتها احتمالا بالاتر از مدلهای قبلی OpenAI خواهند بود.
با این حال، آخرین مدل OpenAI بسیار مقرون به صرفهتر است. GPT-4o تنها 5 دلار به ازای هر 1 میلیون توکن ورودی و 15 دلار به ازای هر 1 میلیون توکن خروجی هزینه دارد. اگرچه تفاوت قیمت برای مشتریان سازمانی مهم نیست، اما OpenAI گامی قابل توجه برای افراد و کسب و کارهای کوچک برداشته است.
خبر خوب این است که انتشار GPT-5 احتمالا GPT-4 را به مدل رایگان جدید OpenAI تبدیل خواهد کرد.
نسل بعدی مدلهای زبان بزرگ، نحوه تعامل ما با هوش مصنوعی در زندگی روزمره را متحول خواهند کرد. برد لایتکپ، مدیرعامل OpenAI، در کنفرانس تکنولوژی بلومبرگ اشاره کرد که این شرکت چگونه برنامهریزی میکند تا تعامل انسان و رایانه را با تبدیل GPT از یک LLM به یک مدل با قابلیتهای شبیه به عامل، متحول کند.
او گفت: «آیا در سال 2026 چیزی به نام مهندس پرامپ خواهیم داشت؟ شما دوست خود را مهندسی پرامپ نمیکنید.»
یک مدل توانمندتر و شخصیتر با قابلیتهای چندمدال بیشتر، همان چیزی را که آلتمن و OpenAI انتظار دارند، ارائه خواهد داد: غیرقابل تصور. GPT-5 یک گام دیگر به سوی این هدف خواهد بود.
منبع: botpress.com