کاهش درصد همانندجویی متن

هوش مصنوعی قبل از سال 2021 چگونه بود؟



هوش مصنوعی قبل از سال ۲۰۲۱، دنیایی متفاوت از امروز داشت؛ دنیایی که در آن الگوریتم‌های عمیق هنوز به‌صورت انبوه در گوشی‌هایمان زندگی نمی‌کردند و چت‌بات‌ها بیشتر در آزمایشگاه‌ها و مقالات علمی جاخوش کرده بودند تا اینکه در گروه‌های تلگرام و واتس‌اپ سر و صدا کنند. در این مقاله می‌خواهیم با زبان ساده و نگاهی تاریخی برگردیم به همان روزهایی که هوش مصنوعی هنوز یک واژه ترسناک برای عموم مردم به شمار نمی‌رفت و بیشتر دانشمندان و برنامه‌نویسان درگیرش بودند تا کاربران عادی.



اگر بخواهیم یک خط زمانی روی کاغذ بکشیم، پیش از ۲۰۲۱ را می‌توان به سه دوره‌ی اصلی تقسیم کرد: دوران «نمادین» یا Symbolic AI تا اوایل دهه‌ی ۹۰، دوران «یادگیری ماشین کلاسیک» از اواسط ۹۰ تا اوایل ۲۰۱۰، و دوران «یادگیری عمیق نوظهور» از ۲۰۱۲ تا ۲۰۲۰. هر کدام از این دوره‌ها ویژگی‌های خاص خودشان را داشتند و در ایران هم داستان‌های جالبی رقم زدند.



در دوران نمادین، برنامه‌نویسان با قواعد «اگر-آنگاه» دست‌وپنجه نرم می‌کردند؛ یعنی به جای اینکه سیستم خودش از داده یاد بگیرد، انسان‌ها با زحمت فراوان قواعدی می‌نوشتند تا ماشین بتواند استدلال کند. مثلاً اگر می‌خواستند یک سیستم تشخیص بیماری بسازند، پزشکان متخصص باید صدها قانون «اگر تب داشت و سرفه خشک بود و...» را به‌صورت دستی وارد می‌کردند. در ایران هم پروژه‌هایی مثل «مشاور حقوقی» در دانشگاه صنعتی شریف با همین روش ساخته شدند؛ سیستمی که می‌توانست با پرسیدن چند سؤال، احتمال محکومیت یا برائت را تخمین بزند.



اما این روش زود به بن‌بست خورد؛ چون نوشتن همه‌ی قواعد برای دنیای پیچیده‌ی واقعی غیرممکن بود. به‌علاوه، هر تغییر کوچک در دنیای واقعی، نیازمند بازنویسی صدها قانون بود. همین شد که محققان به سمت یادگیری ماشین رفتند؛ جایی که دیگر لازم نبود قواعد را دستی بنویسیم، بلکه داده‌ها خودشان قواعد را استخراج می‌کردند.



یادگیری ماشین کلاسیک در ایران هم رشد کرد؛ از الگوریتم‌های SVM و تصمیم‌گیری درخت‌مانند گرفته تا شبکه‌های عصبی ساده. در همین دوران بود که شرکت‌هایی مثل «فن‌آوا» یا «آسان‌پرداخت» شروع کردند به استفاده از این الگوریتم‌ها برای تشخیص تراکنش‌های مشکوک یا پیشنهاد کالا به کاربران. یادم می‌آید سال ۱۳۹۰ یکی از دوستانم در یک استارتاپ کوچک تهرانی با پایتون و کتابخانه‌ی scikit-learn مدلی ساخت که می‌توانست با ۸۰ درصد دقت تشخیص دهد کدام ایمیل‌ها اسپم هستند؛ آن زمان این عدد برایمان معجزه بود.



اما واقعه‌ی بزرگ، سال ۲۰۱۲ رخ داد؛ زمانی که جف هینتون و تیمش در مسابقه‌ی ImageNet با شبکه‌ی عصبی عمیق خودشان رکورد شناسایی تصویر را شکستند. این اتفاق در ایران هم بازتاب داشت؛ چند ماه بعد، گروهی از دانشجویان دانشگاه تهران اولین نسخه‌ی فارسی تشخیص چهره را با استفاده از کافه‌نت روی GPU‌های GTX 660 تست کردند. هنوز هم عکس‌هایی از آن پروژه در گالری لپ‌تاپ یکی از اساتید پیدا می‌شود؛ عکس‌هایی که در آن‌ها شبکه‌ی عصبی با دقت ۶۵ درصد چهره‌ی همکلاسی‌ها را در راهروی دانشکده تشخیص می‌داد.



بین سال‌های ۲۰۱۵ تا ۲۰۲۰، یادگیری عمیق در ایران رنگ‌وبو گرفت. استارتاپ‌هایی مثل «دیجی‌کالا» شروع کردند به استفاده از مدل‌های توصیه‌گر مبتنی بر RNN برای پیشنهاد کالا؛ بانک‌های بزرگ هم پروژه‌های OCR راه‌انداختند تا چک‌ها را خودکار بخوانند. در همین دوران بود که پایتون به زبان اصلی دیتا ساینتیست‌های ایرانی تبدیل شد و TensorFlow و PyTorch جای متلب را در بسیاری از آزمایشگاه‌ها گرفتند.



یکی از جذاب‌ترین پروژه‌های آن دوره، «ربات گفت‌وگوی فارسی» بود که در مرکز تحقیقات مخابرات ساخته شد. این ربات با ترکیب LSTM و word2vec می‌توانست به سؤالات ساده‌ای مثل «آب‌وهوا چطوره؟» یا «ساعت چنده؟» پاسخ دهد. البته هنوز خبری از GPT یا BERT نبود و بیشتر پاسخ‌ها از الگوهای از پیش تعریف‌شده می‌آمدند، اما همین پروژه‌ها پایه‌ی رشد امروزی هوش مصنوعی در حوزه‌ی زبان فارسی شدند.



در حوزه‌ی بینایی ماشین هم پیشرفت چشمگیری داشتیم؛ از تشخیص پلاک خودرو در بزرگراه‌های تهران گرفته تا پایش ترافیک با دوربین‌های هوشمند. یادم هست سال ۱۳۹۸ در یکی از پروژه‌های شهرداری، مدلی با YOLO v3 آموزش دادیم که می‌توانست در ۹۵ درصد موارد پلاک‌های ایرانی را در شب هم بخواند؛ آن زمان این عدد برای مسئولان شهری باورنکردنی بود.



اما نباید فراموش کنیم که پیش از ۲۰۲۱، دسترسی به داده‌ی باکیفیت فارسی یکی از بزرگ‌ترین چالش‌ها بود. بیشتر مجموعه‌داده‌های ما یا ترجمه‌ی ناقص نمونه‌های انگلیسی بودند یا حجم کمی داشتند. همین شد که گروه‌هایی مثل «پژوهشکده‌ی هوش مصنوعی دانشگاه صنعتی امیرکبیر» شروع کردند به جمع‌آوری متن‌های فارسی از وبلاگ‌ها و انجمن‌ها؛ کاری که حالا به‌صورت سیستماتیک در پروژه‌هایی مثل «پیکره‌ی فارسی» ادامه دارد.



سخت‌افزار هم محدودیت بزرگی بود. تا سال ۲۰۱۹، GPU‌های قدرتمند در ایران کمیاب و گران بودند و بیشتر تیم‌ها مجبور بودند با کارت‌های GTX 1060 یا حتی CPU کار کنند. همین موضوع باعث شد که بسیاری از پروژه‌ها در ابعاد کوچک‌تر آزمایش شوند و بهینه‌سازی مدل‌ها اهمیت دوچندان پیدا کند. یادم می‌آید یکی از دوستانم برای آموزش یک مدل تشخیص احساسات، مجبور شد داده‌اش را به ۵۰ هزار سطر محدود کند تا در ۸ گیگابایت RAM اجرا شود.



در حوزه‌ی پژوهش، ایران هم در مجامع بین‌المللی حضور پررنگ‌تری پیدا کرد. از سال ۲۰۱۷ به بعد، مقاله‌های فارسی‌زبان در کنفرانس‌هایی مثل IJCAI و NeurIPS دیده شد؛ مثلاً تیمی از دانشگاه شریف در سال ۲۰۱۹ مقاله‌ای درباره‌ی «کاهش ابعاد داده‌های فارسی با استفاده از Autoencoder» ارائه داد که مورد توجه قرار گرفت. این حضور باعث شد که نسل جدیدی از دانشجویان ایرانی با جریان اصلی دنیا آشنا شوند.



اما شاید مهم‌ترین ویژگی دوره‌ی قبل از ۲۰۲۱، «امید و کنجکاوی» بود. هنوز کسی نگران نبود که هوش مصنوعی شغل‌ها را از بین ببرد یا اخبار جعلی بسازد؛ بیشتر انرژی صرف کشف توانایی‌های جدید می‌شد. در میت‌آپ‌های تهران، جلسات پرشوری برگزار می‌شد که در آن‌ها یکی از اساتید از «تبدیل صوت به متن فارسی» حرف می‌زد و جمعیت با ذوق گوش می‌دادند؛ چیزی که حالا به اپلیکیشن‌هایی مثل «نوتر» تبدیل شده است.



در نهایت، اگر بخواهیم یک جمع‌بندی کنیم، هوش مصنوعی قبل از ۲۰۲۱ مثل نوجوانی بود که تازه پا به دبیرستان گذاشته بود؛ پرانرژی، کنجکاو، و البته محدود به امکانات. همان نوجوانی که حالا به جوانی بالغ تبدیل شده و در دل گوشی‌ها، ماشین‌ها و حتی خانه‌هایمان جا خوش کرده است. اما بدون آن دوران پرتلاش، بدون آن GPU‌های داغ و کدهای دست‌وپا شکسته، امروز نمی‌توانستیم شاهد معجزه‌هایی باشیم که هر روز در اطرافمان می‌بینیم.






مقالاتی که شاید خوشتان بیاید:


سایت ساخت چهره با هوش مصنوعی رایگان


مهاجرت از ChatGPT به API دیپ سیک (DeepSeek V3)


ساخت عکس با هوش مصنوعی ایرانی


چند اشتباه رایج در استفاده از هوش مصنوعی!


ربات تبدیل متن به گفتار فارسی رایگان


پایان نامه کارشناسی برای چه رشته هایی است