تبدیل فایل صوتی به متن


استخراج متن از فایل صوتی و ترجمه آن به زبان فارسی و انگلیسی و عربی با هوش مصنوعی



انتخاب فایل MP3 یا WAV:

ترجمه به زبان:

یا
آدرس URL فایل را وارد کنید:

ترجمه به زبان:


لطفا توجه کنید: فایل صوتی شما باید کمتر از 25MB باشد.



معرفی سرویس Whisper توسعه داده شده توسط تاک بات.


Whisper، یک سیستم پیشرفته شناسایی خودکار گفتار (ASR) محصول شرکت معروف OpenAIاست که با 680.000 ساعت داده های چند زبانه و چند وظیفه‌ای متکی به وب آموزش داده شده است. این سیستم با استفاده از دیتابیس بزرگ و گوناگون خود، توانایی بالایی در شناسایی زبان‌های مختلف، لهجه‌های گوناگون، نویز پس‌زمینه و زبان فنی را دارد. علاوه بر این، این سیستم قادر است گفتار را به متن چند زبانه تبدیل کند و همچنین از زبان‌های مختلف به زبان انگلیسی ترجمه کند.

جالب است بدانید که Wispher به تنهایی فقط قادر به بازگرداندن متن ترجمه به زبان انگلیسی است، اما از تاک بات قابلیت ترجمه از فارسی به انگلیسی و برعکس را نیز اضافه کرده است. این امکان جدید به کاربران ایرانی این امکان را می دهد تا فایل صوتی خود را به راحتی به متن تبدیل کنند، و علاوه بر آن بتوانند متن را به صورت ترجمه شده به زبان فارسی یا انگلیسی و یا عربی دریافت کنند.. لازم به توضیح است که ژنراتور تاک بات برای ترجمه از آخرین نسل های هوش مصنوعی تعلیم شده برای ارائه ترجمه نزدیک به ترجمه انسانی استفاده می کند. تا همچنان میزان خطا به حداقل برسد.

به کمک ساختار آسان انکودر-دیکودر، Whisper توانایی تبدیل گفتار به متن مربوطه را دارد. بخش انکودر صدای ورودی را به فرکانس‌های مختلف تقسیم کرده و سپس به بخش دیکودر می‌فرستد که وظیفه‌ی تولید متن مربوط به صدا را دارد.

Whisper، با تکیه بر دیتابیس بزرگ و متنوعی که برای آموزش از آن استفاده کرده، از نظر عملکرد بسیار کارآمد است و اگرچه در مقایسه با LibriSpeech که یکی از معیارهای مطرح در زمینه شناسایی گفتار است، عملکرد بهتری ندارد، اما با توجه به توانایی خود در کار با داده‌های متنوع، تعداد خطاها را به میزان قابل توجهی (50%) کاهش داده است.

امیدواریم که با استفاده از قابلیت‌ منحصر بلفردی که تاک بات به Whisper افزوده است، و با توجه به رابطه کاربری که برای این سیستم هوش مصنوعی فراهم کرده، توسعه‌دهندگان، مترجمان، دانشجویان و سایر اقشار این مرز و بوم، بتوانند از این سیستم استفاده کنند تا همگان از این تکنولوژی بتوانند بهره بیشتری ببرند.


هزینه مدل

نام مدل هزینه (TPU)
Wispher1 - MTT 20000TPU
Wispher1 - MTT with Translate 30000TPU
موجودی توکن 0
TPC = Token Per Use
MTT = MP3 TO TEXT