بازشناسی خودکار گفتار
Automatic speech recognition (ASR)
هدف بلند مدت سیستمهای بازشناسی خودکار گفتار‚ طراحی ماشینی است که سیگنال صوتی مربوط به یک جملهٔ بیان شده را به دنبالهای از کلمات نوشته شده تبدیل نماید. سیستمهای بازشناسی خودکار گفتار اطلاعات متنوعی ازمنابع دانش گوناگون را در جهت دستیابی به جملهٔ بیان شده از روی سیگنال صوتی دریافت شده، به کار میگیرند. پردازش گفتار به عنوان یکی از زیر شاخههای پردازش سیگنال ٫ به سرعت در حال گسترش است. تکنیکهای پیچیده و نوآوریهای روز افزون این دانش٫همگی در راستای دستیابی به این ارزو هستند که امکان بیابیم مفاهیم در قالب ابزارهای ریاضی فراهم گردد.
مقدمه
گفتاراز دیرباز بخش عمده ای ازراه برقراری ارتباط بشر بوده است.یکی از اهداف بشر توجه به این مسئله بوده که اطلاعات را به صورت صوتی به عنوان ورودی به سیستم داده و سیستم با خواندن آن بتواند دستور دریافتی را اجرا نماید، که در بسیاری از موارد موجب صرفه جویی در وقت می شود. سیستم بازشناسی گفتارهمچنین این امکان را فراهم می نماید که گفتار گوینده را به صورت متن ارائه دهد.
سیستم بازشناسی گفتار با رویکرد تبدیل گفتار به داده و تحلیل آن کار میکند.این سیستم با کمک دو فناوری تولید گفتار و بازشناسی گفتار عمل می کند. که در تولید گفتار،اطلاعاتی مانند متن را به گفتار تبدیل خواهد کردو و در بازشناسی گفتار به رایانه این امکان را میدهد که گفتار گوینده را تشخیص دهد.
تاریخچه
اولین بار سیستم مبتنی بر فناوری بازشناسی گفتار در سال 1952 طراحی شد.این سیستم در ابتدا با تعداد لغات محدود عمل می کرد. با گذشت زمان شرکت هایی همانند Kurzweil در زمینه پزشکی از این سیستم بهره بردند و شرکت Dragon نیز در حوزه ی اتوماسیون سیستم های اداری محصولاتی ارائه کرد. جیمز بیکر که یکی از محققان شرکت IBM بود،یکی از پیشگامان این طرح به شمار می رود. او همچنین نرم افزار Dragon Dictate را تولید کرد ، او همچنین محصولی ارائه کرد که مبتنی بر گفتار پیوسته بود. همچنین شرکت مایکروسافت نیز در جهت تولید و کاربرد این سیستم فعالیت ها درخشانی داشته است.این تکنولوژی در ابتدا برای افراد توان خواه طراحی شده بود که با گذشت زمان استفاده از آن گسترده تر شد.
رویکرد های سیستم بازشناسی گفتار
تبدیل گفتار به داده : این سیستم با دریافت امواج صوتی آنالوگ ایجاد شده، آن را تبدیل به داده های دیجیتالی میکند. سپس سیگنال ها به قسمت های کوچک که به اندازه چند هزارم ثانیه هستند تقسیم می شوند.در مرحله بعد برنامه این قسمت ها را به کوچکترین عنصر یک زبان تبدیل خواهد کرد.گام بعد،مقایسه و سنجش این کوچکترین عناصر با استفاده از مدل های آماری می باشد.در انتها آنها را با مجموعه بزرگی از عبارات مقایسه می کند و گفتار گوینده را به صوت کد و یا صوت در خروجی می دهد.
بازشناسی گفتار: این سیستم ها در ابتدا سعی در انطباق گفتار گوینده با مجموعه ای از قوانین دستوری داشتند.چالش این سیستم وجود تنوع لهجه ها و گویش های متفاوت است.از الگلوریتم های مطرح در این حوزه از دو الگوریتم HMM(Hidden Markov Model) و NNM(Neural Network Model) می توان نام برد. که مدل HMM رایج ترین مدل می باشد. برنامه عباراتی را که از ورودی دریافت می کند را با عبارت های قبلی مقاسیه می کند و با تجزیه و تحلیل آن سعی بر بازشناسی گفتار ورودی دارد.
تقسیم بندی بر اساس عملکرد
این سیستم بر مبنای 3 معیار قابل طبقه بندی می باشد.
1.تعداد گویندگان (به دو سیستم وابسته به تعداد گوینده و مستقل از گوینده تقسیم می شوند) 2.شیوه صحبت کردن گوینده (به دو صورت گفتار گسسته و گفتار پیوسته می باشد) 3.اندازه Database (بانک واژگان می تواند محدود و یا وسیع باشد)
سیستم های بازشناسی گفتار
ورودی همه ی سیستم های بازشناسی گفتار به صورت صوت می باشد و این سیستم ها را می توان بر اساس خروجی های مختلف به 3 دسته تقسیم کرد.
-
سیستم های گفتار به متن:این سیستم ها می توانند گفتار را به متن تبدیل کنند. که از این تکنولوژی برای تایپ کامپیوتری،برای سهولت و سرعت بیشترو همچنین برای افرادی که توانایی تایپ کردن را ندارند،استفاده می شود.
-
سیستم های گفتار به گفتار:این سیستم ها در تولید سیستم های ترجمه کاربرد دارند. این سیستم با قدرت شناسایی تعداد زیادی از زبان ها تولید می شوند.این سیستم با توانایی تشخیص صدای گوینده قادر است تا گفتار آن را به زبان موردی نظر ترجمه کند و با بلند گو پخش نماید.
-
سیستم های گفتار به دستورات:از این فناوری در حوزه های متفاوتی استفاده شده است.برای مثال خلبانان در اتاقک پرواز بدون نیاز به دست به کنترل پرواز می پرداختند.همچنین استفاده از این فناوری در فضانوردی نیز آزمایش شده است. برای توان خواهان حرکتی نیز این سیستم بسیار کار آمد است.
چالش ها
عواملی که این سیستم ها را به چالش می کشند:
-
ورود سروصدای محیط (ورود هر نوع صدای اضافی هم زمان با گوینده میتواند سیستم را دچار اختلال و اشتباه کند)
-
نحوه تلفظ و ادای کلمات توسط گوینده (به علت وجود لهجه های گوناگون ادای کلمات بر دقت سیستم تاثیر خواهند گذاشت)
-
کلمات مشابه (وجود کلماتی که از نظر تلفظ مشابه ولی از نظر معنی و املا تفاوت دارند)