بازشناسی خودکار گفتار

Automatic speech recognition (ASR)

هدف بلند مدت سیستم‌های بازشناسی خودکار گفتار‚ طراحی ماشینی است که سیگنال صوتی مربوط به یک جملهٔ بیان شده را به دنباله‌ای از کلمات نوشته شده تبدیل نماید. سیستم‌های بازشناسی خودکار گفتار اطلاعات متنوعی ازمنابع دانش گوناگون را در جهت دستیابی به جملهٔ بیان شده از روی سیگنال صوتی دریافت شده، به کار می‌گیرند. پردازش گفتار به عنوان یکی از زیر شاخه‌های پردازش سیگنال ٫ به سرعت در حال گسترش است. تکنیک‌های پیچیده و نوآوری‌های روز افزون این دانش٫همگی در راستای دستیابی به این ارزو هستند که امکان بیابیم مفاهیم در قالب ابزارهای ریاضی فراهم گردد.

مقدمه

گفتاراز دیرباز بخش عمده ای ازراه برقراری ارتباط بشر بوده است.یکی از اهداف بشر توجه به این مسئله بوده که اطلاعات را به صورت صوتی به عنوان ورودی به سیستم داده و سیستم با خواندن آن بتواند دستور دریافتی را اجرا نماید، که در بسیاری از موارد موجب صرفه جویی در وقت می شود. سیستم بازشناسی گفتارهمچنین این امکان را فراهم می نماید که گفتار گوینده را به صورت متن ارائه دهد.

سیستم بازشناسی گفتار با رویکرد تبدیل گفتار به داده و تحلیل آن کار میکند.این سیستم با کمک دو فناوری تولید گفتار و بازشناسی گفتار عمل می کند. که در تولید گفتار،اطلاعاتی مانند متن را به گفتار تبدیل خواهد کردو و در بازشناسی گفتار به رایانه این امکان را میدهد که گفتار گوینده را تشخیص دهد.

تاریخچه

اولین بار سیستم مبتنی بر فناوری بازشناسی گفتار در سال 1952 طراحی شد.این سیستم در ابتدا با تعداد لغات محدود عمل می کرد. با گذشت زمان شرکت هایی همانند Kurzweil در زمینه پزشکی از این سیستم بهره بردند و شرکت Dragon نیز در حوزه ی اتوماسیون سیستم های اداری محصولاتی ارائه کرد. جیمز بیکر که یکی از محققان شرکت IBM بود،یکی از پیشگامان این طرح به شمار می رود. او همچنین نرم افزار Dragon Dictate را تولید کرد ، او همچنین محصولی ارائه کرد که مبتنی بر گفتار پیوسته بود. همچنین شرکت مایکروسافت نیز در جهت تولید و کاربرد این سیستم فعالیت ها درخشانی داشته است.این تکنولوژی در ابتدا برای افراد توان خواه طراحی شده بود که با گذشت زمان استفاده از آن گسترده تر شد.

رویکرد های سیستم بازشناسی گفتار

تبدیل گفتار به داده : این سیستم با دریافت امواج صوتی آنالوگ ایجاد شده، آن را تبدیل به داده های دیجیتالی میکند. سپس سیگنال ها به قسمت های کوچک که به اندازه چند هزارم ثانیه هستند تقسیم می شوند.در مرحله بعد برنامه این قسمت ها را به کوچکترین عنصر یک زبان تبدیل خواهد کرد.گام بعد،مقایسه و سنجش این کوچکترین عناصر با استفاده از مدل های آماری می باشد.در انتها آنها را با مجموعه بزرگی از عبارات مقایسه می کند و گفتار گوینده را به صوت کد و یا صوت در خروجی می دهد.

بازشناسی گفتار: این سیستم ها در ابتدا سعی در انطباق گفتار گوینده با مجموعه ای از قوانین دستوری داشتند.چالش این سیستم وجود تنوع لهجه ها و گویش های متفاوت است.از الگلوریتم های مطرح در این حوزه از دو الگوریتم HMM(Hidden Markov Model) و NNM(Neural Network Model) می توان نام برد. که مدل HMM رایج ترین مدل می باشد. برنامه عباراتی را که از ورودی دریافت می کند را با عبارت های قبلی مقاسیه می کند و با تجزیه و تحلیل آن سعی بر بازشناسی گفتار ورودی دارد.

تقسیم بندی بر اساس عملکرد

این سیستم بر مبنای 3 معیار قابل طبقه بندی می باشد.

1.تعداد گویندگان (به دو سیستم وابسته به تعداد گوینده و مستقل از گوینده تقسیم می شوند) 2.شیوه صحبت کردن گوینده (به دو صورت گفتار گسسته و گفتار پیوسته می باشد) 3.اندازه Database (بانک واژگان می تواند محدود و یا وسیع باشد)

سیستم های بازشناسی گفتار

ورودی همه ی سیستم های بازشناسی گفتار به صورت صوت می باشد و این سیستم ها را می توان بر اساس خروجی های مختلف به 3 دسته تقسیم کرد.

چالش ها

عواملی که این سیستم ها را به چالش می کشند:

  1. ورود سروصدای محیط (ورود هر نوع صدای اضافی هم زمان با گوینده میتواند سیستم را دچار اختلال و اشتباه کند)

  2. نحوه تلفظ و ادای کلمات توسط گوینده (به علت وجود لهجه های گوناگون ادای کلمات بر دقت سیستم تاثیر خواهند گذاشت)

  3. کلمات مشابه (وجود کلماتی که از نظر تلفظ مشابه ولی از نظر معنی و املا تفاوت دارند)