پاسخ به پرسش
Question Answering
سیستم پرسش و پاسخ (Question Answering) یا به اختصار QA سیستمی است که به صورت اتوماتیک به پرسش مطرح شده توسط انسان در زبان طبیعی پاسخ میدهد.
مقدمه
سیستمهای پرسشوپاسخ زیرشاخهای از علوم پردازش زبانطبیعی NLP و بازیابیاطلاعات IR محسوب میشوند. سیستمهای پرسشوپاسخ، پرسش را به یک زبان طبیعی (مثلاً فارسی) دریافت کرده و جواب مختصر و دقیق را در اختیار کاربر قرار میدهند. بنابراین دیگر لازم نیست کاربر مانند سیستمهای بازیابیاطلاعات پرسش خود را به کلید واژهها تبدیل کند و پس از بازیابی، تعداد زیادی سند را مطالعه کند تا به جواب دلخواه خود برسد در این سیستمها به جاي ارائهی کل سند، تنها بخشهاي خاصی از اطلاعات سند به عنوان پاسخ بازگردانده میشوند. این پاسخ ممکن است یک کلمه، یک جمله، یک پاراگراف و یا قطعهاي صوتی یا تصویري باشد. مزایای اینگونه سیستمها و کاربردهای آنها مانند استفاده به عنوان جویشگر با قابلیت ویژه پرسشوپاسخ، دستیارهای همراه و غیره قابل توجه است.
تاریخچه
سیستم پرسشوپاسخ (QA) به دهه 1960 بازمیگردد. سیستمهای پرسشوپاسخهای اولیه بر روی دامنههای محدود (closed domains) متمرکز بودند.
دو نمونه قابل توجه از سیستمهای پرسشوپاسخ، سیستم پرسشوپاسخ BASEBALL که با هدف پاسخگویی به سوالات درمورد بازيهاي بیسبال انجام شده در لیگ آمریکا در یک فصل، طراحی شدهبود. این سیستم یک برنامهی کامپیوتري بود که به پرسشهاي انگلیسی مرتبط پاسخ میداد. پرسشها پیرامون ماه، روز، مکان برگزاری، تیمها و امتیازات کسب شده در هریک از بازيها از سیستم پرسیده میشدند، و دومین سیستم LUNAR بود که تجزیه و تحلیلهاي انجامشده روي نمونه سنگهای کره ماه که در یک سفر توسط آپولو به دست آمدهبودند را در یک پایگاه جمعآوري کرده و به پرسشهایی در این زمینه پاسخ میداد در آن زمان براي ارزیابی این سیستم، زمینشناسان را تشویق کردند تا در مدت سه روز، سوالات خود را از سیستم بپرسند. از میان 111 سوال پرسیده شده در حوزهي سنگهاي ماه، لونار توانست به 78% از پرسشها به درستی پاسخ دهد.
این سیستمها پرسوجوهای (کوئریهای) زبان طبیعی را تجزیه کرده و آنها را به کوئریهای پایگاهداده ترجمه کردند، که آنها را بتوان بر روی پایگاههایاطلاعاتی اجرا کرد. آنها تا حدودی به خوبی کار میکردند، تا زمانی که پرسشها مطابق با دامنه محدود دانش خود بودند. در دهه های 1980 و 1990، محققان توجه خود را به سیستم های جامعتر و با دامنهباز (open domain) جابهجا کردند. حرکت به دور از پایگاههای اطلاعاتی، آنها رویکرد بازیابی اطلاعات را پذیرفتند که وابسته به دامنه کمتر بود. آنها هر سوال را به عنوان یک پرسوجو (Query) جستجو میکردند و مجموعه اسناد مربوط به آن را جمعآوری میکردند و پاسخهای کاندید از نتایج استخراج و سپس بهترین پاسخ کاندید را به جستجوگر ارائه میکردند. ظهور سیستمهای QA دامنهباز باعث شد تا کنفرانس بازيابيمتن Text Retrieval Conference TREC برای ایجاد یک مسابقه پرسش-پاسخی که از سال 1999 آغاز شدهبود، الهامبخش باشد.
دامنه باز و دامنه بسته (Open domain and Closed domain)
سیستم های QA به دو دسته اصلی تقسیم می شوند:
سیستمهای QA دامنهباز (open domain) و سیستمهای QA دامنهبسته یا دامنهمحدود(closed_domain). سوالات open-domain در پاسخ به سوالات مربوط به تقریبا همهچیز است و تنها به هستانشناسی جهانی و اطلاعاتی مانند جهان وب تکیه میکنند. از سوی دیگر، سوال closed-domain با پاسخ دادن به سوالات در یک حوزه خاص (موسیقی، پیش بینی آب و هوا و غیره) با استفاده از سیستمهای پردازشزبانطبیعی است با ساختن هستانشناسی خاص در حوزه خاص به سوالات در آن حوزه پاسخ میدهد.
انواع مختلف سیستمهای پرسشوپاسخ
- سیستمهای پرسشوپاسخ بر اساس بازیابیاطلاعات (Information Retrieval).
- سیستمهای پرسشوپاسخ بر اساس پایگاه دانش (knowledge based).
- سیستمهای پرسشوپاسخ هیبرید که ترکیبی از دو مدل بالا میباشد و سیستم هایی مانند DeepQA در واتسون IBM از این نوع هستند.
نوع اول (IRBQA)
سیستمهای پرسشوپاسخ مبتنی بر بازیابیاطلاعات یا IR،که به مقدار گستردهای از اطلاعات متنی در وب یا مجموعههایی نظیر PubMed وابسته است. با توجه به سوال کاربر، تکنیکهای بازیابیاطلاعات ابتدا اسناد و مدارک مربوطه را پیدا میکنند. سپس سیستمها (feature based، عصبی یا هردو) از الگوریتمهای درکمطلب برای خواندن این اسناد بازیابیشده استفاده میکنند و مستقیما از قسمتی از متن، پاسخ را تهیه میکنند.
نوع دوم (KBQA)
ایده اصلی KBQA این است که کوئری های زبان طبیعی را به کوئری ساخت یافته پایگاهداده تبدیل کند. مثلا :
ex: query = “When was Mady born??"
به یک کوئری پایگاهداده تبدیل میشود :
SELECT born_year FROM testtable WHERE name= 'Mady'
و سپس پاسخ به کاربر برگردانده میشود.