پاسخ به پرسش

Question Answering

سیستم پرسش و پاسخ (Question Answering) یا به اختصار QA سیستمی است که به صورت اتوماتیک به پرسش مطرح شده توسط انسان در زبان طبیعی پاسخ می‎دهد.

مقدمه

سیستم‌های پرسش‎و‎پاسخ زیر‎شاخه‎ای از علوم پردازش زبان‎طبیعی NLP و بازیابی‎اطلاعات IR محسوب می‌شوند. سیستم‌های پرسش‎و‎پاسخ، پرسش را به یک زبان طبیعی (مثلاً فارسی) دریافت کرده و جواب مختصر و دقیق را در اختیار کاربر قرار می‌دهند. بنابراین دیگر لازم نیست کاربر مانند سیستم‌های بازیابی‎اطلاعات پرسش خود را به کلید واژه‌‌ها تبدیل کند و پس از بازیابی، تعداد زیادی سند را مطالعه کند تا به جواب دلخواه خود برسد در این سیستمها به جاي ارائه‎ی کل سند، تنها بخش‎هاي خاصی از اطلاعات سند به عنوان پاسخ بازگردانده میشوند. این پاسخ ممکن است یک کلمه، یک جمله، یک پاراگراف و یا قطعهاي صوتی یا تصویري باشد. مزایای اینگونه سیستم‎ها و کاربردهای آنها مانند استفاده به عنوان جویشگر با قابلیت ویژه پرسش‎و‎پاسخ، دستیارهای همراه و غیره قابل توجه است.

تاریخچه

سیستم پرسش‎و‎پاسخ (QA) به دهه 1960 بازمیگردد. سیستم‎های پرسش‎و‎پاسخ‎های اولیه بر روی دامنه‎های محدود (closed domains) متمرکز بودند.

دو نمونه قابل توجه از سیستم‎های پرسش‎وپاسخ، سیستم پرسش‎وپاسخ BASEBALL که با هدف پاسخگویی به سوالات درمورد بازي‎هاي بیسبال انجام شده در لیگ آمریکا در یک فصل، طراحی شده‎بود. این سیستم یک برنامه‎ی کامپیوتري بود که به پرسش‎هاي انگلیسی مرتبط پاسخ میداد. پرسش‎ها پیرامون ماه، روز، مکان برگزاری، تیم‎ها و امتیازات کسب شده در هریک از بازيها از سیستم پرسیده می‎شدند، و دومین سیستم LUNAR بود که تجزیه و تحلیل‎هاي انجام‎شده روي نمونه سنگ‎های کره ماه که در یک سفر توسط آپولو به دست آمده‎بودند را در یک پایگاه جمع‎آوري کرده و به پرسش‎هایی در این زمینه پاسخ می‎داد در آن زمان براي ارزیابی این سیستم، زمین‎شناسان را تشویق کردند تا در مدت سه روز، سوالات خود را از سیستم بپرسند. از میان 111 سوال پرسیده شده در حوزه‎ي سنگهاي ماه، لونار توانست به 78% از پرسش‎ها به درستی پاسخ دهد.

این سیستم‌ها پرس‎و‎جوهای (کوئری‎های) زبان ‎طبیعی را تجزیه کرده و آن‌ها را به کوئری‎های پایگاه‎داده ترجمه کردند، که آنها را بتوان بر روی پایگاه‎های‎اطلاعاتی اجرا کرد. آنها تا حدودی به خوبی کار می‎کردند، تا زمانی که پرسش‎ها مطابق با دامنه‎ محدود دانش خود بودند. در دهه های 1980 و 1990، محققان توجه خود را به سیستم های جامع‎تر و با دامنه‎باز (open domain) جابه‎جا کردند. حرکت به دور از پایگاه‎های اطلاعاتی، آنها رویکرد بازیابی اطلاعات را پذیرفتند که وابسته به دامنه کمتر بود. آنها هر سوال را به عنوان یک پرس‎و‎جو (Query) جستجو می‎کردند و مجموعه اسناد مربوط به آن را جمع‎آوری میکردند و پاسخ‌های کاندید از نتایج استخراج و سپس بهترین پاسخ کاندید را به جستجوگر ارائه می‎کردند. ظهور سیستم‎های QA دامنه‎باز باعث شد تا کنفرانس بازيابي‎متن Text Retrieval Conference TREC برای ایجاد یک مسابقه پرسش-پاسخی که از سال 1999 آغاز شده‎بود، الهام‎بخش باشد.

دامنه باز و دامنه بسته (Open domain and Closed domain)

سیستم های QA به دو دسته اصلی تقسیم می شوند:

سیستم‎های QA دامنه‎باز (open domain) و سیستم‎های QA دامنه‎بسته یا دامنه‎محدود(closed_domain). سوالات open-domain در پاسخ به سوالات مربوط به تقریبا همه‎چیز است و تنها به هستان‎شناسی جهانی و اطلاعاتی مانند جهان وب تکیه می‎کنند. از سوی دیگر، سوال closed-domain با پاسخ دادن به سوالات در یک حوزه‎ خاص (موسیقی، پیش بینی آب و هوا و غیره) با استفاده از سیستم‎های پردازش‎زبان‎طبیعی است با ساختن هستان‎شناسی خاص در حوزه خاص به سوالات در آن حوزه پاسخ می‎دهد.

انواع مختلف سیستم‎های پرسش‎و‎پاسخ

نوع اول (IRBQA)

سیستم‎های پرسش‎و‎پاسخ مبتنی بر بازیابی‎اطلاعات یا IR،که به مقدار گسترده‎ای از اطلاعات متنی در وب یا مجموعه‎هایی نظیر PubMed وابسته است. با توجه به سوال کاربر، تکنیک‎های بازیابی‎اطلاعات ابتدا اسناد و مدارک مربوطه را پیدا می‎کنند. سپس سیستم‎ها (feature based، عصبی یا هر‎دو) از الگوریتم‎های درک‎مطلب برای خواندن این اسناد بازیابی‎شده استفاده می‎کنند و مستقیما از قسمتی از متن، پاسخ را تهیه می‎کنند.

نوع دوم (KBQA)

ایده اصلی KBQA این است که کوئری های زبان طبیعی را به کوئری ساخت یافته پایگاه‎داده تبدیل کند. مثلا :

ex: query = “When was Mady born??"

به یک کوئری پایگاه‎داده تبدیل می‎شود :

SELECT born_year FROM testtable WHERE name= 'Mady'

و سپس پاسخ به کاربر برگردانده می‎شود.