تشخیص موجودیت نامدار

Named Entity Recognition (NER)

تشخیص موجویت‌های نامدار به معنی برچسب زدن اجزای جمله با نوع موجودیت متناظر آن اجزا می‌باشد. انواع موجودیت‌ها در این مسئله عبارتند‌ از: شخص، مکان،‌ رخداد و ... . نحوه برچسب زنی معمولا بر اساس فرمت BIO می‌باشد. در این فرمت تگ B- شروع نام موجودیت ، تگ I- اجزای میانی موجودیت و تگ o برای اجزای خارج از نام موجودیت استفاده می‌شوند.

مقدمه

تشخیص موجودیت‌های نامدار از جمله اجزای کلیدی سیستم‌های پرسش‌ وپاسخ ، استخراج محتوای متن ،‌ ذخیره و بازیابی اطلاعات و دیالوگ سیستم ها می‌باشد. تشخیص موجودیت‌های نامدار زیرمجموعه مسائل برچسب‌زنی دنباله می‌باشد که در آن سعی بر آن است تا دنباله‌ای از برچسب‌های مناسب با توجه به دنباله داده شده ایجاد شود.

تاریخچه

این مسئله برای اولین بار در سال ۱۹۹۶ در کنفرانس Message understanding تعریف شد. روش‌های ابتدایی برای حل این مسئله مبتنی بر روش‌های قانون محور (rule-based) و استفاده از منابع هستان شناسی بودند. در ادامه این مسیر روش‌های مبتنی بر یادگیری ماشین به همراه مهندسی ویژگی در سال ۲۰۰۷ رواج یافتند. روش‌های مبتنی بر شبکه‌های عصبی در سال ۲۰۱۱ پیشرفت جدیدی را در این حوژه ایجاد کردند که از جمله مزایای آن عدم نیاز به مهندسی ویژگی و استقلال مسئله از حوزه فعالیت بود.

ارزیابی

با اینکه این مسئله در ابتدا شبیه مسئله دسته‌بندی چندکلاسه به نظر می‌رسد ولی استفاده از معیاری چون accuracy برای این مسئله نمی‌تواند بخوبی کیفیت خروجی سیستم را بسنجد. دلیل این امر را می‌توان این دانست که در متن تعداد برچسب‌های O بسیار بیشتر از سایر برچسب‌ها می‌باشد و اگر به تمام اجزا برچسب O بزنیم هم دقت بالایی خواهیم داشت.

اولین معیار که همزمان با تعریف مسئله موجودیت‌های نام‌دار در ۱۹۹۶ ارایه شد خروجی سیستم را بر اساس دقت نوع و مرز می‌سنجید. برای حالت اول فقط نوع موجودیت پیش‌بینی شده بدون توجه به مرز موجودیت بررسی می‌شد و در حالت دوم فقط مرز موجودیت پیشبینی شده بدون توجه به نوع موجودیت بررسی می‌شد. معیار exact match در کنفرانس CONLL تعریف شد. در این معیار پیشبینی صحیح فقط برای زمانی است که سیستم موجودیت موردنظر را هم از نظر مرز و هم نوع درست تشخیص داده باشد. بنا بر این معیار :

" precision نسبت موجودیت‌های یافته شده درست به تمام موجودیت‌های یافته شده توسط سیستم می‌باشد. و recall نسبت موجودیت‌های یافت شده درست توسط سیستم به موجودیت‌های موجود در پیکره می‌باشد. موجودیتی را درست قلمداد می‌کنیم که هم از نظر مرز و هم از نظر نوع درست تشخیص داده شده باشد."

و البته معیار‌های دیگری در SemEval و MUC معرفی شدند که سعی داشتند میزان دقت سیستم در حالت مختلف دیگر و را نیز بسنجند. تعریف معیار های متفاوت برای حالت مختلف در یافتن منابع خطا کمک زیادی میکنند. برای مثال زمانی که تمام موجودیت به درستی تشخیص داده نشده است ولی مرز تشخیص با مرز برچسب واقعی اشتراک دارد.

رویکردها

مبتنی بر منابع دانش

سیستم‌های مبتنی بر این نوع رویکرد بدون نیاز به پیکره‌ی برچسب خورده و فقط با استفاده از منابع زبانی همچون منابع هستان‌ شناسی و منابع مربوط به حوزه موردنظر عمل میکنند. اگر چه این سیستم‌ها precision بالایی دارند ولی به علت محدود بودن منابع زبانی همچون لغت‌نامه در تشخیص موجودیت‌های جدید و ناشناخته دچار مشکل هستند و recall پایینی دارند.

مبتنی بر یادگیری بدون ناظر

این روش‌هابدون نیاز به پیکره برچسب خورده یا با پیکره‌ی برچسب خورده بسیار کوچکتر عمل می‌کنند. روش ارایه شده توسط Collins and Singer (1999) از جمله روش‌های بدون ناظر بود. این روش مبتنی بر تکرار الگو در دادگان بود. روش کار به این صورت است که ابتدا تنها با چند قانون (‌ کمتر از ۵ قانون ) دست نویس برای تشخیص موجودیت‌ها، پیکره موردنظر برچسب زنی می‌شود. سپس با اجرای تجزیه نحوی بروی دادگان ویژگی‌های جدیدی برای موجودیت‌های نام‌دار استخراج می‌شوند که موجب ایجاد قوانین جدید از این ویژگی‌ها می‌شوند. این روند تا جایی ادامه می‌یابد که تعداد قوانین به حد موردنظر برسد و یا قانون جدید قابل ایجادی وجود نداشته باشد.

از جمله‌ روش‌های دیگر استفاده از IDF ( Inverse document frequency) برای یافتن کلمات کم تکرار که معمولا جزو موجودیت نام‌دار هستند می‌باشد.

مبتنی بر یادگیری با ناظر

روش‌های استفاده شده معمولا مبتنی بر مدل‌های SVM , HMM , CRF و استخراج ویژگی‌هایی همچون اجزای کلام بوده‌اند. روش‌های مبتنی بر مدل‌های شبکه عصبی در ادامه بررسی خواهند شد.

مبتنی بر شبکه‌های عصبی

معمولا همه روش‌های این مجموعه بر پایه استفاده از جاسازی کلمات ، جاسازی حروف و یا ترکیبی از این دو استوارند. از شبکه‌های بازگشتی یا شبکه‌های کانولوشن به همراه CRF استفاده می‌کنند. برای استفاده از جاسازی کلمات به همراه جاسازی حروف ،‌ به این صورت عمل می‌شود که خروجی یک شبکه بازگشتی از حروف موجود در کلمه با جاسازی کلمه موردنظر الحاق گشته و به عنوان ورودی شبکه بازگشتی دوم استفاده می‌گردد و در آخر یک لایه CRF برای پیشبینی برچسب هر یک از اجزا استفاده می‌گردد.

هنگام پیشبینی هر یک از برچسب‌ها با وجود امتیاز برچسب‌ها برای هر کلمه لایه CRF احتمال برچسب به شرط برچسب قبلی را نیز لحاظ میکند. و این موضوع علاوه بر بالا بردن دقت سیستم از ایجاد خروجی‌های غیر معتبر با فرمت BIO نیز جلوگیری می‌کند.