تشخیص موجودیت نامدار
Named Entity Recognition (NER)
تشخیص موجویتهای نامدار به معنی برچسب زدن اجزای جمله با نوع موجودیت متناظر آن اجزا میباشد. انواع موجودیتها در این مسئله عبارتند از: شخص، مکان، رخداد و ... . نحوه برچسب زنی معمولا بر اساس فرمت BIO میباشد. در این فرمت تگ B- شروع نام موجودیت ، تگ I- اجزای میانی موجودیت و تگ o برای اجزای خارج از نام موجودیت استفاده میشوند.
مقدمه
تشخیص موجودیتهای نامدار از جمله اجزای کلیدی سیستمهای پرسش وپاسخ ، استخراج محتوای متن ، ذخیره و بازیابی اطلاعات و دیالوگ سیستم ها میباشد. تشخیص موجودیتهای نامدار زیرمجموعه مسائل برچسبزنی دنباله میباشد که در آن سعی بر آن است تا دنبالهای از برچسبهای مناسب با توجه به دنباله داده شده ایجاد شود.
تاریخچه
این مسئله برای اولین بار در سال ۱۹۹۶ در کنفرانس Message understanding تعریف شد. روشهای ابتدایی برای حل این مسئله مبتنی بر روشهای قانون محور (rule-based) و استفاده از منابع هستان شناسی بودند. در ادامه این مسیر روشهای مبتنی بر یادگیری ماشین به همراه مهندسی ویژگی در سال ۲۰۰۷ رواج یافتند. روشهای مبتنی بر شبکههای عصبی در سال ۲۰۱۱ پیشرفت جدیدی را در این حوژه ایجاد کردند که از جمله مزایای آن عدم نیاز به مهندسی ویژگی و استقلال مسئله از حوزه فعالیت بود.
ارزیابی
با اینکه این مسئله در ابتدا شبیه مسئله دستهبندی چندکلاسه به نظر میرسد ولی استفاده از معیاری چون accuracy برای این مسئله نمیتواند بخوبی کیفیت خروجی سیستم را بسنجد. دلیل این امر را میتوان این دانست که در متن تعداد برچسبهای O بسیار بیشتر از سایر برچسبها میباشد و اگر به تمام اجزا برچسب O بزنیم هم دقت بالایی خواهیم داشت.
اولین معیار که همزمان با تعریف مسئله موجودیتهای نامدار در ۱۹۹۶ ارایه شد خروجی سیستم را بر اساس دقت نوع و مرز میسنجید. برای حالت اول فقط نوع موجودیت پیشبینی شده بدون توجه به مرز موجودیت بررسی میشد و در حالت دوم فقط مرز موجودیت پیشبینی شده بدون توجه به نوع موجودیت بررسی میشد. معیار exact match در کنفرانس CONLL تعریف شد. در این معیار پیشبینی صحیح فقط برای زمانی است که سیستم موجودیت موردنظر را هم از نظر مرز و هم نوع درست تشخیص داده باشد. بنا بر این معیار :
" precision نسبت موجودیتهای یافته شده درست به تمام موجودیتهای یافته شده توسط سیستم میباشد. و recall نسبت موجودیتهای یافت شده درست توسط سیستم به موجودیتهای موجود در پیکره میباشد. موجودیتی را درست قلمداد میکنیم که هم از نظر مرز و هم از نظر نوع درست تشخیص داده شده باشد."
و البته معیارهای دیگری در SemEval و MUC معرفی شدند که سعی داشتند میزان دقت سیستم در حالت مختلف دیگر و را نیز بسنجند. تعریف معیار های متفاوت برای حالت مختلف در یافتن منابع خطا کمک زیادی میکنند. برای مثال زمانی که تمام موجودیت به درستی تشخیص داده نشده است ولی مرز تشخیص با مرز برچسب واقعی اشتراک دارد.
رویکردها
مبتنی بر منابع دانش
سیستمهای مبتنی بر این نوع رویکرد بدون نیاز به پیکرهی برچسب خورده و فقط با استفاده از منابع زبانی همچون منابع هستان شناسی و منابع مربوط به حوزه موردنظر عمل میکنند. اگر چه این سیستمها precision بالایی دارند ولی به علت محدود بودن منابع زبانی همچون لغتنامه در تشخیص موجودیتهای جدید و ناشناخته دچار مشکل هستند و recall پایینی دارند.
مبتنی بر یادگیری بدون ناظر
این روشهابدون نیاز به پیکره برچسب خورده یا با پیکرهی برچسب خورده بسیار کوچکتر عمل میکنند. روش ارایه شده توسط Collins and Singer (1999) از جمله روشهای بدون ناظر بود. این روش مبتنی بر تکرار الگو در دادگان بود. روش کار به این صورت است که ابتدا تنها با چند قانون ( کمتر از ۵ قانون ) دست نویس برای تشخیص موجودیتها، پیکره موردنظر برچسب زنی میشود. سپس با اجرای تجزیه نحوی بروی دادگان ویژگیهای جدیدی برای موجودیتهای نامدار استخراج میشوند که موجب ایجاد قوانین جدید از این ویژگیها میشوند. این روند تا جایی ادامه مییابد که تعداد قوانین به حد موردنظر برسد و یا قانون جدید قابل ایجادی وجود نداشته باشد.
از جمله روشهای دیگر استفاده از IDF ( Inverse document frequency) برای یافتن کلمات کم تکرار که معمولا جزو موجودیت نامدار هستند میباشد.
مبتنی بر یادگیری با ناظر
روشهای استفاده شده معمولا مبتنی بر مدلهای SVM , HMM , CRF و استخراج ویژگیهایی همچون اجزای کلام بودهاند. روشهای مبتنی بر مدلهای شبکه عصبی در ادامه بررسی خواهند شد.
مبتنی بر شبکههای عصبی
معمولا همه روشهای این مجموعه بر پایه استفاده از جاسازی کلمات ، جاسازی حروف و یا ترکیبی از این دو استوارند. از شبکههای بازگشتی یا شبکههای کانولوشن به همراه CRF استفاده میکنند. برای استفاده از جاسازی کلمات به همراه جاسازی حروف ، به این صورت عمل میشود که خروجی یک شبکه بازگشتی از حروف موجود در کلمه با جاسازی کلمه موردنظر الحاق گشته و به عنوان ورودی شبکه بازگشتی دوم استفاده میگردد و در آخر یک لایه CRF برای پیشبینی برچسب هر یک از اجزا استفاده میگردد.
هنگام پیشبینی هر یک از برچسبها با وجود امتیاز برچسبها برای هر کلمه لایه CRF احتمال برچسب به شرط برچسب قبلی را نیز لحاظ میکند. و این موضوع علاوه بر بالا بردن دقت سیستم از ایجاد خروجیهای غیر معتبر با فرمت BIO نیز جلوگیری میکند.