تحلیل احساسات

Sentiment Analysis

مقدمه

‫در عصر دیجیتال و با گسترش وب و شبکه‌های اجتماعی با افزایش روزافزون اطالعات‬ مواجه هستیم. این اظلاعات از راه‌های مختلفی از جمله گسترش برنامه‌های تحت وب، ارتباطات بسیار زیاد و رفتن مردم به خصوص جوانان به سمت به اشتراک گذاشتن اطلاعات هر روزه به سرعت زیادی در حال افزایش است و این سرعت در آینده به شدت زیادتر هم خواهد شد. مردم با به اشتراک گذاشتن اطلاعات و علایق کاربران با یکدیگر باعث بروز انفجار اطلاعات شده است.

امروزه با گسترش اینترنت و وب امکان این به وجود آمده که درباره‌ی نظرات و تجربیات افرادی که یا آشنای ما هستند و یا اشخاص مطرح حرفه‌ای نقد در زمینه‌ی خاص هستند استفاده کنیم. از طرف دیگر اقراد بیشتری نظرات خود را از طریق اینترنت در اختیار اشخاص دیگر قداد می‌دهند.

در بررسی‌ها‌یی که از بیش از ۲۰۰۰ فرد آمریکایی صورت گرفته است، ۸۱٪ از کاربران اینترنت حداقل یک بار بازبینی بر خط برای کالایی را انجام داده‌اند. ۲۰٪ افراد این کار را به طور روزمره انجام می‌دهند.در بین خوانندگان بازبینی‌های بر خط رستوران‌ها، هتل‌ها و دیگر خدمات بین ۷۳٪ تا ۸۷٪ گزارش شده است که این بازبینی‌ها ‫تأثیر بسزایی روی خرید آن‌ها داشته است. طبق گزارش، مصرف‌کنندگان ۲۰٪ تا۹۹٪ بیشتر برای یک کالای پنج ستاره در مقابل یک کالای چهار ستاره هزینه می‌کنند. ۳۲٪ اشخاص توسط سامانه‌های امتیازدهی بر خط بر روی یک کالا، خدمت یا شخص نمره‌دهی کرده و ۳۰٪ حداقل یک نظر گذاشته‌اند.

قابل ذکر است که مصرف کالا و خدمات تنها انگیزه‌ی کاربران برای استفاده از نظرات برخط نیست. نباز به اطلاهات سیاسی یکی دیگر از فاکتورهای مهم است. برای مثال در یک بررسی که بر روی بیش از ۲۵۰۰ آمریکایی، توسط راینی و هریگان بر روی ۳۱٪ از آمریکایی‌هایی که در کمپین کاربران اینترنتی ۲۰۰۶ حضور داشنتد انجام شد، ۲۸٪ گفتند که دلیل مهم آن‌ها برای این فعالیت‌های بر خط برای داشتن بر‌آوردی از جامعه‌ی خود بوده است و ۳۴٪ نیز به طور برعکس دلیل خود را داشتن بر‌آورد از جامعه‌ی خارج از دیدگاه خود دانسته‌اند. ۲۷٪ برای تاییدیه‌ها و نمرات سازمان‌های خارجی به وب مراجعه کرده‌اند. ۲۸٪ گفتند که بیشتر سایت‌هایی که استفاده می‌کنند دیدگاه‌های آن‌ها را به چالش می‌کشند. ۸٪ نظرات سیاسی خود را به طور بر خط منتشر کردند.

تقاضای بسیار زیاد کاربران و اعتماد آن‌ها برای استفاده از نظر و پیشنهادهای بر خط دلیلی است برای علاقه نشان دادن به سمت سیستم‌های جدیدی که به طور مستقیم با نظرات، به عنوان یک مساله‌ی مهم برخورد می‌کنند. اما هریگان گزارش می‌دهد که با وجود اینکه بیشتر کاربران اینترنت آمریکایی تجربه‌ی مثبتی از پژوهش‌های بر خط کالا ‫ارائه‬ می‌کنند، در همین حال ۵۸٪ نیز گزارش می‌کنند که اطلاعات بر خط گم شده‌اند، به سختی پیدا میشوند، گیج کننده هستند و به شدت زیادند. بنابراین نیاز واضحی برای کمک به مصرف کنندگان کالاها وجود دارد که با استفاده از سیستم‌های دارای دسترسی اطلاعات، سیستم‌های بهتری ساخت.

علاقه‌ای که کاربران در نظرات برخط درباره‌ی کالاها و خدمات نشان می‌دهند و ‫تأثیر بالقوه‌ای که این نظرات گذاشته است، چیزیست که فروشندگان این اقلام هر روزه توجه بیشتری به آن می‌کنند. اما تحلیلگران صنعتی می‌گویند که با افزایش استفاده از رسانه‌های جدید برای پیگیری کالاها فناوری‌های جدیدی نیاز است.

بنابراین در کنار اشخاص، شرکت‌ها هم به سیستم‌هایی که به طور خودکار احساس مصرف کنندگان را تحلیل می‌کنند علاقه نشان می‌دهند تا بتوانند بفهمند چگونه کالاها و خدمات آن‌ها در فضای مجازی شناخته می‌شوند.

حوالی سال ۲۰۰۱ را می‌توان شروع توجه پژوهشگران به مشکلات و فرصت‌های پیش آمده در تحلیل احساس و نظرکاوی دانست و صدها مقاله در این زمینه منتشر شد.

عوامل ‫مؤثر در این حجم از مقاله ها عبارتند از:

کاربردها

‫حجم‬ بسیار‬ بالای‬ اطالعات‬ و همچنین کمبود زمان باعث عدم توانایی نیروی انسانی در به‌کارگیری این اطلاعات سودمند شده است.به عنوان مثال فرض کنید برای خرید یک کالا به یکی از سایت‌های فروشگاهی مراجعه می‌کنید. در این سایت خریداران دیگر این محصول بر روی آن دیدگاه‌های خود را گذاشته و تجربیات خود را در اختیار دیگران می‌کذارند. چقدر زمان برای بهره‌مندی از این تجربیات که قطعا در خرید محصول به شما کمک می‌کند باید صرف کنید؟

با در نظر گرفتن این مثال می‌توان دریافت که یکی از بهترین روش‌های ممکن مکانیزه کردن این موارد با استفاده از قدرت پردازشی این کامپیوترها است. به انجام این کار که با روش‌‌های زبانی و مدل‌ههای ریاضیاتی و یادگیری ماشین صورت می‌گیرد، در حوزه‌های داده‌کاوی و بازیابی اطلاعات «نظرکاوی» و در حوزه‌ی پردازش زبان‌های طبیعی «تحلیل احساس» می‌گویند.

دیدگاه را می‌توان «قضاوت یا باور بدون قطعیت یا دلیل و مدرک» تعریف کرد که با این تعریف بر خلاف یک واقعیت است. بنابراین جملاتی که دارای دیدگاه هستند را می‌توان جملات کیفی در نظر گرفت و جملاتی که دارای حقایق است را یک جمله‌ی کمی، که احساسات متعامد بر آن‌هاست.به دلیل وجود این تعامد یک جمله به چهار صورت می‌تواند باشد: کمی یا کیفی، دارا یا بدون احساسات.

در مبحث تحلیل احساسات یا متن را به صورت کلی در نظر گرفته و قطبیت (میزان مثبت یا منفی بودن دیدگاه) آن را طبق کل متن محاسبه می‌کنند و یا بر اساس جنبه‌های مختلف متن برای هر یک از جنبه‌ها به صورت جداگانه قطبیت را محاسبه می‌کنند.

سایت‌هایی وجود دارد که از کاربران برای بازخوردها و نظراتشان در ارتباط با محصولات اطلاعات درخواست میکنند اما در عوض سایت‌هایی هم وجود دارند که مرتب اطلاعات جدید را جمع‌آوری می‌کنند. موضوعات صر‫فا‬ محدود به بازبینی محصولات نمی‌شود بلکه حتی می‌توان در رابطه با مسائل‬ سیاسی و اجتماعی و دیگر مسائل‬ را نیز باشد.

تحلیل احساس و نظرکاوی نقش مهم بالقوه‌ای را برای فعال‌سازی فناوری‌های دیگر سیستم‌ها ایفا می‌کنند.

یکی از آن‌ها می‌تواند کاربرد آن در سیستم های توصیه‌گر باشد. به این صورت که اقلامی که بازخورد مناسبی از کاربران دریافت نکرده است به دیگران توصیه نشود.

در سامانه‌های برخطی که تبلیغات را در گوشه‌ی صفحه نمایش می‌دهند، می‌توانند با استفاده از صفحات وبی که محتوای حساس نامناسب برای تبلیغات دارند را پیدا کرد. برای سامانه‌های پیچیده‌تر می‌توان زمانی که احساسات مشابه مثبت و یا منفی دیده شد با توجه به این اطلاعات تبلیغات را نمایش داد.

یکی دیگر از کاربردهای این حوزه به روابط ممکن بین تحلیل ارجاعات است که برای مثال یک نفر ممکن است بخواهد متونی را که از مقالات دیگر داده و فراموش کرده ارجاعات آن‌ها را بزند از این طریق ارجاعات را به طور خودکار بزند.

تحلیل احساس به خوبی برای کاربردهای هوشمند مورد استفاده قرار می‌گیرد و هوش تجاری نیز یکی از عوامل مورد توجه در این حیطه است.

به عنوان مثال فرض کنید که یک شرکت می‌خواهد بفهمد که چرا فروش لپ‌تاپ‌هایش کم شده و مصرف‌کنندگان کمتری از محصولات شرکت استفاده می‌کنند. غیر از این که ویژگی‌های گسسته‌ی خود لپ‌تاپ تآثیرگذار است نظر خود مردم درباره‌ی ویژگی‌های محصولات بسیار مهم است. نظرات مردم بیشتر به صورت کیفی در نظر گرفته است و مانند ویژگی‌های محصول به صورت کمی نخواهد بود و همچنین ممکن است به دلیل ناقص بودن اطلاعات فرد گاهی نیز اشتباه بوده و آن‌ها را نبز باید در نظر گرفت. برای برطرف کردن این مشکلات باید از سایت‌های جمع‌آوری نظرات استفاده کرده و هم این اطلاعات پراکنده را به صورت نرمال درآورد. با این کار یک تحلیل‌گر نیازی به خواندن صدها نظر مشابه نخواهد داشت.

یکی از کاربردها در سیاست است. برای مثال منابعی که باعث به وجود آمدن تخاصم و ارتباطات منفی شده و باعث به خطر افتادن دولت‌ها می‌شود را می‌توان حدس زد.

تعامل با مباحث جامعه‌شناسی می‌تواند بسیلر مفید باشد. برای مثال این که چگونه ایده‌ها و نوآوری‌ها منتشر می‌شود، دربردارنده‌ی این پرسش است که چه کسی به طور مثیت و یا منفی درباره‌ی نظرات دیگری فکر می‌کند و چه کسی کمتر یا بیشتر اطلاعات جدید را از منبع پخش می‌کند.

چالش‌ها

در بحث تحلیل احساسات چالش‌های متعددی وجود دارد که می‌توان به موارد زیر اشاره کرد:

کارهای پیشین

رو‌ش‌های مبتنی بر یادگیری با ناظر

روش‌های یادگیری ماشین بانظارت معمولأ خیلی از پارامترهای خود را از داده‌ها به وجود می‌آورد. اما از آنجا که استفاده از اطلاعات واژه‌نامه به عنوان ویژگی‌های دسته‌بندهای بانظارت ساده است از آن‌ها نیز استفاده می‌شود.

توصیفات کوتاه برای مزایا و معایب به عنوان عبارات احساس در نظر گرفته می‌شوند. این عبارات احساس توسط یک وازه‌نامه و با استفاده از مکان آن که خواه مزایا باشد یا معایب، قطبیت احساس آن‌ها مشخص می‌شود. این اطلاعات سپس برای آموزش یک ماشین بردار پشتیبان که توانایی دسته‌بندی عبارات احساس به مثبت یا منفی را دارد استفاده می‌شود. سپس با دادن یک بازبینی به عنوان تست، واژگان احساس آن را استخراج می‌کنیم.

پنگ و همکاران دسته‌بندی بازبینی‌های فیلم‌ها به مثبت و منفی را انجام دادند. در این پژوهش از تک‌واژه به صورت کیسه‌ی واژگان به عنوان ویژگی‌های دسته‌بندی استفاده کردند، که بیز ساده و ماشین بردار پشتیبانی هر دو به خوبی کار کردند.

روش‌های مبتنی بر یادگیری بدون ناظر

یکی دیگر از انتخاب‌‌های موجود استفاده از روش‌های یادگیری بی‌نظارت است. در این روش هر جنبه‌ی صریح برای پیدا کردن عبارات احساس بالقوه استفاده می‌شود. به این صورت که با نگاه کردن به همسایگی آن عبارات به دنبال عبارات احساس میگردبم. سپس هر عبارت احساس بالقوه آزمایش شد و فقط آن‌هایی که یک احساس منفی یا مثبت را نشان می‌داد در نظر گرفته شد.قطبیت هر عبارت نیز با استفاده از یک روش که معمولأ در بینایی ماشین استفاده می‌شود به نام برچسب‌زنی استراحت تعیین شد. وظیفه این است که به هر عبارت احساس یک برچسب قطبیت اختصاص داده شود.

روش‌های مبتنی بر یادگیری عمیق

روش‌های مبتنی بر CNN

ژانگ و همکاران یک بررسی جامع تجربی بر روی کاربرد شبکه‌های پیچشی در سطح حروف برای طبقه‌بندی متن انجام داده‌اند. مجموعه داده‌هایی با مقیاس بزرگ به این منظور ساخته شده‌اند که نشان دهند شبکه‌های پیچشی در سطح کاراکتر می‌توانند به نتایج قابل مقایسه با دیگر روش‌هادست پیدا کند.

روش‌های مبتنی بر LSTM

در پژوهش جانسون و ژانگ معماریٔهای پیچشی و LSTM تحت یک چارجوب عمومی بررسی می‌شوند که در آن یک مدل خطی با یک تولید کننده‌ی ویژگی غیر خطی همراه با هم آموزش می‌بینند. تولید کننده‌ی ویژگی حاوی جاسازی ناحیه‌ای متن به علاوه‌ی پولینگ می‌باشد. همچنین کاربرد بهینه‌ی LSTM هم در آموزش نظارتی و هم در آموزش نیمه‌نظارتی بررسی شده است. بهترین نتایج توسط ترکیب جاسازی‌های ناحیه‌ای به شکل LSTM و لایه‌های پیچشی بدست آمده است. همچنین نتایج نشان می‌دهد که جاسازی‌های ناحیه‌ای که می‌توانند حاوی مفاهیم پیچیده باشند، کاراتر از جاسازی‌های واژگان هستند. در پژوهش کراس و همکاران نوع خاصی از LSTM با نام mLSTM معرفی شده است که ترکیبی از LSTM و شبکه‌های عصبی تکرار شونده‌ی صربی می‌باشد. که این شبکه‌ها از LSTM استاندارد، در برخی از مسائل مدل‌سازی زبان در سطح کاراکتر، بهتر عمل می‌کنند.