1-3- بررسی احساس در متن
بررسی احساس مطالعه محاسباتی نظرات عقاید و احساسات بیان شده در متنه. متن زیر نظر یک کاربر درباره iphoneه.
“(1) I bought an iphone a few days ago. (2) It was such a nice phone. (3) The touch screen was really cool. (4) The voice quality was clear. (5) Although the battery life was not long, that is ok for me. (6) However my mother was mad with me as I did not tell her before I bough it. (7) She also thought the phone was too expensive, and wanted me to return it to shop……”
چه اطلاعاتی میشه از متن درآورده کرد ؟ اول باید توجه کنیم چند نظر در این متن هست، جملات (2)، (3) و (4) نظرات مثبتی رو میگن. جملات (5)، (6) و (7) نظرات منفی رو میگن. نظرات بیان شده درباره یک موجودیت بیان شده‌ان؟ این موجودیت کدامه؟ جمله (2) بصورت کلی نظری رو درباره iphone بیان کرده. جملات (3)، (4) و (5) نظراتی درباره صفحه لمسی، وضوح صدا و طول عمر باتری میگن. جمله (7) باور مشتری نسبت به قیمت موبایل رو میگه. ولی نظرات بیان شده در جمله (6) درباره شخص هست نه درباره موبایل iphone. این نکته خیلی مهمه باید توجه داشت متنی که شامل نظرات کابران هست حتما درباره یک موجودیت خاص نیس، ممکنه در طول متن نظرات مثبت و منفی درباره موجودیت‌های متفاوت بیان شده باشه.
تحلیلگر احساس و عقاید معمولا ورودی‌های خود(جملات، اسناد) رو به دو گروه نظرات و عقاید مثبت و نظرات و عقاید منفی دسته‌بندی می‌کنه. بعضی از تحقیقات هم ضعیف یا قوی بودن نظرات در نظر گرفته‌ان و متون در 4 گروه دسته بندی می‌شن. گروه اول نظرات منفی، دوم نظرات کمی‌منفی، سوم نظرات کمی‌مثبت، چهارم نظرات مثبت.
مراحل بررسی احساس در سه سطح انجام می‌شه:
1. در سطح کلمات
2. در سطح جمله
3. در سطح سند.
واسه هر سطح پیش فرض‌ها و وظایفی برشمرده می‌شه که باید در تحلیلگر دید شن. در ادامه به تشریح تحلیلگر احساس در سطوح متفاوت خواهیم پرداخت.
تحلیلگر احساس در سطح کلمه یک سند یا یکسری از جملات رو به عنوان ورودی دریافت می‌کنه. اول کلمات متفاوت که ویژگی‌های یک موجودیت رو میگن رو از متن درآورده می‌کنه. بعد نظرات بیان شده در متن دور و بر ویژگی‌های موجودیت رو تشخیص می ده. شکل1-2 یک مثال از کارکرد تحلیلگر احساس در سطح کلمه رو میگه.

متن کاوی

واسه حل کردن هر مسئله، اول باید یک تعریف مناسب از مسئله رو ارائه دهیم. در فصل قبل هدف از این رساله رو بررسی احساسات و عقاید در سطح سند معرفی کردیم.
اگر D یکسری از اسناد باشه، سیستم ارائه شده باید تشخیص بده D d∈ نظر مثبت یا نظر منفی رو درباره یک شی O میگه.
تحلیلگر احساس یک مجموعه از اسناد D رو که شامل نظرات کاربران دور و بر یک شئ خاص Oه رو دریافت می‌کنه و جهت گیری اونا رو نسبت به اون شئ خاص تشخیص می ده، به نحوی که هر سند D حتما نظر مثبت یا منفی رو درباره شئ O میگه.
خیلی از تکنیک‌های بررسی احساس در سطح سند طبق الگوریتمای یادگیری نظارت شدهن؛ تعداد از روشای یادگیری بی نظارت هم هست [23]. در این رساله تمرکز بر روش‌های یادگیرنده‌ی بر اساس ناظره.
قدم اول بررسی احساس در متن
سال 2002 pang و همکارانش تحقیقی رو انجام دادن که سر شروع این راه نامیده می‌شه. هر چند قبل از اون هم کارایی انجام شده‌ان که بطور ضمنی از بررسی احساسات و عقاید سخن به بین آورده‌ان ولی pang و همکارانش اولین بار بطور روشن در سال 2002 به بررسی احساس در متن پرداخته‌ان [4].
pang و همکارانش از مجموعه خصیصه‌های unigram، bigram، صفات و ترکیبی از این سه نوع مجموعه خصیصه‌ها استفاده کردن. ضمنا واسه طبقه‌بندی از الگوریتم‌های SVM ، بیز راحت و بیشترین حد آنتروپی استفاده کرده‌ان. روش‌های متفاوتی واسه نمایش بردار خصیصه‌ها هست pang و همکارانش از دو روش فرکانس خصیصه و حضور خصیصه واسه نمایش بردار خصیصه‌ها استفاده کرده‌ان. نتایج نشون داد روش حضور خصیصه نسبت به بقیه روش‌های مورد استفاده نتایج بهتری به همراه داره. روش‌های که اونا واسه نمایش بردار خصیصه‌های بکار برده‌ان، تا الان در تحقیقات متفاوت استفاده کرده شده. نتایج تحقیق نشون داد خصیصه‌های unigram نسبت به بقیه خصیصه‌های زبون شناختی کارکرد بهتری دارن و باعث بهتر شدن طبقه‌بندی می‌شن. خصیصه‌های bigram نسبت به خصیصه‌های unigram دقت کمتری در طبقه‌بندی از خود نشون دادن. در این تحقیق واسه طبقه‌بندی اسناد از روش‌های بیز راحت SVM و بیشترین حد آنتروپی استفاده شده. نتایج طبقه‌بند SVM نسبت به بقیه الگوریتم‌های طبقه‌بندی دقت بهتری از خود نشون داد. علاوه بر مطالب اشاره شده اونا مجموعه داده‌های بازبینی فیلم‌ها رو ارائه دادن. این مجموعه داده‌ها از سایت IMDB جمع‌آوری شده، مجموعه داده بازبینی فیلم‌ها داده تشکیل شده از 2000 فایل بازبینی فیلم بود، 1000 فایل اون شامل نظرات مثبتی دور و بر فیلم‌ها و 1000 فایل دیگر هم شامل نظرات منفی دور و بر فیلم‌ها بودن. بهترین دقت بدست اومده به وسیله pang و همکارانش با استفاده از 16165 خصیصه unigram و در الگوریتم طبقه‌بندی SVM حاصل شده بود[4].
مهم‌ترین ویژگی این تحقیق ارائه زمینه تحقیقی جدید واسه طبقه‌بندی متون بوده‌است. ضمنا نمایش بردار خصیصه ارائه شده در این تحقیق، تا کنون به عنوان یکی از بهترین روش‌ها نمایش بردار خصیصه مورد استفاد قرار میگیره. pang و همکارانش در این تحقیق بر غیر مفید بودن خصیصه‌های bigram و خصیصه‌های N-gram n>1 تاکید داشتن.
روش‌های بر اساس خصیصه‌های N-gram
یکی از مهمترین فازهای مراحل بررسی احساسات و عقاید، مدلسازی متون با استفاده از خصیصه‌هاییه که می تونن بخوبی بیان کننده صفات اسناد باشن. این رساله روی خصیصه‌هایN-gram تاکید داره.
خصیصه‌های N-gram به دو دسته تقسیم می‌شن:
N-gram ثابت؛ یک پشت سر هم دقیق در سطح کاراکتر یا توکن هست. مثل unigram یا biram.
N-gram متغیر؛ الگوهایی واسه درآورده اطلاعات از متنن. مثل Pass VP یا dealt bow.
خصیصه‌های N-gram متغیر می تونن مفاهیم پیچیده‌تر زبون شناختی رو بگن [1]. در این رساله هدف اصلی خصیصه‌های N-gram مثل، بسته کلمات ضمنا N-gram با درجات بالاتر مثل bigram و trigramن. N-pos ترکیب n تایی از ادات سخن هست. ضمنا n-posword ترکیب n تای از کلمات به همراه برچسب ادات سخن اونا هست. در ادامه مثال‌هایی واسه هر یک از انواع خصیصه‌های N-gram میگیم(جدول 2-1).
همونطور که در بخش قبلی بیان شد، pang و همکارانش نشون دادن استفاده از خصیصه‌های bigram واسه بررسی احساسات و عقاید عملکردی بدتری نسبت به خصیصه‌های unigram به دنبال دارن. تحقیقی که وینسنت و همکارانش سال 2006 انجام دادن خصیصه‌های unigram، bigram و trigram رو واسه مدلسازی اسناد به کار بردن [25]. اسناد متنی به دو دسته حقایق و عقاید دسته‌بندی می‌شن و مثال بخش 1-2 نشون می ده بیشتر متون شامل ترکیبی از حقایق و عقایدن، پس بیشتر اسناد متنی ترکیبی از متون جهت‌دار (عقاید و نظرات) با متون عینی و واقعی (حقایق) هستن. متون عینی و واقعی درون اسناد همون خصیصه‌های غیر مربوط به بررسی احساسن چون اطلاعات مفیدی واسه الگوریتم یادگیری ماشین در جهت بررسی احساس موجود در متون رو فراهم نمی‌کنن. تعداد زیاد خصیصه‌ها و غیر ربط داشتن خیلی از این خصیصه‌ها به بررسی احساس، مشکلات زیادی رو باعث می شه، مثل این مشکلات میشه کاهش دقت طبقه‌بندی وکاهش سرعت عملیات طبقه‌بندی رو نام برد. بهتره قسمتی از متن که شامل حقایقه در فاز اول از متون شامل نظرات و عقاید جدا از هم شه. وینسنت و همکارانش در اول، بخش‌هایی از اسناد که عقاید و نظرات رو میگفتن رو تشخیص داده، از متن جدا کرده‌ان. اونا با فیلتر کردن متون شامل حقایق از متون احساسی تونستن واسه خصیصه‌ها unigram و bigram نتایج بهتری رو نسبت به pang و همکارانش بدست آورند. ضمنا اونا نشون دادن خصیصه‌های N-gram n>1 می تونن وابستگی کلمات موجود در متن، رو در مدلسازی وارد کنن پس به دقت کارکرد الگوریتم یادگیری ماشین در جهت طبقه‌بندی متون کمک می کنن. در این تحقیق دقت حاصله از طبقه‌بندی اسناد با استفاده از خصیصه‌های unigram به میزان 87.1 درصد گزارش شده. این میزان نسبت به نتیجه بهترین روش ارائه شده به وسیله pang و همکارانش 5 درصد بهبود پیدا کرده. ضمنا با استفاده از خصیصه‌های unigram+bigram+trigram (ترکیب هر سه نوع خصیصه) مراحل طبقه‌بندی اسناد رو با دقت 89.2 درصد انجام دادن. در این تحقیق به بررسی تاثیرگذاری خصیصه‌های N-gram پرداخته شده وینسنت و همکارانش نشون دادن استفاده از خصیصه‌های bigram به همراه unigram باعث بهتر شدن کارکرد طبقه‌بندی می‌شه. ضمنا به این نتیجه رسیدن که خصیصه‌های bigram به تنهایی درمان در طبقه‌بندی ایجاد نمی‌کنن، دلیل این موضوع هم پراکندگی خصیصه‌های bigramه؛ برخلاف چیزی که در [4] اعلام شده، که خصیصه‌های bigram ذاتا به بهتر شدن طبقه‌بندی کمک نمی‌کنن. پس اگر بتونیم پراکندگی موجود در خصیصه‌های bigram رو کاهش دهیم می تونیم دقت کارکرد این نوع خصیصه‌ها رو بهبود دهیم.
در بعضی از تحقیقات واسه مدلسازی اسناد از خصیصه‌های N-POS استفاده شده‌است. فی و همکارانش در سال 2004 از خصیصه‌های 1-pos و 2-pos استفاده کرده‌ان و بهترین دقت حاصل از طبقه‌بندی در این تحقیق 86% بوده [26]. اونا الگوهایی نحوی رو ارائه دادن که بیشتر متون جهت‌دار در این الگوها قرار می‌گیرند، مثلا یکی از الگوهای ارائه شده n+adj بوده. اول متن رو برچسب گذاری کرده‌ان و الگوهای مورد نظر رو از متن درآورده کرده‌ان. مدلی که در این روش ارائه شده مثل روش وینسنت و همکارانش سعی داره در اول متن رو فیلتر کنه و فقط متن جهت‌دار(متن شامل نظرات مثبت یا منفی کاربران درباره یک موجودیت مشخص) رو واسه مرحله طبقه‌بندی و مدلسازی استفاده کنه. اما مشکل این روش اینه که نمیشه واسه همه حالتای متن جهت‌دار الگویی ارائه داد و همیشه ممکنه متن خاصی با الگوهای ارائه شده موافق نباشه. مدلسازی متن با استفاده از الگوهای N-POS حتی نسبت به مدل unigram دقت کمتری رو واسه طبقه‌بندی به همراه داشت. بنابر این روش مناسبی واسه مدل‌سازی اسناد نیس.
گامن سال 2004 4 گروه خصیصه رو بررسی کرد. گروه اول خصیصه‌های N-gram از ترکیب خصیصه‌های unigram، bigram و trigram تشکیل شده‌ان. گروه دوم خصیصه‌های تشکیل شده از ترکیب N-gram و 3-POS بودن. گروه سوم، خصیصه‌های مثل طول جمله، طول عبارات، تعداد کلمات بودن و گروه چهارم ترکیب سه گروه خصیصه اشاره شده بودن. تعداد خصیصه‌ها در این روش از 1000 تا 40000 خصیصه بودن. بهترین دقت حاصله واسه طبقه‌بندی متون با استفاده از خصیصه‌های گروه چهارم بدست آمده که نشون می ده ترکیب خصیصه‌ها مدل بهتری از اسناد به خاطر بررسی احساس در متن رو ارائه می ده. در بهترین حالت دقت طبقه‌بندی 89 درصد گزارش شده. در این تحقیق ترکیب‌های متفاوت از خصیصه‌ها بررسی شد و میزان تاثیرگذاری اونا بحث شده‌است [20].
مدل N-gram کاراکترها(N-char) به وسیله عباسی و همکارانش استفاده شد. مثلا مدل Bigram عبارت Like بصورت “li ik ke” هستش [2]. در این مدل تعداد خیلی زیاد خصیصه‌ها مشکل‌ساز هستش و استفاده از الگوریتم‌های انتخاب خصیصه به دلیل تعداد خیلی زیاد خصیصه‌ها ما رو با مشکل پیچیدگی زمانی روبرو می کنن. استفاده از خصیصه‌ها N-char همیشه باعث افزونگی و افزایش تعداد خصیصه‌های غیر مفید می‌شه، به خاطر این که همپوشانی خیلی زیادی در خصیصه‌های n-char هست.
تحقیقات کمی از مدل POSWORD (برچسب نقش کلمه در سخن به همراه خود کلمه) استفاده کرده‌ان. ویب و همکارانش در سال 2004 . به خاطر کاهش ابهام کلمات در مراحل بررسی احساس از 3-POSWORD استفاده کرده‌ان. با توجه به اینکه خصیصه‌های POS-Tag به همراه خود کلمه می تونه باعث کاهش ابهام کلمات شه پس باعث بهتر شدن دقت آزمایش و طبقه‌بندی اسناد می‌شه [12]. مهمترین دلیل استفاده از 3-POSWORD وارد کردن وابستگی به متن در مدل مورد استفاده هست. بنابر این اگه بشه مشکلات به دلیل پراکندگی و افزونگی رو مدیریت کرد به نظر می‌رسد استفاده از خصیصه‌های N-gram n>1 به بهتر شدن نتایج کمک زیادی کنه.
جدول 2-1 مثالی واسه هر یک از خصیصه‌های N-gram مطرح شده رو نشون می ده.
عباسی و همکارانش در سال 2011 مجموعه کاملی از خصیصه‌های N-gram که در کارهای قبلی استفاده شده بود رو جمع آوری کرده و واسه مدلسازی اسناد از اونا استفاده کردن [1]. این مجموعه خصیصه‌ها در جدول 2-2 بیان شده‌ان. اونا در این تحقیق با استفاده از طبقه بند SVM به دقت 90 درصد واسه طبقه‌بندی مجموعه داده‌های بازبینی فیلم‌ها رسیدن. مدل ارائه شده که در جدول 2-2 میشه دید، خیلی از خصیصه‌ها همدیگه رو پوشش میدن بنابر این باعث زیاد افزونگی در مدل حاصله می‌شن. هر گروه از این خصیصه‌ها دارای تعداد زیادی خصیصه‌های نامربوط با بررسی احساس موجود در متنن، استفاده با هم از همه این خصیصه‌ها باعث افزایش چشم‌گیر خصیصه‌های غیر در ارتباط پس کاهش تاثیرگذاری خصیصه‌های مربوط به بررسی احساس و در آخر کاهش دقت طبقه‌بندی می‌شه. اونا واسه حل این مشکل یک روش انتخاب خصیصه شبکه ارتباطی خصیصه رو ارائه دادن، که پیچیدگی زمانی بالایی داره. میشه با استفاده از خصیصه‌های مطلوب‌تر خصیصه‌های افزونه و خصیصه‌های غیر در ارتباط رو کم کرد و واسه تعیین سودمندی خصیصه‌ها از الگوریتم انتخاب خصیصه راحت‌تر با پیچیدگی زمانی کمتر بهره برد.

جمله مثال I go home.
خصیصه‌های N-gram Unigram I, go, home
Bigram I go, go home
Trigram I go home
خصیصه‌های N-POS 1-pos FW, VBP,NN
2-pos FW VBP,VBP NN
3-pos FW VBP NN
خصیصه‌های 3-POSWORD 3-POSWORD I/FW go/VBP home/NN

آگراوال و میتال سال 2013 تحقیقی رو انجام دادن [5] که در این تحقیق از روش‌های انتخاب خصیصه سودمندی اطلاعات و کمه کم‌ افزونگی – بیشترین حد ‌وابستگی استفاده شده، ضمنا از خصیصه‌های Unigram و Bigram و گزیده‌ای از کلمه‌-‌‌POS در جهت مدل‌سازی متن بهره‌گرفتن. طبقه‌بندی در این تحقیق روی مجموعه داده بازبینی فیلم‌ها دقت بالاتری نسبت به روش ارائه شده به وسیله عباسی و همکارانش داشت. اونا نشون دادن که روش انتخاب خصیصه کمه کم ‌افزونگی – بیشترین حد وابستگی کارکرد بهتری نسبت به سودمندی اطلاعات داره. مثل مشکلات روش ارائه شده به وسیله آگراوال و میتال مجموعه خصیصه‌های مورد استفاده اونا هست که در این رساله مجموعه خصیصه‌های مناسب‌تری واسه بررسی احساس موجود در متن ارائه می‌شه.

دسته بندی : ارورها