۴-۳- روشهای استفاده شده به منظور مقایسه
روشهایی که برای مقایسه با روش پیشنهادی در نظر گرفته شدهاند، عبارتند از:
- C4.5 : این الگوریتم بر پایهی درختهای تصمیم گیری میباشد و از یک معیار مبتنی بر آنتروپی استفاده می کند. همچنین از تکنیکهای هرس کردن برای از بین بردن شاخههای اضافی استفاده میکند [۲۳].
- NaiveBayes: در این روش احتمال شرطی هر صفت داده شده را توسط برچسب دسته مربوطه از دادههای آموزشی یاد میگیرید. سپس عمل دستهبندی توسط بکار بردن قوانین بیز برای محاسبه مقدار احتمالی دسته نتیجه نمونه داده شده با دقت بالایی انجام میشود[۴].
- K-NN : روال این الگوریتم به این صورت است که برای هر نمونه جدید با مقایسه آن با k نمونه آموزشی نزدیکتر، دسته نتیجه را مشخص میکنیم [۲۵]. بنابراین لازم است معیاری را برای تعیین فاصله بین نمونهها مشخص نماییم. برای تعیین فاصله بین دو نمونه از فاصله اقلیدسی استفاده شده است.
- SVM: الگوریتم SVM یکی از الگوریتمهای معروف در زمینه یادگیری با نظارت است که برای دستهبندی و رگرسیون استفاده میشود. این الگوریتم به طور همزمان حاشیههای هندسی را بیشینه کرده و خطای تجربی دستهبندی را کمینه میکند لذا به عنوان دستهبندی حداکثر حاشیه[۹۸] نیز نامیده میشود [۲۶].
- Neural Network: شبکههای عصبی از روشهای رایج دستهبندی هستند که به طور گستردهای در مسائل مختلف مورد استفاده قرار گرفتهاند. این شبکهها از چندین لایه نرون تشکیل شدهاند، خروجی نرونها در هر لایه تابعی غیر خطی از خروجیهای لایههای قبلی است. تعداد نرونهای لایه ورودی و خروجی ثابت است، تعداد نرونهای لایه ورودی برابر با فضای مشخصه ها و تعداد نرونهای لایه خروجی با توجه به تعداد کلاسها مشخص میشود. نرونها معمولاً در لایههایی در شبکه عصبی مرتب میشوند هر گره تنها ورودیهایی از لایه قبل دریافت میکند و تابعی از ورودیها را ارائه میدهد.
۴-۴- نتایج
روش پیشنهادی در متلب[۹۹] ۸ پیادهسازی و در یک کامپیوتر شخصی با پردازشگر سه هستهای اینتل[۱۰۰] با سرعت ۲٫۱۰ گیگا هرتز و حافظه با دستیابی تصادفى ۳ گیگا بایت به اجرا در آمده است. همچنین این روش بر روی مجموعه داده دیابت Pima که در پایگاه یادگیری ماشین دانشگاه کالیفرنیا قرار دارد محک زده شده است.
مهمترین معیارهایی که برای برازش کارایی الگوریتم پیشنهادی در نظر گرفته شده است، عبارتند از: نرخ دستهبندی، نرخ صحت، نرخ یادآوری، نرخ سنجشF- و قابلیت تفسیر. همانطور که در فصل دوم بیان شد؛ نرخ دستهبندی تعداد نمونههایی که به درستی دستهبندی شدهاند را نشان میدهد. همچنین نرخ صحت و نرخ یادآوری معیارهایی هستند که با همدیگر در تضاد هستند. یعنی افزایش یکی موجب کاهش دیگری میشود و بالعکس. نرخ سنجش F- یک مصالحه بین این دو معیار و در واقع یک میانگین همساز از نرخ صحت و یادآوری میباشد. برای محاسبه نرخ سنجش F- از رابطه (۴-۲) استفاده میشود.
(۴-۲)
جدول (۴-۴) نتایج مربوط به الگوریتم پیشنهادی را نشان میدهد و جدول (۴-۵) نتایج بدست آمده برای الگوریتم پیشنهادی را با نتیجه سایر روشها که توسط نرمافزار Weka پیاده سازی شدهاند مقایسه میکند.
جدول ۴- ۴: نتایج بدست آمده از الگوریتم پیشنهادی بر روی مجموعه داده Pima
نام مجموعه داده
نرخ دستهبندی
نرخ صحت
نرخ یادآوری
نرخ سنجشF-
Pima
۰٫۸۳۶۷
۰٫۸۶۵۷
۰٫۷۷۴۲
۰٫۸۱۷۴
جدول ۴- ۵:مقایسه نتایج بدست آمده برای مجموعه داده Pima با سایر روشها
نام روش
نرخ دستهبندی
نرخ صحت
نرخ یادآوری
نرخ سنجشF-
C4.5
۰٫۷۳۸