Additive Regression

۲۵٫۷

Decision Stump

۲۷٫۰۴

Bagging

۲۳٫۹۵

M5P

۲۴٫۴۹

CVParameter Selection

۳۰

Regression By Discritization

۳۰

بنابراین تنها دسته­ای از الگوریتم­ها که قابلیت اعمال به مسائل رگرسیون را داشتند، استفاده شده و در جدول (۵-۲) مشاهده می‌شوند. از آنجا که الگوریتم رگرسیون رندوم فارست در Weka پیاده­سازی نشده، الگوریتم بگینگ به جای آن مورد مقایسه قرار گرفت چرا که می­دانیم الگوریتم رندوم فارست یک حالت عمومی‌تر از الگوریتم بگینگ هست. در واقع در الگوریتم رندوم فارست علاوه بر اینکه همانند الگوریتم بگینگ مجموعه آموزشی کاندید برای مدل‌سازی را بطور رندوم از مجموعه آموزشی اولیه انتخاب می­ کند،از بین خصیصه­ها نیز بطور رندوم مجموعه ­ای را انتخاب و بر اساس آنها آموزش مدل­های موجود را انجام می­دهد. بنابراین انتخاب و استفاده از بگینگ به جای رندوم فارست، انتخاب مناسبی است.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

علاوه بر این، در جدول (۵-۲) میزان خطای میانگین RMSE حاصل از اعمال این الگوریتم­ها در مورد پیش ­بینی نرخ ترافیکی مسیرها آمده است. شایان ذکر است که این مقادیر، حاصل اعمال الگوریتم‌ها به روی داده‌ی اعتبارسنجی می‌باشد. در ردیف اول این جدول نیز، نتایج مرتبط با اعمال الگوریتم رندوم فارست درمحیط برنامه نویسی MATLAB آورده شده است.
همانطور که پیش‌تر بیان شده، مقادیر جدول (۲-۵)، میانگین خطا بر روی ۲۰ مسیر مورد بررسی است. بطور کلی، هر چند بعضی از الگوریتم‌ها، خطای کمتری بر روی بعضی از مسیرها داشتند، اما بطور میانگین، الگوریتم بگینگ از دیگر روش­ها، خطای میانگین کمتری داشت که در جدول (۲-۵) می­بینیم.
در نهایت این مطلب در جدول (۵-۳) خلاصه شده است. همانطور که از جدول ( ۵-۳ ) مشخص است، الگوریتم رندوم فارست از الگوریتم بگینگ که بطور میانگین، بهترین نتایج را در مقایسه با همه‌ی الگوریتم‌های رگرسیون موجود در Weka داشت، بهتر عمل کرد. با تکیه بر این نتایج، می‌توان از مناسب بودن روش Random Forest بر روی داده‌های این پایان نامه، اطمینان حاصل کرد.
جدول ۵-.۲ مقایسه میانگین خطای RMSE بر روی ۲۰ مسیر، حاصل از اعمال الگوریتم بگینگ و رندوم فارست.

Mean RMSE

Algorithm

۲۳٫۸۸

Bagging

۲۳٫۱۹

Random Forest

تنظیمات اعمال شده در پیاده سازی الگوریتم (تنظیم پارامترها)

تمامی آنالیزهای بررسی شده در راستای پیاده‌سازی تکنیک پیشنهادی و همچنین آنالیزهای مربوط به بررسی توزیع پایگاه داده، با زبان برنامه‌نویسیMatlab انجام گرفته‌است. از آنجایی که الگوریتم رندوم فارست بطور مستقیم در این زبان برنامه نویسی پیاده سازی نشده است، با انجام تنظیماتی در پارامتر تابع TreeBagger، می‌توان الگوریتم رندوم فارست را فراخوانی و استفاده کرد. این تابع الگوریتم بگینگ را بر مبنای درختان تصمیم‌گیری را می‌سازد. همانطور که پیش‌تر بیان شد، هدف این تکنیک پیش‌بینی نرخ ترافیکی و در واقع انجا رگرسیون است. بنابراین، لازم است تا پارامتر ‘Method’ به ‘Regression’ تنظیم شود.
از جمله پارامترهای تاثیرگذار در کارایی الگوریتم رندوم فارست که در تکنیک پیشنهادی، لحاظ شده‌اند، می‌توان به ۳ پارامتر ‘Ntrees’ ، ‘Minleaf’ و‘Nvar To Sample’ اشاره کرد. ‘Ntrees’ نشان‌دهنده‌ی تعداد درختان موجود در رندوم فارست بعنوان کلاسه‌بندهای پایه است که با افزایش آن میزان خطای الگوریتم کاهش می­یابد. هر چند در این الگوریتم مشاهده شد که بعد از مقدار Ntrees=60 ، میزان خطا ثابت خواهد ماند و افزایش تعداد درختان فقط منجر به بالارفتن هزینه‌ی محاسبات می‌شود. بنابراین تعداد درختان در آزمایشات مختلف، ۶۰ در نظر گرفته شده است تا بار محاسباتی اضافه به مسئله تحمیل نشود. ‘Minleaf’، در واقع مینیمم تعداد مشاهدات در هر برگ درخت است. مقادیر مختلفی برای این پارامتر اعمال شد، هر چند بهترین کارایی مربوط به Minleaf=5 بدست آمد که برابر با مقدار پیش فرض این پارامتر است. پارامتر ‘NvarToSample’، معادل با تعداد متغیرهای انتخاب شده بطور رندوم برای هر سطح درخت تصمیم‌گیری است. با تنظیم این پارامتر به مقداری غیر از ‘all’، الگوریتم رندوم فارست صدا زده می­ شود. در واقع این پارامتر، تفاوت میان الگوریتم بگینگ و رندوم فارست محسوب می‌شود، چرا که در الگوریتم بگینگ، در هربار انتخاب مجموعه‌ی آموزشی، همه‌ی خصیصه‌ها در نظر گرفته می‌شوند. حال آنکه تنها تعدادی از خصیصه‌ها انتخاب می‌شوند. مقادیر پیشنهادی برای این پارامتر در فصل قبل آورده شد که در اینجا یک سوم تعداد کل متغیر­ها (مطابق با پیش فرض) بهترین کارایی را نتیجه داد.

ارزیابی سایز گردآمدگی بر روی داده‌ی اعتبارسنجی[۱۷۴]

همان طور که پیش تر توضیح داده شد، داده‌های نرخ ترافیکی مسیرها در این پایگاه داده، در سطح یک-دقیقه ارائه شده‌اند، هرچند ارائه‌ داده در سطح دقیقه منجر به رفتارهای نوساناتی بسیار شدیدی می‌شود که اطلاعات مفیدی را در اختیار نخواهند گذاشت. به بیانی دیگر، بدیهی است که رفتار جریان‌های ترافیکی در طی چند دقیقه‌ی متوالی، تغییر بخصوصی نخواهند داشت. بر همین اساس، در دیگر تحقیقات نیز پارامترهای ترافیکی را در بازه‌های زمانی طولانی‌تری در نظر می‌گیرند. بنابراین، در اینجا نیز لازم است یک مرحله گردآمدگی روی داده‌ی اولیه انجام می‌شود. در این راستا، تعیین سایز گردآمدگی باید نَه بقدری بزرگ باشد که منجر به از دست رفتن اطلاعات مفید می­ شود و نه به اندازه‌ای کوچک باشد که منجر به تولید اطلاعات تکراری و افزایش بُعد شود.
از آنجا قرار است از هر پنجره ۳۰-دقیقه‌ای­، یک نمونه( یک بردار ویژگی) استخراج شود، سایز گردآمدگی می ­تواند مقادیر ۳، ۵، ۶ ،۱۰، ۱۵و ۳۰ ( مقسوم ۳۰) باشند که به ترتیب منجر به تولید بردارهای ویژگی با اندازه­ های ۲۰۰، ۱۲۰، ۱۰۰، ۶۰، ۴۰و ۲۰ مقداری می­شوند [۱۸]. بنابراین سایز بردار ویژگی وابسته به سایز گردآمدگی است. به منظور درک بیشتر توضیحات گفته شده در خصوص اعمال سایزهای مختلف گردآمدگی، در شکل (۵-۱) مراحل استخراج ویژگی برای سایز گردآمدگی ۱۵=s که منجر به ساخت بردار ویژگی ۴۰-مقداری می‌شود، به صورت نمادین آورده شده است.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...