دانلود پروژه کارشناسی رشته برق : محاسبه نقطه تعادل نش در روشهاي يادگيري تقويتي چندعاملي

دانلود پایان نامه

متن کامل پایان نامه

با عنوان : محاسبه نقطه تعادل نش در روشهاي يادگيري تقويتي چندعاملي

در ادامه مطلب می توانید تکه هایی از ابتدای این پایان نامه را بخوانید

و در صورت نیاز به متن کامل آن می توانید از لینک پرداخت و دانلود آنی برای خرید این پایان نامه اقدام نمائید.

دانشگاه آزاد اسلامی

واحد تهران جنوب

دانشکده فنی و مهندسی

پایان نامه براي دریافت درجه کارشناسی ارشد”M.Sc”

مهندسی برق – کنترل

عنوان:

محاسبه نقطه تعادل نش در روشهاي يادگيري تقويتي چندعاملي

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

***ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد

یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل و با فرمت ورد موجود است***

متن کامل را می توانید دانلود نمائید

چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)

ولی در فایل دانلودی متن کامل پایان نامه

 با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود است

چكيده

در اين رساله، روش مناسبي جهت محاسبه نقطه تعادل نش در الگوريتم‌هاي يادگيري تقويتي چندعاملي با تعداد زياد عامل‌ها مطرح شده‌است، كه قادراست با ادغام محاسبات مربوط به نقطه تعادل نش و ايجاد مصالحه بين اكتشاف- استخراج، محاسبات را به صورت بهينه كاهش دهند. تركيب يادگيري تقويتي تك- عاملي و تئوري بازي ايده اصلي اكثر روشهاي يادگيري چندعاملي است. اين روش‌ها سعي دارند تا كل فرآيند يادگيري را به تعدادي متناهي از حالت‌هاي تصميم‌گيري چندعاملي با خاصيت ماركوف تقسيم كرده و با انتخاب نقطه تعادل نش در هر كدام از اين مراحل به تدبير بهينه براي هر عامل همگرا شوند. بنابراين محاسبه نقطه تعادل نش مسئله مهمي است كه در حال حاضر مشكلاتي شامل پيچيدگي محاسبات در روشهاي شناخته شده محاسبه نقطه تعادل نش، چندگانگي نقطه تعادل نش، و مختلط بودن نقطه تعادل نش باعث شده كه اكثر روشهاي پيشنهادي يادگيري تقويتي چندعاملي جايگاه مناسبي در حل مسائل دنياي واقعي پيدا نكنند. ناگفته نماند كه تقريباً تمام روشهاي يادگيري تقويتي چندعاملي مطرح شده، مبتني بر روشهاي off-policy بوده‌اند كه نيازي به در نظر گرفتن مسئله رويه انتخاب عمل و اكتشاف در اثبات همگرايي ندارند. بنابراين در رويه‌هاي اجرايي پيشنهاد داده‌اند كه ابتدا نقطه تعادل نش محاسبه شده و سپس با روش ϵ-greedy مصالحه بين اكتشاف و استخراج برقرار شود.

محاسبه نقطه تعادل ϵ-نش در بازي‌هاي نرمال در اين رساله به صورت يك مسئله مينيمم‌سازي تعريف شده كه جواب آن توسط الگوريتم‌هاي ژنتيك بدست آمده‌است. علاوه بر كاهش پيچيدگي روش محاسبه نقطه تعادل نش، با اضافه كردن جمله مناسب در محاسبه تابع برازندگي، هر عامل قادر است نقطه تعادل نش پارتو را محاسبه كند كه مسئله چندگانگي نقاط تعادل نش را نيز مرتفع مي‌سازد.

در پايان، روشهاي پيشنهادي در حل مسئله بازار برق مورد استفاده قرار گرفته‌است. اين مسئله كه در سال‌هاي اخير توجه زيادي را به خود جلب كرده در اين رساله به سه قسمت تقسيم شده‌است. در قسمت اول شركت برق با هدف كاهش هزينه‌ها يك مسئله برنامه‌ريزي مقيد را با كمك برنامه‌ريزي خطي حل مي‌كند. قيد‌هاي اين مسئله شامل لزوم تأمين نيازهاي مصرف‌كنندگان و افت توان در خطوط انتقال انرژي مي‌باشد. در قسمت دوم، هر ژنراتور با توجه به اطلاعات كسب شده مراحل قبلي اقدام به انتخاب قيمت‌گذاري جديد در ابتداي روز بعد مي‌كند. اين اطلاعات شامل قيمت‌هايي كه خودش و ديگران به شركت برق ارائه كرده‌اند و تصميم شركت برق (كه منجر به پاداش (سود) براي خودش و ديگران شده) مي‌باشد. اين قسمت توسط الگوريتم‌هاي ژنتيك حل شده است. در قسمت سوم، از همان اطلاعات ذكر شده در قسمت قبل به منظور اصلاح ديدگاهش براي روز گذشته استفاده مي‌كند. الگوريتم يادگيري چندعاملي Nash-Q در اين قسمت استفاده شده است. در حالت كلي، انرژي مورد نياز شبكه و توپولوژي آن هر دو متغير هستند. ولي در اين رساله توپولوژي شبكه ثابت فرض شده است. شبيه‌سازي‌هاي انجام شده نشان مي‌دهد كه روش ارائه شده به خوبي قادر به حل مسئله يادگيري تقويتي چندعاملي در مسائل كاربردي با تعداد عامل بيشتر از دو است.

مقدمه

محاسبه نقطه تعادل ϵ-نش در بازي‌هاي نرمال در اين رساله به صورت يك مسئله مينيمم‌سازي تعريف شده كه جواب آن توسط الگوريتم‌هاي ژنتيك بدست آمده‌است. علاوه بر كاهش پيچيدگي روش محاسبه نقطه تعادل نش، با اضافه كردن جمله مناسب در محاسبه تابع برازندگي، هر عامل قادر است نقطه تعادل نش پارتو را محاسبه كند كه مسئله چندگانگي نقاط تعادل نش را نيز مرتفع مي‌سازد.

در پايان، روشهاي پيشنهادي در حل مسئله بازار برق مورد استفاده قرار گرفته‌است. در ابتداي هر روز، شركت برق با هدف كاهش هزينه و در عين حال تأمين نيازهاي مصرفي با توجه به توپولوژي شبكه، به كمك برنامه‌ريزي خطي ميزان خريد برق از هر ژنراتور را با توجه به قيمت‌هاي پيشنهادي آنها اعلام مي‌كند. علاوه بر آن در پايان هر ماه با توجه به تناسب قيمت‌هاي پيشنهادي، مبلغي را به عنوان پاداش به هر ژنراتور مي‌دهد. ژنراتورها با توجه به ميزان سودي كه از فروش برق بدست مي‌آورند، پارامترهاي مربوط به جدول ارزش‌هاي خود در آن روز را اصلاح مي‌كنند. اين جدول‌ها منعكس كننده مسئله تعيين قيمت با توجه به خواسته‌هاي شركت برق و نحوه قيمت‌گذاري ساير ژنراتورها است. ژنراتور‌ها در ابتداي هر روز با توجه به اين جدول به دنبال پيدا كردن بهترين پيشنهاد به شركت برق هستند كه در واقع همان مسئله تعيين نقطه تعادل نش است. با كمك يادگيري تقويتي چندعاملي، ارزش‌هاي اين جدول‌ها به مرور اصلاح شده و عامل‌ها قادر به جمع‌آوري سود بيشتري در طول يك ماه خواهند بود. شبيه‌سازيهاي انجام شده روند صعودي افزايش ميزان سود را نشان مي‌دهند.

1-   کلیات

عامل موجودی[1] است كه توانايي ايجاد تعاملي[2] هدفمند با محيط اطراف خود را دارد. به اين منظور از طريق حسگرهايش محيط اطراف را حس كرده و بر اساس ادراكي كه از وضعيت موجود بدست مي‌آورد به گونه‌اي بر روي محيط اعمال اثر مي‌كند كه او را به هدف يا اهدافش نزديكتر سازد (Wooldridge M. , 2002). خودمختاري مهمترين مشخصه‌اي كه عامل را از ساير واحدهاي محاسباتي مشابه متمايز مي‌سازد. به اين معنا كه عامل بدون دخالت مستقيم انسان يا هر سيستم خارجي ديگر خروجي خود را تعيين مي‌كند. آنچه كه تاكنون در توصيف عامل بيان شد، تمام كاربردهاي مورد تصور براي عامل را نمي‌پوشاند. به همين دليل، شاخصه‌هاي ديگري همچون عامل يادگيرنده، عامل هوشمند، عامل قياسي و … نيز مطرح شده‌است. هر گاه تعدادي از عامل‌ها در كنار هم قرار گرفته و ضمن تعامل با محيط، با يكديگر نيز تعامل داشته‌باشند تا تحقق قسمتي از اهدافشان آسانتر يا اصولاً امكان‌پذير شود، به آنها سيستمهاي چندعاملي اطلاق مي‌شود. سيستمهاي چندعاملي جنبه مهم ديگري در تعميم مفهوم عامل‌ها مي‌باشد كه در سالهاي اخير بسيار مورد توجه قرار گرفته‌است.

تعاملات هدفمند بين عامل‌ها، اگر چه پيچيدگي‌هاي زيادي را در حوزه طراحي طلب مي‌كند، ولي از آن مي‌توان به عنوان نقطه قوتي ياد كرد كه مدلسازي و تحليل بسياري از مسائل، به ويژه آن دسته كه به جوامع بشري مربوط مي‌شوند، را امكان‌پذير ساخته‌است (Weiss, 1999). مهمترين سئوال در حوزه طراحي اين سيستمها، اين است كه عامل‌ها در بازی استراتژیک با توجه به حالت محيط و ساير عامل‌ها باید چه عملی را اتخاذ كنند كه در راستاي تحقق اهدافش باشد، با این فرض که انتخاب عمل به صورت عقلانی انجام مي‌شود یعنی هر بازیکن میل به انتخاب بهترین عمل ممکن دارد. در تئوری بازی بهترین عمل برای هر بازیکن بستگی به عملی که سایر بازیکن‌ها انجام مي‌دهند دارد، بنابراین وقتی یک بازیکن اقدام به انتخاب عمل مي‌کند باید این موضوع را که پس از او بازیکن مقابل چه عملی را انتخاب مي‌کند مد نظر بگیرد. این بدان معنا است که هر بازیکن در ذهن خود نمایی از رفتار سایرین بسازد و در هر مرحله آنرا در نظر بگیرد تا بتواند بهترین استراتژی را بیابد.

پيدا کردن يک راه حل براي يک بازي شامل جستجوي پروفايل‌هاي استراتژيي است که با نيازمنديهاي عقلاني معيني مطابقت داشته باشد. نکته مهم ديگري که بايد مورد توجه قرار گيرد اين است که، نقطه تعادل نش يک پروفايل استراتژي است که در آن نياز است که استراتژي هر بازيکن نسبت به استراتژيهاي بازيکنان ديگر بهترين پاسخ باشد.

تعداد صفحه :57

قیمت : 4800 تومان

بلافاصله پس از پرداخت ، لینک دانلود به شما نشان داده می شود

و به ایمیل شما ارسال می شود.

پشتیبانی سایت :  

     فقط پیامک        serderehi@gmail.com

در صورتی که مشکلی با پرداخت آنلاین دارید می توانید مبلغ مورد نظر برای هر فایل را کارت به کارت کرده و فایل درخواستی و اطلاعات واریز را به ایمیل ما

  serderehi@gmail.com

ارسال کنید تا فایل را از طریق ایمیل دریافت کنید.

 

---  -- ----