همانگونه که انسانها هنگام تصمیم گیری گزینه های زیادی برای انتخاب دارند، رباتها نیز با انتخاب های زیادی مواجه هستند و به کمک هوش مصنوعی باید بهترین گزینه را انتخاب کنند. اما ربات نمی تواند تمام احتمالات را در نظر بگیرد و فقط تعدادی از آنها را بررسی می کند و اگر دو عمل موفقیت آمیز باشند ولی یکی ایمن تر و دیگری سریعتر باشد، ربات سریعترین روش را انتخاب خواهد کرد ولی ما می خواهیم به کمک الگوریتم AI جدید Englot ، راه ایمن تر را انتخاب کند تا امنیت آن حفظ شود.
محققان دانشگاه MIT نوع جدیدی از الگوریتم AI کلاسیک ارائه داده اند تا رباتها بتوانند بسیاری از نتایج احتمالی را پیش بینی کنند و بررسی کنند که احتمال وقوع آنها چقدر است. این فریم ورک به رباتها این امکان را می دهد تا با درک اینکه کدام گزینه امن ترین، کارآمدترین و کمترین احتمال شکست را دارد، تشخیص دهند که کدام گزینه بهترین راه برای دستیابی به یک هدف است.
الگوریتم AI برای آموزش رباتها
Englot محقق ارشد این تیم تحقیقاتی می گوید: فرضاً اگر ربات برای کامل کردن سریعتر یک وظیفه باید بر روی لبه یک صخره راه برود، در واقع با این کار ایمنی را قربانی سرعت عمل می کند. هدف ما این است که ربات از لبه آن صخره سقوط نکند، به همین دلیل ابزارهایی ارائه داده ایم تا رباتها خطرات مربوط به انجام هر عمل را پیش بینی و مدیریت کنند.
سالهاست که برای آموزش رباتها برای حرکت به صورت مستقل در آب، زمین و هوا از یادگیری تقویتی استفاده می شود. اما این الگوریتم محدودیت هایی دارد، زیرا تصمیم گیری را بر اساس یک نتیجه واحد برای هر عمل اتخاذ می کند در حالیکه نتایج احتمالی بسیاری وجود دارد. به همین دلیل Englot از الگوریتم یادگیری تقویتی توزیع شده استفاده می کند، رباتها به کمک الگوریتم AI می توانند کلیه نتایج احتمالی را ارزیابی کنند، احتمال موفقیت هر عمل را پیش بینی کنند و ایمن ترین گزینه را انتخاب کنند تا با حفظ امنیت ربات ، به هدف مورد نظر برسند.
چگونگی عملکرد الگوریتم یادگیری تقویتی توزیع شده
این تیم تحقیقاتی ابتدا عملکرد انسان را حین بازی آتاری pacman بررسی کردند و در واقع انسان را به عنوان یک الگوریتم در نظر گرفتند. الگوریتمی که هنگام بازی تصمیم می گیرد که pacman چه رفتاری بکند. هدف شما این است که تمام نقاط موجود در پیچ و خم را بخورید و در صورت امکان، مقداری میوه نیز بخورید. اما ارواحی وجود دارند که می خواهند شما را بکشند. در هر ثانیه، شما باید تصمیم بگیرید. مستقیم، چپ یا راست می روید؟ کدام مسیر بیشترین امتیاز را برای شما دارد در حالیکه شما را از ارواح نیز دور نگه دارد؟
الگوریتم AI ( هوش مصنوعی ) Englot با استفاده از یادگیری تقویتی توزیع شده ، جای خود را به یک بازیکن انسانی می دهد و هر حرکت ممکن را برای رسیدن ایمن به نقطه پایان، شبیه سازی می کند.
مساله مهم دیگری که باید بررسی شود، چگونگی ارائه پاداش به ربات است. این تیم تحقیقاتی امتیازاتی را برای نتایج مختلف اختصاص دادند به این صورت که اگر ربات از روی یک صخره سقوط کند، 100- امتیاز منفی کسب خواهد کرد، اگر مسیر کند تر اما ایمن تر را انتخاب کند، برای هر گام 1- امتیاز کسب می کند. اما اگر با موفقیت به هدف برسد، 50+ امتیاز می گیرد.
یكی دیگر از مسائلی که باید بررسی شود این است كه چگونه می توان سیگنال های پاداش را طراحی كرد تا تأثیر مثبتی در نحوه تصمیم گیری و عملکرد ربات داشته باشد. هدف این تیم در آینده، ارائه تکنیکهای پیشرفته تر در الگوریتم AI برای آموزش رباتهای زیر آب برای حرکت ایمن در میان جزر و مد ها، جریان ها و سایر عوامل پیچیده زیر آب می باشد.