شرکت‌های خودروساز یا فناوری‌محوری که روی فناوری خودران کار می‌کنند از شبیه‌سازها برای آموزش سیستم‌های خود استفاده می‌کنند و به‌آن‌ها یاد می‌دهند چگونه در برابر عوامل خارجی واکنش نشان دهند؛ مواردی مانند عابران‌پیاده، دوچرخه‌سواران، علائم راهنمایی و رانندگی و سایر خودروها. برای داشتن یک سیستم خودران واقعا پیشرفته، عوامل یادشده باید رفتار و واکنش واقع‌بینانه نسبت به‌یکدیگر داشته باشند. در این میان ایجاد و آموزش عوامل هوشمند یکی از مشکلاتی است که وایمو در تلاش برای حل آن است و این یک چالش رایج در دنیای تحقیقات خودران به‌شمار می‌رود.

برای این منظور، وایمو پنجشنبه گذشته یک شبیه‌ساز جدید برای جامعه تحقیقاتی خودران معرفی کرد که محیطی را برای آموزش عوامل هوشمند با عوامل شبیه‌ساز از پیش ساخته شده و مجموعه‌ای از داده‌های درک وایمو فراهم کرده‌اند.

دراگو آنگلوف (Drago Anguelov) سرپرست تحقیقات این شرکت طی مصاحبه ویدئویی به TechCrunch گفت: «شبیه‌سازهای سنتی اغلب عوامل از پیش تعریف‌شده دارند؛ بنابراین شخصی فیلمنامه‌ای را درباره نحوه رفتار عامل نوشته است؛ اما لزوما این رفتار آن‌ها هوشمندانه نیست. در مورد ما، چیزی که این شبیه‌ساز با آن هماهنگ می‌شود، مجموعه داده بزرگی از وسایل نقلیه ماست که رفتار همه افراد در محیط‌ها را مشاهده می‌کنند. با مشاهده رفتار همه افراد، چقدر می‌توانیم در مورد این‌که چگونه باید رفتار کنیم نظر دهیم؟ ما این مساله را یک مولفه تقلیدی قوی‌تر می‌نامیم و این کلید توسعه سیستم‌های خودران قوی و مقیاس‌پذیر به‌حساب می‌آید.»

استفاده از شبیه‌ساز برای ارتقای خودران

وایمکس؛ هوش شبیه‌سازی وایمو

وایمو می‌گوید این شبیه‌ساز که وایمکس (Waymax) نام دارد، سبک‌وزن است تا به‌محققان امکان تکرار سریع را بدهد. با توجه به‌وزن سبک، شبیه‌سازی به‌طور کامل با عوامل و جاده‌هایی که ظاهر واقعی دارند، تلفیق نشده است. در عوض، نمایشی تقریبی از یک نمودار جاده را نشان می‌دهد و عوامل به‌عنوان جعبه‌های مرزی با ویژگی‌های خاص ساخته‌شده به‌تصویر کشیده می‌شوند.

آنگلوف می‌گوید این روش محیط تمیزتری است که به‌محققان اجازه می‌دهد بیشتر روی رفتارهای پیچیده در بین چندین کاربر جاده تمرکز کنند تا نحوه کار عوامل. شبیه‌ساز مورد نظر اکنون در GitHub در دسترس است؛ اما نمی‌توان از آن برای مقاصد تجاری استفاده کرد. در عوض، این بخشی از ابتکار بزرگ وایمو برای دسترسی محققان به‌ابزارهایی است – مانند Open Dataset – که می‌تواند به‌سرعت بخشیدن به‌توسعه خودروهای خودران کمک کند.

وایمو می‌گوید نمی‌تواند کارهایی را که محققان با استفاده از وایمکس ایجاد می‌کنند، مشاهده کند؛ اما این بدان معنا نیست که شرکت خودران متعلق به گروه آلفابت (به عنوان مالک گوگل) از اشتراک‌گذاری ابزارها و داده‌های خود سودی نخواهد برد.

استفاده از شبیه‌ساز برای ارتقای خودران

سابقه تحقیقاتی

وایمو به طور منظم میزبان چالش‌هایی برای محققان است تا به حل مشکلات مربوط به خودران‌ها کمک کند. در سال ۲۰۲۲ این شرکت یکی از این چالش‌ها را به نام «نمایندگان شبیه سازی شده» ترتیب داد.

وایمو یک شبیه‌ساز را با عوامل مختلفی پر کرد و به‌محققان وظیفه داد آن‌ها را آموزش دهند تا در رابطه با خودرو آزمایشی خود رفتار واقعی داشته باشند. درحالی که چالش در جریان بود، وایمو متوجه شد محیطی قوی برای آموزش عوامل ندارد.

بنابراین وایمو با Google Research همکاری کرد تا به‌طور مشترک یک محیط مناسب‌تر را ایجاد کند که بتواند به‌صورت حلقه بسته اجرا شود یا محیطی که در آن رفتار سیستم به‌طور مداوم نظارت شده و برای ایجاد نتایج معنادار بهینه‌سازی می‌شود. به‌این ترتیب وایمو به‌وایمکس رسید.

استفاده از شبیه‌ساز برای ارتقای خودران

آینده روشن وایمکس

آنگلوف می‌گوید وایمو احتمالا سال آینده این چالش را با استفاده از شبیه‌ساز جدید اجرا خواهد کرد. این نوع چالش‌ها به‌شرکت اجازه می‌دهد تا ببیند صنعت خودران در برخی مشکلات مانند محیط‌های چند عاملی، چقدر پیشرفته است و ببیند فناوری وایمو چگونه مقایسه می‌شود.

آنگلوف با اشاره به این‌که این چالش‌ها به‌جذب افراد صاحب ایده هم کمک می‌کنند، گفت: «مجموعه داده‌های باز وایمو و این شبیه‌سازها راه ما برای هدایت بحث‌های آکادمیک یا تحقیقاتی به‌سمت مسیرهایی هستند که فکر می‌کنیم امیدوارکننده به‌حساب می‌آیند؛ سپس مشتاقانه منتظر خواهیم بود تا ببینیم دیگران چه چیزی توسعه خواهند داد. و در نتیجه استعداد آن‌ها در زمینه خودران و تحقیقات رباتیک، به‌نتیجه خواهیم رسید.»

این محقق همچنین گفت که شبیه‌ساز وایمکس می‌تواند به باز کردن بهبود در یادگیری تقویتی کمک کند که می‌تواند منجر به‌نمایش رفتار اضطراری سیستم‌های خودران شود.

استفاده از شبیه‌ساز برای ارتقای خودران

یادگیری تقویتی یک مثال اصطلاح یادگیری ماشینی است که در آن یک عامل یاد می‌گیرد با تعامل با یک محیط و دریافت بازخورد به‌شکل پاداش یا جریمه برای هر اقدامی که انجام می‌دهد، تصمیم بگیرد؛ چیزی شبیه به‌نحوه حرکت انسان در جهان. در مورد عوامل، یک عابرپیاده شبیه‌سازی‌شده ممکن است برای مثال به‌دلیل راه نرفتن به عابرپیاده دیگر پاداش دهد.

آنگلوف می‌گوید این روش می‌تواند منجر به‌رفتارهای اضطراری یا رفتاری شود که انسان لزوما آن را نشان نمی‌دهد؛ مانند انواع مختلف تغییر خطوط یا حتی بسیاری از وسایل نقلیه که توافق می‌کنند به‌طور مداوم رانندگی کنند و اگر یکدیگر را به‌عنوان خودران تشخیص دهند درنتیجه می‌تواند رانندگی خودکار را ایمن‌تر سازد.

source