Tesla، کمپانی خودروسازی تحت رهبری Elon Musk، با عرضهٔ مُدل S و پس از آزمایشهای مستقل انجامشده توسط NHTSA (سازمان امنیت ملی ترافیک ایالات متحده)، موفق به کسب نتایج قابلقبولی در حوزهٔ ایمنی خودرو شد که نتیجۀ این آزمایش در مورد خودروهای خودران یا به اصطلاح Self-Driving Cars توجه بسیاری از سازمانها، افراد و شاید هم دولوپرها را به خود جلب کرده است.
با مشاهدهٔ حرکت خودروهای خودران در جادهها میبینیم به همان شیوهای که افراد از چشمان خود برای دیدن جادهها و از دستانشان برای چرخاندن فرمان در پیچها استفاده میکنند، ماشینهای به اصطلاح Self-Driving (خودران) نیز از مجموعهای از دوربینها برای درک محیط پیرامون خود و همچنین یک مدل #یادگیری ژرف برای هدایت خودرو استفاده میکنند که درک چگونگی این فرایند چیزی است که در این مقاله قصد داریم مورد بررسی قرار دهیم. به طور خلاصه، پروسهٔ رانندگی خودروهای سِلفدِرایوینگ در پنج مرحلهٔ زیر خلاصه میگردد:
۱. جمعآوری و ثبت دادههای محیط پیرامون
۲. آنالیز و پردازش دادههای جمعآوری شده
۳. توسعهٔ مُدلی یادگیرنده که به درک محیط پیرامون میپردازد
۴. آموزش مُدلی که نحوۀ رانندگی کردن را یاد میگیرد
۵. و اصلاح مُدل به گونهای که با گذشت زمان بهبود یابد
جمعآوری و ثبت دادههای محیط پیرامون
اولین گام، جمعآوری دادههای مربوط به رانندگی خودرو با اِعمال شرایط مختلف برای رانندگی است. هدف اصلی در این مرحله، گنجاندن یک توزیع متقارن از زوایای حرکتی مثبت و منفی در دادهها است و در همین راستا، پیچهایی در طول مسیر قرار داده میشود که برخی از آنها نیاز به حرکت در جهت عقربههای ساعت و برخی نیز نیازمند حرکت در خلاف جهت عقربههای ساعت خواهند بود که همین مسئله موجب میشود تا اصطلاحاً Bias (تعصب) در دادهها کاهش یابد (در اینجا منظور از تعصب، تمایل خودرو برای رانندگی به یک سمت خاص از جاده در طول زمان است.)
همچنین باید توجه داشت که رانندگی در شرایط کاملاً ایمن و بدون در نظر گرفتن خطرات احتمالی، به عنوان یک رفتار رانندگی اشتباه تلقی شده و ممکن است عملکرد مدل را برای شرایط واقعی رانندگی بدون اینکه یک راننده پشت فرمان نشسته باشد تضعیف کند. برای مثال، رانندگی با سرعت کم (حدود 10 کیلومتر در ساعت) موجب میشود زاویهٔ فرمان به هنگام چرخش خودرو به عنوان یک زاویۀ صاف داخل دادهها ثبت شود و همین مسئله میتواند در سرعتهای بالا مشکلساز گردد. به طور کلی، رفتارهای رانندگی و زاویه فرمان مربوط به آنها به چند دستۀ زیر تقسیم میشوند:
رانندگی مستقیم (مورد اول) یا به عبارتی:
0 <= X < 0.2
حرکت چرخشی آرام (مورد دوم) یا به عبارتی:
0.2 <= X < 0.4
حرکت چرخشی ناگهانی (مورد سوم) یا به عبارتی:
X >= 0.4
و بازگشت دوباره به مبدأ (مورد چهارم) و این در حالی است که فرمول محاسبۀ زاویه فرمان برابر است با X = 1 / r که در آن X زاویه فرمان و r شعاع چرخشی بر حسب متر است. به طور کلی، مورد چهارم از رفتارهای رانندگی یک خودروی بدون راننده یا همان «بازگشت دوباره به مبدأ» در طول فرایند جمعآوری دادهها بسیار حیاتی است؛ چرا که با استفاده از این دادهها خودرو یاد میگیرد تا در شرایطی که ضربهای محکم یا ناگهانی به ماشین وارد شده یا در جاده دچار سانحه شده باشد، چگونه به مبدأ بازگردد. تمام دادههای جمعآوری شده در فایلی مثلاً تحت عنوان driving_log.csv ذخیره میشوند که هر سطر آن شامل:
- مسیر فایلِ تصاویر گرفته شده با دوربین جلویی مرکزی
- مسیر فایلِ تصاویر گرفته شده با دوربین جلویی سمت چپ
- مسیر فایلِ تصاویر گرفته شده با دوربین جلویی سمت راست
- و زاویۀ فرمان
برای آموزش این مدل چیزی در حدود 100/000 زاویۀ فرمان در شرایط مختلف جمعآوری میشود است تا اطلاعات کافی برای آموزش مدل ارائه شود. همچنین بایستی توجه داشت که استفاده از نمونههای زیاد برای آموزش مدل ممکن است موجب به اصطلاح Overfitting مدل شود که در این صورت، با ارائۀ دادههای جدید و یا در مواجهۀ با شرایط رانندگی در دنیای واقعی، مدل نمیتواند آنچه یاد گرفته را به دادههای جدید نیز تعمیم دهد؛ بنابراین دقت کمتری را در رانندگی خواهد داشت.
آنالیز و پردازش دادههای جمعآوری شده
مرحله دوم، آنالیز و آمادهسازی دادههای جمعآوری شده به منظور ساخت مُدل است که هدف در این مرحله تولید نمونه دیتای بیشتر به منظور Train (آموزش) مدل است. مثلاً تصویری را فرض کنید که توسط دوربین مرکزی جلوی خودرو با ابعاد 160*320 پیکسل گرفته شده باشد و همچنین کانالهای RGB (سبز، قرمز و آبی) را دارا باشد؛ به عبارت دیگر، یک تصویر رنگی باشد.
در ادامه، کانالهای رنگی هر تصویر به صورت یک آرایۀ سهبُعدی در خواهند آمد که در آن هر پیکسل از 0 تا 255 مقداردهی شده است. در اینجا از ماژولی تحت عنوان Cropping2D از لایبرری Keras میتوان استفاده کرد به منظور بُرش تصاویر اِعمال شده تا میزان نویز تصاویری که به مدل داده میشود، کاهش یابد (لازم به ذکر است که Keras یک لایبرری #اپنسورس برای یادگیری ژرف با بکاند لایبرری TensorFlow است که برای کاهش پیچیدگیهای این لایبرری در آموزش مدلها توسعه یافته است.)
همچنین در این مدل، از لایبرری OpenCV برای خواندن تصاویر از داخل فایل استفاده شده است و برای تولید نمونه دادهای بیشتر، تصاویر در امتداد محور عمودی چرخانده میشوند (لازم به ذکر است که OpenCV یک لایبرری اپنسورس برای استفاده در مدلهای بینایی ماشین است که با زبان ++C نوشته شده است؛ بنابراین برای استفاده در مدل خودروی بدون رانندهٔ ذکر شده در این مقاله نیز گزینۀ مناسبی خواهد بود.) همانطور که پیشتر ذکر شد، به منظور تولید نمونه دادۀ بیشتر برای آموزش مدل، استفاده از تکنیکهایی همچون برش و چرخش تصاوير نیز مفید هستند:
center_image = cv2.imread(batch_sample[0].strip())
flip_center_image = cv2.flip(center_image, 1)
در همین راستا، زاویۀ فرمان خودرو برای تولید نمونه دادۀ بیشتر چرخانده میشود؛ برای این منظور زاویه در عدد 1- ضرب شده است:
flip_center_angle = transform_angle(center_angle * -1.0)
در گام بعدی، از لایبرری Numpy استفاده شده است تا تصاویر آموزشی (یک آرایه دوبُعدی به ابعاد 160*320 پیکسل) را به یک آرایهٔ سهبُعدی تغییر شکل دهد که از آن پس چنین تصویری برای استفاده در پروسهٔ آموزش مدل آماده شده است (لایبرری Numpy یک لایبرری اپنسورس برای انجام محاسبات ریاضیاتی در پایتون است که برای آشنایی بیشتر با آن، میتوانید به مقالهٔ درآمدی بر آمار با استفاده از لایبرری NumPy و زبان برنامهنویسی Python مراجعه نمایید.)
def transform_image(image):
IMAGE_WIDTH = 160
IMAGE_LENGTH = 320
IMAGE_DEPTH = 3
image = np.array(image, dtype='float32')
return image.reshape(IMAGE_WIDTH, IMAGE_LENGTH, IMAGE_DEPTH)
توسعهٔ مُدلی یادگیرنده که به درک محیط پیرامون میپردازد
مرحلۀ سوم، طراحی یک مدل یادگیری ژرف است که این مدل یکسری فیچر (قابلیت) را از تصاویر جمعآوری شده استخراج خواهد کرد و هدف اصلی در این مرحله، مَپ (نگاشت) تصویر ورودی با 153600 پیکسل به خروجی یک مقدار از نوع دادۀ Float (اعشاری) است که در این مورد خاص، از مدل NVIDIA به عنوان معماری پایۀ شبکه میتوان استفاده کرد که در آن هر لایه از شبکه قابلیتی خاص را برای هر Epoch (دوره) آموزشی فراهم میکند. حال آرایهٔ سهبُعدی تصاویر ورودی بایستی به بازۀ اعداد (1 و 0) نرمالسازی شود که برای این منظور، اعداد پیکسلهای تصویر بر 255 تقسیم شده است چرا که این بزرگترین مقدار ممکن است که یک پیکسل میتواند داشته باشد:
model.add(Lambda(
lambda x: x / 255.0 - 0.5,
input_shape = (IMAGE_WIDTH, IMAGE_LENGTH, IMAGE_DEPTH)
))
پیکسلهای تصاویری که با دوربین جلویی گرفته شده و در آنها خود ماشین نیز در تصویر وجود دارد، از ناحیۀ بالای افقی و قسمت پایین تصویر برش داده شده است که این کار به منظور کاهش نویز موجود در تصاویر انجام میشود:
CROP_TOP = 70
CROP_BOTTOM = 25
model.add(Cropping2D(cropping = ((CROP_TOP, CROP_BOTTOM), (0, 0))))
در این مرحله از کار، آرایهٔ سهبُعدی تصاویر به لایهٔ به اصلاح Convolutional در شبکه داده میشود تا یکسری ویژگیهای کلیدی همچون علائم خطکشی جاده، جداول کنار پیادهروها از این آرایه استخراج شود که این دست دادهها برای پیشبینی زاویه فرمان بسیار مهم هستند:
model.add(Convolution2D(
convolution_filter,
kernel_size,
kernel_size,
border_mode = 'valid',
subsample = (stride_size, stride_size),
activation = 'relu'
))
همچنین از Dropout به منظور کاهش احتمال Overfiting مدل استفاده شده است؛ چرا که هدف اصلی توسعه مدلی است که توانایی رانندگی در جادهها با شرایط مختلف را داشته باشد؛ نَه فقط مسیری که آن را یاد گرفته است:
DROPOUT = 0.2
model.add(Dropout(DROPOUT))
در نهایت، همانطور که در بلوک زیر مشاهده میکنید، مدل زاویه فرمان را که یک عدد از جنس Float (اعشاری) است در خروجی ارائه میدهد؛ این مقدار به Controller Area Network فرستاده میشود تا امکان هدایت خودرو را برای مدل فراهم کند:
model.add(Dense(1))
آموزش مُدلی که نحوۀ رانندگی کردن را یاد میگیرد
گام چهارم، آموزش مدل به گونهای است که خودش توانایی رانندگی کردن را دارا باشد که به طور کلی هدف از این مرحله به حداقل رساندن مقدار به اصطلاح Loss برای پیشبینی زاویۀ فرمان است (Loss در این مدل عبارت است از مُربع میانگین تفاوت زاویهای که مدل پیشبینی کرده است با زاویه مورد انتظار) و گام کلیدی در فرآیند آموزش، بهم زدن تصادفی نمونه دیتای مورد استفاده برای آموزش است (به عبارت دیگر، همان دیتایی که در فایل driving_log.csv ذخیره شده است) تا میزان تعصب در دادهها نیز کاهش یابد (Shuffle در لغت به معنی بُر زدن است):
shuffle(samples)
مجموعه دادهها به دو قسمت 80٪ و 20٪ تقسیم خواهند شد که مجموعه دادهٔ اول برای Train و مجموعه داده دوم برای Test مدل مورد استفاده قرار میگیرد که در این مرحله دقت مدل به منظور پیشبینی زاویهٔ فرمان سنجیده میشود:
train_set, validation_set = train_test_split(
samples,
test_size = VALIDATION_SET_SIZE
)
برای بهینهسازی مُربع میانگین Loss، از تابع بهینهسازی Adam (مخفف Adaptive Moment Estimation) استفاده شده است که مزیت کلیدی استفاده از این تابع برای بهینهسازی در مقایسه با Gradient Descent (گرادیان کاهشی)، استفاده از به اصطلاح Momentum (تکانه) برای دستیابی به یک مقدار بهینه سراسری است:
adam = Adam(lr = LEARNING_RATE)
model.compile(optimizer = adam, loss = 'mse')
در واقع، Gradient Descent با پیدا کردن یک مقدار مینیمُم لوکال برای تابع Loss، آن را به عنوان مقدار مینیمم کلی تلقی کرده و الگوریتم در آن نقطه متوقف میشود و این در حالی است که با بهکارگیری Momentum، الگوریتم از مقادیر مینیمم لوکال رد شده و مقدار مینیمم کلی را مییابد چرا که در ابتدای فرآیند یادگیری و به منظور افزایش حالتهایی که هر دفعه با تغییر پارامترهای مدل بهوجود میآیند، سیستم یکسری رفتارهای نامعقول را از خود نشان میدهد؛ به عبارت دیگر، تغییر پارامترهای شبکه در ابتدای فرآیند یادگیری به روشی نامعقول انجام میشود!
در این مرحله با استفاده از متد fit شبکه را آموزش میدهیم؛ بدین معنی که شبکه را روی دادههای آموزشی اصطلاحاً فیت میکنیم. با توجه به حجم عظیم تصاویر، امکان فیت (تنظیم) کردن کل مجموعۀ آموزشی الگوریتم در حافظه وجود ندارد و از همین روی از یک به اصطلاح Generator استفاده شده است تا مجموعۀ تصاویر آموزشی را به چند Batch (دسته) تقسیم کند:
history = model.fit_generator(
train_generator,
samples_per_epoch = samples_per_epoch,
nb_epoch = EPOCH,
verbose = VERBOSITY,
callbacks = callbacks,
validation_data = validation_generator,
nb_val_samples = validation_samples
)
اصلاح مُدل به گونهای که با گذشت زمان بهبود یابد
مرحله پنجم و نهایی، اصلاح مدل به گونهای است تا دقت و قدرت آن در طول زمان بهبود یابد. به عبارت دیگر، میتوان مدل را با معماریها و پارامترهای مختلف آزمایش کرد تا تأثیر آنها در میزان کاهش میانگین مُربع خطا بررسی شود اما نکتهای که در اینجا نیاز به توضیح دارد این است که امکان دستیابی به یک مدل به صورت کاملاً بهینه وجود ندارد، چرا که تغییر پارامترها هر کدام به نوعی موجب بهبود یک حالت خاص از مدل میشوند. برای مثال، میتوان تغییراتی همچون موارد زیر را در مدل اعمال کرد که عبارتند از:
- کاهش زمان آموزش با بهکارگیری GPU که موجب افزایش هزینۀ توسعۀ مدل میشود.
- کاهش نرخ یادگیری که موجب افزایش احتمال همگرا شدن مدل به یک مقدار بهینه میشود اما از سوی دیگر منجر به افزایش زمان آموزش مدل میشود.
- کاهش زمان آموزش با بهکارگیری از تصاویر سیاه و سفید که منجر به از دست دادن امکان استفاده از اطلاعاتی میشود که یک تصویر RGB (رنگی) برای دولوپر فراهم میکند.
- بهبود دقت تخمین گرادیان با بهکارگیری مقادیر بزرگ برای دستهبندی دادههای آموزشی که این مورد نیز منجر به اِشغال بیش از حد حافظۀ سیستم میشود.
- استفاده از تعداد زیادی Sample (نمونه داده) در هر دوره از آموزش مدل به منظور کاهش نوسانات تابع Loss.
نتیجهگیری
توسعهٔ یک مدل برای رانندگی خودروهای به اصطلاح Self-Driving موجب شده تا در مورد مزایا و محدودیتهای Machine Vision (بینایی ماشین) و Deep Learning (یادگیری ژرف یا عمیق) اطلاعات بیشتری کسب کنیم. همچنین در این مقاله آموختیم که چگونه میتوان با استفاده از این دو مفهوم، مدلی را آموزش داد تا با استفاده از آن خودرویی بدون راننده و به قول معروف خودران، در یک مسیر رانندگی کند.