پیش پردازش دادهها یک مرحله مهم در گردش کار یادگیری ماشین است. این فصل تکنیکهای مختلف پیش پردازش مانند مقیاسبندی، نرمالسازی، رمزگذاری متغیرهای دستهبندی و مدیریت مقادیر گمشده را پوشش میدهد که در واقع تاکیدی بر اهمیت آماده سازی داده ها قبل از وارد کردن آنها به مدل های یادگیری ماشین است. علاوه بر این، این فصل پایپ لاین (خطوط لوله) را معرفی میکند، یک ویژگی قدرتمند در scikit -Learn که جریان کار پیشپردازش و مدلسازی را ساده میکند و آن را تکرارپذیرتر و قابل مدیریتتر میکند.
برای یادگیری عمیقتر مفاهیم پیش پردازش و پاکسازی داده به دوره آموزش پیش پردازش و پاکسازی دادهها با پایتون مراجعه کنید.