در این فصل برخی مباحث پیشرفتهتر را راجع به کار با کتابخانه Pandas میآموزید. در ابتدا راجع به بصری سازی دادهها مطالبی ارائه می شود. به این منظور از کتابخانه Matplotlib در کنار Pandas استفاده خواهیم کرد. از بصری سازی دادهها بهرههای زیادی میتوان برد؛ مثلاً برای نمایش روابط و روند تغییرات متغیرهای مساله از آن استفاده میشود و یا میتوان نواقصی که در دادهها وجود دارد را به کمک رسم نمودار متوجه شد. در اولین جلسه این فصل در قالب حل یک مثال با چگونگی رسم نمودارهای خطی (line)، میلهای (bar)، هیستوگرام (histogram) و اسکتر (scatter) آشنا میشویم و کاربرد هر یک را میآموزیم.
همانطور که پیشتر اشاره شد، وقتی دادههایی را دریافت میکنیم، باید آنها را برای تجزیه و تحلیل یا نمایش یا استفاده در مدلسازی آماده کنیم. دادهها ممکن است با هر کدام از این نواقص همراه باشد:
الف) مقادیر جا افتاده
ب) مقادیر با فرمت اشتباه
پ) مقادیر غلط و پرت
ت) مقادیر یا ردیفهای تکراری.
در سه جلسه بعدی با نحوه پیدا کردن، اصلاح و یا حذف این نواقص آشنا خواهیم شد تا بتوانیم دیتافریمی اصطلاحاً تمیز شده داشته باشیم. بدون این فرآیند، نتایج حاصل قابل خدشه هستند.
در جلسه آخر این فصل نیز با نحوه یافتن میزان همبستگی میان متغیرهای دیتاست آشنا خواهیم شد.