بصری‌سازی داده‌ها | سکان آکادمی

در این فصل برخی مباحث پیشرفته‌تر را راجع به کار با کتابخانه Pandas می‌آموزید. در ابتدا راجع به بصری سازی داده‌ها مطالبی ارائه می شود. به این منظور از کتابخانه Matplotlib در کنار Pandas استفاده خواهیم کرد. از بصری سازی داده‌ها بهره‌های زیادی می‌توان برد؛ مثلاً برای نمایش روابط و روند تغییرات متغیرهای مساله از آن استفاده می‌شود و یا می‌توان نواقصی که در داده‌ها وجود دارد را به کمک رسم نمودار متوجه شد. در اولین جلسه این فصل در قالب حل یک مثال با چگونگی رسم نمودارهای خطی (line)، میله‌ای (bar)، هیستوگرام (histogram) و اسکتر (scatter) آشنا می‌شویم و کاربرد هر یک را می‌آموزیم.

همانطور که پیش‌تر اشاره شد، وقتی داده‌هایی را دریافت می‌کنیم، باید آن‌ها را برای تجزیه و تحلیل یا نمایش یا استفاده در مدلسازی آماده کنیم. داده‌ها ممکن است با هر کدام از این نواقص همراه باشد:

الف) مقادیر جا افتاده

ب) مقادیر با فرمت اشتباه

پ) مقادیر غلط و پرت

ت) مقادیر یا ردیف‌های تکراری.

در سه جلسه بعدی با نحوه پیدا کردن، اصلاح و یا حذف این نواقص آشنا خواهیم شد تا بتوانیم دیتافریمی اصطلاحاً تمیز شده داشته باشیم. بدون این فرآیند، نتایج حاصل قابل خدشه هستند.

در جلسه آخر این فصل نیز با نحوه یافتن میزان همبستگی میان متغیرهای دیتاست آشنا خواهیم شد.