خلاصه سازی‌های آماری

وقتی با یک مجموعه داده‌ی بزرگ مواجه هستیم، دوست داریم نگاهی آماری به ستون‌های آن بیاندازیم؛ اینکه میانگین داده‌های آن ستون چقدر است یا بیشترین و کمترین کدام هستند، می‌تواند دید خوبی به ما بدهد. از طرفی اغلب لازم است برچسب سطرها را در این محاسبات دخیل کنیم و بدانیم در هر «گروه» مثلاً میانگین مقادیر هر ستون چیست.

در‌ واقع ما به عنوان دانشمند داده، سعی می‌کنیم با دسته بندی داده‌ها و انجام محاسبات مختلف، خلاصه‌هایی گویا از هر مجموعه داده بسازیم تا از دل پیچیدگی اعداد، روابط و معانی موجود را استخراج کنیم. با این کار هم به خودمان و هم ذینفعان دیگر یک دید کلی از این که «داده چه می‌گوید» می‌دهیم.

در این فصل ابتدا یاد می‌گیریم چطور روی هر ستون دیتافریم، محاسبات آماری انجام داده و آن را در یک عدد خلاصه کنیم. سپس با متد ()agg آشنا می‌شویم و به کمک آن هر تابعی که خواستیم را روی کل ستون فرخوانده و یک خلاصه جدید می‌سازیم. در جلسه اول با انواع متدهای آماری آشنا می‌شویم.

پس از آن یاد می‌گیریم چطور براساس برچسب‌های دیتافریم، داده‌ها را با قیود مختلف دسته بندی کنیم و به صورت تفکیک شده و براساس متغیرهای مختلف روی آن‌ها محاسبات انجام دهیم. برای این کار با متد groupby آشنا می‌شویم. البته پیش از دسته بندی می‌آموزیم چطور می‌توانیم در صورت لزوم، ردیف‌ها یا موارد تکراری در یک یا چند ستون را حذف کنیم تا به نتایج ما خدشه‌ای وارد نشود.

در انتهای این فصل با pivot tables آشنا می‌شویم و نحوه ایجاد آن را برحسب متغیرهای مختلف دیتافریم یاد می‌گیریم تا بتوانیم جمع‌بندی های گویا و کارامدی ارائه کنیم.