وقتی با یک مجموعه دادهی بزرگ مواجه هستیم، دوست داریم نگاهی آماری به ستونهای آن بیاندازیم؛ اینکه میانگین دادههای آن ستون چقدر است یا بیشترین و کمترین کدام هستند، میتواند دید خوبی به ما بدهد. از طرفی اغلب لازم است برچسب سطرها را در این محاسبات دخیل کنیم و بدانیم در هر «گروه» مثلاً میانگین مقادیر هر ستون چیست.
در واقع ما به عنوان دانشمند داده، سعی میکنیم با دسته بندی دادهها و انجام محاسبات مختلف، خلاصههایی گویا از هر مجموعه داده بسازیم تا از دل پیچیدگی اعداد، روابط و معانی موجود را استخراج کنیم. با این کار هم به خودمان و هم ذینفعان دیگر یک دید کلی از این که «داده چه میگوید» میدهیم.
در این فصل ابتدا یاد میگیریم چطور روی هر ستون دیتافریم، محاسبات آماری انجام داده و آن را در یک عدد خلاصه کنیم. سپس با متد ()agg
آشنا میشویم و به کمک آن هر تابعی که خواستیم را روی کل ستون فرخوانده و یک خلاصه جدید میسازیم. در جلسه اول با انواع متدهای آماری آشنا میشویم.
پس از آن یاد میگیریم چطور براساس برچسبهای دیتافریم، دادهها را با قیود مختلف دسته بندی کنیم و به صورت تفکیک شده و براساس متغیرهای مختلف روی آنها محاسبات انجام دهیم. برای این کار با متد groupby
آشنا میشویم. البته پیش از دسته بندی میآموزیم چطور میتوانیم در صورت لزوم، ردیفها یا موارد تکراری در یک یا چند ستون را حذف کنیم تا به نتایج ما خدشهای وارد نشود.
در انتهای این فصل با pivot tables آشنا میشویم و نحوه ایجاد آن را برحسب متغیرهای مختلف دیتافریم یاد میگیریم تا بتوانیم جمعبندی های گویا و کارامدی ارائه کنیم.