دریافت flat file ها از وب

در فصل اول دوره « خواندن و وارد کردن اطلاعات از اینترنت با پایتون » با مقدمات دریافت داده‌ها از محیط وب آشنا می‌شویم. ابتدا چرایی این موضوع و usecase های مربوطه معرفی می‌شوند؛ یعنی اینکه چرا ما به عنوان یک دانشمند یا تحلیلگر داده باید بتوانیم از اینترنت داده کاوی کنیم؟ پس از توضیحی مختصر به معرفی روش‌های مرسوم دانلود انواع فایل از اینترنت به کمک پایتون می‌پردازیم و با کتابخانه urllib آشنا می‌شویم. سپس می‌آموزیم چطور با ارسال درخواست و request به یک آدرس URL مربوط به یک صفحه وب، محتوای آن شامل سند HTML آن صفحه مرجع را دریافت کنیم. در این راستا با کتابخانه‌های urllib و requests آشنا می‌شویم. در ادامه به آموزش Web Scraping با کتابخانه Beautiful soap4 پرداخته و ضمن آشنایی با مقدمات HTML Parsing می‌آموزیم چطور داده‌های مدنظر خود را از یک صفحه وب استخراج کنیم. در انتهای این فصل تمام این آموخته‌ها با پیاده سازی یک پروژه وب اسکریپینگ کوچک اما کاربردی، به کار گرفته می‌شود.