آموزش ساخت ربات Web Scraping با فریمورک Scrapy

Web Scraping تکنیکی است که به منظور استخراج دیتا و ذخیرهٔ آن‌ها از صفحات وب‌ مورد استفاده قرار می‌گیرد به طوری که اصطلاحاً اِسکرپینگ این صفحات شامل فِچ (دانلود) صفحۀ مذکور و در ادامه استخراج دیتا از آن با به‌کارگیری ابزارهای مناسب است تا دیتای مورد نیاز در یک فرمت مشخص جمع‌آوری شده و پردازش‌های ثانویه روی آن‌ها انجام شود که برای آشنایی بیشتر با این تکنیک می‌توانید به آموزش آشنایی با Screen Scraping مراجعه نمایید. در همین راستا در ادامه قصد داریم ابزاری را معرفی کنیم که برای زبان برنامه‌نویسی پایتون در اختیار دولوپرهای این زبان قرار گرفته که با استفاده از آن به سادگی خواهیم توانست به ذخیرهٔ داده‌های سایت‌های مختلف بپردازیم (جهت آشنایی با ابزارهای اپن‌سورس رایج در این حوزه می‌توانید به مقالۀ معرفی ابزارهای اپن‌سورس جهت جمع‌آوری و استخراج اطلاعات از سطح وب مراجعه نمایید.)

Scrapy یک فریمورک اپن‌سورس و توسعه‌یافته با زبان برنامه‌نویسی پایتون است که به منظور اِسکرپ کردن صفحات وب و استخراج دیتا از آن‌ها در قالبی ساختاریافته به کار گرفته می‌شود که دیتای جمع‌آوری‌شده را برای اهداف مختلفی همچون داده‌ کاوی، پردازش اطلاعات، یادگیری ماشینی و مواردی از این دست می‌توان مورد استفاده قرار داد که از جمله شاخص‌ترین ویژگی‌های این فریمورک می‌توان موارد زیر را نام برد:

قابلیت استخراج دیتا از صفحات وب به فرمت HTML و XML
امکان دسترسی به دیتای مد نظر با استفاده از XPath
برخورداری از کنسول شِل تعاملی با امکان دیباگ کردن سورس‌کد به منظور مشاهدۀ عملکرد ابزار اِسکرپینگ در جهت استخراج دیتای مربوط به تگ‌های مد نظر
امکان استخراج دیتا به فرمت‌های مختلف از جمله JSON ،CSV و XML
قابلیت ذخیرۀ دیتای جمع‌آوری‌شده در فایل‌سیستم لوکال و ...
امکان اِنکُدینگ دیتای استخراج‌شده و برخورداری از قابلیت تشخیص خودکار نوع اِنکُدینگ فایل‌ها در جهت شناسایی دیتای آسیب‌دیده و غیر استاندارد
برخورداری از قابلیت توسعه و به‌کارگیری یکسری API جهت بهبود عملکرد ابزار اِسکرپینگ
برخورداری از یکسری به اصطلاح Middleware و Extention به منظور هندل کردن کوکی وب‌سایت‌ها برای ریکوئست‌های مختلف در هنگام اِسکرپینگ، ارسال ریکوئست‌های اچ‌تی‌تی‌پی و محدود کردن عمق کِراولینگ صفحات
برخورداری از افزونۀ Telnet Console که مشابه محیط شِل پایتون است با امکان هندل کردن تَسک‌هایی همچون کنترل وضعیت اِسکرپینگ وب‌سایت، توقف یا انجام مجدد فرآیند اِسکرپینگ
امکان استفادۀ مجدد از سورس‌کد اپلیکیشن به منظور کرول کردن صفحات از روی سایت‌مَپ یا سورس پیج مد نظر و کَش کردن فایل‌ها و تصاویر دانلودشده و جلوگیری از دانلود آن‌ها در اسکرپینگ‌های مجدد

آشنایی با نحوۀ پیاده‌سازی رباتی با ابزار Scrapy

در ادامه قصد داریم تا نحوۀ پیاده‌سازی رباتی به منظور اصطلاحاً اِسکرپ کردن یک وب‌سایت با به‌کارگیری ماژول Scrapy را تشریح کرده تا دیتای مد نظر خود را از آن استخراج کنیم که در این آموزش وب‌سایتی تحت عنوان Quotes to Scrape را مورد استفاده قرار داده‌ایم که قصد داریم تا بدین طریق متن مربوط به نقل‌قول‌های افراد به همراه نام ایشان را استخراج کنیم.

در همین راستا، لازم است تا ابتدا ماژول Scrapy را دانلود کرده و روی سیستم خود نصب کنیم اما پیش از آن باید از نصب بودن پایتون و ابزار pip روی سیستم‌عامل خود اطمینان حاصل کنیم به طوری که مثلاً با اجرای کامند زیر در اوبونتو، می‌توانیم ببینیم کدام نسخه از پایتون روی سیستم نصب است:

$ python3 --version
Python 3.6.7

حال نیاز به ابزار pip داریم که وظیفهٔ مدیریت پکیج‌ها را برای این زبان دارا است که با استفاده از دستور زیر نسخهٔ آن را خواهیم یافت:

$ pip3 --version
pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)

اگر هم pip نصب نبود، می‌توانیم با استفاده از کامند آن زیر را نصب نماییم:

$ sudo apt install python3-pip

در ادامه، کامند زیر را اجرا می‌کنیم تا ماژول Scrapy نصب گردد:

$ sudo pip3 install scrapy

برای اطمینان حاصل کردن از نصب صحیح این ماژول، کامند زیر را اجرا می‌کنیم:

$ scrapy version
Scrapy 1.5.1

در گام بعد فایلی با نام دلخواه برای مثال quotes_spider با پسوند py. ایجاد کرده و در ادامه به صورت زیر آن را توسعه می‌دهیم:

import scrapy
class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]
    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').extract_first(),
                'author': quote.xpath('span/small/text()').extract_first(),
            }

        next_page = response.css('li.next a::attr("href")').extract_first()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

در کد فوق ابتدا ماژول مورد نیاز برای اِسکرپینگ صفحۀ وب را ایمپورت کرده و در ادامه کلاسی تحت عنوان QuotesSpider تعریف کرده و آن را از کلاس Spider مربوط به ماژول scrapy ارث‌بری کرده‌ایم به طوری که از این پس کلاس QuotesSpider تمامی خصوصیات کلاس والد را دارا بوده و در ادامه ویژگی‌های مد نظر خود را به آن اضافه خواهیم کرد.

همان‌طور که می‌بینید، متغیری تحت عنوان name انتخاب کرده‌ایم که در گام‌های بعدی به منظور بازگرداندن نتیجۀ حاصل از اجرای پروژه مورد نیاز خواهد بود که برای هر پروژۀ اسکرپینگ می‌باید منحصربه‌فرد باشد و در ادامه آرایه‌ای تحت عنوان start_urls تعریف کرده‌ایم که آدرس صفحات وب مد نظر برای شروع کراولینگ را نگاه‌داری می‌کند؛ سپس فانکشن ()parse از کلاس Spider را فراخوانی کرده و به عنوان آرگومان ورودی آبجکتی تحت عنوان response از کلاس TextResponse مربوط به این ماژول را پاس داده‌ایم که ریسپانس حاصل از ریکوئست‌هایی را نگاه‌داری می‌کند که به ازای هر آدرس یوآرال به صفحۀ وب مد نظر ارسال می‌شوند و در واقع حاوی محتوای دانلودی از پیج مذکور هستند.

در ادامه، فانکشن ()parse را بدین ترتیب پیاده‌سازی کرده‌ایم که گفته‌ایم به ازای تمامی اِلِمان‌های quote در ریسپانس بازگشتی، متن مربوط به تگ‌های <span> و همچنین تگ‌های داخلی آن مانند تگ <small> که مربوط به متن نقل‌قول و نویسندۀ آن است را در قالب دیتااستراکچر دیکشنری استخراج کند.

برای تکمیل این ربات، متغیری تحت عنوان next_page تعریف کرده‌ایم که قرار است تا آدرس یوآرال‌های موجود داخل تگ‌های <href> مربوط به ریسپانس بازگشتی را استخراج کرده و نگاه‌داری کند که در سطر بعدی گفته‌ایم به ازای هر یک از آدرس‌های موجود در متغیر مذکور، یک ریکوئست‌ به آدرس‌ لینک مد نظر ارسال شود و در ادامه پس از بازگشت ریسپانس حاصل از این ریکوئست، فانکشن ()parse به عنوان یک کال‌بک فانکشن مجدداً فراخوانی شده و صفحۀ وب اصطلاحاً پارس می‌شود.

حال که سورس‌کد مربوط به فایل quotes_spider.py را پیاده‌سازی کردیم، با به‌کارگیری کامند زیر می‌توانیم آن را اجرا کنیم:

$ scrapy runspider quotes_spider.py -o quotes.json

نحوۀ عملکرد کامند فوق بدین ترتیب است که به محض اجرا، به دنبال کلاس Spider در فایل مذکور گشته و آن را اجرا می‌کند و در نهایت نتیجۀ حاصل در قالب دیتایی با فرمت جیسون و در فایلی تحت عنوان quotes.json بازگردانده می‌شود به طوری که داریم:

[  
   {  
      "text":"\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d",
      "author":"Jane Austen"
   },
   {  
      "text":"\u201cA day without sunshine is like, you know, night.\u201d",
      "author":"Steve Martin"
   },
   {  
      "text":"\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d",
      "author":"Garrison Keillor"
   },
   {  
      "text":"\u201cBeauty is in the eye of the beholder and it may be necessary from time to time to give a stupid or misinformed beholder a black eye.\u201d",
      "author":"Jim Henson"
   },
   {  
      "text":"\u201cAll you need is love. But a little chocolate now and then doesn't hurt.\u201d",
      "author":"Charles M. Schulz"
   },
   {  
      "text":"\u201cRemember, we're madly in love, so it's all right to kiss me anytime you feel like it.\u201d",
      "author":"Suzanne Collins"
   },
   {  
      "text":"\u201cSome people never go crazy. What truly horrible lives they must lead.\u201d",
      "author":"Charles Bukowski"
   },
   {  
      "text":"\u201cThe trouble with having an open mind, of course, is that people will insist on coming along and trying to put things in it.\u201d",
      "author":"Terry Pratchett"
   },
   {  
      "text":"\u201cThink left and think right and think low and think high. Oh, the thinks you can think up if only you try!\u201d",
      "author":"Dr. Seuss"
   },
   {  
      "text":"\u201cThe reason I talk to myself is because I\u2019m the only one whose answers I accept.\u201d",
      "author":"George Carlin"
   },
   {  
      "text":"\u201cI am free of all prejudice. I hate everyone equally. \u201d",
      "author":"W.C. Fields"
   },
   {  
      "text":"\u201cA lady's imagination is very rapid; it jumps from admiration to love, from love to matrimony in a moment.\u201d",
      "author":"Jane Austen"
   }
]

جمع‌بندی

از جمله مهم‌ترین ویژگی‌های ماژول Scrapy می‌توان قابلیت پردازش ریکوئست‌های مختلف به صورت اصطلاحاً Asynchronous (غیر هم‌زمان و موازی) را نام برد بدین معنی که این ماژول برای ارسال ریکوئست به وب اپلیکیشن مد نظر منتظر بازگشت ریسپانس از آن نمی‌ماند بلکه توانایی هندل کردن چندین ریکوئست را به صورت موازی دارا است که این امر منجر به افزایش سرعت کراولینگ صفحات وب می‌شود (در پایان اگر علاقه‌مند به یادگیری زبان برنامه‌نویسی پایتون هستید، توصیه می‌کنیم به دورۀ آموزش پایتون در سکان آکادمی مراجعه نمایید.)