راه‌کارهایی به منظور کنترل Googlebot توسط Meta Tag

راه‌کارهایی به منظور کنترل Googlebot توسط Meta Tag

اگرچه برخی از کاربران برای مقاصد خاص از دیگر موتورهای جستجو استفاده می‌‌کنند، اما باید اعتراف کرد که برای اکثر کاربران اینترنتی تنها دریچهٔ ورود به اینترنت، گوگل است؛ به همین دلیل وب‌مسترها و کارفرمایان همواره به دنبال راهی برای افزایش رتبهٔ خود در میان نتایج گوگل هستند! 

گوگل نیز راه‌کارهایی را برای کسب امتیاز در پیش روی وب‌مسترها گذاشته اما گاهی‌اوقات باید به گوگل یادآوری کنیم که ما تصمیم‌گیر نهایی بوده و خواهیم بود! پس اگر نخواهیم که برخی از محتواهای سایتمان توسط ربات‌های گوگل شناسایی شوند و یا آنکه به برخی قسمت‌ها توجه بیشتری شود، چه باید کرد؟ در اینجا است که باید با مفهوم Meta Tag آشنا شویم.

به کمک این متا تگ‌ها، می‌توان به اصطلاحاً Crawler موتورهای جستجو فهماند که کدام بخش از سایت را رصد کرده و کدام بخش‌ها را نادیده بگیرند. به عنوان نمونه، عبارتی همچون noindex به ربات‌های موتورهای جستجو می‌گوید که «این صفحه را نادیده بگیر» و در نتیجه به اصطلاح ایندکس نخواهد شد. رباتی که گوگل برای رصد کردن رفتار سایت‌های مختلف مورد استفاده قرار می‌دهد Googlebot نام دارد و در ادامه می‌خواهیم چگونگی کنترل این ربات توسط متا تگ‌ها را بررسی نماییم. 

فراخوانی Googlebot
جهت فراخوانی ربات گوگل، نام متا تگ خود را googlebot بگذارید. مثال زیر از ایندکس شدن صفحهٔ شما توسط گوگل جلوگیری می‌کند اما موتورهای جستجوی دیگر همانند بینگ همچنان سایت شما را اصطلاحاً Crawl خواهند کرد:

<meta name="googlebot" content="noindex">

گوگل ربات‌های بسیاری دارد که هر کدام بخش‌های متفاوتی از سایت همچون عکس‌ها، اخبار، ویدیوها، تبلیغات و محتوای مخصوص موبایل را شناسایی می‌کنند. به کمک متا تگ‌ها می‌توان تک‌تک این ربات‌ها را از شناسایی صفحهٔ مورد نظر منع کرد. به عنوان مثال، اگر سایت شما برای استفاده در گوشی‌های هوشمند بهینه نشده است، می‌توانید با کد زیر تا زمان تکمیل طراحی آن، از ایندکس شدن سایت در جستجوهای موبایلی جلوگیری نمایید:

<meta name="googlebot-mobile" content="noindex">

جلوگیری از شناسایی عکس‌ها
بسیاری از هنرمندان و عکاسان حرفه‌ای به هیچ وجه دوست ندارند عکس‌ها و حاصل ساعت‌ها تلاش ایشان تنها با یک جستجوی ساده مثل «عکس‌های زیبا» در گوگل به دست دیگران بیافتد! البته شاید این قانون کپی‌رایت چندان در کشور ما رعایت نشود اما به هر حال اگر برای عکس‌های خود ارزش قائلید، می‌توانید به کمک متا تگ‌ها، ربات گوگل را از شناسایی آن‌ها منع کنید. با تعیین مقدار noimageindex، تمامی عکس‌های صفحهٔ مورد نظر از دید ربات گوگل پنهان خواهد شد و بدین ترتیب به هنگام جستجوی نام آن عکس در بخش تصاویر گوگل، عکس شما نمایش داده نخواهد شد:

<meta name="googlebot" content="noimageindex">

همچنین می‌توان با استفاده از googlebot-image به جای googlebot، به ربات‌های گوگل دستور دارد که کلاً تصاویر را نادیده بگیرد:

<meta name="googlebot-image" content="noimageindex">

بدین ترتیب، ربات گوگل تمامی عکس‌های سایت شما را نادیده خواهد گرفت.

جلوگیری از ترجمه
مرورگر کروم قابلیتی دارد به نام Site Translation که می‌تواند یک وب‌سایت کامل را به زبان دل‌خواه کاربر ترجمه نماید. کروم به کمک Google Translate این کار را انجام می دهد و با وجود آنکه Google Translate روز به روز در ترجمه بهتر می‌شود، اما همچنان برخی از ترجمه‌های آن در برخی موارد گمراه‌کننده‌اند! در صورت تمایل، می‌توان با استفاده از متا تگ زیر، Google Translate را از ترجمهٔ صفحهٔ مورد نظر باز داشت:

<meta name="googlebot" content="notranslate">

به طور دقیق‌تر، اگر می‌خواهید که تنها یک بخش از صفحه ترجمه نشود، می‌توانید کلاس notranslate را برای اِلِمنت دربرگیرندهٔ آن بخش تعیین کنید:

<div class="notranslate">
<!-- "The Mohtavaa! -->
</div>

گوگل به طور کلی این div را نادیده خواهد گرفت و آن را ترجمه نخواهد کرد.

جلوگیری از ایندکس شدن پس از زمانی مشخص
علاوه بر موارد ذکر شده، وب‌مسترها می‌توانند از ایندکس شدن برخی صفحات خود پس از گذشت زمان مشخصی جلوگیری نمایند. اما چرا باید یک وب‌مستر چنین کاری کند؟ به عنوان نمونه، این قابلیت زمانی به کار می‌آید که شما صفحه‌ای موقت برای یک همایش چندروزه و یا تخفیف ویژه‌ای برای محصولات خود در نظر گرفته‌اید.

اصولاً پس از تمام شدن مهلت آن رویداد، دیگر نیازی به مراجعهٔ کاربران به آن صفحه نخواهد بود و اگر کاربران به سایت شما آمده و با صفحه‌ای بی‌استفاده و تاحدودی اِسپم‌گونه مواجه شوند، اعتماد خود نسبت به سایت را از دست خواهند داد. جهت جلوگیری از این اتفاق، مقدار unavailable_after را به همراه زمان دقیق برای متا تگ تعیین می‌کنیم (زمان مشخص شده در این متا تگ باید بر اساس فرمت RFC-850 تعیین شود). برای نمونه می‌توان به زمان Thursday, 26-Sep-14 10:00:00 UTC را مد نظر قرار داد:

<meta name="googlebot" content="unavailable_after: Monday, 29-Sep-14 10:00:00 UTC">

با قرار دادن این متا تگ در صفحه، ربات گوگل پس از تاریخ 24-Sep-14 دیگر صفحهٔ شما را ایندکس نخواهد کرد و در نهایت آن صفحه به مرور از جستجوهای گوگل حذف خواهد شد.