فایل Robots.txt چیست و چرا استفاده از آن مهم است؟

چهارشنبه 08 فروردین 1397

فایل Robots.txt چیست و چرا استفاده از آن مهم است؟

فایل robots.txt چیست؟

فایل robots.txt وظیفه محدود کردن دسترسی ربات های گوگل و سایر موتورهای جستجو به محتوای یک سایت را به عهده دارد. در حقیقت، فایل robots.txt یک فایل متنی است که به موتورهای جستجو می گوید کدام صفحات وب را خزش و ایندکس کند و چه صفحاتی را خزش و ایندکس نکند. خزیدن ربات ها به معنای بررسی محتوای صفحات وب است و ایندکس کردن صفحات به معنی ذخیره سازی یک نسخه از محتوای صفحات در بایگانی گوگل است. موتورهای جستجو در میان صفحات یک سایت خزش (Crawl) می کنند و آن ها را ایندکس (Index) می کنند. ربات های جستجوگر قبل از خزش یک صفحه از سایت، ابتدا فایل robots.txt را می خوانند و بر اساس دستورالعمل های این فایل، اجازه خزیدن یا ایندکس صفحات را پیدا می کنند. باید دقت کرد که چه صفحاتی برای خزش یا ایندکس موتورهای جستجو محدود می شود. صفحاتی مانند لندینگ پیج ها نباید به اشتباه برای موتورهای جستجو مسدود شوند.

اهمیت استفاده از فایل robots.txt

استفاده از فایل robots.txt این امکان را فراهم می کند که صفحات سایت تنها برای کاربران اینترنتی طراحی شوند. همچنین باعث می شود صفحات بی ارزش و کم محتوا از دید موتورهای جستجو پنهان شوند و توسط آن ها ایندکس نشوند. از آنجایی که تمام صفحات یک سایت از اهمیت و امنیت یکسانی برخوردار نیستند، بنابراین نیاز به فایل robots.txt احساس می شود. بعضی از صفحات مهم سایت، نیاز به خزش روزانه و ایندکس روزانه دارند و برخی از صفحات کم اهمیت ماهی یکبار نیاز به خزش و ایندکس شدن دارند. فایل robots.txt چگونگی خزیده شدن و ایندکس شدن صفحات وب‌سایت‌ توسط ربات‌های جستجوگر را تعیین می کند.

استفاده ربات های جستجوگر از فایل robots.txt

تمامی ربات های جستجوگر استاندارد به قوانین و محدودیت ها احترام می گذارند و به طور کامل آن ها را رعایت می کنند. یعنی صفحاتی که برای خزش و ایندکس مسدود شده اند را بازدید و ایندکس نمی کنند. اما ربات های اسپم به وجود فایل robots.txt توجهی ندارند و کار خود را انجام می دهند. به منظور حفظ امنیت محتوا و پنهان کردن آن از دید ربات های اسپم، بهتر است که برای صفحات پسورد گذاشته شود. ربات های دیگری نیز وجود دارند که از دستورات فایل robots.txt پیروی نمی کنند. این ربات ها مسئول بررسی امنیت وب سایت هستند و حتی ممکن است کار خود را از قسمت هایی از سایت شروع کنند که اجازه دسترسی به آن ها داده نشده است.


جهت دریافت مشاوره سئو از آژانس ایزی وب فرم درخواست خدمات سئو را پرکنید.


دستورات فایل robots.txt

فایل robots.txt سایت از دو دستور کلی تبعیت می کند که برای ربات گوگل، یک دستور دیگر نیز اضافه می شود:

User-agent

این دستور برای هدف گیری یک ربات خاص استفاده می‌شود. از این دستور می‌توان به دو شکل در فایل robots.txt  استفاده کرد.

اگر قصد دادن یک دستور به تمام ربات های جستجوگر وجود داشته باشد، تنها کافیست بعد از عبارت User-agent از علامت “*” استفاده شود. مانند زیر:

User-agent: *

دستور بالا به این معنا است که "دستورات فایل، برای همه ربات‌های جستجوگر یکسان عمل می‌کند."

اما اگر قصد دادن یک دستور خاص تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) وجود داشته باشد، دستور باید به شکل زیر نوشته شود:

User-agent: Googlebot

کد بالا به این معنا است که "اجرای دستورات فایل، تنها برای ربات گوگل الزامی است."

Disallow

دستور Disallow به ربات‌های جستجوگر می‌گوید که چه فولدرهایی از وب‌سایت را نباید بررسی کنند. درواقع این دستور، بیانگر URLای از سایت است که  از ربات‌های جستجوگر پنهان می ماند.

به طور مثال اگر تمایل ندارید موتورهای جستجو، تصاویر وب سایت تان را ایندکس کنند، می‌توانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج کنید.

فرض کنید که تمام این تصاویر را داخل فولدر "Photos" منتقل کرده‌اید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکنند، باید دستور زیر را بنویسید:

User-agent: *
Disallow: /photos

دو خط کدنویسی فوق در فایل robots.txt، به هیچ یک از ربات‌های جستجوگر اجازه ورود به فولدر تصاویر سایت‌تان را نخواهد داد. در کد دستوری بالا،  قسمتUser-agent: * می‌گوید که اجرای این دستور برای تمامی ربات‌های جستجوگر الزامی است. قسمت Disallow: /photos  نیز بیانگر این است که ربات، اجازه ورود یا ایندکس فولدر تصاویر سایت را ندارد.

Allow

ربات خزنده و ایندکس کنندۀ گوگل، Googlebot  نام دارد. این ربات نسبت به سایر ربات‌های جستجوگر، دستورات بیشتری را متوجه می‌شود. علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک می‌کند.

دستور Allow این امکان را فراهم می کند تا ربات گوگل اجازه مشاهده یک فایل، در فولدری که  Disallowed شده است را داشته باشد. در مثال قبل کدی را نوشتیم که به ربات‌های جستجو، اجازه دسترسی به تصاویر سایت را نمی‌داد. تمام تصاویر سایت را درون یک پوشه به نام Photos قرار دادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:

User-agent: *

Disallow: /photos

حال تصور کنید درون این فولدری که در هاستینگ سایت قرار دارد، تصویری به نام  ezweb.jpg وجود دارد که خواهان ایندکس شدن آن توسط Googlebot هستیم. با استفاده از دستور Allow می‌توانیم به ربات گوگل بگوییم که ایندکس را انجام دهد:

User-agent: *

Disallow: /photos

Allow: /photos/novin.jpg

این دستور به ربات گوگل می‌گوید که اجازه مشاهده و ایندکسِ فایل ezweb.jpg را دارد، برخلاف اینکه فولدر Photos از دسترس ربات‌های جستجوگر خارج شده است.

اضافه کردن فایل robots.txt به گوگل کنسول

سرچ کنسول گوگل یا همان وبسمتر گوگل قسمتی برای تست و ارزیابی فایل robots.txt که دسترسی ربات های جستجوگر به آن محدود شده است، در نظر گرفته است. این صفحه با نام robots.txt Tester شناخته می‌شود. در این بخش می توان محتوای فایل robots.txt را وارد نمود و برای گوگل ارسال نمود. پس از تایید گوگل، می توان میزان محدودیت ربات های گوگل و دسترسی آن ها به محتوای سایت را مورد سنجش قرار داد.


امتیاز:

ارسال دیدگاه‌ها‌


تصویر امنیتی
کد امنیتی را وارد نمایید:

دیدگاه‌ها‌


چهارشنبه, 24 اردیبهشت,1399

میثم

صفحه برای لندینگ نباید ایندکس بشه و اگه سایتی طراحی شده باشه که این قابلیت نداره چگونه میتوان یک صفحه رو در سرچ کنسول ایندکس نکرد؟

Skip Navigation Links.
  • بازگشت