مدیران سایت ها از فایل robots.txt برای ارائه دستورالعمل استفاده از سایت برای روبات های وب استفاده می کنند. به این فرآیند پروتوکل خروجی روبات (The Robots Exclusion Protocol) می گویند.

این فرآیند به این شکل است: وقتی ربات های وب قصد بررسی یک صفحه به صورت www.example.com/index.html را دارند، پیش از این کار آدرس www.example.com/robots.txt را بررسی می کنند و در این بررسی با اطلاعات زیر روبه رو می شوند:

User-agent: *
Disallow: /


عبارت "User-agent: *" به این معنی است که این بخش به تمامی ربات ها دستور داده شده است.

و عبارت "Disallow: /" به این معنی است که ربات ها اجازه دسترسی به هیچ کدام از صفحات سایت را ندارند.

دو نکته بسیار مهم هنگام استفاده از فایل robots.txt وجود دارد:

  • ربات ها می توانند فایل robots.txt شما را نادیده بگیرند. خصوصا بدافزارهایی که جهت یافتن ضعف های امنیتی و یا ربات های جست و جو ایمیل که جهت ارسال ایمیل های اسپم وارد سایت می شوند، فایل robots.txt را نادیده می گیرند.
  • فایل robots.txt به صورت عمومی قابل دسترسی است، پس هرکسی می تواند این فایل را مشاهده کند و بخش هایی از سایت را که شما نمی خواهید ربات ها بررسی کنند را ببیند.

پس از robots.txt برای مخفی کردن اطلاعات استفاده نکنید.

چگونه یک فایل robots.txt بسازیم

فایل robots.txt را کجا قرار دهیم؟

پاسخ کوتاه این است که : در اولین فولدر سرور خود.

اما پاسخ کامل این است که:

وقتی یک ربات به دنبال آدرس فایل "/robots.txt" است، مولفه های جزئی مسیر را از آدرس جدا می کند (تمام نوشته های بعد از اولین / تنها) و عبارت "/robots.txt" را به جای آن قرار می دهد.

برای مثال، برای بررسی آدرس "www.example.com/news/23/"  ابتدا عبارت "/news/23/" را پاک کرده و عبارت "/robots.txt" را به جای آن قرار می دهد و نهایتا آدرس به صورت "www.example.com/robots.txt" در می آید.

پس شما به عنوان یک مدیر سایت باید فایل robots.txt را در جای درست خود قرار دهید. که آدرس به دست آمده، به درستی کار کند. معمولا فایل "/robots.txt" دقیقا در جایی قرار می گیرد که فایل "index.html" شما قرار گرفته است.

در نهایت به این نکته مهم دقت داشته باشید که فایل شما باید با حروف کوچک ساخته شود و استفاده از فایلی مانند "/Robots.txt" اشتباه است.

در فایل robots.txt چه چیزی قرار دهیم؟

فایل "/robots.txt" یک فایل نوشتاری است با یک یا چند خط که معمولا با یک دستور مانند زیر ساخته می شود:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

در کد بالا دسترسی به سه فولدر برای ربات ها مسدود شده است.

دقت کنید برای مسدود کردن دسترسی به هر فولدر شما باید یک دستور Disallow بنویسید. بنابراین شما مجاز به استفاده از عبارت "Disallow: /cgi-bin/ /tmp/" در یک خط نیستید. همچنین شما مجاز به ایجاد خط خالی و یا تکرار یک دستور نیز نیستید.

آن چیزی که شما می خواهید برای ربات ها مسدود کنید کاملا به سرور شما وابسته است، قطعا مسدود کردن همه چیز برای ربات ها کار درست و منصفانه ای نیست. در زیر چند مثال برای فایل robots.txt آورده شده است.

مسدود کردن تمام فولدرها برای تمام ربات ها

User-agent: *
Disallow: /

دسترسی کامل برای تمام ربات ها

User-agent: *
Disallow:
  • برای این کار کافیست یک فایل robots.txt خالی بسازید

مسدود کردن بخشی از فولدرهای سرور برای تمام ربات ها

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

مسدود کردن یک ربات خاص

User-agent: BadBot
Disallow: /

اجازه دسترسی به یک ربات خاص

User-agent: Google
Disallow:

User-agent: *
Disallow: /