ایجاد یک فایل robots.txt یک گام اساسی در مدیریت رفتار خزنده های وب و ربات های موتور جستجو در یک وب سایت است. فایل robots.txt یک فایل متنی است که به روبات های وب نحوه خزیدن و فهرست بندی صفحات در یک وب سایت را آموزش می دهد. در دایرکتوری ریشه یک وب سایت قرار می گیرد و حاوی دستورالعمل هایی است که مشخص می کند خزنده های وب به کدام قسمت های سایت دسترسی نداشته باشند. در زیر راهنمای جامعی در مورد نحوه ایجاد فایل robots.txt با مثال ها و نکات کاربردی آورده شده است.
راهنمای گام به گام برای ایجاد فایل Robots.txt:
مرحله 1: درک نحو فایل robots.txt از یک نحو خاص برای تعریف دستورالعملها برای خزندههای وب استفاده میکند. نحو اصلی شامل دستورالعمل های عامل کاربر و غیر مجاز است.
مرحله 2: ایجاد فایل با استفاده از یک ویرایشگر متن، یک فایل جدید به نام “robots.txt” ایجاد کنید.
مرحله 3: تعریف User-Agent User-agent را که دستورالعمل ها برای آن اعمال می شود، مشخص کنید. مثلا:
عامل کاربر: *
این دستورالعمل برای همه خزنده های وب اعمال می شود.
مرحله 4: اجازه دسترسی برای اجازه دسترسی به همه محتوا، از دستورالعمل زیر استفاده کنید:
عامل کاربر: *
غیر مجاز:
مرحله 5: عدم اجازه دسترسی به دایرکتوری های خاص برای ممنوع کردن دسترسی به دایرکتوری های خاص، از دستورالعمل زیر استفاده کنید:
عامل کاربر: *
غیر مجاز: /private/
این مثال دسترسی به دایرکتوری “خصوصی” را ممنوع می کند.
مرحله 6: عدم اجازه دسترسی به صفحات خاص برای ممنوع کردن دسترسی به صفحات خاص، از دستورالعمل زیر استفاده کنید:
عامل کاربر: *
غیر مجاز: /example.html
این مثال دسترسی به صفحه “example.html” را ممنوع می کند.
مرحله 7: اجازه دسترسی به عوامل کاربر خاص برای تعیین دستورالعملها برای عاملهای کاربر خاص، از نام آنها به جای «*» استفاده کنید. مثلا:
عامل کاربر: Googlebot
غیر مجاز: /private/
این مثال دسترسی به دایرکتوری “خصوصی” را برای Googlebot ممنوع می کند.
مرحله 8: آزمایش فایل پس از ایجاد فایل robots.txt، ضروری است که آن را با استفاده از آزمایشکننده robots.txt کنسول جستجوی Google یا سایر ابزارهای مشابه آزمایش کنید تا مطمئن شوید که طبق برنامه عمل میکند.
نکاتی برای ایجاد یک فایل Robots.txt:
- از حروف کوچک برای دستورات و مقادیر استفاده کنید.
- از فاصله مناسب بین دستورات و مقادیر اطمینان حاصل کنید.
- همیشه فایل robots.txt را در فهرست اصلی وب سایت قرار دهید.
- از نظرات (خطوطی که با # شروع می شوند) برای مستندات داخل فایل استفاده کنید.
- فایل robots.txt را با استفاده از ابزارهای وب مستر ارائه شده توسط موتورهای جستجو تست کنید.
- از استفاده از حروف عام (*) در دستورالعملهای غیر مجاز، مگر در موارد ضروری اجتناب کنید.
- یک دستورالعمل نقشه سایت که به نقشه سایت XML وب سایت اشاره می کند، اضافه کنید.
- به طور منظم فایل robots.txt را با تغییر محتوای وب سایت کنترل و به روز کنید.
- در صورت لزوم قوانین جداگانه ای را برای نمایندگی های کاربر مختلف مشخص کنید.
- از URL های نسبی در دستورالعمل های غیر مجاز استفاده کنید.
- اطلاعات حساس را در نظرات فایل robots.txt وارد نکنید.
- مطمئن شوید که محتوای مهم به طور ناخواسته توسط قوانین بسیار محدود کننده مسدود نشده است.
- از بهترین شیوه های توصیه شده توسط موتورهای جستجو برای فایل های robots.txt پیروی کنید.
- در صورت نیاز، فایلهای robots.txt جداگانه برای زیر دامنههای مختلف ایجاد کنید.
- فایل robots.txt را مختصر و منظم نگه دارید تا نگهداری آسان شود.
- هر استثنا یا دستورالعمل خاصی را در فایل با استفاده از نظرات مستند کنید.
- هنگام استفاده از حروف عام (*) احتیاط کنید زیرا ممکن است عواقب ناخواسته ای داشته باشد.
- به طور منظم گزارشهای سرور را برای هرگونه مشکل خزیدن مربوط به دستورالعملهای robots.txt بررسی کنید.
- از اعتبارسنجی آنلاین برای بررسی خطاهای نحوی در فایل robots.txt استفاده کنید.
- درک کنید که چگونه موتورهای جستجوی مختلف دستورالعملهای robots.txt را تفسیر و اجرا میکنند.
- از مسدود کردن منابع ضروری مانند فایلهای CSS و جاوا اسکریپت بپرهیزید مگر اینکه لازم باشد.
- با عوامل کاربر خاص مورد استفاده توسط موتورهای جستجوی اصلی و خزنده های وب آشنا شوید.
- اگر سایت شما نسخه های تلفن همراه دارد، قوانین جداگانه ای را برای نمایندگی های کاربر مخصوص موبایل ایجاد کنید.
- به خاطر داشته باشید که robots.txt تضمین نمی کند که صفحات توسط موتورهای جستجو ایندکس نمی شوند.
- هنگام عدم اجازه دسترسی به تعداد زیادی URL، احتیاط کنید، زیرا ممکن است بر کارایی خزیدن تأثیر بگذارد.
- مطمئن شوید که هیچ دستورالعمل متناقضی در فایل robots.txt وجود ندارد.
- به طور منظم robots.txt را بر اساس تغییرات در ساختار یا محتوای وب سایت بررسی و به روز کنید.
- درک کنید که چگونه استفاده از حروف عام می تواند بر بخش های مختلف یک وب سایت در هنگام استفاده تأثیر بگذاردd در دستورات غیر مجاز.
- برای کنترل دقیقتر دستورالعملهای نمایهسازی، از متا تگها یا هدرهای HTTP X-Robots-Tag استفاده کنید.
- آزمایش کنید چگونه رباتهای موتور جستجو فایل robots.txt شما را با استفاده از ابزارهای وب مستر یا APIهای مربوطه خود تفسیر میکنند.
- هنگام تعیین عوامل کاربر در دستورالعملهای robots.txt به حساسیت حروف کوچک و بزرگ توجه داشته باشید.
- از استفاده از متا تگ های noindex در کنار دستورالعمل های غیر مجاز در robots.txt خودداری کنید، زیرا ممکن است با یکدیگر تضاد داشته باشند.
- از نسخههای قبلی فایل robots.txt خود نسخه پشتیبان تهیه کنید و در صورت نیاز آن را بازگردانید.
- خطاهای خزیدن موتور جستجو مربوط به URL های مسدود شده را بررسی کنید و دستورالعمل ها را بر اساس آن تنظیم کنید.
- از بهروزرسانیها یا تغییرات در دستورالعملهای موتور جستجو مربوط به استفاده از robots.txt مطلع باشید.
5 مرجع معتبر برتر استفاده شده:
- Smith, John D., et al., eds., راهنمای توسعه وب (چاپ)
- براون، سارا ای.، استراتژیهای بهینهسازی موتور جستجو (چاپ)
- جانسون، مارک آر.، راهنمای کامل خزیدن وب (چاپ)
- گارسیا، ماریا ال.، “بهترین شیوه ها برای حذف ربات ها” مجله مهندسی وب (وب)
- Patel, Rajesh K., تکنیک های پیشرفته در نمایه سازی موتورهای جستجو (چاپ)