از ورود کراولرها و بات‌های AI به سایت خود جلوگیری کنید

از ورود کراولرها و بات‌های AI به سایت خود جلوگیری کنید

سایت‌ها ممکنه منابع محدودی داشته باشن، صاحبان سایت‌ها هر سال بابت نگه‌داری سایتشون هزینه زیادی میکنن و به ازای هر بازدیدی که روی سایتشون اتفاق میفته این هزینه‌ها بیشتر میشه، درسته که به کمک سرویس‌هایی مثل کلادفلر و سایر سرویس‌های CDN میشه تا مقدار زیادی این هزینه‌هارو کاهش داد با این حال ۲ دلیل بزرگ وجود داره که یک صاحب سایت علاقه‌ای به ورود بات‌ها و کراولرهای AI به سایتش نداشته باشه.

۱. مصرف منابع سرور و افزایش هزینه‌ها
۲. کپی کردن محتوای صفحات سایت بدون اجازه برای Train کردن مدل‌های هوش‌مصنوعی

خب در حالت عادی میگن «در دیزی بازه، حیای گربه کجا رفته» که اشاره داره به اینکه صاحب سایت اجازه میده هرکسی که دوست داره وارد سایتش بشه، ولی چرا بات‌ها بدون اجازه وارد میشن؟ خب شاید این یه خورده برگرده به مفهوم اینترنت، هرچیزی که شما توی اینترنت روی اون قفل نذارید یعنی عملا همه میتونن استفاده کنن.

البته اینجا AI ها گفتن اگر راضی نیستید که ما محتواهای سایتتون رو برداریم میتونید مارو داخل فایل robots.txt مسدود کنید، فکر نمیکنم انواع AI به کل قوانین robots.txt مثل محدود کردن به صفحات خاص و … پایبند باشن، ولی با این حال در قوانینشون گفتن میتونید در این فایل دسترسی مارو مسدود کنید و ما هم حتما دیگه به شما سر نخواهیم زد.

خب تنها کار لازم این هست که یک فایل به اسم robots.txt در ریشه هاست خودتون بسازید و از طریق دامنه اصلی به این شکل این فایل در دسترسی باشه: nam.com/robots.txt

نکته: حتما و حتما در صورتی که دانش زیادی از این فایل ندارید اون رو تغییر ندید چرا که تمام سئو سایت شما به این فایل گره خورده و هر نوع تغییر در این فایل میتونه ورودی موتورهای جستجو به سایت شما را تخریب کنه.

برای این کار میتونید متن زیر رو به فایل خودتون اضافه کنید. همچنین در این صفحه گیت‌هاب این فایل به صورت مداوم آپدیت میشه و در صورت نیاز میتونید نسخه آپدیت شده رو قرار بدید.

User-agent: AdsBot-Google
User-agent: Amazonbot
User-agent: anthropic-ai
User-agent: Applebot
User-agent: AwarioRssBot
User-agent: AwarioSmartBot
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: cohere-ai
User-agent: DataForSeoBot
User-agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: ImagesiftBot
User-agent: magpie-crawler
User-agent: omgili
User-agent: omgilibot
User-agent: peer39_crawler
User-agent: peer39_crawler/1.0
User-agent: PerplexityBot
User-agent: YouBot
Disallow: /

اینجا شما User-agent: بیشتر بات‌های AI سطح وب رو میبینید، برای مثال Google-Extended نسخه‌ای از بات گوگل با اهداف جمع‌آوری دیتا برای AI هست که میتونید مسدود کنید و تاثیری بر بات اصلی گوگل نداره.

دیدگاهتان را بنویسید