it-swarm.asia

منع جميع محركات البحث باستثناء الكبيرة

أود بطريقة ما أن أكون قادرًا على حظر جميع محركات البحث باستثناء Google و Yahoo & Bing (والمواقع المرتبطة بها مثل صور Google) من الزحف إلى موقعي حيث تستهلك الكثير من الخادم وعرض النطاق الترددي ولكن لا تجلب أي حركة مرور.

هل هذا سهل أو صعب؟ سيكون من الجيد أن يحتفظ شخص ما بقائمة محركات البحث الصغيرة التي يمكن لصقها في ملف robots.txt لحظرها.

أدرك أيضًا أنه لا يمكنني حظر برامج الزحف التي تتجاهل ملف robots.txt أو المواقع من الغش والزحف بشكل خفي ، ولكن هذا ليس ما أريد. أريد فقط منع جميع Altavistas و Hotbots و Lycos (هل لا تزال هذه موجودة) والزواحف التجريبية في الجامعة من إهدار وقتي.

2
Craig

ما هى محاولاتك حتى هذه اللحظة؟

باستخدام أدوات robots.txt منشئ مشرفي المواقع قمت بهذا:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

لكنني لم اختبرها.

3
delete

ما حجم المشكلة حقًا؟

إن برامج الروبوت التي يجب أن تقلقها هي برامج الروبوت التي لا تتبع القواعد ومن يتظاهر بأنه زائر منتظم.

تعتبر حركة محرك البحث شرعية وكما أشار دان إلى أن Google بدأت أيضًا كمشروع جامعي صغير. ليس من العدل حقًا التمييز ضد الرجال الصغار ، وربما ليس ذكيًا على المدى الطويل.

ستعمل إجابة Kinopiko ، وستتيح لك أدوات مشرفي المواقع من Google إنشاء واختبار ملف robot.txt الخاص بك (تهيئة الموقع ، الوصول إلى الزاحف) ، لكنني أعتقد أنه إذا كانت حركة المرور من محركات البحث الأصلية تمثل مشكلة بالنسبة لك ، فقد تكون استضافة موقعك الحالية الحل ليس صفقة جيدة.

3
Sylver

بالنسبة لأولئك الذين لا يتبعون القواعد ، يمكنك محاولة العثور عليها في سجلاتك ثم حظرها بواسطة IP.

عمومًا ، يمكنك اكتشاف الروبوت من خلال قراءة الصفحات بسرعة أكبر من أن تكون إنسانًا.

1
Sruly