it-swarm.asia

كيف يمكنك تكوين ملف robots.txt للسماح بالزحف إلى الموقع باستثناء بعض الأدلة؟

ما هو أفضل إعداد أولي أو عام لـ robots.txt للسماح لمحركات البحث بالمرور عبر الموقع ، ولكن ربما تقيد بعض المجلدات؟

هل هناك إعداد عام يجب استخدامه دائمًا؟

7
Mike

تحتوي أدوات مشرفي المواقع من Google على قسم يسمى "الوصول إلى الزاحف"

يتيح لك هذا القسم بسهولة إنشاء ملف robots.txt الخاص بك

على سبيل المثال ، للسماح لكل شيء ما عدا المدونة التي يطلق عليها مجلد باسم test ، سيبدو ملف robot.txt الخاص بك

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

أفضل تكوين ، إذا لم يكن لديك أي متطلبات خاصة ، ليس شيئًا على الإطلاق. (على الرغم من أنك قد ترغب على الأقل في إضافة ملف فارغ لتجنب 404s من ملء سجلات الأخطاء الخاصة بك.)

لحظر دليل على الموقع ، استخدم جملة "Disallow":

User-agent: *
Disallow: /example/

هناك أيضًا جملة "سماح" تتخطى جمل "عدم السماح" السابقة. لذلك إذا كنت قد سمحت للمجلد "example" ، فقد ترغب في السماح لمجلد مثل "example/foobar".

تذكر أن ملف robots.txt لا يمنع أي شخص من زيارة هذه الصفحات إذا أراد ذلك ، لذا إذا ظلت بعض الصفحات سرية ، فيجب عليك إخفاءها خلف نوع من المصادقة (أي اسم المستخدم/كلمة المرور).

التوجيه الآخر الذي من المحتمل أن يكون في العديد من ملفات robots.txt هو "ملف Sitemap" ، الذي يحدد موقع ملف خريطة موقع XML إذا كان لديك واحد. ضعها على خط من تلقاء نفسها:

Sitemap: /sitemap.xml

--- موقع robots.txt الرسمي لديه الكثير من المعلومات حول الخيارات المختلفة. ولكن بشكل عام ، ستحتاج الغالبية العظمى من المواقع إلى القليل جدًا من التكوين.

1
DisgruntledGoat

إليك كل ما تحتاج لمعرفته حول ملف robots.txt

0
Jason