it-swarm.asia

هل Google cache robots.txt؟

أضفت robots.txt ملفًا إلى أحد موقعي قبل أسبوع ، مما كان يجب أن يمنع Googlebot من محاولة جلب عناوين URL معينة. ومع ذلك ، في نهاية هذا الأسبوع ، يمكنني رؤية Googlebot أثناء تحميل عناوين URL هذه بالضبط.

هل Google cache robots.txt ، وإذا كان الأمر كذلك ، فهل يجب عليه ذلك؟

17
Quog

أوصي بشدة بتسجيل موقعك باستخدام Google Search Console (أدوات مشرفي المواقع من Google سابقًا) . يوجد قسم وصول إلى الزاحف ضمن تكوين الموقع سيخبرك بآخر مرة تم فيها تنزيل ملف robots.txt . توفر الأداة أيضًا الكثير من التفاصيل حول كيفية رؤية برامج الزحف لموقعك ، وما الذي يتم حظره أو عدم تشغيله ، والمكان الذي تظهر فيه في طلبات البحث على Google.

من ما يمكنني قوله ، تقوم Google بتنزيل ملف robots.txt غالبًا. سيتيح لك موقع Google Search Console أيضًا إزالة عناوين URL على وجه التحديد من الفهرس ، حتى تتمكن من إزالة تلك التي تحظرها الآن.

13
danivovich

المثابرة. لقد غيرت من ملف robots.txt نحو meta noindex ، nofollow. من أجل جعل التعريف يعمل ، يجب إلغاء حظر العناوين المحظورة في ملف robots.txt أولاً.

لقد فعلت ذلك بوحشية عن طريق حذف ملف robots.txt تمامًا (وإزالته في مشرف موقع google).

استغرقت عملية إزالة ملف robots.txt كما هو موضح في أداة مشرفي المواقع (عدد الصفحات المحظورة) 10 أسابيع ، ولم تتم إزالة الجزء الأكبر منها إلا بواسطة google خلال الأسبوعين الماضيين.

3
araldh

تنص وثائق Google على أنهم عادة ما يقومون بتخزين مؤقت robots.txt ليوم واحد ، لكن قد يستخدمونه لفترة أطول في حالة حصولهم على أخطاء عند محاولة تحديثه.

يتم بشكل عام تخزين طلب robots.txt مؤقتًا لمدة تصل إلى يوم واحد ، ولكن قد يتم تخزينه مؤقتًا لفترة أطول في الحالات التي يكون فيها تحديث الإصدار المخزن مؤقتًا غير ممكن (على سبيل المثال ، بسبب المهلات أو أخطاء 5xx). قد تتم مشاركة الاستجابة المخزنة مؤقتًا بواسطة برامج زحف مختلفة. قد تزيد Google أو تقلل من العمر الافتراضي للتخزين المؤقت بناءً على رؤوس HTTP Cache-Control القصوى.

2
Stephen Ostermiller

نعم ، من الواضح أن Google سوف تخبئ --- ملف robots.txt إلى حد ما - لن تقوم بتنزيله في كل مرة تريد إلقاء نظرة على الصفحة. كم من الوقت تخبئه ، أنا لا أعرف. ومع ذلك ، إذا كان لديك مجموعة رؤوس انتهاء صلاحية طويلة ، فقد يترك Googlebot وقتًا أطول للتحقق من الملف.

مشكلة أخرى يمكن أن يكون ملف خاطئ. في أدوات مشرفي المواقع التي تقترحها danivovich ، هناك ملف robots.txt. سيخبرك أنواع الصفحات المحظورة وأيها جيدة.

2
DisgruntledGoat

نعم. يقولون إنهم يقومون بتحديثه مرة واحدة يوميًا ، لكن البعض اقترحوا أنه يمكنهم أيضًا التحقق من ذلك بعد عدد معين من مرات الوصول إلى الصفحة (100؟) بحيث يتم فحص المواقع الأكثر نشاطًا في كثير من الأحيان.

راجع https://webmasters.stackexchange.com/a/29946 والفيديو الذي شاركهDisgruntedGoat أعلاه http://youtube.com/watch؟v=I2giR-WKUfY =.

1
studgeek

من ما يمكنني رؤيته على ذاكرة التخزين المؤقت التي يمكن للمستخدم الوصول إليها ، ما عليك القيام به هو كتابة عنوان URL الخاص بملفك robots.txt في بحث Google ، ثم انقر فوق سهم القائمة المنسدلة الأخضر الصغير وانقر فوق " تم تخزين النسخة المخبأة مؤقتًا (انظر الصورة أدناه) سيمنحك أحدث إصدار من هذه الصفحة من خوادم Googles.

enter image description here

1
sam