it-swarm.asia

السيطرة على أرشيف الإنترنت إلى جانب مجرد "Disallow /"؟

هل هناك أي آليات للتحكم في أرشيفات الإنترنت على الموقع؟ أعلم عدم السماح بكل الصفحات يمكنني إضافتها :

User-agent: ia_archiver
Disallow: /
  1. هل يمكنني إخبار الروبوت الذي أريده أن يزحف إلى موقعي مرة واحدة في الشهر ، أو مرة واحدة في السنة؟

  2. لديّ موقع/صفحات لا تتم أرشفتها/لا يتم أرشفتها بشكل صحيح بسبب عدم انتقاء الأصول. هل هناك طريقة لإخبار bot Internet Archive عن الأصول التي يحتاجها إذا كان سيتم الاستيلاء على الموقع؟

13
artlung

ملاحظة : هذه الإجابة قديمة بشكل متزايد.

أكبر مساهم في شبكة الإنترنت لأرشيف الإنترنت هو Alexa Internet. تم التبرع بالمواد التي تزحف إليها Alexa لأغراضها إلى IA بعد بضعة أشهر. لا تؤثر إضافة قاعدة عدم السماح المذكورة في السؤال على عمليات الزحف هذه ، لكن Wayback ستحترمها بأثر رجعي (رفض الوصول ، وستظل المادة في الأرشيف - يجب عليك استبعاد الروبوت الخاص بـ Alexa إذا كنت تريد حقًا منع نشر المواد الخاصة بك من أرشيف الإنترنت).

قد تكون هناك طرق للتأثير على زحف Alexa ، لكنني لست على دراية بذلك.

منذ أن طورت IA برنامج الزاحف الخاص بها (Heritrix) ، بدأت في إجراء عمليات الزحف الخاصة بها ، لكن هذه الصفحات تميل إلى أن تكون عمليات زحف مستهدفة (أنها تقوم بالزحف إلى الانتخابات لمكتبة الكونجرس وقمت بالزحف إلى فرنسا وأستراليا إلخ). لا ينخرطون في نوع من عمليات الزحف العالمية المستمرة التي تجريها Google و Alexa. أكبر عملية تتبع ارتباطات IA كانت عبارة عن مشروع خاص للزحف إلى ملياري صفحة.

نظرًا لأن عمليات الزحف هذه تعمل وفقًا لجداول زمنية مستمدة من عوامل محددة للمشروع ، لا يمكنك التأثير على عدد المرات التي يزورون فيها موقعك أو إذا قاموا بزيارة موقعك.

الطريقة الوحيدة للتأثير بشكل مباشر على كيفية ومتى يزحف IA إلى موقعك هي استخدام خدمة Archive-It . تتيح لك هذه الخدمة تحديد عمليات الزحف المخصصة. سيتم في النهاية دمج البيانات الناتجة في مجموعة الويب الخاصة بـ IA. هذا هو على الرغم من ذلك المدفوعة خدمة الاشتراك.

8
Kris

تدعم معظم محركات البحث التوجيه "تأخير الزحف" ، لكنني لا أعرف ما إذا كان IA يدعمه أم لا. يمكنك أن تجرب ذلك على الرغم من:

User-agent: ia_archiver
Crawl-delay: 3600

سيؤدي ذلك إلى تقييد التأخير بين الطلبات إلى 3600 ثانية (أي ساعة واحدة) ، أو حوالي 700 طلب شهريًا.

لا أظن أن الأمر رقم 2 ممكنًا - فاستيلاء الروبوت IA على الأصول عندما يراها مناسبة. قد يكون هناك حد لحجم الملف لتجنب استخدام الكثير من التخزين.

2
DisgruntledGoat