it-swarm.asia

هل يوجد فهرس لعناوين IP المستخدمة في فهرسة الروبوتات؟

لدي صفحة تحصل على الحد الأدنى من عدد الزيارات ، لكني قمت بإعداد إعلامات ثابتة عندما يتم الوصول إليها. الآن ، أريد تجاهل برامج الروبوت ، لذا فإن ما أقوم به الآن هو إضافة برامج الروبوت التي أراها إلى قائمة "عدم الإخطار".

هل هناك قائمة مرجعية لعناوين IP المستخدمة في فهرسة الروبوتات؟

على سبيل المثال ، قائمة مثل:

$no_mail = array(
    '67.195.115.105', // yahoo bot
    '207.46.199.50', // msn bot
    '61.135.249.246', //youdao bot
    '207.46.199.32', // msn bot
);
7
artlung

http://www.user-agents.org/ قد يكون ما تبحث عنه.

5
Frank Robert Anderson

تستخدم جميع محركات البحث عددًا كبيرًا من عناوين IP. سترغب في إلقاء نظرة على سلسلة وكيل المستخدم بدلاً من ذلك. تحقق هذه الصفحة للحصول على قائمة جيدة بجميع برامج الزحف.

في PHP ، يعمل شيء مثل هذا:

$bots = array( 'googlebot', 'msnbot', 'Slurp', 'mediapartners-google' );
$isRobot = false;
$ua = strtolower( $_SERVER['HTTP_USER_AGENT'] );

foreach ( $bots as $bot ) {
  if ( strpos( $ua, $bot ) !== false )
    $isRobot = true;
}

if ( !$isRobot ) {
  // do your thing
}
2
DisgruntledGoat

لماذا لا تضع هذا فقط في ملف robots.txt الخاص بك؟

User-agent: *
Disallow: /path/page-you-dont-want-crawled.html

بهذه الطريقة لن تحتاج إلى مواصلة البحث عن الروبوتات. أود أن أراهن على أن لدى كل من Google و Yahoo و MSN مئات برامج الروبوت ، وربما يكون لديهم عناوين IP مختلفة وعناوين جديدة يتم إنشاؤها طوال الوقت. إضافة ما سبق يجب أن تفعل الشيء نفسه لصفحة الملف الخاص بك دون كل المتاعب.

1
Ben Hoffman

هناك بعض التعليمات البرمجية للتعرف على برامج التتبع على http://ekstreme.com/phplabs/search-engine-authentication (وكذلك مقالة مركز مساعدة Google على http://www.google .com/support/webmasters/bin/answer.py؟ answer = 8055 عند التحقق من Googlebot). يوجد أيضًا بعض التعليمات البرمجية على http://ekstreme.com/phplabs/crawlercontroller.php يمكن استخدامها للتعرف على برامج الزحف ، والتي يمكنك توسيعها بسهولة للتعرف على برامج الزحف "الجيدة" وكذلك برامج البريد العشوائي انها تعترف الآن.

بشكل عام ، من المهم عدم الاعتماد على اسم وكيل المستخدم أو عنوان IP وحده ، حيث قد يتم استخدام بعض وكلاء المستخدم من قبل المستخدمين العاديين وقد تتم مشاركة بعض عناوين IP.

ومع ذلك ، إذا كنت تستخدم هذا فقط لإشعارات البريد الإلكتروني ، فمن المحتمل أن أتجاهل الأنماط المعروفة البسيطة في وكيل المستخدم وأتعامل مع الإيجابيات الكاذبة والسلبيات الكاذبة. تحقق من ملفات السجل الخاصة بك لأكثر برامج الزحف شيوعًا والتي تنشط على موقعك وما عليك سوى التحقق من وجود جزء فريد من اسم وكيل المستخدم (قد يكون يكفي استخدام "googlebot | Slurp | msnbot | bingbot").

1
John Mueller

بطريقة أو بأخرى إذا كنت جادًا في تصفية برامج الروبوت ، فستحتاج إلى تنفيذ قائمة محلية أيضًا. في بعض الأحيان ، أصبح عنوان IP الذي يبدو عشوائيًا مهووسًا بموقع الويب الذي أديره. مشاريع الجامعة ، روبوتات تم تنفيذها بشكل سيء والتي تبدو تجريبية ولكنها غير معترف بها عمومًا ، تلك الأنواع من الأشياء.

أيضا: بوت Cuil (Twiceler) هو الشيطان.

1
Thomas

يمكنك الوصول إلى useragent؟ هذا يبدو لي طريقة أفضل لمعرفة من هو المستخدم الحقيقي ، وما هو الروبوت - إنه أكثر قدرة على الزحف الشرعي إلى تغيير العناوين ، وإذا كان أي شيء يتنكر كالبوت ، فمن المحتمل أنك لا ترغب في الحصول على البريد الإلكتروني على أي حال.

0
Cebjyre

جرب هذا...

$UI_Agent = $_SERVER['HTTP_USER_AGENT'];

if(eregi("bot", $UI_Agent)) {
    // do your bot stuff here
}

HTH ، برعم

0
Bud