it-swarm.asia

كيفية اكتشاف روبوتات محرك البحث بشكل موثوق داخل موقع asp.net؟

ما هي أفضل طريقة لاكتشاف النشاط الذي تم إنشاؤه بواسطة الروبوت (النقرات/زيارات الصفحة) وما إلى ذلك على موقع ويب asp.net؟ لدينا موقع على شبكة الإنترنت نتتبع فيه العملاء المحتملين الذين تم إنشاؤهم للمواقع الخارجية ، ونتتبع عنوان IP الخاص بالمستخدم الذي يولد العميل المتوقع ، ولكننا نرى الكثير من العملاء المحتملين الذين أنشأتهم Google وبرامج البحث الأخرى. ما هي أفضل طريقة لتصفية هذا النشاط. لقد سمعت عن اختبار سلاسل وكيل المستخدم والتصفية بناءً على عناوين IP المعروفة ، وكلاهما متاح كمفريغات بيانات من مصادر مختلفة ، لست متأكدًا من أفضلها استخدامًا.

شكرا.

2
user1081

مثلKinopiko قال ، السير ، esepcialy أهمها مثل جوجل ، أو بنج يترك UserAgent واضحة.

لا أعرف كيف يبدو رمزك ، لذا لا يمكنني أن أخبرك بما يجب فعله ، ولكن للعثور على UserAgent في Asp.Net نظرت إلى Request.UserAgent في أي WebForm أو CodeBehind أو MVC Controller.

2
Sruly

عذرًا ، ليس لدي أي فكرة عن مواقع ويب asp.net ، ولكن أي محرك بحث ذي سمعة جيدة سيرسل إليك سلسلة وكيل مستخدم تخبرك بأنه روبوت ، ويجب أن يكون ذلك متاحًا في ملف السجل الخاص بك. هبة أخرى هي أنها تبحث عن /robots.txt.

يبدو المدقق الخاص بي هكذا (Perl):

sub is_bot
{
    my ($user_agent) = @_;
    if ($user_agent =~
    /msnbot
        |www\.cuil\.com
    |Yahoo!\s+Slurp
    |Googlebot
    |Speedy\sSpider
    |MLBot
    |princeton crawler
    |accelobot
    |crawler\@dotnetdotcom
    |help\.naver\.com
    |GingerCrawler
    |Sosospider
    |www.exabot.com
    |Baiduspider
    |Ask\sJeeves
    |Java\/
    |telehouse\.ru
    |Tagoobot
    |Baypup
    |SimilarPages
    |Spinn3r
    |VoilaBot
    |Yandex
    |Xenu\sLink\sSleuth
    |www\.searchme\.com
    |MJ12bot
    |kilomonkey\.com
    |Mediapartners-Google
    |Sogou\sweb\sspider
    |YoudaoBot
    |seexie\.com
    |Yahoo.*Slurp
    |YahooCacheSystem
    |crawler\@nutch\.biz
    |psbot
    |ia_archiver-web\.archive\.org
    |sbider
    |xrss\.eu
    |scoutjet
        |www\.puritysearch\.net
        |Bing
        |BaiduImagespider
        |baidu\.jp
        |facebookexternalhit
        |ssllabs\.com
        |Python-urllib
        |drupal\.org
        |HTTrack
        |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
    /x) {
    return 1;
    }
    return;
}

إذا نظرت إلى الكود المصدري لـ awstats ، فستجد شيئًا أفضل من المذكور أعلاه.

0
delete