it-swarm.asia

برنامج زحف Googlebot: عنوان URL مقيد بواسطة ملف robots.txt - كيفية إصلاح الإدخالات في ملف robots.txt؟

لقد لاحظت مؤخرًا أن Google لا تقوم بتخزين جميع الصفحات على موقعي الإلكتروني مؤقتًا. عند استخدام أداة تشخيص مشرفي المواقع من Google ، أدركت أن بعضًا من صفحاتي مقيدة بواسطة إدخالات في ملف robots.txt الخاص بي.

أعلم أن بعض الأشخاص قد يستهجنون استخدام البطاقات البرية وما إلى ذلك ، لكن إطار الويب الخاص بي يولد عناوين URL ديناميكية - لذلك لا يوجد أي طريقة أخرى لـ "مطابقة الأنماط" بمجموعة من عناوين url.

لقد قمت بتضمين ملف robots.tx الخاص بي وقائمة عناوين URL التي تم تجاهلها هنا. نأمل أن يتمكن شخص ما من تحديد القواعد (القواعد) التي تقيد وصول Googlebots إلى عناوين URL.

بادئ ذي بدء ، إليك قائمة (مقطوعة) من عناوين URL المقيدة:

URL Detail Detected
http://www.example.com/community/groups/cat-lovers-united.html?filter=events URL restricted by robots.txt 10/4/10
http://www.example.com/community/knowledge-center/questions/newbie/1/how-to-love-your-cat.html URL restricted by robots.txt 10/4/10
http://www.example.com/community/news/comments/1 URL restricted by robots.txt 10/4/10
http://www.example.com/feeds/blogposts?request_type=comments&id=2 URL restricted by robots.txt 10/4/10
http://www.example.com/news/106/related-headlines?page=1 URL restricted by robots.txt 10/2/10
http://www.example.com/news/search?category=agriculturals&keywords=argentina URL restricted by robots.txt 10/6/10
http://www.example.com/news/submissions/list?site=ibnlive.in.com URL restricted by robots.txt 9/30/10

هنا ملف robots.txt الخاص بي:

User-Agent: *
Disallow: /api
Disallow: /api/
Disallow: /logout
Disallow: /logout/
Disallow: /login
Disallow: /login/
Disallow: /registration
Disallow: /registration/
Disallow: /admin/*
Disallow: /news/submit
Disallow: /*/new
Disallow: /*/createnew
Disallow: /*/edit
Disallow: /*/edit/*
Disallow: /*/editprofile
Disallow: /*/delete
Disallow: /*/delete/*
Disallow: /*/update
Disallow: /*/update/
Disallow: /*/submit
Disallow: /*/submit/
Disallow: /*/report
Disallow: /*/report/*
Disallow: /search
Disallow: /search/
Disallow: /controllers/*
Disallow: /community/members/*/joinNetwork
Disallow: /community/admin/*
Disallow: /lostpassword
Disallow: /lostpassword/
Disallow: /registrationComplete
Disallow: /registrationComplete/
Disallow: /accountActivate
Disallow: /accountActivate/
Disallow: /generate-token
Disallow: /create-widget
Disallow: /buttons
Disallow: /accountDeleted
Disallow: /accountSuspended
Disallow: /news/submit
Disallow: /news/process-submission
Disallow: /news/submit/success
Disallow: /news/errorpage
Disallow: /community/members/*/mailinglist/add
Disallow: /community/members/*/editprofile
Disallow: /community/members/*/joinNetwork
Disallow: /community/users/*/follow
Disallow: /community/users/*/unfollow
Disallow: /trustnetwork/createtoken
Disallow: /trustnetwork/applytoken
Disallow: /community/members/*/mail/*
Disallow: /community/mail/*
Disallow: /community/blogs/blogposts/unpublished/*
Disallow: /community/blogs/blogposts/reported/*
Disallow: /tools/pipeline/vote-submitted.html
Disallow: /community/classifieds/replies/*
Disallow: /report
Disallow: /thumbvote
Disallow: /like
Disallow: /dislike
Disallow: /voteRemove
Disallow: /flagAsInteresting
Disallow: /addFavorite
Disallow: /recommend/*
Disallow: /completed-recommendation.html
Disallow: /rate
Disallow: /notify
Disallow: /addTestimonial
Disallow: /comments/update/*
Disallow: /comments/great-comment
Disallow: /community/members/admin/*
Disallow: /community/blogs/blogposts/comments/moderated/*
Disallow: /community/blogs/blogposts/comments/reported/*
Disallow: /community/articles/reported/fetch/*
Disallow: /community/articles/reported/comments/moderated/*
Disallow: /community/articles/comments/reported/*
Disallow: /community/groups/*/requests
Disallow: /community/groups/*/moderation
Disallow: /community/groups/*/headlineMgmt
Disallow: /community/groups/*/pollMgmt
Disallow: /community/groups/*/join
Disallow: /community/groups/*/leave
Disallow: /community/groups/*/shout
Disallow: /community/groups/*/topics/reply/*
Disallow: /community/groups/*/banUser
Disallow: /countries/cities
Disallow: /country/schools
Disallow: /community/knowledge-center/answers/accept
Disallow: /community/knowledge-center/answers/unAccept
Disallow: /requestPassword
Disallow: /restorePassword
Disallow: /restoredPassword
Disallow: /changePassword
Disallow: /changedPassword
Disallow: /adverts/replies/mailbox
Disallow: /security/error403
Disallow: /home/error404
Disallow: /home/disabled-notification
Disallow: /home/error500
Disallow: /*?
Allow: /

Sitemap: http://www.example.com/sitemap-index.xml

يبدو الأمر جيدًا بالنسبة لي ، لكن من الواضح أنه يجب أن يكون هناك شيء في ملف robots.txt يقيد الوصول إلى عدد قليل من الصفحات. سأكون ممتنًا للغاية إذا تمكن شخص ما من اكتشاف الخطوط المخالفة في ملف robots.txt الخاص بي

3
morpheous

أراك أجبت على سؤالك الخاص ، ولكن كما أشرت ، "Disallow:/ * ؟" هو مصدر مشاكلك. " * " عبارة عن نقش عادي ، أو نمط صريح منتظم ، مما يعني أساسًا أي سلسلة نصية من أي طول ، " * ؟ " يعني نفس الشيء ، ولكن يحصر النموذج في SHORTEST إجابة ممكنة ، وفي حالة ملف robots.txt ، لا يمكنني التفكير في طريقة " * ؟" أن التعبير له أي معنى.

قراءة ROBOTS.TXT

    يسرد سطر Disallow الصفحات التي تريد حظرها.
    يسرد سطر User-Agent برامج الزحف التي تريد حظرها.

ERRORS_IN_YOUR_ROBOTS.TXT

    (1) جميع استخدام * في "/ * /" قد تكون أو لا تستخدم بشكل صحيح ، كل "Disallow:/INSERT_XYZ/*" خطأ ، كل ما تحتاجه هو "Disallow:/INSERT_XYZ /"
    (2) "عدم السماح:/*؟" يجب أن يكون "Disallow: /" لأن الإشارة إلى الدلائل ، وليس العوامل ؛ مع "User-Agent: *" هذا صحيح ، وسيكون "User-Agent: /" خطأ. ولكن بما أنك تريد أن يزحف موقعك جزئيًا ، فقم بإزالته.
    (3) جميع "Disallow:/INSERT_XYZ" يجب أن تكون على الأرجح "Disallow:/INSERT_XYZ /" إذا كانت إشارة إلى دليل.

صفحة الويب الخاصة بشركة Google لمشرفي المواقع لـ Robots.txt هي هنا .

ملاحظة: يجب عليك أيضًا استخدام هذه العلامات الوصفية من Google: noindex ، nofollow ، noarchive ، nocache

2
blunders

هذه هي تجربتي مع crawl errol بواسطة ملف robots.txt. قبل بضعة أشهر ، وجدت رسالة مثل "URL مقيد بـ robots.txt" ، موقعي هو Blogger (* .blogspot.com). أسأل مشكلتي إلى Google Webmaster ويرسلون لي إجابة حول روبوتاتي النصية كما يمكنك أن تقرأ:

  • rayhanzhampiet.blogspot.com:

"تعذر على Google الزحف إلى عنوان URL بسبب تقييد ملف robots.txt: قد يحظر ملف robots.txt الخاص بك Googlebot تمامًا ؛ أو قد يحظر الوصول إلى الدليل الذي يوجد به عنوان URL هذا ؛ أو قد يحظر الوصول إلى عنوان URL على وجه التحديد في كثير من الأحيان ، هذا ليس خطأ "هل يمكن لأي أحد أن يخبرني كيف يمكنني إلغاء قيود ملف robots.txt؟

  • مساعدة مشرفي المواقع الأكثر أهمية:

مرحبًا rayhanzhampiet ، أعتقد أننا نتعامل مع مدونتك على blogger * com (blogspot * com)؟ إذا كان الأمر كذلك ، فلست بحاجة إلى القيام بأي شيء بخصوص قيود ملف robots.txt. ،

هذا هو ملف robots.txt الخاص بك: وكيل المستخدم: Mediapartners-Google Disallow:

User-agent: * Disallow:/search - si يقيد فقط العناصر المكررة التي لا تريد فهرستها حتى تبقى باردة ، راجع جميع عناوين URL المقيدة لها/search/في مسارها كما هو محدد في ملف robots.txt الخاص بك؟

يتم تقييدها لأنها تكرر ما شوهد بالفعل في المنشورات وفي الصفحة الرئيسية ، على سبيل المثال هنا:

http://rayhanzhampiet.blogspot.com/search/label/Tips-Blogging أنت تدرك أنك شاهدت كل هذا من قبل -> على مشاركاتك الأصلية غير المقيدة وبالتالي فهرستها ؛-)

/ search/يجب أن يقتصر على تجنب الازدواجية في الفهرس ، وكما قلت ، فأنت تريد حتى تقييدها على الروبوتات من أجل مصلحتك. يتم هذا التقييد افتراضيًا على blogspot * com (والمجالات التي تستخدم مدون مثل نطاقاتك بالطبع) ولا تحتاج إلى حل بأي حال من الأحوال ، إنها ليست خطأ (الرسائل الموجودة في أدوات مشرفي المواقع يتم تشخيصها هنا فقط).

آمل أن يعرف الأشخاص (المدون) الذين لديهم مشكلة في ملف robots.txt مثلي أنهم لا يحتاجون إلى حل.

بفضل برو مشرفي المواقع ،

0
Share With Irfan