it-swarm.asia

هل تقوم محركات البحث بالزحف إلى ملفات PDF وإذا كان الأمر كذلك ، فهناك أي قواعد يجب اتباعها عند إنشائها

يحتوي موقع الويب الذي أعمل عليه على بضع مئات من ملفات PDF. لا أعتقد أنني رأيت أيًا منهم يعودون في عملية بحث ولكن هناك روابط مباشرة من خارج الموقع. كما أنها مليئة بالكلمات الرئيسية لأنها مستندات منتج.

هل هناك شيء خاص يتعين علينا القيام به للحصول على Google أو محركات البحث الأخرى للزحف إليها؟

هل هناك أي قواعد صارمة وسريعة لإنشاء ملفات PDF لمساعدة Google على إعجابهم؟ على سبيل المثال ، هل يجب علي تشغيلها عبر ghostscript لتنظيف العلامات المكسورة PDFالتي ينشئها Adobe أثناء الإنشاء؟

22
Ben Hoffman

Google بالتأكيد الفهارس PDF الملفات ويمكنك البحث فقط عن PDF الملفات عن طريق إضافة filetype:pdf إلى استعلام البحث الخاص بك ( مثال ).

أود أن أقول الأشياء الرئيسية التي يجب القيام بها لتحسين PDF لذلك فهرستها بسهولة ستكون:

  • اعطائها اسم ملف ذات مغزى
  • أكمل جميع خصائص بيانات تعريف الوثيقة (العنوان ، المؤلف ، الكلمات الرئيسية ، إلخ)
  • تأكد من أن PDF تتكون من نص فعلي وليس صورًا ممسوحة ضوئيًا
  • تأكد من أن لديك محتوى جيدًا مع الاستخدام الصحيح للعناوين ، تمامًا كما تفعل مع مستند HTML

لمزيد من النصائح ، اقرأ Optimizing PDF Documents و 11 Eleven Tips لتحسين ملفات PDF لمحركات البحث

17
Dan Diplo

لست متأكدًا من محركات البحث الأخرى ، ولكن فيما يتعلق بـ Google ، فإن القاعدة الرئيسية هي عدم استبعادها عبر ملف robots.txt.

هذا كان إعلانهم الأولي لدعم PDF البحث.

1
intlect

تمامًا مثل جعل موقعًا متوافقًا مع موقع الويب لا يمكن أن يضر بكبار المسئولين الاقتصاديين ، مما يجعل الوصول إلى PDF الخاص بك لا يمكن أن يضر. مدقق إمكانية الوصول المدمج في Adobe بعيد عن الكمال ، ولكن على الأقل تحديد تلك المناطق سوف يبدأ.

ربما أقضي 5 دقائق على كل 4 أو 5 ، معظمها ملفات PDF نصية وضعناها على الإنترنت. الوقت يرتفع بالتساوي اعتمادا على عدد الصفحات ، ومدى تعقيد تلك الصفحات.

على افتراض أن لديك برنامج Adobe Acrobat Pro للقيام بالتحرير:

  • تشغيل فحص إمكانية الوصول الكامل. (الفحص السريع هو جدوى بالنسبة لي)
  • تحديث معلومات التعريف في خصائص المستند (الكلمات الأساسية ، والموضوع ، واللغة ، إلخ)
  • تأكد من إضافة العلامات
  • تأكد من وضع علامة على النص كنص ، صور كصور ، مواد خلفية كخلفية
  • علامة زغب عديمة الفائدة (مثل الديكور أو التصميم) كخلفية
  • إضافة نص بديل جيد للصور
  • تأكد في ترتيب القراءة ، يتم ترتيب النص بشكل صحيح
  • في شريط أدوات المحتوى ، تأكد من أن النص غير مكرر أو غير مترجم بشكل كبير
  • استخدم الماسح الضوئي OCR على الصفحات الممسوحة ضوئيًا

لتحرير أكثر تقدماً مثل الجداول وأخطاء Adobe غريب الأطوار ، نستخدم مكونًا إضافيًا يسمى CommonLook. تقوم CommonLook بإنجاز المهمة ، لكنني أكرهها بقدر ما أكره أدوات Adobe.

تعرف على أداة Touch Up Reading Order ، وشريط أدوات Tags ، وشريط أدوات Order Reading ، وشريط أدوات Content. تتطلب وظيفتي مستندات متوافقة تمامًا قبل الخروج على الويب ، ولكن يمكن لأي شخص الاستفادة من بعض الخصائص البسيطة للوسم والمستندات.

1
MrChrister