كيفية إعداد ملف robots.txt بشكل صحيح؟

جدول المحتويات:

كيفية إعداد ملف robots.txt بشكل صحيح؟
كيفية إعداد ملف robots.txt بشكل صحيح؟
Anonim

ينشئ ملف Robots txt الصحيح لموقع html نماذج إجراءات لروبوتات محرك البحث ، ويخبرهم بما يمكنهم التحقق منه. غالبًا ما يُشار إلى هذا الملف باسم بروتوكول استبعاد الروبوت. أول شيء تبحث عنه الروبوتات قبل الزحف إلى موقع ويب هو ملف robots.txt. يمكن أن يشير إلى أو يخبر ملف Sitemap بعدم فحص نطاقات فرعية معينة. عندما تريد أن تبحث محركات البحث عما يتم العثور عليه بشكل متكرر ، فلن يكون ملف robots.txt مطلوبًا. من المهم جدًا في هذه العملية أن يتم تنسيق الملف بشكل صحيح ولا يقوم بفهرسة صفحة المستخدم بالبيانات الشخصية للمستخدم.

مبدأ مسح الروبوت

مبدأ مسح الروبوت
مبدأ مسح الروبوت

عندما يصادف محرك بحث ملفًا ويرى عنوان URL محظورًا ، فإنه لا يقوم بالزحف إليه ، ولكن يمكنه فهرسته. هذا لأنه حتى إذا لم يُسمح للروبوتات بعرض المحتوى ، فيمكنها تذكر الروابط الخلفية التي تشير إلى عنوان URL المحظور. نظرًا لحظر الوصول إلى الرابط ، سيظهر عنوان URL في محركات البحث ، ولكن بدون أجزاء. اذا كانبالنسبة لاستراتيجية التسويق الواردة ، يلزم وجود ملف Robots txt الصحيح لـ bitrix (Bitrix) ، فهي توفر التحقق من الموقع بناءً على طلب المستخدم عن طريق الماسحات الضوئية.

من ناحية أخرى ، إذا لم يتم تنسيق الملف بشكل صحيح ، فقد يؤدي ذلك إلى عدم ظهور الموقع في نتائج البحث وعدم العثور عليه. لا يمكن لمحركات البحث تجاوز هذا الملف. يمكن للمبرمج عرض ملف robots.txt لأي موقع بالانتقال إلى مجاله ومتابعته باستخدام ملف robots.txt ، على سبيل المثال ، www.domain.com/robots.txt. باستخدام أداة مثل قسم تحسين محركات البحث في Unamo ، حيث يمكنك إدخال أي مجال ، وستعرض الخدمة معلومات حول وجود الملف.

قيود المسح:

  1. لدى المستخدم محتوى قديم أو حساس.
  2. الصور الموجودة على الموقع لن يتم تضمينها في نتائج البحث عن الصور.
  3. الموقع ليس جاهزًا بعد للفهرسة التجريبية بواسطة الروبوت.

ضع في اعتبارك أن المعلومات التي يرغب المستخدم في تلقيها من محرك البحث متاحة لأي شخص يقوم بإدخال عنوان URL. لا تستخدم هذا الملف النصي لإخفاء البيانات الحساسة. إذا كان المجال يحتوي على خطأ 404 (لم يتم العثور عليه) أو خطأ 410 (تم تمريره) ، يتحقق محرك البحث من الموقع على الرغم من وجود ملف robots.txt ، وفي هذه الحالة يعتبر أن الملف مفقود. أخطاء أخرى مثل 500 (خطأ داخلي في الخادم) أو 403 (محظور) أو انتهت المهلة أو "غير متاح" فيما يتعلق بإرشادات ملف robots.txt ، ومع ذلك يمكن تأخير التجاوز حتى يصبح الملف متاحًا.

إنشاء ملف بحث

إنشاء ملف البحث
إنشاء ملف البحث

كثيرتحتوي برامج CMS مثل WordPress بالفعل على ملف robots.txt. قبل تكوين Robots txt WordPress بشكل صحيح ، يحتاج المستخدم إلى التعرف على قدراته لمعرفة كيفية الوصول إليه. إذا قام المبرمج بإنشاء الملف بنفسه ، فيجب أن يفي بالشروط التالية:

  1. يجب أن يكون بالأحرف الصغيرة.
  2. استخدم ترميز UTF-8.
  3. حفظ في محرر نصوص كملف (.txt).

عندما لا يعرف المستخدم مكان وضعه ، فإنه يتصل ببائع برنامج خادم الويب لمعرفة كيفية الوصول إلى جذر النطاق أو الانتقال إلى وحدة تحكم Google وتنزيله. باستخدام هذه الوظيفة ، يمكن لـ Google أيضًا التحقق مما إذا كان الروبوت يعمل بشكل صحيح وقائمة المواقع التي تم حظرها باستخدام الملف.

التنسيق الرئيسي لصيغة Robots TXT الصحيحة لـ bitrix (Bitrix):

  1. أسطورة robots.txt.
  2. ، يضيف التعليقات التي تستخدم كملاحظات فقط.
  3. سيتم تجاهل هذه التعليقات بواسطة الماسحات الضوئية مع أي أخطاء إملائية للمستخدم.
  4. User-agent - يشير إلى محرك البحث الذي تم إدراج إرشادات الملف عليه.
  5. تؤدي إضافة علامة النجمة () إلى إخبار الماسحات الضوئية بأن الإرشادات متاحة للجميع.

تشير إلى برنامج تتبع محدد ، على سبيل المثال ، Googlebot و Baiduspider و Applebot. يخبر Disallow برامج الزحف بأجزاء موقع الويب التي يجب عدم الزحف إليها. يبدو مثل هذا: User-agent:. تعني النجمة "جميع برامج الروبوت". ومع ذلك ، يمكنك تحديد صفحات معينةالروبوتات. للقيام بذلك ، تحتاج إلى معرفة اسم الروبوت الذي تم تعيين التوصيات له.

قد يبدو النص الصحيح لروبوتات Yandex كما يلي:

قم بتصحيح ملف robots.txt لـ Yandex
قم بتصحيح ملف robots.txt لـ Yandex

إذا كان يجب ألا يقوم الروبوت بالزحف إلى الموقع ، فيمكنك تحديده ، وللعثور على أسماء وكلاء المستخدم ، يوصى بالتعرف على الإمكانات عبر الإنترنت الخاصة بـ useragentstring.com.

تحسين الصفحة

الصفحة الأمثل
الصفحة الأمثل

يعتبر السطران التاليان ملف robots.txt كامل ، ويمكن أن يحتوي ملف الروبوتات الفردي على أسطر متعددة من وكلاء المستخدم والتوجيهات التي تعمل على تعطيل الزحف أو تمكينه. التنسيق الرئيسي لنص Robots الصحيح txt:

  1. User agent: [agent username].
  2. Disallow: [سلسلة عنوان URL التي لم يتم الزحف إليها].

في الملف ، يتم عرض كل كتلة من التعليمات على أنها منفصلة ، مفصولة بسطر. في الملف المجاور لدليل مستخدم الوكيل ، يتم تطبيق كل قاعدة على مجموعة محددة من الأسطر المفصولة بأقسام. إذا كان الملف يحتوي على قاعدة متعددة الوكلاء ، فلن يأخذ الروبوت سوى مجموعة التعليمات الأكثر تحديدًا.

البنية التقنية

التركيب الفني
التركيب الفني

يمكن اعتبارها على أنها "لغة" ملفات robots.txt. هناك خمسة مصطلحات يمكن أن توجد في هذا التنسيق ، أهمها تشمل:

  1. User-agent - زاحف الويب مع إرشادات الزحف ، وعادة ما يكون محرك بحث.
  2. Disallow هو أمر يستخدم لإخبار وكيل المستخدم بالتجاوز(إغفال) من عنوان URL محدد. لا يوجد سوى شرط واحد ممنوع لكل منهما.
  3. سماح. بالنسبة لبرنامج Googlebot الذي يمكنه الوصول ، يتم رفض حتى صفحة المستخدم.
  4. تأجيل الزحف - يحدد عدد الثواني التي سيحتاجها الزاحف قبل الزحف. عندما لا يؤكد الروبوت ذلك ، يتم تعيين السرعة في وحدة تحكم Google.
  5. خريطة الموقع - تُستخدم لتحديد أي خرائط XML مرتبطة بعنوان URL.

تطابقات الأنماط

عندما يتعلق الأمر بحظر عناوين URL فعليًا أو السماح بنسخة Robots txt الصالحة ، فقد تكون العمليات صعبة للغاية لأنها تسمح لك باستخدام مطابقة الأنماط لتغطية عدد من معلمات URL المحتملة. يستخدم كل من Google و Bing حرفين يحددان الصفحات أو المجلدات الفرعية التي يريد مُحسنات محركات البحث استبعادها. الحرفان هما العلامة النجمية () وعلامة الدولار ($) ، حيث:عبارة عن حرف بدل يمثل أي تسلسل للأحرف. $ - يطابق نهاية عنوان URL.

تقدم Google قائمة كبيرة بصيغ القوالب الممكنة التي تشرح للمستخدم كيفية إعداد ملف Robots txt بشكل صحيح. تتضمن بعض حالات الاستخدام الشائعة ما يلي:

  1. منع ظهور المحتوى المكرر في نتائج البحث.
  2. حافظ على خصوصية جميع أقسام الموقع
  3. حفظ الصفحات الداخلية لنتائج البحث بناءً على البيان المفتوح.
  4. تحديد الموقع.
  5. منع محركات البحث من فهرسة بعضالملفات.
  6. تحديد تأخير الزحف لإيقاف إعادة التحميل عند فحص مناطق محتوى متعددة في نفس الوقت.

التحقق من وجود ملف الروبوت

إذا لم تكن هناك مناطق على الموقع تحتاج إلى الزحف إليها ، فلن تكون هناك حاجة إلى ملف robots.txt على الإطلاق. إذا لم يكن المستخدم متأكدًا من وجود هذا الملف ، فعليه إدخال المجال الجذر وكتابته في نهاية عنوان URL ، مثل هذا: moz.com/robots.txt. يتجاهل عدد من روبوتات البحث هذه الملفات. ومع ذلك ، كقاعدة عامة ، لا تنتمي برامج الزحف هذه إلى محركات البحث ذات السمعة الطيبة. هم نوع مرسلي البريد العشوائي ومجمعي البريد وأنواع أخرى من الروبوتات الآلية الموجودة بكثرة على الإنترنت.

من المهم جدًا أن تتذكر أن استخدام معيار استبعاد الروبوت ليس تدبيرًا أمنيًا فعالًا. في الواقع ، قد تبدأ بعض برامج الروبوت بصفحات حيث يضبطها المستخدم على وضع الفحص. هناك عدة أجزاء تدخل في ملف الاستثناء القياسي. قبل إخبار الروبوت بالصفحات التي يجب ألا يعمل عليها ، تحتاج إلى تحديد الروبوت الذي تريد التحدث إليه. في معظم الحالات ، يستخدم المستخدم تصريحًا بسيطًا يعني "جميع برامج الروبوت".

تحسين محركات البحث

تحسين محركات البحث
تحسين محركات البحث

قبل التحسين ، يجب على المستخدم التأكد من أنه لا يحظر أي محتوى أو أقسام من الموقع يجب تجاوزها. لن يتم احترام الروابط المؤدية إلى الصفحات التي تم حظرها بواسطة ملف robots text الصحيح. هذا يعني:

  1. إذا لم تكن مرتبطة بصفحات أخرى متاحة لمحركات البحث مثل. صفحاتلم يتم حظره بواسطة ملف robots.txt أو meta robot ، ولن يتم الزحف إلى الموارد ذات الصلة وبالتالي لا يمكن فهرستها.
  2. لا يمكن تمرير أي رابط من صفحة محظورة إلى وجهة الارتباط. إذا كانت هناك صفحة من هذا القبيل ، فمن الأفضل استخدام آلية حظر مختلفة عن ملف robots.txt.

نظرًا لأن الصفحات الأخرى قد ترتبط ارتباطًا مباشرًا بصفحة تحتوي على معلومات شخصية وتريد منع هذه الصفحة من نتائج البحث ، فاستخدم طريقة مختلفة ، مثل الحماية بكلمة مرور أو بيانات noindex الوصفية. تحتوي بعض محركات البحث على وكلاء مستخدمين متعددين. على سبيل المثال ، يستخدم Google Googlebot في عمليات البحث العضوية و Googlebot-Image في عمليات البحث عن الصور.

يتبع معظم وكلاء المستخدم من نفس محرك البحث القواعد نفسها ، لذلك ليست هناك حاجة لتحديد توجيهات لكل من برامج الزحف العديدة ، ولكن القدرة على القيام بذلك يمكنها ضبط الزحف إلى محتوى الموقع. يقوم محرك البحث بتخزين محتويات الملف مؤقتًا ، وعادةً ما يقوم بتحديث المحتويات المخزنة مؤقتًا مرة واحدة على الأقل يوميًا. إذا قام المستخدم بتغيير الملف وأراد تحديثه بشكل أسرع من المعتاد ، فيمكنه إرسال عنوان URL الخاص بملف robots.txt إلى Google.

محركات البحث

التحقق من وجود ملف روبوت
التحقق من وجود ملف روبوت

لفهم كيفية عمل Robots txt بشكل صحيح ، تحتاج إلى معرفة إمكانيات محركات البحث. باختصار ، تكمن قدرتهم في حقيقة أنهم يرسلون "ماسحات ضوئية" ، وهي برامجتصفح الإنترنت للحصول على المعلومات. ثم يقومون بتخزين بعض هذه المعلومات لتمريرها لاحقًا إلى المستخدم.

بالنسبة للعديد من الأشخاص ، فإن Google هي بالفعل الإنترنت. في الواقع ، هم على حق ، لأن هذا ربما يكون اختراعه الأكثر أهمية. وعلى الرغم من أن محركات البحث قد تغيرت كثيرًا منذ بدايتها ، إلا أن المبادئ الأساسية لا تزال كما هي. برامج الزاحف ، المعروفة أيضًا باسم "الروبوتات" أو "العناكب" ، تجد صفحات من مليارات مواقع الويب. تمنحهم محركات البحث توجيهات حول المكان الذي يجب أن يتوجهوا إليه ، بينما يمكن للمواقع الفردية أيضًا التواصل مع برامج الروبوت وإخبارهم بالصفحات المحددة التي يجب عليهم الاطلاع عليها.

بشكل عام ، لا يرغب مالكو المواقع في الظهور في محركات البحث: صفحات المسؤول ، وبوابات الخلفية ، والفئات والعلامات ، وصفحات المعلومات الأخرى. يمكن أيضًا استخدام ملف robots.txt لمنع محركات البحث من فحص الصفحات. باختصار ، يخبر ملف robots.txt برامج زحف الويب ما يجب القيام به.

حظر الصفحات

هذا هو الجزء الرئيسي من ملف استثناء الروبوت. بإعلان بسيط ، يخبر المستخدم الروبوت أو مجموعة من الروبوتات بعدم الزحف إلى صفحات معينة. بناء الجملة بسيط ، على سبيل المثال ، لرفض الوصول إلى كل شيء في دليل "admin" بالموقع ، اكتب: Disallow: / admin. سيمنع هذا السطر الروبوتات من الزحف إلى yoursite.com/admin و yoursite.com/admin/login و yoursite.com/admin/files/secret.html وأي شيء آخر ضمن دليل المسؤول.

لعدم السماح بصفحة واحدة ، ما عليك سوى تحديدها في سطر disallow: Disallow: /public/exception.html. الآن صفحة "الاستثناء"لن يتم ترحيلها ، ولكن سيتم ترحيل كل شيء آخر في المجلد "العام".

لتضمين صفحات متعددة ، ما عليك سوى سردها:

الدلائل والصفحات
الدلائل والصفحات

سيتم تطبيق هذه الأسطر الأربعة من Robots txt الصحيح للسمفونية على أي وكيل مستخدم مدرج في الجزء العلوي من قسمrobots.txt لـ

صفحات الحظر
صفحات الحظر

خريطة الموقع:

أوامر أخرى:مباشر - لا تسمح لبرامج زحف الويب بفهرسة cpresources / أو الموفر /.

وكيل المستخدم:Disallow: /cpresources/.

Deny: / vendor / Disallow: /.env.

وضع المعايير

يمكن للمستخدم تحديد صفحات معينة لروبوتات مختلفة من خلال الجمع بين العنصرين السابقين ، وهذا ما يبدو عليه الأمر. فيما يلي مثال على ملف robots txt الصحيح لجميع محركات البحث.

تحديد المعايير
تحديد المعايير

سيكون قسمي "المشرف" و "الخاص" غير مرئيين لـ Google و Bing ، ولكن سيظل Google يرى الدليل "السري" ، بينما لن يرى Bing. يمكنك تحديد قواعد عامة لجميع برامج الروبوت التي تستخدم وكيل مستخدم العلامة النجمية ، ثم تقديم إرشادات محددة إلى برامج الروبوت في الأقسام التالية. مع المعرفة أعلاه ، يمكن للمستخدم كتابة مثال على Robots TXT الصحيح لجميع محركات البحث. ما عليك سوى تشغيل محرر النصوص المفضل لديك وإخبار الروبوتات بأنها غير مرحب بها في أجزاء معينة من الموقع.

نصائح لتحسين أداء الخادم

SublimeText هومحرر نصوص متعدد الاستخدامات والمعيار الذهبي للعديد من المبرمجين. علاوة على ذلك ، تستند نصائح البرمجة الخاصة به إلى الترميز الفعال. يقدر المستخدمون وجود اختصارات في البرنامج. إذا أراد المستخدم مشاهدة مثال لملف robots.txt ، فيجب عليه الانتقال إلى أي موقع وإضافة "/robots.txt" إلى النهاية. هذا جزء من ملف robots.txt GiantBicycles

يوفر البرنامج إمكانية إنشاء صفحات لا يرغب المستخدمون في إظهارها في محركات البحث. ولديها أيضًا بعض الأشياء الحصرية التي يعرفها القليل من الناس. على سبيل المثال ، بينما يخبر ملف robots.txt الروبوتات أين لا يجب أن تذهب ، فإن ملف خريطة الموقع يفعل العكس ويساعدهم في العثور على ما يبحثون عنه ، وبينما تعرف محركات البحث بالفعل مكان وجود خريطة الموقع ، فإنها لا تحصل على في الطريق

هناك نوعان من الملفات: صفحة HTML أو ملف XML. صفحة HTML هي تلك التي تعرض للزائرين جميع الصفحات المتاحة على موقع الويب. في ملف robots.txt الخاص به ، يبدو كما يلي: خريطة الموقع: //www.makeuseof.com/sitemap_index.xml. إذا لم تتم فهرسة الموقع بواسطة محركات البحث ، على الرغم من الزحف إليه عدة مرات بواسطة روبوتات الويب ، فأنت بحاجة للتأكد من أن الملف موجود وأن أذوناته قد تم تعيينها بشكل صحيح.

بشكل افتراضي ، سيحدث هذا لجميع عمليات تثبيت SeoToaster ، ولكن إذا لزم الأمر ، يمكنك إعادة تعيينه على النحو التالي: ملف robots.txt - 644. اعتمادًا على خادم PHP ، إذا لم ينجح هذا للمستخدم ، يوصى بتجربة ما يلي: ملف robots.txt - 666.

ضبط تأخير المسح

يُعلم توجيه التأخير الالتفافي بعض الشيءمحركات البحث كم مرة يمكنهم فهرسة صفحة على الموقع. يتم قياسها بالثواني ، على الرغم من أن بعض محركات البحث تفسرها بشكل مختلف قليلاً. يرى بعض الأشخاص تأخير الزحف 5 عندما يُطلب منهم الانتظار خمس ثوانٍ بعد كل عملية مسح لبدء المرحلة التالية.

يفسر الآخرون هذا على أنه تعليمات لمسح صفحة واحدة فقط كل خمس ثوان. لا يمكن للروبوت إجراء مسح ضوئي أسرع للحفاظ على النطاق الترددي للخادم. إذا احتاج الخادم إلى مطابقة حركة المرور ، فيمكنه تعيين تأخير تجاوز. بشكل عام ، في معظم الحالات ، لا يحتاج المستخدمون إلى القلق بشأن هذا الأمر. هذه هي الطريقة التي يتم بها تعيين تأخير الزحف بمقدار ثماني ثوانٍ - تأخير الزحف: 8.

ولكن لن تلتزم جميع محركات البحث بهذا التوجيه ، لذلك عند عدم السماح بالصفحات ، يمكنك تعيين تأخيرات زحف مختلفة لمحركات بحث معينة. بعد إعداد جميع الإرشادات الموجودة في الملف ، يمكنك تحميله على الموقع ، وتأكد أولاً من أنه ملف نصي بسيط وله اسم robots.txt ويمكن العثور عليه على yoursite.com/robots.txt.

أفضل بوت WordPress

أفضل WordPress Bot
أفضل WordPress Bot

هناك بعض الملفات والأدلة على موقع WordPress تحتاج إلى قفلها في كل مرة. الدلائل التي يجب على المستخدمين عدم السماح بها هي دليل cgi-bin ومجلدات WP القياسية. لا تسمح بعض الخوادم بالوصول إلى دليل cgi-bin ، ولكن يجب على المستخدمين تضمينه في التوجيه disallow قبل تكوين Robots بشكل صحيح txt WordPress

أدلة WordPress القياسية ،التي يجب حظرها هي wp-admin و wp-content و wp-include. لا تحتوي هذه الأدلة على بيانات مفيدة في البداية لمحركات البحث ، ولكن هناك استثناء ، أي أن هناك دليلًا فرعيًا باسم التحميلات في دليل wp-content. يجب السماح بهذا الدليل الفرعي في ملف robot.txt لأنه يتضمن كل شيء يتم تحميله باستخدام ميزة تحميل وسائط WP. يستخدم WordPress العلامات أو الفئات لهيكلة المحتوى.

إذا تم استخدام الفئات ، فمن أجل عمل Robots txt الصحيح لـ Wordpress ، كما هو محدد من قبل الشركة المصنعة للبرنامج ، من الضروري حظر أرشيفات العلامات من البحث. أولاً ، يتحققون من قاعدة البيانات بالانتقال إلى لوحة "الإدارة" > "الإعدادات" > "الرابط الثابت".

بشكل افتراضي ، القاعدة هي العلامة ، إذا كان الحقل فارغًا: Disallow: / tag /. إذا تم استخدام فئة ، فيجب عليك تعطيل الفئة في ملف robot.txt: Disallow: / category /. بشكل افتراضي ، القاعدة هي العلامة ، إذا كان الحقل فارغًا: Disallow: / tag /. إذا تم استخدام فئة ، فيجب عليك تعطيل الفئة في ملف robot.txt: Disallow: / category /.

الملفات المستخدمة بشكل أساسي لعرض المحتوى ، سيتم حظرها بواسطة ملف Robots txt الصحيح لـ Wordpress:

الروبوتات TXT لـ WordPress
الروبوتات TXT لـ WordPress

الإعداد الأساسي لـ Joomla

بمجرد قيام المستخدم بتثبيت Joomla ، تحتاج إلى عرض إعداد Joomla Robots txt الصحيح في التكوين العام ، والذي يقع في لوحة التحكم. بعض الإعدادات هنا مهمة جدًا لتحسين محركات البحث. ابحث أولاً عن اسم الموقع وتأكد من ذلكيستخدم الاسم المختصر للموقع. ثم يجدون مجموعة من الإعدادات على يمين نفس الشاشة ، والتي تسمى إعدادات تحسين محركات البحث (SEO). الشيء الذي سيتعين تغييره بالتأكيد هو الثاني: استخدم عنوان URL لإعادة الكتابة.

هذا يبدو معقدًا ، لكنه يساعد Joomla بشكل أساسي في إنشاء عناوين URL أنظف. أكثر ما يمكن ملاحظته إذا قمت بإزالة سطر index.php من عناوين URL. إذا قمت بتغييره لاحقًا ، فستتغير عناوين URL ولن تعجب Google. ومع ذلك ، عند تغيير هذا الإعداد ، يجب اتخاذ عدة خطوات في نفس الوقت لإنشاء robots txt الصحيح لـ Joomla:

  1. ابحث عن ملف htaccess.txt في مجلد جذر جملة.
  2. ضع علامة عليه كـ htaccess (بدون امتداد).
  3. تضمين اسم الموقع في عناوين الصفحات.
  4. ابحث عن إعدادات البيانات الوصفية في الجزء السفلي من شاشة التكوين العامة.

روبوت في السحابة MODX

الروبوت في سحابة MODX
الروبوت في سحابة MODX

في السابق ، زودت MODX Cloud المستخدمين بالقدرة على التحكم في سلوك السماح بتقديم ملف robots.txt بناءً على تبديل في لوحة القيادة. بينما كان هذا مفيدًا ، كان من الممكن السماح عن طريق الخطأ بالفهرسة على مواقع التدريج / التطوير عن طريق تبديل خيار في لوحة المعلومات. وبالمثل ، كان من السهل تعطيل الفهرسة في موقع الإنتاج.

اليوم تفترض الخدمة وجود ملفات robots.txt في نظام الملفات مع الاستثناء التالي: أي مجال ينتهي بـ modxcloud.com سيكون بمثابة Disallow: / التوجيه لجميع وكلاء المستخدم ، بغض النظر عن التواجد أو عدم وجود الملف.ستحتاج مواقع الإنتاج التي تتلقى حركة زيارات حقيقية إلى استخدام المجال الخاص بها إذا أراد المستخدم فهرسة موقعه.

تستخدم بعض المؤسسات نص Robots txt الصحيح لـ modx لتشغيل مواقع ويب متعددة من تثبيت واحد باستخدام السياقات. الحالة التي يمكن فيها تطبيق ذلك ستكون موقعًا للتسويق العام مقترنًا بمواقع صغيرة للصفحة المقصودة وربما شبكة إنترانت غير عامة.

تقليديًا ، كان من الصعب القيام بذلك لعمليات التثبيت متعددة المستخدمين لأنها تشترك في نفس جذر الشبكة. مع MODX Cloud ، هذا سهل. ما عليك سوى تحميل ملف إضافي إلى موقع ويب يسمى robots-intranet.example.com.txt بالمحتوى التالي وسيمنع الفهرسة باستخدام الروبوتات التي تعمل جيدًا وستعود جميع أسماء المضيفين الأخرى إلى الملفات القياسية ما لم تكن هناك عُقد اسم محددة أخرى.

Robots.txt هو ملف مهم يساعد المستخدم على الارتباط بالموقع على Google ومحركات البحث الرئيسية ومواقع الويب الأخرى. يقع الملف في جذر خادم الويب ، ويرشد روبوتات الويب إلى الزحف إلى موقع ما ، وتعيين المجلدات التي يجب أو لا يجب فهرستها ، باستخدام مجموعة من الإرشادات تسمى بروتوكول استبعاد الروبوت. مثال على Robots txt الصحيح لجميع محركات البحث obots.txt من السهل القيام به مع SeoToaster. تم إنشاء قائمة خاصة له في لوحة التحكم ، لذلك لن يضطر الروبوت إلى الإفراط في العمل للوصول إليه.

موصى به: