كيفية منع موقع من الفهرسة في ملف robots.txt: الإرشادات والتوصيات

جدول المحتويات:

كيفية منع موقع من الفهرسة في ملف robots.txt: الإرشادات والتوصيات
كيفية منع موقع من الفهرسة في ملف robots.txt: الإرشادات والتوصيات
Anonim

عمل مُحسِّن SEO واسع النطاق جدًا. يُنصح المبتدئين بتدوين خوارزمية التحسين حتى لا تفوتهم أي خطوات. خلاف ذلك ، لن يتم اعتبار الترويج ناجحًا ، حيث سيواجه الموقع باستمرار إخفاقات وأخطاء يجب تصحيحها لفترة طويلة.

إحدى خطوات التحسين هي العمل مع ملف robots.txt. يجب أن يحتوي كل مورد على هذا المستند ، لأنه بدونه سيكون من الصعب التعامل مع التحسين. يؤدي العديد من الوظائف التي يجب أن تفهمها.

مساعد الروبوت

ملف robots.txt هو مستند نص عادي يمكن عرضه في المفكرة القياسية للنظام. عند إنشائه ، يجب عليك ضبط التشفير على UTF-8 حتى يمكن قراءته بشكل صحيح. يعمل الملف مع بروتوكولات http و https و FTP.

هذا المستند هو مساعد للبحث عن الروبوتات. في حالة عدم معرفتك ، يستخدم كل نظام "عناكب" تزحف بسرعة إلى شبكة الويب العالمية لإرجاع المواقع ذات الصلة للاستعلامات.المستخدمين. يجب أن يكون لدى برامج الروبوت هذه حق الوصول إلى بيانات الموارد ، حيث يعمل ملف robots.txt لهذا الغرض.

لكي تجد العناكب طريقها ، تحتاج إلى إرسال مستند robots.txt إلى الدليل الجذر. للتحقق مما إذا كان الموقع يحتوي على هذا الملف ، أدخل "https://site.com.ua/robots.txt" في شريط عنوان المتصفح. بدلا من "site.com.ua" تحتاج إلى إدخال المورد الذي تحتاجه.

العمل مع ملف robots.txt
العمل مع ملف robots.txt

وظائف المستند

يوفر ملف robots.txt لبرامج الزحف عدة أنواع من المعلومات. يمكن أن يعطي وصولاً جزئياً بحيث يقوم "العنكبوت" بمسح عناصر محددة من المورد. يسمح لك الوصول الكامل بالتحقق من جميع الصفحات المتاحة. يمنع الحظر الكامل الروبوتات من البدء في الفحص ، ويغادرون الموقع.

بعد زيارة المورد تتلقى "العناكب" الرد المناسب على الطلب. قد يكون هناك العديد منهم ، كل هذا يتوقف على المعلومات الموجودة في ملف robots.txt. على سبيل المثال ، إذا كان الفحص ناجحًا ، فسوف يتلقى الروبوت الرمز 2xx.

ربما تم إعادة توجيه الموقع من صفحة إلى أخرى. في هذه الحالة ، يتلقى الروبوت الرمز 3xx. إذا حدث هذا الرمز عدة مرات ، فسيتبعه العنكبوت حتى يتلقى استجابة أخرى. على الرغم من أنه ، كقاعدة عامة ، يستخدم 5 محاولات فقط. خلاف ذلك ، يظهر خطأ 404 الشائع.

إذا كانت الإجابة هي 4xx ، فيُسمح للروبوت بالزحف إلى محتوى الموقع بالكامل. لكن في حالة رمز 5xx ، قد يتوقف الفحص تمامًا ، لأن هذا يشير غالبًا إلى أخطاء مؤقتة في الخادم.

البحث في الروبوتات
البحث في الروبوتات

لماذاتحتاج ملف robots.txt؟

كما قد تكون خمنت ، هذا الملف هو دليل الروبوتات لجذر الموقع. الآن يتم استخدامه لتقييد الوصول جزئيًا إلى المحتوى غير اللائق:

  • صفحات تحتوي على معلومات شخصية للمستخدمين ؛
  • مواقع مرآة ؛
  • نتائج بحث ؛
  • نماذج إرسال البيانات ، إلخ.

إذا لم يكن هناك ملف robots.txt في جذر الموقع ، فسيقوم الروبوت بالزحف إلى كل المحتوى تمامًا. وفقًا لذلك ، قد تظهر بيانات غير مرغوب فيها في نتائج البحث ، مما يعني أن كلاكما أنت والموقع سيتأثران. إذا كانت هناك تعليمات خاصة في مستند robots.txt ، فسيتبعها "العنكبوت" ويعطي المعلومات التي يطلبها مالك المورد.

العمل مع ملف

لاستخدام ملف robots.txt لمنع الموقع من الفهرسة ، تحتاج إلى معرفة كيفية إنشاء هذا الملف. للقيام بذلك ، اتبع التعليمات:

  1. إنشاء مستند في Notepad أو Notepad ++.
  2. تعيين امتداد الملف ".txt".
  3. أدخل البيانات والأوامر المطلوبة.
  4. احفظ المستند وقم بتحميله على جذر الموقع.

كما ترى ، في إحدى المراحل ، من الضروري تعيين أوامر للروبوتات. وهما نوعان: السماح (السماح) والنهي (عدم السماح). أيضًا ، قد يحدد بعض المُحسِنين سرعة الزحف والمضيف والارتباط بخريطة صفحة المورد.

كيفية إغلاق موقع من الفهرسة
كيفية إغلاق موقع من الفهرسة

لبدء العمل مع ملف robots.txt وحظر الموقع تمامًا من الفهرسة ، يجب عليك أيضًا فهم الرموز المستخدمة. على سبيل المثال ، في وثيقةاستخدم "/" ، مما يشير إلى أنه تم تحديد الموقع بالكامل. إذا تم استخدام "" ، فإن تسلسل الأحرف مطلوب. بهذه الطريقة ، سيكون من الممكن تحديد مجلد معين يمكن مسحه ضوئيًا أم لا.

ميزة الروبوتات

تختلف "العناكب" بالنسبة لمحركات البحث ، لذا إذا كنت تعمل مع العديد من محركات البحث في وقت واحد ، فسيتعين عليك أخذ هذه اللحظة في الاعتبار. تختلف أسمائهم ، مما يعني أنه إذا كنت تريد الاتصال بإنسان آلي معين ، فسيتعين عليك تحديد اسمه: "User Agent: Yandex" (بدون علامات اقتباس).

إذا كنت تريد تعيين توجيهات لجميع محركات البحث ، فأنت بحاجة إلى استخدام الأمر: "User Agent: " (بدون علامات الاقتباس). من أجل منع الموقع بشكل صحيح من الفهرسة باستخدام ملف robots.txt ، تحتاج إلى معرفة خصائص محركات البحث الشائعة.

الحقيقة هي أن أشهر محركات البحث Yandex و Google لديها العديد من الروبوتات. كل واحد منهم لديه مهامه الخاصة. على سبيل المثال ، يعد Yandex Bot و Googlebot "العناكب" الرئيسية التي تزحف إلى الموقع. بمعرفة جميع الروبوتات ، سيكون من الأسهل ضبط فهرسة الموارد الخاصة بك.

كيف يعمل ملف robots.txt
كيف يعمل ملف robots.txt

أمثلة

إذن ، بمساعدة ملف robots.txt ، يمكنك إغلاق الموقع من الفهرسة بأوامر بسيطة ، الشيء الرئيسي هو فهم ما تحتاجه على وجه التحديد. على سبيل المثال ، إذا كنت تريد ألا يقترب Googlebot من موردك ، فأنت بحاجة إلى إعطائه الأمر المناسب. سيبدو بالشكل: "User-agent: Googlebot Disallow: /" (بدون علامات اقتباس).

الآن نحن بحاجة إلى فهم ما هو موجود في هذا الأمر وكيف يعمل. لذلك "وكيل المستخدم"يستخدم من أجل استخدام اتصال مباشر بأحد الروبوتات. بعد ذلك ، نشير إلى أي واحد ، في حالتنا هو Google. يجب أن يبدأ الأمر "Disallow" في سطر جديد ويمنع الروبوت من دخول الموقع. يشير رمز الشرطة المائلة في هذه الحالة إلى أنه تم تحديد كافة صفحات المورد لتنفيذ الأمر.

ما هو ملف robots.txt؟
ما هو ملف robots.txt؟

في ملف robots.txt ، يمكنك تعطيل الفهرسة لجميع محركات البحث باستخدام أمر بسيط: "User-agent:Disallow: /" (بدون علامات الاقتباس). تشير علامة النجمة في هذه الحالة إلى جميع روبوتات البحث. عادةً ما يكون مثل هذا الأمر مطلوبًا لإيقاف فهرسة الموقع مؤقتًا وبدء العمل الأساسي عليه ، مما قد يؤثر على التحسين.

إذا كان المورد كبيرًا ويحتوي على العديد من الصفحات ، فغالبًا ما يحتوي على معلومات ملكية غير مرغوب فيها الإفصاح عنها ، أو يمكن أن تؤثر سلبًا على الترويج. في هذه الحالة ، تحتاج إلى فهم كيفية إغلاق الصفحة من الفهرسة في ملف robots.txt.

يمكنك إخفاء مجلد أو ملف. في الحالة الأولى ، تحتاج إلى البدء من جديد عن طريق الاتصال بروبوت معين أو بكل شخص ، لذلك نستخدم الأمر "User-agent" ، وفيما يلي نحدد الأمر "Disallow" لمجلد معين. سيبدو بالشكل التالي: "Disallow: / folder /" (بدون علامات اقتباس). بهذه الطريقة تخفي المجلد بأكمله. إذا كان يحتوي على بعض الملفات المهمة التي ترغب في عرضها ، فأنت بحاجة إلى كتابة الأمر أدناه: "Allow: /folder/file.php" (بدون علامات اقتباس).

فحص الملف

في حالة استخدام ملف robots.txt لإغلاق الموقع منلقد نجحت في الفهرسة ، لكنك لا تعرف ما إذا كانت جميع توجيهاتك تعمل بشكل صحيح ، يمكنك التحقق من صحة العمل.

أولاً ، تحتاج إلى التحقق من وضع المستند مرة أخرى. تذكر أنه يجب أن يكون حصريًا في المجلد الجذر. إذا كان في المجلد الجذر ، فلن يعمل. بعد ذلك ، افتح المتصفح وأدخل العنوان التالي هناك: “https:// yoursite. com / robots.txt (بدون علامات اقتباس). إذا حصلت على خطأ في متصفح الويب الخاص بك ، فالملف ليس في المكان الذي يجب أن يكون فيه.

كيفية إغلاق مجلد من الفهرسة
كيفية إغلاق مجلد من الفهرسة

يمكن التحقق من التوجيهات في أدوات خاصة يستخدمها جميع مشرفي المواقع تقريبًا. نحن نتحدث عن منتجات Google و Yandex. على سبيل المثال ، يوجد في Google Search Console شريط أدوات حيث تحتاج إلى فتح "الزحف" ، ثم تشغيل "أداة فحص ملف Robots.txt". تحتاج إلى نسخ جميع البيانات من المستند إلى النافذة والبدء في المسح. يمكن إجراء نفس الفحص بالضبط في Yandex. Webmaster.

موصى به: