الرئيسية / غير مصنف / عناكب الشبكة ملف robots.txt واوامرة بالتفصيل crawler,عناكب الشبكة

عناكب الشبكة ملف robots.txt واوامرة بالتفصيل crawler,عناكب الشبكة

زاحف الشبكة Web crawler  المفهرس التلقائي bot  والبوت عناكب الشبكة محرك البحث النمل Robots.txt GoogleBot Bingbot Slurp Bot DuckDuckBot Baiduspider Yandex  Web Spiders Bot

crawler,عناكب الشبكة
crawler,عناكب الشبكة

crawler,عناكب الشبكة

مهم جدا اقرا المقدمة اذا كنت لاتعرف الكثير

اولا   تتعرف او يتم ادراج موقعك في محركات البحث بواسطة زاحف الشبكة (بالإنجليزية: Web crawler) هو برنامج كمبيوتر يقوم بتصفح الشبكة العالمية بطريقة منهجية وآليه ومنظمة. هناك مصطلحات أخرى لزواحف الشبكة مثل النمل والمفهرس التلقائي، والبوت [1]، وعناكب الشبكة [2]، أو آليات الشبكة [2]. وهذه العملية تسمى الزحف علي الشبكة أو العنكبة.

كثير من المواقع، وبخاصة محركات البحث، تستخدم العنكبة كوسيلة لتوفير بيانات حديثة. وزواحف الشبكة تستخدم أساسا لإنشاء نسخ من جميع الصفحات التي يتم زيارتها لكى يفهرسها محرك البحث في وقت لاحق ويحمل الصفحات أثناء عمليات البحث بسرعة. ويمكن أيضا أن تستخدم الزواحف لاتمام مهام الصيانة على موقع علي الشبكة، مثل التحقق من صحة الروابط أو تعليمات لغة تحرير النص الفائق البرمجية. أيضا، يمكن استخدام الزواحف لجمع أنواع محددة من المعلومات من صفحات الشبكة، مثل حصاد عناوين البريد الإلكتروني (عادة لارسال رسائل غير المرغوب فيها).

وزاحف الشبكة هو أحد أنواع البوتات، أو وكلاء البرامج. بشكل عام، يبدأ زاحف الشبكة بقائمة من العناوين المرغوب في زيارتها، وتدعى هذه القائمة بالبذور. عندما يزور الزاحف هذه العناوين، فإنه يحدد كافة الارتباطات التشعبية في الصفحة ويضيفها إلى قائمة العناوين المطلوب زيارتها، وتدعى حدود الزحف. وتتم زيارة عناوين حدود الزحف بشكل متكرر وفقا لمجموعة من السياسات.

بسبب الحجم الكبير يمكن للزاحف تحميل جزء صغير فقط من صفحات الشبكة في غضون فترة زمنية معينة، لذلك يحتاج إلى إعطاء الأولوية في التنزيلات. ومعدل التغييرالمرتفع يعني أن بعض الصفحات قد يكون تم تحديثه أو حتى حذفها.
و عدد العناوين القابلة للزحف والتي تتولد من جانب البرمجيات الخادمة للمواقع على الشبكة جعلت من الصعب تجنب استرجاع محتويات مكرره أثناء الزحف على شبكة الإنترنت. يوجد تركيبات لانهائية من العناوين القائمة على أساس بروتوكول نقل النص الفائق، ولكن في الحقيقة لا يوجد سوى مجموعة صغيرة منها تعيد محتوى فريد. على سبيل المثال، قد يقدم عارض مبسط الصور على الإنترنت ثلاثة خيارات للمستخدمين، على النحو المحدد من خلال معلمات بروتوكول نقل النص الفائق في العنوان.
إذا كان هناك أربع طرق لفرز الصور، وثلاثة خيارات لحجم الصورة المصغرة، وطرقتين لتنسيق الملفات، بالإضافة إلى خيار لتعطيل المحتوى القادم من المستخدم، فنفس المجموعة من محتوى يمكن الوصول إليها من خلال 48 عناوين مختلفة، كل منها على الموقع. هذا التوافق الرياضي يخلق مشكلة للزواحف، لأنها يجب أن تفرز من خلال تركيبات لا تنتهي من تغييرات طفيفة نسبيا في لغة البرمجة من أجل استرداد محتوى فريد من نوعه. ويجب أن يختار الزاحف بعناية في كل خطوة الصفحات التي تلي في الزيارة.crawler,عناكب الشبكة
شرح وكيفيه عمل ملف الربوتس robots.txt وتوجيه عناكب البحث

وتوجيه عناكب البحث robots.txt الربوتس ملف شرح وكيفيه عمل
 هذا الملف يعمل بامرين وهما
 ----------------------------
 Disallow حجب
 --------------
 Allow سماح
 -------------
 عناكب محركات البحث المشهورة هي وهذه
 عناكب
 Google AdSense
 User-agent: Mediapartners-Google*
 Google
 User-agent: googlebot
 MSN
 User-agent: MSNBOT
 MSN2
 User-agent: msnbot-media/1.0
 ALEXA
 User-agent: alexa_site_report
 YAHOO
 User-agent: slurp

مثال علي هذا الملف

عمل الربوتس واعداده لا تدعه في موقعك وانتا لا تدرك ما محتوي والفائده منه الربوتس معني الرجل الالي او يطلق عليا باسم المتجولون
 يستخدم في توجيه العناكب تامره ما تريد ان يارشف وما لا تريد ارشفته اعلم ان الربوتس ملف يشاهده الجميع الزوار والعناكب لا تخفي معلومه
 لانك بذلك ستنشره بمحركات البحث عناكب محركات البحث قبل ان تقوم بالزحف الي صفحات موقعك تتحق من وجود الربوتس

يضع الملف في الرئسيه لان العناكب تبحث عن الربوتس في مسار robots.txt

ومن خلاله تتبع المسار الذي مراد حجبه تقوم بحذف المسار الذي حجبته ومنعته من الزحف وتضع مكانه “/robots.txt”
 كل ما يتعلق بالملف وفائده معني كلمه ربوتس هي الرجل الالي او المتجولون هو يستخدم لتوجيه عناكب محركات البحث تشير بيه عن ما يارشف وما يمنع من الارشفه
 اعلم الربوتس متاح للزوار والعناكب فلا تفكر ان تخفي معلومه لان بذلك انتا لا تخفيها انتا تنشرهاوهو يقوم بحذف مسار الرابط وتضع مكانه المسار”/robots.txt”
 النعناكب عباره عن برامج تتصفح موقعك تلقائي يوجد بعض العناكب التي تتجاهل الربوتس وتدخل لكي تبحث عن ثغرات امنيه وايميلات
 كيفيه عمل ملف الربوتس واعداده لموقعك لان العناكب قبل ان تذحف الي صفحات موقعك تتحق من وجد ملف الربوتس

اجعل اسمه هكذا robots.txt وليس هكذا Robots.TXT

1 كل الموقع متاح لجميع العناكب
 * : User-agent 
 
 :allow 

2 كل الموقع محجوب عن جميع العناكب
 * :User-agent 

 :Disallow 
3 حجب جزء من الموقع عن حميع العناكب مثل صفحة الادمن والصور والملجدات الخاصة والسماح لهم بباقي الموقع
  * :User-agent 
 Disallow: /cgi-bin
 Disallow: /images
 Disallow: /vb/admincp/index.php
 Disallow: /vb/includes
4 حجب عناكب محرك معين عن دخول موقعك والسماح للاخرى

 اولا عليك ان تعرف نوع العناكب
 يوجد عناكب تتجاهل الربوتس تدخل موقعك تبحث عن ثغرات امنيه وايميلات
User-again: googlebot
:Allow 
  / :Disallow
5 حجب حميع محركات البحث ماعادا محركات معينة
 User-agent: googlebot
/ :Allow  
User-agent: MSNBOT
/ :Allow
User-agent: *
 Disallow
6 منع محرك بحث معين من الدخو لمنطقة معينة مع السماح لباقي المحركات بدخول جميع الاماكن
 User-agent: googlebot
 Disallow: /cgi-bin
 Disallow: /images
 Disallow: /vb/admincp/index.php
 Disallow: /vb/includes
 User-agent: * Allow: 
www وضعه في رئسيه الموقع في مجلد robots.txt قم بحفظ الكود في ملف txt

crawler,عناكب الشبكة crawler,عناكب الشبكة

ملف robots.txt قوقل Google رابط الموقع

هنا

المصدر – عرب سيو

 

Save

شاهد أيضاً

فرنسا تعتزم تطبيق حظر على هواتف التلاميذ في المدارس

مصدر الصورة Getty Images Image caption هناك قلق من أن الكثير من الأطفال الصغار مستخدمون… إقرا المزيد

اترك رد

%d مدونون معجبون بهذه: