वेबसाइट क्रॉलिंग 101: वेब क्रॉलर के लिए शुरुआती गाइड

वेबसाइट क्रॉलिंग खोज इंजन बॉट्स की प्रक्रिया है जो खोज इंजन के लिए पृष्ठों को खोजने और अनुक्रमित करने के लिए इंटरनेट पर "क्रॉलिंग" करती है।
अंतिम अद्यतन 3 नवंबर, 2023

वेबसाइट क्रॉलिंग खोज इंजन को खोजकर्ताओं को प्रासंगिक सामग्री खोजने और वितरित करने की अनुमति देता है। यह वेबसाइट क्रॉलिंग 101 गाइड साइट क्रॉलिंग और वेब क्रॉलर के बारे में आपको जो कुछ भी जानने की आवश्यकता है, उसे कवर करती है, तो चलिए शुरू करें!

वेबसाइट क्रॉलिंग 101 गाइड अवलोकन

वेबसाइट क्रॉलिंग क्या है?

वेबसाइट क्रॉलिंग खोज इंजन बॉट्स की प्रक्रिया है जो खोज इंजन के लिए पृष्ठों को खोजने और अनुक्रमित करने के लिए इंटरनेट पर क्रॉल करते हैं। खोज इंजन उपयोगकर्ताओं को खोज परिणामों में प्रासंगिक वेबसाइटों को वितरित करने के लिए पृष्ठों को अनुक्रमित करने के लिए बॉट, या वेब क्रॉलर पर भरोसा करते हैं।

वेबसाइट क्रॉलिंग महत्वपूर्ण क्यों है?

वेबसाइट क्रॉलिंग के बिना, Google जैसे खोज इंजन को पता नहीं होगा कि आपकी वेबसाइट मौजूद है, और इसलिए, आपके पृष्ठ खोज इंजन परिणाम पृष्ठों (SERPs) में रैंक नहीं करेंगे। जाहिर है, यह सुनिश्चित करना कि आपकी सामग्री क्रॉल करने योग्य है, बेहद महत्वपूर्ण है यदि आप इसे अच्छी तरह से रैंक करना चाहते हैं।

वेबसाइट क्रॉलिंग कैसे काम करता है?

हम वेबसाइट क्रॉलिंग कैसे काम करता है, इसकी प्रक्रिया को इन चरणों में तोड़ सकते हैं:

  1. सर्च इंजन क्रॉलर इंटरनेट पर वेब पेजों को खंगालते हैं: खोज इंजन बॉट वेब पृष्ठों पर डेटा की पहचान करने और एकत्र करने के लिए पृष्ठों पर लिंक के बीच से गुजरकर वेबसाइटों को क्रॉल करते हैं।
  2. खोज इंजन क्रॉलर वेब पृष्ठों के बारे में डेटा एकत्र करते हैं: जैसा कि खोज इंजन क्रॉलर इंटरनेट पर विभिन्न वेब पेज पाते हैं, वे उन पृष्ठों के बारे में जानकारी एकत्र करते हैं, जैसे कि उनके शीर्षक, मेटा विवरण, प्रतिलिपि और बहुत कुछ।
  3. सर्च इंजन क्रॉलर सर्च इंजन को डेटा भेजते हैं: सर्च इंजन क्रॉलर द्वारा किसी वेब पेज के बारे में जानकारी इकट्ठा करने के बाद, वे उस डेटा को सर्च इंजन को भेजते हैं।
  4. खोज इंजन वेब पेज को अनुक्रमित करते हैं: एक बार जब कोई खोज इंजन क्रॉलर से वेब पेज के बारे में डेटा प्राप्त करता है, तो यह अपने डेटाबेस में डेटा को संग्रहीत और वर्गीकृत करेगा, जिसे इंडेक्सिंग भी कहा जाता है।
  5. खोज इंजन वेब पेज को रैंक करते हैं: जब कोई उपयोगकर्ता खोज इंजन का उपयोग करके कुछ खोजता है, तो वह खोज इंजन खोज परिणामों में क्वेरी के लिए सर्वश्रेष्ठ वेबसाइटों को वापस करने के लिए अपने डेटाबेस में वेब पृष्ठों के माध्यम से खुदाई करेगा।

वेबसाइट क्रॉलिंग खोज इंजन, उपयोगकर्ताओं और व्यवसायों के लिए समान रूप से बेहद महत्वपूर्ण है। खोज इंजन के लिए, क्रॉल किए बिना, वे उपयोगकर्ताओं की आवश्यकता की जानकारी और उत्तर देने में सक्षम नहीं होंगे।

और व्यवसायों के लिए, यदि आपकी वेबसाइट क्रॉल नहीं की जाती है और खोज इंजन आपके पृष्ठों को अनुक्रमित नहीं करते हैं, तो आपकी साइट खोज परिणामों में रैंक नहीं करेगी, और उपयोगकर्ता आपके व्यवसाय को खोजने में सक्षम नहीं होंगे।

यह सरल है.

यदि Google आपकी सामग्री नहीं ढूँढ सकता है, तो Google आपकी वेबसाइट को रैंक करने के लिए कैसे जानता होगा?

अब जब आप जानते हैं कि वेब क्रॉलर क्या है और वेबसाइट क्रॉलिंग कैसे काम करती है, तो आइए हमारी वेबसाइट क्रॉलिंग 101 गाइड के अगले अध्याय में गोता लगाएं - वेबसाइट क्रॉलिंग के लिए कैसे अनुकूलित करें।

वेबसाइट क्रॉलिंग के लिए ऑप्टिमाइज़ कैसे करें

आपको यह सुनिश्चित करना होगा कि खोज परिणामों में रैंक करने के लिए आपकी साइट को खोज इंजन द्वारा क्रॉल और अनुक्रमित किया जा सकता है ताकि उपयोगकर्ता आपके व्यवसाय की खोज कर सकें।

लेकिन आप यह कैसे सुनिश्चित कर सकते हैं कि खोज इंजन आपकी साइट को क्रॉल करें?

यहां बताया गया है कि वेबसाइट क्रॉलिंग के लिए कैसे अनुकूलित किया जाए ताकि यह सुनिश्चित हो सके कि खोज इंजन आपके पृष्ठों को इंडेक्स और रैंक कर सकें:

  1. सुनिश्चित करें कि आपकी सर्वर प्रतिक्रिया यथासंभव तेज है
  2. अपने पृष्ठ लोड गति में सुधार करें
  3. अपनी साइट पर अधिक आंतरिक लिंक जोड़ें
  4. Google को अपना साइटमैप सबमिट करें
  5. निम्न-गुणवत्ता और डुप्लिकेट सामग्री निकालें
  6. किसी भी टूटे हुए लिंक को ढूंढें और ठीक करें
  7. खोज इंजन को सूचित करें कि उन्हें रोबोट.txt फ़ाइलों के साथ आपकी साइट को कैसे क्रॉल करना चाहिए
  8. अपने रीडायरेक्ट की जाँच करें

1. सुनिश्चित करें कि आपकी सर्वर प्रतिक्रिया तेज है

क्रॉलिंग आपकी वेबसाइट पर भारी पड़ सकता है। यही कारण है कि एक उच्च प्रदर्शन सर्वर होना महत्वपूर्ण है। आपका सर्वर आपके सर्वर पर किसी भी कहर के बिना खोज इंजन से बहुत सारे क्रॉलिंग को संभालने में सक्षम होना चाहिए, जैसे कि इसके प्रतिक्रिया समय को कम करना।

साइट होस्ट स्थिति रिपोर्ट के साथ अपने सर्वर प्रतिसाद समय की आसानी से जाँच करने के लिए Google Search Console का उपयोग करें. आप 300 मिलीसेकंड से कम के प्रतिक्रिया समय का लक्ष्य रखना चाहेंगे।

होस्ट स्थिति रिपोर्ट जिसने कोई समस्या नहीं दी

2. अपने पेज लोड गति में सुधार करें

न केवल आपके पेज लोड की गति उपयोगकर्ताओं को प्रभावित करती है, बल्कि यह वेबसाइट क्रॉलर को भी प्रभावित कर सकती है। वेब क्रॉलर आमतौर पर क्रॉल बजट के रूप में जाना जाता है - पृष्ठों की संख्या खोज इंजन एक निश्चित समय सीमा के भीतर एक वेबसाइट पर क्रॉल होंगे।

Google PageSpeed इनसाइट्स मुखपृष्ठ

वेब क्रॉलर आपके पृष्ठों के लोड होने के लिए पूरे दिन प्रतीक्षा नहीं कर सकते हैं ताकि वे उन्हें क्रॉल कर सकें। अपने पृष्ठ की लोड गति में सुधार करें, ताकि यह सुनिश्चित करने के लिए कि आपके सभी पृष्ठों को सफलतापूर्वक क्रॉल किया जा सके, सब कुछ जितनी जल्दी हो सके लोड हो। आप Google के PageSpeed Insights टूल का उपयोग करके अपनी साइट की गति की जांच कर सकते हैं।

प्रो टिप्स
  1. हमारा मुफ्त एसईओ चेकर आपके पृष्ठ की गति का विश्लेषण कर सकता है, यदि आवश्यक हो तो इसे सुधारने के तरीकों की सूची बना सकता है, और यहां तक कि उन विशिष्ट फ़ाइलों को भी उजागर कर सकता है जिन्हें आप अपनी साइट को गति देने के लिए संपीड़ित कर सकते हैं। अपनी कस्टम रिपोर्ट प्राप्त करने के लिए अपनी वेबसाइट दर्ज करें।
  2. आप अपनी साइट का वर्तमान लोड समय देखने के लिए Google के पृष्ठ गति अंतर्दृष्टि टूल का भी उपयोग कर सकते हैं. Google खोज कंसोल में अपनी मुख्य वेब विटल्स रिपोर्ट खोलें और देखें कि आपकी लोड गति को वास्तव में क्या धीमा कर रहा है और इसे सुधारने के लिए कदम उठाएं।

3. अपनी साइट पर अधिक आंतरिक लिंक जोड़ें

हमने पहले उल्लेख किया है कि वेब क्रॉलर आपके पृष्ठों पर लिंक के बीच से गुजरकर आपकी वेबसाइट को क्रॉल करते हैं। आंतरिक लिंक और अव्यवस्थित संरचना की कमी क्रॉलर के लिए आपके पृष्ठों को सटीक रूप से क्रॉल और इंडेक्स करना मुश्किल बनाती है।

अपनी आंतरिक लिंकिंग रणनीति में सुधार करना वेबसाइट क्रॉलिंग के लिए अनुकूलित करने के सर्वोत्तम तरीकों में से एक है। अपनी आंतरिक लिंकिंग रणनीति को मजबूत करने के लिए अपनी सामग्री और वेबसाइट को अपनी साइट के अन्य पृष्ठों पर आंतरिक लिंक जोड़ें।

प्रो टिप्स
  1. सुनिश्चित करें कि आपका होम पेज आपकी साइट के अन्य महत्वपूर्ण पृष्ठों से लिंक करता है और वे पृष्ठ आपकी वेबसाइट के अन्य पृष्ठों से भी लिंक होते हैं। जितनी जल्दी क्रॉलर आपकी सबसे महत्वपूर्ण सामग्री पा सकता है, उतना ही बेहतर है।
  2. अपनी साइट के प्रासंगिक पृष्ठों पर अपनी सामग्री के पाठ में लिंक जोड़ें. अपनी साइट के अन्य क्षेत्रों में भी शाखाओं को बाहर निकालने का प्रयास करें ताकि क्रॉलर उन गहरे पृष्ठों को ढूंढ सके।
  3. उपयोगकर्ताओं के लिए आगे पढ़ने की सिफारिश करने और खोज इंजन को आपकी साइट पर अधिक पृष्ठों को क्रॉल करने में मदद करने के लिए अपने ब्लॉग पोस्ट और लेखों के निचले भाग में नेविगेशनल लिंक जोड़ने पर विचार करें।

4. Google पर अपना साइटमैप सबमिट करें

वेबसाइट क्रॉलिंग के लिए ऑप्टिमाइज़ करने के तरीके के लिए एक और शीर्ष टिप यह है कि आप अपने साइटमैप को Google पर सबमिट करके पहल करें।

चारों ओर बैठना और Google के खोज इंजन बॉट्स द्वारा आपकी साइट को क्रॉल करने की प्रतीक्षा करना अच्छा नहीं है, जब वे ऐसा महसूस करते हैं जब आप अभी तैयार हों।

Google Search Console में "एक नया साइटमैप जोड़ें" स्क्रीनशॉट

इसके बजाय, Google को वह सब कुछ खोजने के लिए मानचित्र दें जो आप चाहते हैं कि वह Google Search Console के भीतर क्रॉल करे.

अपनी साइट के सभी पृष्ठों का संपूर्ण रोडमैप प्रदान करने के लिए अपने साइटमैप को Google को सबमिट करें ताकि Google उन्हें तुरंत अनुक्रमित कर सके.

प्रो टिप

आप Google Search Console के माध्यम से Google को अपना साइटमैप सबमिट कर सकते हैं. बस "इंडेक्सिंग" के तहत मेनू पर "साइटमैप" पर क्लिक करें। फिर, आप अपना साइटमैप अपलोड कर सकते हैं और सबमिट का चयन कर सकते हैं!

5. कम गुणवत्ता और डुप्लिकेट सामग्री निकालें

एक खोज इंजन का मुख्य लक्ष्य उपयोगकर्ताओं को ऑनलाइन खोज करते समय एक महान अनुभव प्रदान करना है, और इसमें उन्हें मूल्यवान सामग्री दिखाना शामिल है जो उनके सवालों के जवाब देता है और उन्हें उपयोगी जानकारी प्रदान करता है।

क्रॉलर को मिलने वाला प्रत्येक पृष्ठ एक और पृष्ठ है जिसे वह किसी दिए गए समय अवधि में नहीं देख पाता है। इसलिए यदि आपकी साइट पर बहुत सारे कम मूल्य वाले पृष्ठ हैं जो क्रॉलर का समय बर्बाद कर रहे हैं, तो अच्छी चीजें खोजने में उतना ही अधिक समय लगेगा।

यदि Google जैसे खोज इंजन नहीं सोचते हैं कि आपकी सामग्री उपयोगी या मूल्यवान है, तो वे आपके पृष्ठों को अनुक्रमित नहीं कर सकते हैं। डुप्लिकेट सामग्री खोज इंजन क्रॉलर को भी भ्रमित कर सकती है और उन्हें अनिश्चित बना सकती है कि किस पृष्ठ को अनुक्रमित करना है।

इन कम-गुणवत्ता वाले और डुप्लिकेट पृष्ठों को ढूंढना और वेबसाइट क्रॉलिंग के लिए अपनी साइट को अनुकूलित करने के लिए उन्हें हटाना सबसे अच्छा अभ्यास है।

प्रो टिप

यह सुनिश्चित करने के लिए Google की उपयोगी सामग्री युक्तियों की समीक्षा करें कि आप उपयोगकर्ताओं के लिए मूल्यवान सामग्री का उत्पादन करें. आप डुप्लिकेट टैग की तलाश करके Google Search Console में अपनी क्रॉल आँकड़े रिपोर्ट के माध्यम से डुप्लिकेट सामग्री की पहचान भी कर सकते हैं.

6. किसी भी टूटे हुए लिंक को ढूंढें और ठीक करें

टूटे हुए लिंक खोज इंजन क्रॉलर या आपकी वेबसाइट के आगंतुकों के लिए अच्छे नहीं हैं, इसलिए उन्हें जितनी जल्दी हो सके ढूंढना और ठीक करना हमेशा एक अच्छा विचार है।

आपको टूटे हुए लिंक के लिए नियमित रूप से अपनी वेबसाइट की जांच करने पर भी विचार करना चाहिए ताकि यह सुनिश्चित हो सके कि आप पॉप अप होने पर उन्हें हटा सकते हैं।

यदि आपके पास पर्याप्त मात्रा में टूटे हुए आंतरिक लिंक या रीडायरेक्ट हैं, तो यह क्रॉलर के माध्यम से कूदने के लिए अतिरिक्त हूप्स बनाता है। यह बहुत सारे बर्बाद क्रॉल बजट बनाता है।

प्रो टिप

404 त्रुटियों को आसानी से खोजने के लिए Google Search Console या Creaming Frog जैसे टूल का उपयोग करें और या तो उन लिंक को रीडायरेक्ट करें, उन्हें अपडेट करें, या उन्हें पूरी तरह से हटा दें।

7. खोज इंजन को बताएं कि उन्हें रोबोट.txt फ़ाइलों के साथ आपकी साइट को कैसे क्रॉल करना चाहिए

एक रोबोट .txt फ़ाइल सीधे आपकी साइट की जड़ में एक सादा पाठ फ़ाइल है और बॉट्स से ट्रैफ़िक का प्रबंधन करने और आपकी वेबसाइट को अनुरोधों से ओवररन होने से रोकने के लिए जिम्मेदार है। Google आमतौर पर रोबोट का पालन करता है.txt फ़ाइल करता है और आपके द्वारा परिभाषित नियमों के आधार पर आपकी साइट को क्रॉल करता है या क्रॉल नहीं करता है

रोबोट.txt फ़ाइलें आपको खोज इंजन क्रॉलर को यह बताने में मदद करती हैं कि आप उन्हें अपनी वेबसाइट क्रॉल करने के लिए कैसे चाहते हैं। उदाहरण के लिए, आप Google को शॉपिंग कार्ट या निर्देशिका जैसे पृष्ठों को क्रॉल न करने के लिए कह सकते हैं।

प्रो टिप

रोबोट.txt फ़ाइलें मुश्किल हो सकती हैं, और यदि आप सावधान नहीं हैं, तो आप खोज इंजन क्रॉलर को आपकी साइट पर महत्वपूर्ण पृष्ठों को क्रॉल नहीं करने का कारण बन सकते हैं। हमने देखा है कि व्यवसाय गलती से Google को पूरी तरह से ब्लॉक कर देते हैं, इसलिए सावधान रहें और अपने रोबोट .txt फ़ाइल को दोबारा जांचें!

8. अपने रीडायरेक्ट की जांच करें

उपयोगकर्ताओं को आपकी साइट पर एक पृष्ठ से एक नए या अधिक प्रासंगिक पृष्ठ पर निर्देशित करता है और अधिकांश वेबसाइटों के उपयोग के लिए काफी आम है।

हालाँकि, यदि आप सावधान नहीं हैं, तो आप कुछ गलतियाँ कर सकते हैं जिससे खोज इंजन क्रॉलर भ्रमित हो जाते हैं और आपके पृष्ठों को सफलतापूर्वक क्रॉल करने में असमर्थ होते हैं, जिससे खोज परिणामों में आपकी रैंकिंग को नुकसान होता है।

उदाहरण के लिए, यह सुनिश्चित करना महत्वपूर्ण है कि आपका रीडायरेक्ट उपयोगकर्ताओं (और क्रॉलर) को एक प्रासंगिक पृष्ठ पर निर्देशित करता है और एक रीडायरेक्टिंग लूप बनाने से सावधान रहता है - जहां आप उपयोगकर्ताओं को एक पृष्ठ पर निर्देशित करते हैं, जो उन्हें दूसरे पर रीडायरेक्ट करता है, और इसी तरह।

प्रो टिप

अपनी साइट के रीडायरेक्ट की जांच करने के लिए स्किलिंग फ्रॉग जैसे टूल का उपयोग करें, यह सुनिश्चित करें कि वे टिप-टॉप आकार में हैं, और किसी भी रीडायरेक्ट लूप को पहचानें और निकालें।

3 कारण क्यों आपकी साइट क्रॉल नहीं हो रही है (और इसे कैसे ठीक करें!)

क्या आपकी वेबसाइट खोज इंजन द्वारा क्रॉल या अनुक्रमित नहीं हो रही है? कुछ सामान्य कारणों का निवारण करें कि आपकी साइट क्रॉल क्यों नहीं की जाती है और नीचे दी गई समस्या को कैसे ठीक करें!

  1. आपका पृष्ठ खोज योग्य नहीं है
  2. आपके सर्वर में कोई त्रुटि आई
  3. आपका क्रॉल बजट कम है

1. आपका पृष्ठ खोज योग्य नहीं है

कभी-कभी, खोज इंजन आपके पृष्ठ या साइट को क्रॉल नहीं कर सकते क्योंकि वे बस इसे नहीं ढूंढ सकते हैं! यदि आपके पास निम्न में से एक या अधिक समस्याएँ हैं, तो हो सकता है कि खोज इंजन आपकी वेबसाइट को खोजने में सक्षम न हों:

  • आपके पेज में आपकी साइट के अन्य पृष्ठों पर कोई आंतरिक लिंक नहीं है
  • आपका पेज उस साइटमैप में सूचीबद्ध नहीं था जिसे आपने Google को सबमिट किया था
  • आपकी वेबसाइट लोड करने के लिए बहुत धीमी है
  • आपके पास मेटा टैग या रोबोट की फ़ाइल के माध्यम से पृष्ठ को अनुक्रमित .txt गया है

इसे कैसे ठीक करें

  • अपनी वेबसाइट के अन्य पृष्ठों से अपने पृष्ठ पर आंतरिक लिंक जोड़ें
  • अपने साइटमैप में अपना पेज जोड़ें और Google को फिर से सबमिट करें
  • Google Search Console की कोर वेब वाइटल्स रिपोर्ट का उपयोग करके अपने पेज लोड की गति ऑप्टिमाइज़ करें

2. आपके सर्वर में कोई त्रुटि आई

आपकी वेबसाइट क्रॉल नहीं हो रही है, इसके कारणों की हमारी सूची में अगला यह है कि आपके सर्वर को एक त्रुटि का सामना करना पड़ा।

यह आवश्यक है कि आपका सर्वर आपकी साइट को क्रॉल करने वाले खोज इंजन बॉट्स के तनाव को संभाल सके। यदि आपके सर्वर का प्रतिक्रिया समय बहुत धीमा है या लगातार त्रुटियों के अधीन है, तो यह खोज इंजन क्रॉलर को आपके पृष्ठों को क्रॉल करने और अनुक्रमित करने से रोक सकता है।

इसे कैसे ठीक करें

Google Search Console की अनुक्रमणिका रिपोर्ट में सर्वर त्रुटियों और 5xx त्रुटियों को देखें या त्रुटियों की त्वरित पहचान करने के लिए स्किलिंग फ्रॉग जैसे उपकरण का उपयोग करके.

आप निम्न विधियों का भी प्रयास कर सकते हैं:

  • दोषपूर्ण वर्डप्रेस प्लगइन्स को अक्षम करें
  • हाल ही के सर्वर अद्यतन पूर्ववत करें
  • अपने होस्टिंग प्रदाता से संपर्क करें

4. आपका क्रॉल बजट कम है

हमने ऊपर उल्लेख किया है कि क्रॉल बजट उन पृष्ठों की संख्या को संदर्भित करता है जो खोज इंजन बॉट एक निश्चित समय अवधि के भीतर क्रॉल करेंगे।

यदि आपकी वेबसाइट बहुत सारे URL के साथ बड़ी है, तो आपका क्रॉल बजट बहुत कम हो सकता है - जिसका अर्थ है कि वेब क्रॉलर को आपकी वेबसाइट के सभी पृष्ठों को क्रॉल करने में अधिक समय लगता है।

इसे कैसे ठीक करें

जबकि खोज इंजन आमतौर पर क्रॉल बजट सेट करता है, कुछ चीजें हैं जो आप इसे प्रभावित करने के लिए कर सकते हैं ताकि खोज इंजन आपके सभी पृष्ठों को क्रॉल और इंडेक्स कर सकें, जैसे:

  • 404 को ठीक करना और अत्यधिक रीडायरेक्ट या रीडायरेक्ट चेन को हटाना
  • अपने सर्वर रिस्पांस टाइम और पेज लोड स्पीड में सुधार करना
  • गैर-कैननिकल URL निकालना

वेबसाइट पर क्रॉलिंग के बारे में अधिक जानें SEO.com

वेबसाइट क्रॉलिंग और एसईओ के बारे में अधिक जानना चाहते हैं? सीधे एसईओ पेशेवरों से अधिक उपयोगी युक्तियों के लिए हमारे ब्लॉग पर सामग्री देखें!

चलो परिणाम ड्राइव करते हैं साथ-साथ हरा तीर