مقالات

راهنمای جامع گزارش Crawl Stats: از تحلیل آمار تا بهینه‌سازی بودجه خزش

گزارش Crawl Stats

 

ماه‌ها زمان صرف تولید یک محتوای عالی می‌کنید، دکمه انتشار را می‌زنید… و هیچ اتفاقی نمی‌افتد. گوگل اصلاً آن را نمی‌بیند یا هفته‌ها طول می‌کشد تا آن را ایندکس کند. این دقیقاً جایی است که نادیده گرفتن گزارش Crawl Stats کار دستتان داده است.

این گزارش، مهم‌ترین و در عین حال نادیده‌گرفته‌شده‌ترین ابزار فنی شما در سرچ کنسول است. گزارشی که مستقیماً روی سرعت ایندکس (که مشکلات آن را در گزارش Indexing می‌بینید) و در نهایت، رتبه‌بندی شما تأثیر می‌گذارد. اگر گوگل‌بات نتواند به‌درستی در سایت شما بخزد، بهترین محتوای دنیا را هم که داشته باشید، دیده نخواهید شد.

در این راهنمای عملی، می‌خواهیم به زبان ساده و فنی بررسی کنیم که گوگل‌بات دقیقاً در سایت ما چه می‌کند و چطور «بودجه خزش» (Crawl Budget) ارزشمندمان را برای صفحات مهم بهینه‌سازی کنیم.

جدول کاربردی: عیب‌یابی سریع بودجه خزش (بر اساس گزارش Crawl Stats)

مشکل (علائم) در سایت ریشه مشکل (بر اساس گزارش خزش) راه حل سریع و عملی
محتوای جدید اصلاً ایندکس نمی‌شود. اتلاف بودجه خزش (Crawl Budget Waste) مسدود کردن پارامترها (robots.txt) / اصلاح لینک‌های داخلی 404
افت ناگهانی رتبه‌ها و کاهش خزش. خطاهای سرور (Server Errors 5xx) تماس فوری با هاستینگ / بررسی افزونه‌های سنگین / فعال‌سازی کش
ایندکس شدن بسیار کند است. ظرفیت خزش پایین (Crawl Capacity) ارتقای منابع هاست / استفاده از CDN برای فایل‌های سنگین (JS/CSS)
گوگل مدام صفحات قدیمی را می‌خزد. تقاضای خزش پایین (Crawl Demand) به‌روزرسانی محتوای مهم / تقویت لینک‌سازی داخلی به صفحات جدید
گوگل در حال خزش صفحات تکراری است. کشف صفحات فیلتر یا پارامترها استفاده صحیح و گسترده از تگ کنونیکال (Canonical)

چرا گزارش Crawl Stats مهم‌ترین گزارش فنی سئو برای شماست؟

بیایید روراست باشیم؛ ما زمان زیادی را صرف تولید محتوای عالی می‌کنیم، اما اگر گوگل‌بات (خزنده گوگل) نتواند آن را به‌درستی و به‌موقع ببیند، تمام تلاش‌های ما تقریباً بی‌فایده است. گزارش آمار خزش (Crawl Stats) در سرچ کنسول، دقیقاً مثل این است که دوربین مداربسته دفتر گوگل‌بات را تماشا کنیم.

این گزارش به ما نشان می‌دهد که گوگل در عمل چگونه با سایت ما تعامل دارد، نه آن‌طور که ما فکر می‌کنیم باید تعامل داشته باشد.

این گزارش به ما می‌گوید:

  • گوگل‌بات چند وقت یک‌بار به سایت ما سر می‌زند؟
  • وقتی می‌آید، چقدر زمان صرف می‌کند و آیا سرور ما پاسخگوی او هست؟ (سلامت هاست)
  • آیا او وقت گران‌بهای خود (که ما به آن بودجه خزش یا Crawl Budget می‌گوییم) را صرف صفحات بی‌ارزش، 404ها یا ریدایرکت‌های زنجیره‌ای می‌کند؟

در سئو فنی، آمار خزش مهم‌ترین گزارش است، چون مستقیماً سلامت «اولین تماس» گوگل با سایت شما را نشان می‌دهد. اگر این اولین تماس مشکل داشته باشد، مهم نیست محتوای شما چقدر فوق‌العاده است.

ارتباط مستقیم آمار خزش با سرعت ایندکس و رتبه‌بندی

این یک زنجیره علت و معلولی ساده است. اگر این گزارش را نادیده بگیرید، مستقیماً به ایندکس و رتبه خود آسیب می‌زنید:

  • بودجه خزش (Crawl Budget): گوگل برای خزش در هر سایتی یک بودجه یا سهمیه مشخص (بر اساس اعتبار و سلامت سایت) در نظر می‌گیرد.
  • اتلاف بودجه: وقتی گزارش آمار خزش به شما نشان می‌دهد که گوگل‌بات در حال خزش هزاران صفحه 404، صفحات فیلترشده بی‌ارزش، یا تگ‌های قدیمی است، یعنی بودجه شما در حال هدر رفتن است.
  • کاهش سرعت ایندکس: وقتی بودجه خزش هدر می‌رود، گوگل‌بات دیرتر به صفحات مهم و جدید شما (مثل مقاله جدید بلاگ یا محصولی که تازه موجود کرده‌اید) می‌رسد. در نتیجه، سرعت ایندکس شدن محتوای حیاتی شما به شدت پایین می‌آید.
  • مشکلات رتبه‌بندی:  تازگی (Freshness): اگر گوگل نتواند به‌سرعت آپدیت‌های شما را ببیند، سیگنال «تازگی محتوا» را از دست می‌دهید.
  • سلامت سایت: اگر گزارش پر از خطاهای سرور (5xx) یا تایم‌اوت (Timeout) باشد، گوگل سایت شما را «ناسالم» تشخیص می‌دهد. یک سایت ناسالم و کند، شانس بسیار کمی برای رتبه‌های بالا دارد.

به طور خلاصه: خزش بهینه = ایندکس سریع‌ترِ صفحاتِ درست = سیگنال سلامت فنی برای رتبه‌بندی.

گزارش Crawl Stats به چه کسانی کمک می‌کند؟ (از مدیر سایت تا متخصص سئو)

این گزارش فقط برای گیک‌های سئو (مثل من!) نیست. هر کسی که در مدیریت یک وب‌سایت نقش دارد، باید نگاهی به این آمار بیندازد:

  • متخصص سئو (SEO Specialist): این ابزار اصلی ما برای عیب‌یابی فنی است. ما با این گزارش الگوهای خزش را شناسایی می‌کنیم، صفحات بی‌ارزش (مثل پارامترهای URL) را پیدا می‌کنیم تا جلوی خزش آن‌ها را بگیریم و مطمئن شویم بودجه خزش صرف صفحات «Money Page» می‌شود.
  • مدیر فنی سایت (Webmaster/IT Admin): این گزارش مستقیماً سلامت سرور را نشان می‌دهد. اگر بخش «Host availability» (در دسترس بودن هاست) قرمز باشد یا خطاهای 5xx (خطای سرور) زیاد باشد، یعنی سرور زیر فشار خزنده‌ها کم می‌آورد و نیاز به ارتقا یا بهینه‌سازی دارد.
  • مدیر محتوا (Content Manager): مدیر محتوا با دیدن این گزارش می‌فهمد که آیا گوگل‌بات اصلاً مقالات جدید را «می‌بیند» یا خیر. اگر می‌بینیم که گوگل بیشتر در حال خزش دسته‌بندی‌های قدیمی است تا مقالات جدید، یعنی ساختار لینک‌دهی داخلی ما نیاز به بازنگری جدی دارد.
  • مدیر کسب‌وکار (Business Owner): شاید مدیرعامل مستقیماً گزارش را نخواند، اما باید بداند که «سرعت دیده شدن» تغییرات سایت (مثلاً تغییر قیمت یا افزودن محصول جدید) مستقیماً به این آمار بستگی دارد. کندی در خزش یعنی کندی در نمایش تغییرات کسب‌وکار شما در نتایج گوگل.

مفاهیم پایه: بودجه خزش (Crawl Budget) به زبان ساده

وقتی صحبت از سئو فنی می‌شود، «بودجه خزش» یا Crawl Budget یکی از آن اصطلاحات ترسناکی است که خیلی‌ها را نگران می‌کند. اما بگذارید آن را ساده کنیم.

فکر کنید گوگل‌بات (خزنده گوگل) یک «بازرس سلامت» است که منابع محدودی دارد (زمان و انرژی محدود). او نمی‌تواند تمام ساختمان‌های شهر (تمام وب‌سایت‌ها) را هر روز کامل بازرسی کند.

بودجه خزش، سهمیه زمانی و انرژی‌ای است که گوگل‌بات تصمیم می‌گیرد برای بازرسی سایت شما صرف کند.

اگر سایت شما یک ساختمان کوچک و مرتب باشد، بازرس به‌سرعت همه‌جا را می‌بیند. اما اگر سایت شما یک برج عظیم پر از اتاق‌های قفل‌شده (404)، راهروهای تکراری (Duplicate Content) و درهای خراب (خطاهای سرور) باشد، بازرس بخش زیادی از انرژی‌اش را هدر می‌دهد و شاید اصلاً به اتاق‌های مهم و جدید (محتوای تازه شما) نرسد.

وظیفه ما به‌عنوان متخصص سئو این است که راهنمای بازرس باشیم و مطمئن شویم او انرژی محدودش را فقط صرف دیدن بخش‌های ارزشمند سایت می‌کند.

بودجه خزش چیست؟ (تعریف گوگل)

گوگل رسماً بودجه خزش را خیلی پیچیده تعریف نمی‌کند. در واقع، بودجه خزش ترکیبی از دو عامل اصلی است که گوگل‌بات قبل از آمدن به سایت شما در نظر می‌گیرد:

۱. ظرفیت خزش (Crawl Capacity): گوگل چقدر می‌تواند سایت شما را بخزد بدون اینکه به آن آسیب بزند؟ ۲. تقاضای خزش (Crawl Demand): گوگل چقدر می‌خواهد سایت شما را بخزد؟

بودجه خزش شما در واقع تعادل بین این دو فاکتور است.

تفاوت کلیدی «ظرفیت خزش» (Crawl Capacity) و «تقاضای خزش» (Crawl Demand)

این دو مفهوم ستون‌های اصلی بودجه خزش هستند و درک تفاوتشان حیاتی است:

۱. ظرفیت خزش (Crawl Capacity یا Host Load)

  • این بخش مربوط به «سخت‌افزار» و سلامت فنی سایت شماست.
  • گوگل‌بات بسیار هوشمند و «مؤدب» است. او هرگز نمی‌خواهد با خزش سنگین باعث کندی یا از کار افتادن سرور شما (هاست) شود.
  • عوامل مؤثر بر ظرفیت:
    • سرعت پاسخ‌دهی سرور: اگر هاست شما قوی باشد و صفحات را سریع تحویل دهد، گوگل می‌فهمد که می‌تواند با سرعت بیشتری بخزد (ظرفیت بالا می‌رود).
    • خطاهای سرور (5xx): اگر گوگل‌بات هنگام خزش مدام با خطاهای سرور مواجه شود، فوراً سرعت خزش را کم می‌کند تا به سایت شما «استراحت» دهد (ظرفیت پایین می‌آید).

به زبان ساده: ظرفیت خزش یعنی سرور شما چقدر توان میزبانی از گوگل‌بات را دارد.

۲. تقاضای خزش (Crawl Demand یا Crawl Health)

  • این بخش مربوط به «محتوا» و اعتبار سایت شماست.
  • گوگل‌بات منابعش را صرف سایت‌های بی‌اهمیت یا محتوای کهنه نمی‌کند.
  • عوامل مؤثر بر تقاضا:
    • محبوبیت (Popularity): صفحاتی که بک‌لینک‌های معتبر دارند یا در اینترنت زیاد به اشتراک گذاشته می‌شوند، تقاضای خزش بالاتری دارند. گوگل می‌خواهد محتوای محبوب را سریع‌تر ببیند.
    • تازگی (Freshness): اگر شما به‌طور منظم محتوای ارزشمند و جدید منتشر کنید (مثل سایت‌های خبری یا بلاگ‌های فعال)، گوگل یاد می‌گیرد که باید زودبه‌زود به شما سر بزند تا محتوای تازه را ایندکس کند.
    • کهنگی (Staleness): اگر محتوای سایت شما ماه‌ها تغییر نکند، گوگل دلیلی نمی‌بیند که هر روز به شما سر بزند و تقاضای خزش کاهش می‌یابد.

به زبان ساده: تقاضای خزش یعنی گوگل چقدر علاقه دارد که در سایت شما وقت بگذارد.

گزارش Crawl Stats چیست و چگونه به آن دسترسی پیدا کنیم؟

گزارش آمار خزش (Crawl Stats Report) شناسنامه سلامت فنی سایت شما در چشم گوگل است. این گزارش دقیقاً به شما نشان می‌دهد که گوگل‌بات در ۹۰ روز گذشته در سایت شما چه کرده است.

این گزارش به شما می‌گوید:

  • مجموع درخواست‌های خزش (چند بار به شما سر زده).
  • مجموع داده دانلود شده (چقدر از پهنای باند شما را استفاده کرده).
  • میانگین زمان پاسخ‌دهی (سرور شما چقدر سریع بوده).
  • و مهم‌تر از همه: گزارش سلامت هاست (آیا با خطای سرور، تایم‌اوت یا مشکلات DNS مواجه شده‌اید؟).

📈 نحوه دسترسی به گزارش:

دسترسی به این گزارش بسیار ساده است:

۱. وارد گوگل سرچ کنسول (Google Search Console) سایت خود شوید. ۲. در منوی سمت چپ، به پایین اسکرول کنید و روی Settings (تنظیمات) کلیک کنید. ۳. در صفحه تنظیمات، در بخش “Crawling” (خزش)، روی Open Report (باز کردن گزارش) در مقابل “Crawl stats” کلیک کنید.

بررسی منظم این گزارش (مخصوصاً بخش Host availability) اولین قدم برای اطمینان از این است که بودجه خزش شما به درستی مصرف می‌شود.

تحلیل گام به گام و تصویری گزارش Crawl Stats در سرچ کنسول جدید

گزارش آمار خزش (Crawl Stats) در سرچ کنسول جدید، پنجره‌ی ما به ذهن گوگل‌بات است. این گزارش دقیقاً به ما نشان می‌دهد که گوگل چه زمانی، چگونه، و چرا در حال بازدید از سایت ما بوده است. بیایید با هم بخش‌های کلیدی این گزارش قدرتمند را تحلیل کنیم.

بخش ۱: نمودار مجموع درخواست‌های خزش (Total Crawl Requests)

این نمودار اصلی‌ترین شاخص گزارش است و حجم کل فعالیت گوگل‌بات در سایت شما را نشان می‌دهد.

  • چه چیزی را نشان می‌دهد؟ تعداد کل دفعاتی که گوگل‌بات در ۹۰ روز گذشته به هر فایلی (HTML, CSS, JS, تصویر و…) در سایت شما دسترسی پیدا کرده است.
  • دنبال چه چیزی باشیم؟
    • ثبات: یک روند ثابت (حتی اگر پایین باشد) بهتر از نوسانات شدید است.
    • افت ناگهانی: یک سقوط شدید در نمودار یعنی فاجعه! این معمولاً نشان‌دهنده یک مشکل بزرگ در سرور (هاست)، یا مسدود شدن گوگل‌بات (مثلاً با فایل robots.txt اشتباه) است.
    • افزایش ناگهانی: این می‌تواند خوب (مثلاً انتشار محتوای زیاد و جدید) یا بد (مثلاً ایجاد هزاران صفحه تگ بی‌ارزش یا یک مشکل در URL پارامترها) باشد.

بخش ۲: تحلیل «خزش بر اساس کد وضعیت» (By Response)

این بخش به ما می‌گوید وقتی گوگل‌بات به درِ خانه‌ی ما (سرور) می‌آید، چه جوابی می‌گیرد. این مهم‌ترین بخش برای تشخیص سلامت بودجه خزش است.

  • (200) OK: عالی! یعنی گوگل‌بات صفحه را خواست و سرور آن را با موفقیت تحویل داد.
  • (304) Not modified: عالی! گوگل‌بات پرسید «این صفحه تغییر کرده؟» و سرور هوشمندانه جواب داد «نه، همان قبلی است». این به شدت در بودجه خزش صرفه‌جویی می‌کند.
  • (301/302) Moved: ریدایرکت‌ها. اگر در حال مهاجرت سایت هستید طبیعی است، اما اگر تعداد زیادی ریدایرکت داخلی دارید، یعنی دارید بودجه خزش را هدر می‌دهید (گوگل باید دوبار خزش کند تا به مقصد برسد).
  • (4xx) Client error: خطاهای سمت کاربر، معروف‌ترین آن‌ها 404 (Not Found) است.
  • (5xx) Server error: خطاهای سمت سرور (مثل 500 یا 503). این‌ها قاتل بودجه خزش هستند.

چگونه کدهای 5xx (خطاهای سرور) بودجه شما را نابود می‌کنند؟

کدهای 5xx (مثل 500 Internal Server Error یا 503 Service Unavailable) مستقیماً به «ظرفیت خزش» (Crawl Capacity) شما آسیب می‌زنند.

وقتی گوگل‌بات به سرور شما می‌آید و با خطای 5xx مواجه می‌شود، پیام واضحی دریافت می‌کند: «من (سرور) در حال حاضر توان پاسخگویی ندارم، لطفاً مزاحم نشو!»

واکنش گوگل: گوگل‌بات بلافاصله سرعت خزش خود را به شدت کاهش می‌دهد یا حتی برای مدتی آن را متوقف می‌کند تا باعث از کار افتادن کامل سایت شما نشود.

نتیجه: گوگل دیگر حتی تلاش نمی‌کند صفحات جدید شما را ببیند. اگر این مشکل ادامه پیدا کند، «ظرفیت خزش» سایت شما در نظر گوگل آنقدر پایین می‌آید که ممکن است روزها طول بکشد تا محتوای جدید شما ایندکس شود.

چگونه کدهای 4xx (مانند 404) بودجه خزش را هدر می‌دهند؟

کدهای 4xx (مثل 404 Not Found) بودجه خزش را «نابود» نمی‌کنند، بلکه آن را «هدر» می‌دهند. این تفاوت ظریف اما مهمی است.

وقتی گوگل‌بات یک لینک داخلی شکسته یا لینکی در سایت‌مپ قدیمی را دنبال می‌کند و به صفحه 404 می‌رسد، سرور شما به‌درستی پاسخ می‌دهد: «این صفحه وجود ندارد.»

مشکل کجاست؟ گوگل‌بات برای دریافت همین پاسخ «وجود ندارد» هم یک واحد از بودجه خزش روزانه خود را مصرف کرده است.

نتیجه: اگر سایت شما پر از لینک‌های داخلی شکسته باشد، گوگل‌بات بخش زیادی از سهمیه روزانه‌اش را صرف بازدید از بن‌بست‌ها می‌کند و در نتیجه، انرژی کمتری برای پیدا کردن و خزش مقالات و محصولات واقعی شما خواهد داشت.

بخش ۳: تحلیل «خزش بر اساس نوع فایل» (By File Type)

این بخش نشان می‌دهد که گوگل‌بات در حال خزش چه نوع فایل‌هایی در سایت شماست.

  • HTML: صفحات واقعی سایت شما (مقالات، محصولات و…). در حالت ایده‌آل، این بخش باید بزرگترین سهم را داشته باشد.
  • JS (JavaScript) / CSS: فایل‌های استایل و اسکریپت. گوگل برای رندر کردن (دیدن) کامل صفحه، این فایل‌ها را نیز خزش می‌کند.
  • Image: تصاویر سایت.
  • PDF: فایل‌های پی‌دی‌اف.
  • Other: سایر موارد مانند فیدها (RSS) و…

چرا خزش بیش از حد فایل‌های CSS, JS یا PDF یک هشدار جدی است؟

اگر در نمودار «نوع فایل» ببینید که سهم خزش CSS ،JS یا PDF به طرز غیرعادی زیاد است (مثلاً بیشتر از HTML)، این یک هشدار جدی است:

  • مشکل CSS/JS: گوگل برای درک کامل صفحه نیاز به خزش این فایل‌ها دارد. اما اگر این فایل‌ها به درستی کش (Cache) نشوند، یا بدتر از آن، اگر نام آن‌ها در هر بارگذاری صفحه به صورت داینامیک تغییر کند (مثلاً style-v1.css, style-v2.css…)، گوگل‌بات مجبور می‌شود هر بار این فایل‌های تکراری را دوباره و دوباره خزش کند. این اتلاف محض بودجه خزش است.
  • مشکل PDF: اگر گوگل در حال خزش هزاران فایل PDF است، باید از خود بپرسید: آیا این PDFها محتوای اصلی سایت من هستند؟ در ۹۹٪ مواقع، PDFها محتوای قدیمی، نازک و با ساختار بدی هستند که باید به صفحات HTML تبدیل شوند. آن‌ها بودجه خزش را می‌بلعند در حالی که ارزش سئوی بسیار کمی دارند.

بخش ۴: تحلیل «خزش بر اساس هدف» (By Purpose)

این بخش جدید و فوق‌العاده کاربردی به ما می‌گوید که چرا گوگل‌بات یک URL را خزش کرده است.

  • Refresh: گوگل در حال بازخوانی (Refresh) یک URL است که از قبل در دیتابیس خود داشته است.
  • Discovery: گوگل در حال کشف (Discovery) یک URL کاملاً جدید است که قبلاً هرگز آن را ندیده بوده.

تفاوت خزش Refresh (بازخوانی) و Discovery (کشف جدید)

درک این تفاوت برای استراتژی محتوا حیاتی است:

  • Refresh (بازخوانی): این نشان می‌دهد که گوگل در حال بررسی صفحات قدیمی شما برای یافتن تغییرات است. اگر «تقاضای خزش» (Crawl Demand) سایت شما بالا باشد (یعنی سایت معتبر و با محتوای تازه‌ای باشید)، گوگل مرتباً صفحات مهم شما را Refresh می‌کند.
  • Discovery (کشف): این نشان می‌دهد که گوگل در حال پیدا کردن محتوای جدید شما از طریق لینک‌های داخلی یا سایت‌مپ‌ها است.

تحلیل:

  • Refresh بالا / Discovery پایین: یعنی گوگل سایت شما را می‌شناسد اما محتوای جدیدی پیدا نمی‌کند (یا شما محتوای جدید کمی منتشر می‌کنید، یا لینک‌سازی داخلی شما به صفحات جدید ضعیف است).
  • Discovery بالا / Refresh پایین: این معمولاً در سایت‌های تازه تأسیس یا پس از انتشار ناگهانی محتوای زیاد رخ می‌دهد. گوگل در حال کشف صفحات جدید است اما هنوز اعتبار کافی برای بازخوانی مداوم صفحات قدیمی قائل نیست.

هدف ایده‌آل: یک تعادل سالم بین هر دو، که نشان می‌دهد گوگل هم صفحات جدید شما را به‌سرعت پیدا می‌کند و هم صفحات مهم قدیمی شما را به‌طور منظم بازبینی می‌کند.

بخش ۵: تحلیل «خزش بر اساس نوع گوگل‌بات» (By Googlebot Type)

این بخش نشان می‌دهد که کدام‌یک از خزنده‌های گوگل در حال بازدید از سایت شما هستند.

  • Googlebot Smartphone: خزنده موبایل گوگل.
  • Googlebot Desktop: خزنده دسکتاپ گوگل.
  • Googlebot Image: خزنده تصاویر.
  • Googlebot Video: خزنده ویدئو.
  • AdsBot: خزنده مربوط به Google Ads (برای بررسی کیفیت لندینگ پیج‌های تبلیغاتی).

مهم‌ترین نکته: از سال ۲۰۱۹ با معرفی «ایندکس‌گذاری اول-موبایل» (Mobile-First Indexing)، تقریباً تمام خزش‌های مربوط به صفحات (HTML) شما باید توسط Googlebot Smartphone انجام شود.

اگر در این نمودار می‌بینید که Googlebot Desktop هنوز سهم قابل توجهی از خزش صفحات HTML شما را بر عهده دارد، به این معنی است که سایت شما هنوز به طور کامل به Mobile-First Indexing منتقل نشده یا مشکلات اساسی در نسخه موبایل دارد که گوگل را مجبور به استفاده از خزنده دسکتاپ کرده است.

استراتژی‌های عملی بهینه‌سازی بودجه خزش (بر اساس داده‌های گزارش)

گزارش آمار خزش فقط برای تماشا کردن نیست؛ یک نقشه راه عملی برای بهینه‌سازی است. وقتی می‌بینید بودجه خزش شما کجا هدر می‌رود، می‌توانید این اقدامات دقیق را برای هدایت گوگل‌بات به سمت محتوای ارزشمندتان انجام دهید.

اقدام فوری: کاهش خطاهای 5xx و بهبود سلامت سرور

این مورد اورژانسی‌ترین اقدام است. همانطور که دیدیم، خطاهای 5xx (خطای سرور) به گوگل‌بات می‌گویند: «برو، الان وقت ندارم!» و گوگل هم سرعت خزش را به شدت کم می‌کند.

  • بررسی کنید: در گزارش Crawl Stats، بخش «Host availability» را چک کنید. اگر خطاهای 5xx می‌بینید، یعنی سرور شما زیر فشار خزش کم می‌آورد.
  • اقدام عملی:
    1. با میزبان هاست خود تماس بگیرید: گزارش را به آن‌ها نشان دهید. شاید سرور شما نیاز به منابع بیشتری (CPU یا RAM) داشته باشد.
    2. بررسی افزونه‌ها: در سیستم‌های مدیریت محتوا مثل وردپرس، یک افزونه سنگین یا ناسازگار می‌تواند باعث خطاهای 5xx شود.
    3. فعال‌سازی کش (Caching): مطمئن شوید که سیستم کش قوی‌ای روی سایت شما فعال است. کش، فشار را از روی سرور برمی‌دارد و صفحات را بسیار سریع‌تر تحویل می‌دهد.
    4. استفاده از CDN (شبکه توزیع محتوا): CDN فایل‌های سنگین شما (مثل تصاویر و JS) را از سرورهای مختلف در سراسر جهان به کاربر تحویل می‌دهد و بار سرور اصلی شما را به شدت کاهش می‌دهد.

مدیریت هوشمند صفحات 404 و 410 برای بازگرداندن بودجه

صفحات 404 (پیدا نشد) بودجه خزش را هدر می‌دهند، چون گوگل‌بات برای فهمیدن اینکه صفحه‌ای وجود ندارد، یک درخواست کامل ارسال می‌کند.

  • اقدام عملی:
    1. اصلاح لینک‌های داخلی: مهم‌ترین کار این است که هیچ لینک داخلی شکسته‌ای (لینک از صفحات خودتان به یک 404) نداشته باشید. از ابزارهایی مثل Screaming Frog برای پیدا کردن آن‌ها استفاده کنید.
    2. ریدایرکت 301: اگر صفحه 404 شما از سایت‌های دیگر بک‌لینک دارد یا محتوای مشابهی برای آن دارید، آن را به نزدیک‌ترین صفحه مرتبط ریدایرکت 301 کنید.
    3. استفاده از 410 (Gone): اگر صفحه‌ای را برای همیشه حذف کرده‌اید و هیچ جایگزینی ندارد (مثلاً یک محصول قدیمی که دیگر هرگز تولید نمی‌شود)، به جای 404، کد وضعیت 410 (Gone) را برگردانید. این یک سیگنال قوی‌تر به گوگل است که می‌گوید: «این صفحه برای همیشه رفته، دیگر برای بررسی آن برنگرد.» این کار سریع‌تر از 404 باعث حذف URL از صف خزش گوگل می‌شود.

بهینه‌سازی فایل robots.txt: چه چیزهایی را و چرا باید Disallow کنید؟

فایل robots.txt بهترین دوست شما برای جلوگیری از ورود گوگل‌بات به بخش‌های بی‌ارزش سایت است. هدف ما این است که گوگل‌بات را از کوچه‌های بن‌بست دور کنیم.

  • چه چیزهایی را Disallow کنید؟
    • صفحات مدیریت: /wp-admin/
    • نتایج جستجوی داخلی: /search?q= یا /?s= (این‌ها محتوای تکراری و بی‌ارزش هستند)
    • صفحات فیلتر و مرتب‌سازی: هر URL که پارامترهای غیرضروری دارد (مثل ?sort=price یا ?color=blue)
    • صفحات سبد خرید و تسویه حساب: /cart/، /checkout/
    • صفحات تگ یا آرشیو بی‌ارزش: اگر صفحات تگ (برچسب) شما محتوای ضعیفی دارند و فقط لیستی از مقالات هستند، مسدود کردن آن‌ها (مثلاً /tag/) می‌تواند ایده خوبی باشد.
  • چرا؟ چون هر واحد از بودجه خزشی که صرف این صفحات بی‌ارزش شود، از بودجه‌ای که می‌توانست صرف خزش مقالات جدید یا محصولات مهم شما شود، کم می‌کند.

استفاده تخصصی از nofollow, canonical و noindex برای مدیریت خزش

این سه تگ اغلب با هم اشتباه گرفته می‌شوند، اما نقش‌های متفاوتی در مدیریت خزش و ایندکس دارند:

  • Robots.txt (Disallow): به گوگل می‌گوید: «خزش نکن» (قوی‌ترین راه برای صرفه‌جویی در بودجه).
  • noindex: به گوگل می‌گوید: «خزش کن، اما در نتایج ایندکس نکن». گوگل باید صفحه را بخزد تا این تگ را ببیند، پس این تگ بودجه خزش را مصرف می‌کند. از این تگ برای صفحاتی استفاده کنید که باید وجود داشته باشند (مثلاً صفحه تشکر از خرید) اما ارزشی برای بودن در نتایج گوگل ندارند.
  • nofollow (روی لینک): به گوگل می‌گوید: «این لینک را می‌بینم، اما آن را به عنوان یک “رأی” یا سیگنال اعتبار حساب نکن و اولویت بالایی برای دنبال کردنش نگذار.» (گوگل ممکن است همچنان آن را دنبال کند). استفاده از rel=”nofollow” روی لینک‌های داخلی به صفحات لاگین یا پروفایل کاربری می‌تواند به هدایت بودجه کمک کند.
  • Canonical (کنونیکال): به گوگل می‌گوید: «این صفحه شبیه چند صفحه دیگر است، اما لطفاً فقط این URL اصلی را ایندکس کن.» این تگ مستقیماً جلوی خزش را نمی‌گیرد، اما به گوگل کمک می‌کند تا اعتبار صفحات تکراری را روی یک URL واحد تجمیع کند و از خزش گیج‌کننده صفحات مشابه در آینده بکاهد.

جلوگیری از هدر رفتن بودجه روی پارامترهای URL (URL Parameters)

پارامترهای URL (مثل ?color=red، ?sort=price، ?session_id=123) می‌توانند هزاران URL تکراری از یک صفحه واحد بسازند. این یک کابوس برای بودجه خزش است.

  • اقدام عملی:
    1. استفاده از Canonical: این راه‌حل اصلی است. تمام صفحات فیلترشده (مثلاً site.com/dresses?color=red) باید یک تگ کنونیکال به صفحه اصلی و تمیز (site.com/dresses) داشته باشند.
    2. مسدود کردن در Robots.txt: اگر پارامترها هیچ ارزشی ندارند، آن‌ها را مستقیماً در robots.txt مسدود کنید.
      • Disallow: /*?sort=
      • Disallow: /*?color=
    3. ابزار URL Parameters در سرچ کنسول: (اگرچه این ابزار قدیمی شده اما همچنان کار می‌کند) می‌توانید به گوگل بگویید که کدام پارامترها را نادیده بگیرد.

قدرت لینک‌سازی داخلی در هدایت گوگل‌بات به صفحات مهم

گوگل‌بات سایت شما را عمدتاً از طریق دنبال کردن لینک‌ها کشف می‌کند. لینک‌های داخلی شما، جاده‌های اصلی سایت شما برای خزنده‌ها هستند.

  • صفحات مهم = لینک‌های بیشتر: صفحاتی که از بخش‌های مهم سایت (مانند صفحه اصلی، منوی اصلی، یا مقالات پربازدید) لینک دریافت می‌کنند، از نظر گوگل مهم‌تر تلقی شده و بیشتر خزش می‌شوند (Refresh).
  • اقدام عملی:
    • وقتی مقاله جدیدی منتشر می‌کنید، برگردید و از مقالات قدیمی‌تر و مرتبط خود به آن لینک دهید.
    • صفحات کلیدی و پول‌ساز (Money Pages) شما باید بیشترین تعداد لینک داخلی را از سراسر سایت دریافت کنند.
    • از ساختار «سیلویی» (Silo Structure) استفاده کنید تا گوگل بفهمد کدام صفحات با هم مرتبط هستند و آن‌ها را با هم خزش کند.

نقش حیاتی نقشه سایت (Sitemap) و تگ lastmod در خزش بهینه

نقشه سایت (Sitemap.xml) مانند یک لیست وظایف (To-Do List) است که شما مستقیماً به گوگل‌بات می‌دهید.

  • چرا نقشه سایت مهم است؟
    1. کشف سریع (Discovery): به گوگل کمک می‌کند صفحات جدید یا صفحاتی که لینک داخلی خوبی ندارند (صفحات یتیم) را سریعاً پیدا کند.
    2. اعلام تغییرات (lastmod):
      • تگ <lastmod> در نقشه سایت به گوگل می‌گوید که شما آخرین بار چه زمانی محتوای آن صفحه را تغییر داده‌اید.
      • هشدار: در استفاده از lastmod صادق باشید! اگر این تاریخ را الکی آپدیت کنید تا گوگل را فریب دهید، گوگل به‌سرعت اعتمادش را به نقشه سایت شما از دست می‌دهد و آن را نادیده می‌گیرد.
      • استفاده درست: فقط زمانی lastmod را آپدیت کنید که تغییر معناداری در محتوای صفحه داده‌اید. این کار به گوگل سیگنال می‌دهد که «این صفحه ارزش بازخوانی (Refresh) دارد» و از خزش مجدد صفحات بدون تغییر جلوگیری می‌کند.

تکنیک پیشرفته: چه زمانی گزارش Crawl Stats کافی نیست؟

بیایید روراست باشیم، گزارش آمار خزش (Crawl Stats) در سرچ کنسول فوق‌العاده است. این گزارش، خلاصه‌ای است که گوگل به ما ارائه می‌دهد تا ببینیم او فکر می‌کند در سایت ما چه کرده است. این گزارش برای ۹۰٪ سایت‌ها و برای عیب‌یابی‌های روتین کافی است.

اما این گزارش ۳ محدودیت اساسی دارد: ۱. خلاصه‌سازی شده (Aggregated): به شما می‌گوید در یک روز ۱۰۰۰ صفحه خزش شده، اما نمی‌گوید دقیقا به چه ترتیبی و در چه ثانیه‌ای. ۲. نمونه‌برداری شده (Sampled): این گزارش ممکن است ۱۰۰٪ درخواست‌ها را نشان ندهد، به‌خصوص در سایت‌های بسیار بزرگ. ۳. فقط گوگل: این گزارش فقط رفتار گوگل‌بات را به شما نشان می‌دهد، نه ربات‌های دیگر (مثل Bing) یا ربات‌های مخرب.

زمانی که با یک سایت بسیار بزرگ (مثلاً یک فروشگاه اینترنتی با میلیون‌ها صفحه و فیلترهای پیچیده) سروکار داریم، یا با یک مشکل فنی عمیق (مثل شناسایی تله‌های خزش یا ربات‌های تقلبی) مواجه‌ایم، این گزارش «خلاصه» کافی نیست. ما به داده‌های خام نیاز داریم.

معرفی تحلیل لاگ فایل سرور (Log File Analysis)

اگر گزارش آمار خزش سرچ کنسول، «گزارش بازدید»ی است که گوگل‌بات پس از خروج از سایت شما پُر می‌کند، لاگ فایل سرور (Log File) دوربین مداربسته سرور شماست که هر حرکت او (و هر بازدیدکننده دیگری) را در لحظه ضبط می‌کند.

تحلیل لاگ فایل (Log File Analysis) فرآیند بررسی این فایل‌های متنی سنگین و خام است که مستقیماً روی سرور شما ذخیره می‌شوند. این فایل‌ها واقعیت محض (Ground Truth) هستند.

این کار معمولاً با ابزارهای تخصصی مانند Screaming Frog Log File Analyser یا پلتفرم‌های مانیتورینگ مانند Splunk انجام می‌شود، چون خواندن دستی این فایل‌ها (که میلیون‌ها خط دارند) تقریباً غیرممکن است.

داده‌هایی که فقط در لاگ فایل پیدا می‌شوند (و در سرچ کنسول نیستند)

لاگ فایل‌ها گنجینه‌ای از اطلاعات هستند که سرچ کنسول هرگز به شما نمی‌دهد. مهم‌ترین آن‌ها عبارت‌اند از:

  • ۱. مشاهده تمام ربات‌ها (نه فقط گوگل):
    • در لاگ فایل‌ها، شما دقیقاً می‌بینید که BingBot، YandexBot، AhrefsBot، SemrushBot و هر ربات دیگری در سایت شما چه می‌کنند.
    • اهمیت: شاید متوجه شوید که بودجه سرور شما به جای گوگل، توسط ربات‌های اسکرپر (Scraper) یا ابزارهای سئو در حال بلعیده شدن است و باید آن‌ها را مسدود کنید.
  • ۲. شناسایی گوگل‌بات تقلبی (Fake Googlebot):
    • در لاگ فایل، شما «User-Agent» کامل ربات و IP آن را می‌بینید.
    • اهمیت: ربات‌های مخرب زیادی خود را به عنوان «Googlebot» جا می‌زنند تا سایت شما را اسکرپ کنند (بدزدند). در سرچ کنسول، این‌ها دیده نمی‌شوند. اما در لاگ فایل، شما می‌توانید IP آن‌ها را با IPهای رسمی گوگل چک کنید و در صورت تقلبی بودن، آن‌ها را مسدود (Block) کنید.
  • ۳. داده‌های ۱۰۰٪ کامل و بدون نمونه‌برداری (Unsampled):
    • سرچ کنسول یک خلاصه است، اما لاگ فایل تک‌تک درخواست‌ها را ثبت می‌کند.
    • اهمیت: در سایت‌های بسیار بزرگ، این داده‌های کامل تنها راه برای درک واقعی حجم خزش است.
  • ۴. مشاهده ترتیب دقیق خزش (Crawl Path):
    • سرچ کنسول می‌گوید صفحه A و B خزش شدند. لاگ فایل می‌گوید ربات ابتدا وارد صفحه A شد، ۳ ثانیه بعد روی لینک کلیک کرد و به صفحه B رفت.
    • اهمیت: این تنها راه شناسایی «تله‌های خزش» (Crawl Traps) است. مثلاً می‌بینید گوگل‌بات وارد یک فیلتر محصول شده و بعد در یک حلقه بی‌پایان از پارامترهای URL (مثل ?color=blue&size=large&…) گیر افتاده و هزاران صفحه بی‌ارزش را پشت سر هم خزش می‌کند.
  • ۵. خزش فایل‌های غیرمعمول:
    • لاگ فایل‌ها نشان می‌دهند که ربات‌ها دقیقاً چند بار فایل robots.txt شما را خوانده‌اند، یا آیا در حال خزش فایل‌های xml، .txt یا فیدهای (Feed) ناشناخته‌ای هستند که شما اصلاً از وجود آن‌ها خبر نداشته‌اید.

جمع‌بندی (گزارش Crawl Stats)

بهینه‌سازی بودجه خزش (Crawl Budget) یک کار فانتزی و پیچیده فنی نیست؛ این یک ضرورت مطلق برای بقای سایت شما در نتایج گوگل است.

گزارش آمار خزش (Crawl Stats) چراغ قوه شما در یک اتاق تاریک است. این گزارش به شما نمی‌گوید محتوای شما خوب است یا نه، اما به شما می‌گوید که آیا اصلاً دیده می‌شود یا خیر. اگر محتوای عالی شما توسط گوگل‌بات نادیده گرفته شود، انگار آن را اصلاً ننوشته‌اید.

تحلیل لاگ فایل‌ها (Log File Analysis) قدم بعدی برای حرفه‌ای‌هاست، اما همین گزارش رایگان سرچ کنسول، نقطه شروع حیاتی شماست. به جای وسواس روی کلمات کلیدی، این ماه کمی روی سلامت خزش سایت خود وقت بگذارید؛ نتایج آن در سرعت ایندکس، شما را شگفت‌زده خواهد کرد.

author-avatar

درباره حسین محمودی

سئو رو از روی علاقه شروع کردم و توی این ۱ سال و نیم یاد گرفتم که موفقیت فقط با یادگیری مداوم اتفاق می‌افته. من همیشه دنبال بهترین راه برای دیده‌شدن کسب‌وکارها هستم؛ بدون حاشیه و با تمرکز روی نتیجه.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *