ماهها زمان صرف تولید یک محتوای عالی میکنید، دکمه انتشار را میزنید… و هیچ اتفاقی نمیافتد. گوگل اصلاً آن را نمیبیند یا هفتهها طول میکشد تا آن را ایندکس کند. این دقیقاً جایی است که نادیده گرفتن گزارش Crawl Stats کار دستتان داده است.
این گزارش، مهمترین و در عین حال نادیدهگرفتهشدهترین ابزار فنی شما در سرچ کنسول است. گزارشی که مستقیماً روی سرعت ایندکس (که مشکلات آن را در گزارش Indexing میبینید) و در نهایت، رتبهبندی شما تأثیر میگذارد. اگر گوگلبات نتواند بهدرستی در سایت شما بخزد، بهترین محتوای دنیا را هم که داشته باشید، دیده نخواهید شد.
در این راهنمای عملی، میخواهیم به زبان ساده و فنی بررسی کنیم که گوگلبات دقیقاً در سایت ما چه میکند و چطور «بودجه خزش» (Crawl Budget) ارزشمندمان را برای صفحات مهم بهینهسازی کنیم.
جدول کاربردی: عیبیابی سریع بودجه خزش (بر اساس گزارش Crawl Stats)
| مشکل (علائم) در سایت | ریشه مشکل (بر اساس گزارش خزش) | راه حل سریع و عملی |
| محتوای جدید اصلاً ایندکس نمیشود. | اتلاف بودجه خزش (Crawl Budget Waste) | مسدود کردن پارامترها (robots.txt) / اصلاح لینکهای داخلی 404 |
| افت ناگهانی رتبهها و کاهش خزش. | خطاهای سرور (Server Errors 5xx) | تماس فوری با هاستینگ / بررسی افزونههای سنگین / فعالسازی کش |
| ایندکس شدن بسیار کند است. | ظرفیت خزش پایین (Crawl Capacity) | ارتقای منابع هاست / استفاده از CDN برای فایلهای سنگین (JS/CSS) |
| گوگل مدام صفحات قدیمی را میخزد. | تقاضای خزش پایین (Crawl Demand) | بهروزرسانی محتوای مهم / تقویت لینکسازی داخلی به صفحات جدید |
| گوگل در حال خزش صفحات تکراری است. | کشف صفحات فیلتر یا پارامترها | استفاده صحیح و گسترده از تگ کنونیکال (Canonical) |
چرا گزارش Crawl Stats مهمترین گزارش فنی سئو برای شماست؟
بیایید روراست باشیم؛ ما زمان زیادی را صرف تولید محتوای عالی میکنیم، اما اگر گوگلبات (خزنده گوگل) نتواند آن را بهدرستی و بهموقع ببیند، تمام تلاشهای ما تقریباً بیفایده است. گزارش آمار خزش (Crawl Stats) در سرچ کنسول، دقیقاً مثل این است که دوربین مداربسته دفتر گوگلبات را تماشا کنیم.
این گزارش به ما نشان میدهد که گوگل در عمل چگونه با سایت ما تعامل دارد، نه آنطور که ما فکر میکنیم باید تعامل داشته باشد.
این گزارش به ما میگوید:
- گوگلبات چند وقت یکبار به سایت ما سر میزند؟
- وقتی میآید، چقدر زمان صرف میکند و آیا سرور ما پاسخگوی او هست؟ (سلامت هاست)
- آیا او وقت گرانبهای خود (که ما به آن بودجه خزش یا Crawl Budget میگوییم) را صرف صفحات بیارزش، 404ها یا ریدایرکتهای زنجیرهای میکند؟
در سئو فنی، آمار خزش مهمترین گزارش است، چون مستقیماً سلامت «اولین تماس» گوگل با سایت شما را نشان میدهد. اگر این اولین تماس مشکل داشته باشد، مهم نیست محتوای شما چقدر فوقالعاده است.
ارتباط مستقیم آمار خزش با سرعت ایندکس و رتبهبندی
این یک زنجیره علت و معلولی ساده است. اگر این گزارش را نادیده بگیرید، مستقیماً به ایندکس و رتبه خود آسیب میزنید:
- بودجه خزش (Crawl Budget): گوگل برای خزش در هر سایتی یک بودجه یا سهمیه مشخص (بر اساس اعتبار و سلامت سایت) در نظر میگیرد.
- اتلاف بودجه: وقتی گزارش آمار خزش به شما نشان میدهد که گوگلبات در حال خزش هزاران صفحه 404، صفحات فیلترشده بیارزش، یا تگهای قدیمی است، یعنی بودجه شما در حال هدر رفتن است.
- کاهش سرعت ایندکس: وقتی بودجه خزش هدر میرود، گوگلبات دیرتر به صفحات مهم و جدید شما (مثل مقاله جدید بلاگ یا محصولی که تازه موجود کردهاید) میرسد. در نتیجه، سرعت ایندکس شدن محتوای حیاتی شما به شدت پایین میآید.
- مشکلات رتبهبندی: تازگی (Freshness): اگر گوگل نتواند بهسرعت آپدیتهای شما را ببیند، سیگنال «تازگی محتوا» را از دست میدهید.
- سلامت سایت: اگر گزارش پر از خطاهای سرور (5xx) یا تایماوت (Timeout) باشد، گوگل سایت شما را «ناسالم» تشخیص میدهد. یک سایت ناسالم و کند، شانس بسیار کمی برای رتبههای بالا دارد.
به طور خلاصه: خزش بهینه = ایندکس سریعترِ صفحاتِ درست = سیگنال سلامت فنی برای رتبهبندی.
گزارش Crawl Stats به چه کسانی کمک میکند؟ (از مدیر سایت تا متخصص سئو)
این گزارش فقط برای گیکهای سئو (مثل من!) نیست. هر کسی که در مدیریت یک وبسایت نقش دارد، باید نگاهی به این آمار بیندازد:
- متخصص سئو (SEO Specialist): این ابزار اصلی ما برای عیبیابی فنی است. ما با این گزارش الگوهای خزش را شناسایی میکنیم، صفحات بیارزش (مثل پارامترهای URL) را پیدا میکنیم تا جلوی خزش آنها را بگیریم و مطمئن شویم بودجه خزش صرف صفحات «Money Page» میشود.
- مدیر فنی سایت (Webmaster/IT Admin): این گزارش مستقیماً سلامت سرور را نشان میدهد. اگر بخش «Host availability» (در دسترس بودن هاست) قرمز باشد یا خطاهای 5xx (خطای سرور) زیاد باشد، یعنی سرور زیر فشار خزندهها کم میآورد و نیاز به ارتقا یا بهینهسازی دارد.
- مدیر محتوا (Content Manager): مدیر محتوا با دیدن این گزارش میفهمد که آیا گوگلبات اصلاً مقالات جدید را «میبیند» یا خیر. اگر میبینیم که گوگل بیشتر در حال خزش دستهبندیهای قدیمی است تا مقالات جدید، یعنی ساختار لینکدهی داخلی ما نیاز به بازنگری جدی دارد.
- مدیر کسبوکار (Business Owner): شاید مدیرعامل مستقیماً گزارش را نخواند، اما باید بداند که «سرعت دیده شدن» تغییرات سایت (مثلاً تغییر قیمت یا افزودن محصول جدید) مستقیماً به این آمار بستگی دارد. کندی در خزش یعنی کندی در نمایش تغییرات کسبوکار شما در نتایج گوگل.
مفاهیم پایه: بودجه خزش (Crawl Budget) به زبان ساده
وقتی صحبت از سئو فنی میشود، «بودجه خزش» یا Crawl Budget یکی از آن اصطلاحات ترسناکی است که خیلیها را نگران میکند. اما بگذارید آن را ساده کنیم.
فکر کنید گوگلبات (خزنده گوگل) یک «بازرس سلامت» است که منابع محدودی دارد (زمان و انرژی محدود). او نمیتواند تمام ساختمانهای شهر (تمام وبسایتها) را هر روز کامل بازرسی کند.
بودجه خزش، سهمیه زمانی و انرژیای است که گوگلبات تصمیم میگیرد برای بازرسی سایت شما صرف کند.
اگر سایت شما یک ساختمان کوچک و مرتب باشد، بازرس بهسرعت همهجا را میبیند. اما اگر سایت شما یک برج عظیم پر از اتاقهای قفلشده (404)، راهروهای تکراری (Duplicate Content) و درهای خراب (خطاهای سرور) باشد، بازرس بخش زیادی از انرژیاش را هدر میدهد و شاید اصلاً به اتاقهای مهم و جدید (محتوای تازه شما) نرسد.
وظیفه ما بهعنوان متخصص سئو این است که راهنمای بازرس باشیم و مطمئن شویم او انرژی محدودش را فقط صرف دیدن بخشهای ارزشمند سایت میکند.
بودجه خزش چیست؟ (تعریف گوگل)
گوگل رسماً بودجه خزش را خیلی پیچیده تعریف نمیکند. در واقع، بودجه خزش ترکیبی از دو عامل اصلی است که گوگلبات قبل از آمدن به سایت شما در نظر میگیرد:
۱. ظرفیت خزش (Crawl Capacity): گوگل چقدر میتواند سایت شما را بخزد بدون اینکه به آن آسیب بزند؟ ۲. تقاضای خزش (Crawl Demand): گوگل چقدر میخواهد سایت شما را بخزد؟
بودجه خزش شما در واقع تعادل بین این دو فاکتور است.
تفاوت کلیدی «ظرفیت خزش» (Crawl Capacity) و «تقاضای خزش» (Crawl Demand)
این دو مفهوم ستونهای اصلی بودجه خزش هستند و درک تفاوتشان حیاتی است:
۱. ظرفیت خزش (Crawl Capacity یا Host Load)
- این بخش مربوط به «سختافزار» و سلامت فنی سایت شماست.
- گوگلبات بسیار هوشمند و «مؤدب» است. او هرگز نمیخواهد با خزش سنگین باعث کندی یا از کار افتادن سرور شما (هاست) شود.
- عوامل مؤثر بر ظرفیت:
- سرعت پاسخدهی سرور: اگر هاست شما قوی باشد و صفحات را سریع تحویل دهد، گوگل میفهمد که میتواند با سرعت بیشتری بخزد (ظرفیت بالا میرود).
- خطاهای سرور (5xx): اگر گوگلبات هنگام خزش مدام با خطاهای سرور مواجه شود، فوراً سرعت خزش را کم میکند تا به سایت شما «استراحت» دهد (ظرفیت پایین میآید).
به زبان ساده: ظرفیت خزش یعنی سرور شما چقدر توان میزبانی از گوگلبات را دارد.
۲. تقاضای خزش (Crawl Demand یا Crawl Health)
- این بخش مربوط به «محتوا» و اعتبار سایت شماست.
- گوگلبات منابعش را صرف سایتهای بیاهمیت یا محتوای کهنه نمیکند.
- عوامل مؤثر بر تقاضا:
- محبوبیت (Popularity): صفحاتی که بکلینکهای معتبر دارند یا در اینترنت زیاد به اشتراک گذاشته میشوند، تقاضای خزش بالاتری دارند. گوگل میخواهد محتوای محبوب را سریعتر ببیند.
- تازگی (Freshness): اگر شما بهطور منظم محتوای ارزشمند و جدید منتشر کنید (مثل سایتهای خبری یا بلاگهای فعال)، گوگل یاد میگیرد که باید زودبهزود به شما سر بزند تا محتوای تازه را ایندکس کند.
- کهنگی (Staleness): اگر محتوای سایت شما ماهها تغییر نکند، گوگل دلیلی نمیبیند که هر روز به شما سر بزند و تقاضای خزش کاهش مییابد.
به زبان ساده: تقاضای خزش یعنی گوگل چقدر علاقه دارد که در سایت شما وقت بگذارد.
گزارش Crawl Stats چیست و چگونه به آن دسترسی پیدا کنیم؟
گزارش آمار خزش (Crawl Stats Report) شناسنامه سلامت فنی سایت شما در چشم گوگل است. این گزارش دقیقاً به شما نشان میدهد که گوگلبات در ۹۰ روز گذشته در سایت شما چه کرده است.
این گزارش به شما میگوید:
- مجموع درخواستهای خزش (چند بار به شما سر زده).
- مجموع داده دانلود شده (چقدر از پهنای باند شما را استفاده کرده).
- میانگین زمان پاسخدهی (سرور شما چقدر سریع بوده).
- و مهمتر از همه: گزارش سلامت هاست (آیا با خطای سرور، تایماوت یا مشکلات DNS مواجه شدهاید؟).
📈 نحوه دسترسی به گزارش:
دسترسی به این گزارش بسیار ساده است:
۱. وارد گوگل سرچ کنسول (Google Search Console) سایت خود شوید. ۲. در منوی سمت چپ، به پایین اسکرول کنید و روی Settings (تنظیمات) کلیک کنید. ۳. در صفحه تنظیمات، در بخش “Crawling” (خزش)، روی Open Report (باز کردن گزارش) در مقابل “Crawl stats” کلیک کنید.
بررسی منظم این گزارش (مخصوصاً بخش Host availability) اولین قدم برای اطمینان از این است که بودجه خزش شما به درستی مصرف میشود.
تحلیل گام به گام و تصویری گزارش Crawl Stats در سرچ کنسول جدید
گزارش آمار خزش (Crawl Stats) در سرچ کنسول جدید، پنجرهی ما به ذهن گوگلبات است. این گزارش دقیقاً به ما نشان میدهد که گوگل چه زمانی، چگونه، و چرا در حال بازدید از سایت ما بوده است. بیایید با هم بخشهای کلیدی این گزارش قدرتمند را تحلیل کنیم.
بخش ۱: نمودار مجموع درخواستهای خزش (Total Crawl Requests)
این نمودار اصلیترین شاخص گزارش است و حجم کل فعالیت گوگلبات در سایت شما را نشان میدهد.
- چه چیزی را نشان میدهد؟ تعداد کل دفعاتی که گوگلبات در ۹۰ روز گذشته به هر فایلی (HTML, CSS, JS, تصویر و…) در سایت شما دسترسی پیدا کرده است.
- دنبال چه چیزی باشیم؟
- ثبات: یک روند ثابت (حتی اگر پایین باشد) بهتر از نوسانات شدید است.
- افت ناگهانی: یک سقوط شدید در نمودار یعنی فاجعه! این معمولاً نشاندهنده یک مشکل بزرگ در سرور (هاست)، یا مسدود شدن گوگلبات (مثلاً با فایل robots.txt اشتباه) است.
- افزایش ناگهانی: این میتواند خوب (مثلاً انتشار محتوای زیاد و جدید) یا بد (مثلاً ایجاد هزاران صفحه تگ بیارزش یا یک مشکل در URL پارامترها) باشد.
بخش ۲: تحلیل «خزش بر اساس کد وضعیت» (By Response)
این بخش به ما میگوید وقتی گوگلبات به درِ خانهی ما (سرور) میآید، چه جوابی میگیرد. این مهمترین بخش برای تشخیص سلامت بودجه خزش است.
- (200) OK: عالی! یعنی گوگلبات صفحه را خواست و سرور آن را با موفقیت تحویل داد.
- (304) Not modified: عالی! گوگلبات پرسید «این صفحه تغییر کرده؟» و سرور هوشمندانه جواب داد «نه، همان قبلی است». این به شدت در بودجه خزش صرفهجویی میکند.
- (301/302) Moved: ریدایرکتها. اگر در حال مهاجرت سایت هستید طبیعی است، اما اگر تعداد زیادی ریدایرکت داخلی دارید، یعنی دارید بودجه خزش را هدر میدهید (گوگل باید دوبار خزش کند تا به مقصد برسد).
- (4xx) Client error: خطاهای سمت کاربر، معروفترین آنها 404 (Not Found) است.
- (5xx) Server error: خطاهای سمت سرور (مثل 500 یا 503). اینها قاتل بودجه خزش هستند.
چگونه کدهای 5xx (خطاهای سرور) بودجه شما را نابود میکنند؟
کدهای 5xx (مثل 500 Internal Server Error یا 503 Service Unavailable) مستقیماً به «ظرفیت خزش» (Crawl Capacity) شما آسیب میزنند.
وقتی گوگلبات به سرور شما میآید و با خطای 5xx مواجه میشود، پیام واضحی دریافت میکند: «من (سرور) در حال حاضر توان پاسخگویی ندارم، لطفاً مزاحم نشو!»
واکنش گوگل: گوگلبات بلافاصله سرعت خزش خود را به شدت کاهش میدهد یا حتی برای مدتی آن را متوقف میکند تا باعث از کار افتادن کامل سایت شما نشود.
نتیجه: گوگل دیگر حتی تلاش نمیکند صفحات جدید شما را ببیند. اگر این مشکل ادامه پیدا کند، «ظرفیت خزش» سایت شما در نظر گوگل آنقدر پایین میآید که ممکن است روزها طول بکشد تا محتوای جدید شما ایندکس شود.
چگونه کدهای 4xx (مانند 404) بودجه خزش را هدر میدهند؟
کدهای 4xx (مثل 404 Not Found) بودجه خزش را «نابود» نمیکنند، بلکه آن را «هدر» میدهند. این تفاوت ظریف اما مهمی است.
وقتی گوگلبات یک لینک داخلی شکسته یا لینکی در سایتمپ قدیمی را دنبال میکند و به صفحه 404 میرسد، سرور شما بهدرستی پاسخ میدهد: «این صفحه وجود ندارد.»
مشکل کجاست؟ گوگلبات برای دریافت همین پاسخ «وجود ندارد» هم یک واحد از بودجه خزش روزانه خود را مصرف کرده است.
نتیجه: اگر سایت شما پر از لینکهای داخلی شکسته باشد، گوگلبات بخش زیادی از سهمیه روزانهاش را صرف بازدید از بنبستها میکند و در نتیجه، انرژی کمتری برای پیدا کردن و خزش مقالات و محصولات واقعی شما خواهد داشت.
بخش ۳: تحلیل «خزش بر اساس نوع فایل» (By File Type)
این بخش نشان میدهد که گوگلبات در حال خزش چه نوع فایلهایی در سایت شماست.
- HTML: صفحات واقعی سایت شما (مقالات، محصولات و…). در حالت ایدهآل، این بخش باید بزرگترین سهم را داشته باشد.
- JS (JavaScript) / CSS: فایلهای استایل و اسکریپت. گوگل برای رندر کردن (دیدن) کامل صفحه، این فایلها را نیز خزش میکند.
- Image: تصاویر سایت.
- PDF: فایلهای پیدیاف.
- Other: سایر موارد مانند فیدها (RSS) و…
چرا خزش بیش از حد فایلهای CSS, JS یا PDF یک هشدار جدی است؟
اگر در نمودار «نوع فایل» ببینید که سهم خزش CSS ،JS یا PDF به طرز غیرعادی زیاد است (مثلاً بیشتر از HTML)، این یک هشدار جدی است:
- مشکل CSS/JS: گوگل برای درک کامل صفحه نیاز به خزش این فایلها دارد. اما اگر این فایلها به درستی کش (Cache) نشوند، یا بدتر از آن، اگر نام آنها در هر بارگذاری صفحه به صورت داینامیک تغییر کند (مثلاً style-v1.css, style-v2.css…)، گوگلبات مجبور میشود هر بار این فایلهای تکراری را دوباره و دوباره خزش کند. این اتلاف محض بودجه خزش است.
- مشکل PDF: اگر گوگل در حال خزش هزاران فایل PDF است، باید از خود بپرسید: آیا این PDFها محتوای اصلی سایت من هستند؟ در ۹۹٪ مواقع، PDFها محتوای قدیمی، نازک و با ساختار بدی هستند که باید به صفحات HTML تبدیل شوند. آنها بودجه خزش را میبلعند در حالی که ارزش سئوی بسیار کمی دارند.
بخش ۴: تحلیل «خزش بر اساس هدف» (By Purpose)
این بخش جدید و فوقالعاده کاربردی به ما میگوید که چرا گوگلبات یک URL را خزش کرده است.
- Refresh: گوگل در حال بازخوانی (Refresh) یک URL است که از قبل در دیتابیس خود داشته است.
- Discovery: گوگل در حال کشف (Discovery) یک URL کاملاً جدید است که قبلاً هرگز آن را ندیده بوده.
تفاوت خزش Refresh (بازخوانی) و Discovery (کشف جدید)
درک این تفاوت برای استراتژی محتوا حیاتی است:
- Refresh (بازخوانی): این نشان میدهد که گوگل در حال بررسی صفحات قدیمی شما برای یافتن تغییرات است. اگر «تقاضای خزش» (Crawl Demand) سایت شما بالا باشد (یعنی سایت معتبر و با محتوای تازهای باشید)، گوگل مرتباً صفحات مهم شما را Refresh میکند.
- Discovery (کشف): این نشان میدهد که گوگل در حال پیدا کردن محتوای جدید شما از طریق لینکهای داخلی یا سایتمپها است.
تحلیل:
- Refresh بالا / Discovery پایین: یعنی گوگل سایت شما را میشناسد اما محتوای جدیدی پیدا نمیکند (یا شما محتوای جدید کمی منتشر میکنید، یا لینکسازی داخلی شما به صفحات جدید ضعیف است).
- Discovery بالا / Refresh پایین: این معمولاً در سایتهای تازه تأسیس یا پس از انتشار ناگهانی محتوای زیاد رخ میدهد. گوگل در حال کشف صفحات جدید است اما هنوز اعتبار کافی برای بازخوانی مداوم صفحات قدیمی قائل نیست.
هدف ایدهآل: یک تعادل سالم بین هر دو، که نشان میدهد گوگل هم صفحات جدید شما را بهسرعت پیدا میکند و هم صفحات مهم قدیمی شما را بهطور منظم بازبینی میکند.
بخش ۵: تحلیل «خزش بر اساس نوع گوگلبات» (By Googlebot Type)
این بخش نشان میدهد که کدامیک از خزندههای گوگل در حال بازدید از سایت شما هستند.
- Googlebot Smartphone: خزنده موبایل گوگل.
- Googlebot Desktop: خزنده دسکتاپ گوگل.
- Googlebot Image: خزنده تصاویر.
- Googlebot Video: خزنده ویدئو.
- AdsBot: خزنده مربوط به Google Ads (برای بررسی کیفیت لندینگ پیجهای تبلیغاتی).
مهمترین نکته: از سال ۲۰۱۹ با معرفی «ایندکسگذاری اول-موبایل» (Mobile-First Indexing)، تقریباً تمام خزشهای مربوط به صفحات (HTML) شما باید توسط Googlebot Smartphone انجام شود.
اگر در این نمودار میبینید که Googlebot Desktop هنوز سهم قابل توجهی از خزش صفحات HTML شما را بر عهده دارد، به این معنی است که سایت شما هنوز به طور کامل به Mobile-First Indexing منتقل نشده یا مشکلات اساسی در نسخه موبایل دارد که گوگل را مجبور به استفاده از خزنده دسکتاپ کرده است.
استراتژیهای عملی بهینهسازی بودجه خزش (بر اساس دادههای گزارش)
گزارش آمار خزش فقط برای تماشا کردن نیست؛ یک نقشه راه عملی برای بهینهسازی است. وقتی میبینید بودجه خزش شما کجا هدر میرود، میتوانید این اقدامات دقیق را برای هدایت گوگلبات به سمت محتوای ارزشمندتان انجام دهید.
اقدام فوری: کاهش خطاهای 5xx و بهبود سلامت سرور
این مورد اورژانسیترین اقدام است. همانطور که دیدیم، خطاهای 5xx (خطای سرور) به گوگلبات میگویند: «برو، الان وقت ندارم!» و گوگل هم سرعت خزش را به شدت کم میکند.
- بررسی کنید: در گزارش Crawl Stats، بخش «Host availability» را چک کنید. اگر خطاهای 5xx میبینید، یعنی سرور شما زیر فشار خزش کم میآورد.
- اقدام عملی:
- با میزبان هاست خود تماس بگیرید: گزارش را به آنها نشان دهید. شاید سرور شما نیاز به منابع بیشتری (CPU یا RAM) داشته باشد.
- بررسی افزونهها: در سیستمهای مدیریت محتوا مثل وردپرس، یک افزونه سنگین یا ناسازگار میتواند باعث خطاهای 5xx شود.
- فعالسازی کش (Caching): مطمئن شوید که سیستم کش قویای روی سایت شما فعال است. کش، فشار را از روی سرور برمیدارد و صفحات را بسیار سریعتر تحویل میدهد.
- استفاده از CDN (شبکه توزیع محتوا): CDN فایلهای سنگین شما (مثل تصاویر و JS) را از سرورهای مختلف در سراسر جهان به کاربر تحویل میدهد و بار سرور اصلی شما را به شدت کاهش میدهد.
مدیریت هوشمند صفحات 404 و 410 برای بازگرداندن بودجه
صفحات 404 (پیدا نشد) بودجه خزش را هدر میدهند، چون گوگلبات برای فهمیدن اینکه صفحهای وجود ندارد، یک درخواست کامل ارسال میکند.
- اقدام عملی:
- اصلاح لینکهای داخلی: مهمترین کار این است که هیچ لینک داخلی شکستهای (لینک از صفحات خودتان به یک 404) نداشته باشید. از ابزارهایی مثل Screaming Frog برای پیدا کردن آنها استفاده کنید.
- ریدایرکت 301: اگر صفحه 404 شما از سایتهای دیگر بکلینک دارد یا محتوای مشابهی برای آن دارید، آن را به نزدیکترین صفحه مرتبط ریدایرکت 301 کنید.
- استفاده از 410 (Gone): اگر صفحهای را برای همیشه حذف کردهاید و هیچ جایگزینی ندارد (مثلاً یک محصول قدیمی که دیگر هرگز تولید نمیشود)، به جای 404، کد وضعیت 410 (Gone) را برگردانید. این یک سیگنال قویتر به گوگل است که میگوید: «این صفحه برای همیشه رفته، دیگر برای بررسی آن برنگرد.» این کار سریعتر از 404 باعث حذف URL از صف خزش گوگل میشود.
بهینهسازی فایل robots.txt: چه چیزهایی را و چرا باید Disallow کنید؟
فایل robots.txt بهترین دوست شما برای جلوگیری از ورود گوگلبات به بخشهای بیارزش سایت است. هدف ما این است که گوگلبات را از کوچههای بنبست دور کنیم.
- چه چیزهایی را Disallow کنید؟
- صفحات مدیریت: /wp-admin/
- نتایج جستجوی داخلی: /search?q= یا /?s= (اینها محتوای تکراری و بیارزش هستند)
- صفحات فیلتر و مرتبسازی: هر URL که پارامترهای غیرضروری دارد (مثل ?sort=price یا ?color=blue)
- صفحات سبد خرید و تسویه حساب: /cart/، /checkout/
- صفحات تگ یا آرشیو بیارزش: اگر صفحات تگ (برچسب) شما محتوای ضعیفی دارند و فقط لیستی از مقالات هستند، مسدود کردن آنها (مثلاً /tag/) میتواند ایده خوبی باشد.
- چرا؟ چون هر واحد از بودجه خزشی که صرف این صفحات بیارزش شود، از بودجهای که میتوانست صرف خزش مقالات جدید یا محصولات مهم شما شود، کم میکند.
استفاده تخصصی از nofollow, canonical و noindex برای مدیریت خزش
این سه تگ اغلب با هم اشتباه گرفته میشوند، اما نقشهای متفاوتی در مدیریت خزش و ایندکس دارند:
- Robots.txt (Disallow): به گوگل میگوید: «خزش نکن» (قویترین راه برای صرفهجویی در بودجه).
- noindex: به گوگل میگوید: «خزش کن، اما در نتایج ایندکس نکن». گوگل باید صفحه را بخزد تا این تگ را ببیند، پس این تگ بودجه خزش را مصرف میکند. از این تگ برای صفحاتی استفاده کنید که باید وجود داشته باشند (مثلاً صفحه تشکر از خرید) اما ارزشی برای بودن در نتایج گوگل ندارند.
- nofollow (روی لینک): به گوگل میگوید: «این لینک را میبینم، اما آن را به عنوان یک “رأی” یا سیگنال اعتبار حساب نکن و اولویت بالایی برای دنبال کردنش نگذار.» (گوگل ممکن است همچنان آن را دنبال کند). استفاده از rel=”nofollow” روی لینکهای داخلی به صفحات لاگین یا پروفایل کاربری میتواند به هدایت بودجه کمک کند.
- Canonical (کنونیکال): به گوگل میگوید: «این صفحه شبیه چند صفحه دیگر است، اما لطفاً فقط این URL اصلی را ایندکس کن.» این تگ مستقیماً جلوی خزش را نمیگیرد، اما به گوگل کمک میکند تا اعتبار صفحات تکراری را روی یک URL واحد تجمیع کند و از خزش گیجکننده صفحات مشابه در آینده بکاهد.
جلوگیری از هدر رفتن بودجه روی پارامترهای URL (URL Parameters)
پارامترهای URL (مثل ?color=red، ?sort=price، ?session_id=123) میتوانند هزاران URL تکراری از یک صفحه واحد بسازند. این یک کابوس برای بودجه خزش است.
- اقدام عملی:
- استفاده از Canonical: این راهحل اصلی است. تمام صفحات فیلترشده (مثلاً site.com/dresses?color=red) باید یک تگ کنونیکال به صفحه اصلی و تمیز (site.com/dresses) داشته باشند.
- مسدود کردن در Robots.txt: اگر پارامترها هیچ ارزشی ندارند، آنها را مستقیماً در robots.txt مسدود کنید.
- Disallow: /*?sort=
- Disallow: /*?color=
- ابزار URL Parameters در سرچ کنسول: (اگرچه این ابزار قدیمی شده اما همچنان کار میکند) میتوانید به گوگل بگویید که کدام پارامترها را نادیده بگیرد.
قدرت لینکسازی داخلی در هدایت گوگلبات به صفحات مهم
گوگلبات سایت شما را عمدتاً از طریق دنبال کردن لینکها کشف میکند. لینکهای داخلی شما، جادههای اصلی سایت شما برای خزندهها هستند.
- صفحات مهم = لینکهای بیشتر: صفحاتی که از بخشهای مهم سایت (مانند صفحه اصلی، منوی اصلی، یا مقالات پربازدید) لینک دریافت میکنند، از نظر گوگل مهمتر تلقی شده و بیشتر خزش میشوند (Refresh).
- اقدام عملی:
- وقتی مقاله جدیدی منتشر میکنید، برگردید و از مقالات قدیمیتر و مرتبط خود به آن لینک دهید.
- صفحات کلیدی و پولساز (Money Pages) شما باید بیشترین تعداد لینک داخلی را از سراسر سایت دریافت کنند.
- از ساختار «سیلویی» (Silo Structure) استفاده کنید تا گوگل بفهمد کدام صفحات با هم مرتبط هستند و آنها را با هم خزش کند.
نقش حیاتی نقشه سایت (Sitemap) و تگ lastmod در خزش بهینه
نقشه سایت (Sitemap.xml) مانند یک لیست وظایف (To-Do List) است که شما مستقیماً به گوگلبات میدهید.
- چرا نقشه سایت مهم است؟
- کشف سریع (Discovery): به گوگل کمک میکند صفحات جدید یا صفحاتی که لینک داخلی خوبی ندارند (صفحات یتیم) را سریعاً پیدا کند.
- اعلام تغییرات (lastmod):
- تگ <lastmod> در نقشه سایت به گوگل میگوید که شما آخرین بار چه زمانی محتوای آن صفحه را تغییر دادهاید.
- هشدار: در استفاده از lastmod صادق باشید! اگر این تاریخ را الکی آپدیت کنید تا گوگل را فریب دهید، گوگل بهسرعت اعتمادش را به نقشه سایت شما از دست میدهد و آن را نادیده میگیرد.
- استفاده درست: فقط زمانی lastmod را آپدیت کنید که تغییر معناداری در محتوای صفحه دادهاید. این کار به گوگل سیگنال میدهد که «این صفحه ارزش بازخوانی (Refresh) دارد» و از خزش مجدد صفحات بدون تغییر جلوگیری میکند.
تکنیک پیشرفته: چه زمانی گزارش Crawl Stats کافی نیست؟
بیایید روراست باشیم، گزارش آمار خزش (Crawl Stats) در سرچ کنسول فوقالعاده است. این گزارش، خلاصهای است که گوگل به ما ارائه میدهد تا ببینیم او فکر میکند در سایت ما چه کرده است. این گزارش برای ۹۰٪ سایتها و برای عیبیابیهای روتین کافی است.
اما این گزارش ۳ محدودیت اساسی دارد: ۱. خلاصهسازی شده (Aggregated): به شما میگوید در یک روز ۱۰۰۰ صفحه خزش شده، اما نمیگوید دقیقا به چه ترتیبی و در چه ثانیهای. ۲. نمونهبرداری شده (Sampled): این گزارش ممکن است ۱۰۰٪ درخواستها را نشان ندهد، بهخصوص در سایتهای بسیار بزرگ. ۳. فقط گوگل: این گزارش فقط رفتار گوگلبات را به شما نشان میدهد، نه رباتهای دیگر (مثل Bing) یا رباتهای مخرب.
زمانی که با یک سایت بسیار بزرگ (مثلاً یک فروشگاه اینترنتی با میلیونها صفحه و فیلترهای پیچیده) سروکار داریم، یا با یک مشکل فنی عمیق (مثل شناسایی تلههای خزش یا رباتهای تقلبی) مواجهایم، این گزارش «خلاصه» کافی نیست. ما به دادههای خام نیاز داریم.
معرفی تحلیل لاگ فایل سرور (Log File Analysis)
اگر گزارش آمار خزش سرچ کنسول، «گزارش بازدید»ی است که گوگلبات پس از خروج از سایت شما پُر میکند، لاگ فایل سرور (Log File) دوربین مداربسته سرور شماست که هر حرکت او (و هر بازدیدکننده دیگری) را در لحظه ضبط میکند.
تحلیل لاگ فایل (Log File Analysis) فرآیند بررسی این فایلهای متنی سنگین و خام است که مستقیماً روی سرور شما ذخیره میشوند. این فایلها واقعیت محض (Ground Truth) هستند.
این کار معمولاً با ابزارهای تخصصی مانند Screaming Frog Log File Analyser یا پلتفرمهای مانیتورینگ مانند Splunk انجام میشود، چون خواندن دستی این فایلها (که میلیونها خط دارند) تقریباً غیرممکن است.
دادههایی که فقط در لاگ فایل پیدا میشوند (و در سرچ کنسول نیستند)
لاگ فایلها گنجینهای از اطلاعات هستند که سرچ کنسول هرگز به شما نمیدهد. مهمترین آنها عبارتاند از:
- ۱. مشاهده تمام رباتها (نه فقط گوگل):
- در لاگ فایلها، شما دقیقاً میبینید که BingBot، YandexBot، AhrefsBot، SemrushBot و هر ربات دیگری در سایت شما چه میکنند.
- اهمیت: شاید متوجه شوید که بودجه سرور شما به جای گوگل، توسط رباتهای اسکرپر (Scraper) یا ابزارهای سئو در حال بلعیده شدن است و باید آنها را مسدود کنید.
- ۲. شناسایی گوگلبات تقلبی (Fake Googlebot):
- در لاگ فایل، شما «User-Agent» کامل ربات و IP آن را میبینید.
- اهمیت: رباتهای مخرب زیادی خود را به عنوان «Googlebot» جا میزنند تا سایت شما را اسکرپ کنند (بدزدند). در سرچ کنسول، اینها دیده نمیشوند. اما در لاگ فایل، شما میتوانید IP آنها را با IPهای رسمی گوگل چک کنید و در صورت تقلبی بودن، آنها را مسدود (Block) کنید.
- ۳. دادههای ۱۰۰٪ کامل و بدون نمونهبرداری (Unsampled):
- سرچ کنسول یک خلاصه است، اما لاگ فایل تکتک درخواستها را ثبت میکند.
- اهمیت: در سایتهای بسیار بزرگ، این دادههای کامل تنها راه برای درک واقعی حجم خزش است.
- ۴. مشاهده ترتیب دقیق خزش (Crawl Path):
- سرچ کنسول میگوید صفحه A و B خزش شدند. لاگ فایل میگوید ربات ابتدا وارد صفحه A شد، ۳ ثانیه بعد روی لینک کلیک کرد و به صفحه B رفت.
- اهمیت: این تنها راه شناسایی «تلههای خزش» (Crawl Traps) است. مثلاً میبینید گوگلبات وارد یک فیلتر محصول شده و بعد در یک حلقه بیپایان از پارامترهای URL (مثل ?color=blue&size=large&…) گیر افتاده و هزاران صفحه بیارزش را پشت سر هم خزش میکند.
- ۵. خزش فایلهای غیرمعمول:
- لاگ فایلها نشان میدهند که رباتها دقیقاً چند بار فایل robots.txt شما را خواندهاند، یا آیا در حال خزش فایلهای xml، .txt یا فیدهای (Feed) ناشناختهای هستند که شما اصلاً از وجود آنها خبر نداشتهاید.
جمعبندی (گزارش Crawl Stats)
بهینهسازی بودجه خزش (Crawl Budget) یک کار فانتزی و پیچیده فنی نیست؛ این یک ضرورت مطلق برای بقای سایت شما در نتایج گوگل است.
گزارش آمار خزش (Crawl Stats) چراغ قوه شما در یک اتاق تاریک است. این گزارش به شما نمیگوید محتوای شما خوب است یا نه، اما به شما میگوید که آیا اصلاً دیده میشود یا خیر. اگر محتوای عالی شما توسط گوگلبات نادیده گرفته شود، انگار آن را اصلاً ننوشتهاید.
تحلیل لاگ فایلها (Log File Analysis) قدم بعدی برای حرفهایهاست، اما همین گزارش رایگان سرچ کنسول، نقطه شروع حیاتی شماست. به جای وسواس روی کلمات کلیدی، این ماه کمی روی سلامت خزش سایت خود وقت بگذارید؛ نتایج آن در سرعت ایندکس، شما را شگفتزده خواهد کرد.