مدیریت صحیح دسترسیها و فیلتر کردن دایرکتوریها، یکی از ستونهای اصلی سئوی فنی است. این کار فقط به معنای استفاده از robots.txt نیست؛ بلکه شامل مدیریت ایندکس، پاکسازی گزارشهای آنالیتیکس و تحلیل دقیق سرچ کنسول نیز میشود. درک تفاوتهای این ابزارها برای جلوگیری از خطاهای فاجعهبار ضروری است. البته، برای تحلیلهای بسیار پیشرفته در ابزارهایی مانند GA4 یا GSC، تسلط بر الگوهای عملی رجکس برای تحلیل صفحات (Pages) اهمیت پیدا میکند، که در این مطلب به مبانی آن در آنالیتیکس اشاره خواهیم کرد. در ادامه، به بررسی چهار روش اصلی فیلترینگ و کاربرد هر یک میپردازیم.
خلاصه تفاوت روشها
این جدول به شما کمک میکند تا به سرعت تفاوتهای اساسی ابزارهای مورد بحث را درک کنید:
| ابزار (Tool) | حوزه استفاده | هدف اصلی | تأثیر مستقیم بر سئو |
| robots.txt | سئوی فنی | مدیریت بودجه خزش (Crawl Budget) | دارد (جلوگیری از خزش) |
| noindex | سئوی فنی / مدیریت محتوا | مدیریت ایندکس (Indexing) | دارد (حذف از نتایج) |
| Google Analytics | تحلیل داده | پاکسازی گزارش برای تحلیل دقیقتر | ندارد (فقط تحلیل) |
| Google Search Console | عیبیابی سئو | مانیتورینگ و فیلتر گزارشها | ندارد (فقط گزارشگیری) |
چرا و چه زمانی باید یک دایرکتوری خاص را فیلتر کنیم؟
فیلتر کردن یا مسدود کردن یک دایرکتوری، یک ابزار مدیریتی در سئوی فنی است. ما از این کار برای پنهانکاری استفاده نمیکنیم، بلکه هدف اصلی، هدایت صحیح رباتهای جستجوگر و مدیریت بهینه «بودجه خزش» (Crawl Budget) است.
ما میخواهیم اطمینان پیدا کنیم که رباتها، زمان محدود خود را صرف خزش و ایندکس کردن صفحات مهم و باارزش وبسایت ما میکنند. فیلتر کردن به ما کمک میکند تا از هدر رفتن منابع رباتها روی صفحاتی که برای کاربر نهایی یا موتور جستجو ارزشی ندارند، جلوگیری کنیم.
این اقدام به تمرکز بر محتوای اصلی و مفید برای مخاطبان واقعی سایت کمک میکند و از ایندکس شدن محتوایی که صرفاً برای نتایج جستجو ساخته شدهاند (Search engine-first) جلوگیری میکند.
درک اهداف: فیلتر برای رباتهای جستجو، کاربران یا تحلیلگران؟
هدف ما از “فیلتر” مشخص میکند که از چه ابزاری باید استفاده کنیم. این سه مورد کاملاً متفاوت هستند:
- فیلتر برای رباتهای جستجو (مسدودسازی خزش): این کار معمولاً از طریق فایل robots.txt انجام میشود. هدف، جلوگیری از دسترسی رباتها به بخشهایی است که خزش آنها هدر دادن منابع است (مانند پنل ادمین، اسکریپتها یا فایلهای سیستمی). این کار مستقیماً روی بودجه خزش تأثیر دارد.
- فیلتر برای کاربران (جلوگیری از ایندکس): در اینجا از تگ noindex استفاده میکنیم. ربات، صفحه را میبیند و میخواند اما آن را در نتایج جستجو (SERP) به کاربر نشان نمیدهد. این روش برای صفحاتی مناسب است که ارزشی برای کاربر جستجوگر ندارند، مانند نتایج جستجوی داخلی یا صفحات تگِ بدون محتوا. این صفحات معمولاً تجربه رضایتبخشی به کاربر نمیدهند.
- فیلتر برای تحلیلگران (پاکسازی داده): این مورد به سئوی فنی ربطی ندارد، بلکه مربوط به ابزارهای آماری مثل گوگل آنالیتیکس یا سرچ کنسول است. به عنوان مثال، ترافیک داخلی کارمندان شرکت را فیلتر میکنیم تا آمار دقیقتری از رفتار کاربران واقعی به دست آوریم.
سناریوهای رایج (مثلاً: بخشهای ادمین، نتایج جستجوی داخلی، صفحات تگ)
دایرکتوریها یا الگوهای URL خاصی وجود دارند که فیلتر کردن آنها تقریباً همیشه توصیه میشود:
- بخشهای مدیریت و ورود: دایرکتوریهایی مانند /wp-admin/ یا صفحات لاگین و ثبتنام (/login/) نباید توسط رباتها خزش شوند.
- نتایج جستجوی داخلی: صفحاتی که با جستجوی کاربر در داخل سایت ایجاد میشوند (مثلاً /?s=query). اینها محتوای تکراری و کمارزش برای گوگل هستند و صرفاً خلاصهای از مطالب دیگران (یعنی خود سایت) هستند، بدون اینکه ارزش افزوده جدیدی ارائه دهند.
- صفحات تگ و آرشیو (در صورت ضعیف بودن): اگر صفحات تگ، دستهبندی یا آرشیوهای زمانی شما محتوای اختصاصی ندارند و فقط لیستی از مقالات هستند، ممکن است کاندیدای noindex باشند تا از ایجاد “محتوای ضعیف” (Thin Content) و تکراری جلوگیری شود.
- پارامترهای URL و فیلترها: صفحاتی که با فیلتر کردن در فروشگاهها (مثلاً بر اساس رنگ، قیمت یا سایز) ایجاد میشوند، اغلب محتوای تکراری تولید میکنند و باید با Canonical مدیریت شده یا از خزش آنها جلوگیری شود.
- صفحات کاربری و شخصی: بخشهایی مانند پروفایل کاربران، سبد خرید، مراحل پرداخت و صفحات تشکر از خرید، برای مخاطب عام در نظر گرفته نشدهاند و نباید در نتایج جستجو ظاهر شوند.
هشدار مهم: خطرات فیلتر کردن اشتباه (از دست دادن بودجه خزش و رتبه)
فیلتر کردن اشتباه میتواند به سئوی سایت آسیب جدی و جبرانناپذیری بزند. این نوع اشتباهات معمولاً نشاندهنده عدم تخصص است و تجربه کاربری بسیار بدی ایجاد میکند.
- مسدود کردن فایلهای حیاتی (CSS/JS): اگر فایلهای CSS یا جاوا اسکریپت را به اشتباه در robots.txt مسدود کنید، گوگل نمیتواند صفحه را به درستی رندر کند (ببیند). در نتیجه، ممکن است محتوای شما را “سهلانگارانه یا عجولانه” و بیکیفیت ارزیابی کند، حتی اگر برای کاربر به درستی نمایش داده شود.
- از دست دادن رتبه و ترافیک: مسدود کردن تصادفی یک دایرکتوری حاوی محتوای اصلی (مثل /blog/ یا /products/) باعث حذف کامل آن صفحات از نتایج جستجو و از دست رفتن رتبهها میشود.
- تداخل robots.txt و noindex: این یک اشتباه رایج و خطرناک است. اگر صفحهای را در robots.txt مسدود کنید، ربات گوگل دیگر آن را نمیخواند. در نتیجه، اگر آن صفحه تگ noindex داشته باشد، گوگل هرگز آن تگ را نخواهد دید و صفحه ممکن است از ایندکس حذف نشود. برای حذف یک صفحه از ایندکس، ابتدا باید اجازه خزش به ربات بدهید تا تگ noindex را ببیند و پس از حذف شدن از ایندکس، میتوانید خزش آن را مسدود کنید.
- ایجاد نیاز به جستجوی مجدد: اگر محتوای مفیدی را به اشتباه فیلتر کنید، کاربر برای یافتن پاسخ کامل مجبور به جستجوی مجدد در منابع دیگر میشود که این یک سیگنال منفی قوی برای کیفیت سایت شما است.
روش اول: جلوگیری از خزش (Crawling) دایرکتوری با robots.txt
استفاده از فایل robots.txt، اساسیترین روش در سئوی فنی (Technical SEO) برای مدیریت دسترسی رباتهای جستجوگر است. این فایل، اولین جایی است که رباتها قبل از شروع خزش سایت به آن نگاه میکنند.
هدف اصلی این روش، جلوگیری از ورود رباتها به بخشهایی است که خزش آنها هیچ ارزشی ندارد و صرفاً منابع ربات (و سرور شما) را هدر میدهد. این کار مستقیماً به بهینهسازی «بودجه خزش» (Crawl Budget) کمک میکند و نشاندهنده تخصص شما در مدیریت سایت است.
robots.txt چیست و چگونه بر بودجه خزش (Crawl Budget) تأثیر میگذارد؟
فایل robots.txt یک فایل متنی ساده است که در ریشه (Root) سایت شما قرار میگیرد و به رباتهای جستجوگر میگوید که مجاز به خزش کدام بخشها هستند یا نیستند.
بودجه خزش (Crawl Budget) به زبان ساده، میزان منابع و زمانی است که گوگلبات (یا رباتهای دیگر) برای بررسی و خزش صفحات سایت شما در یک بازه زمانی مشخص اختصاص میدهد. این بودجه محدود است.
- تأثیر مثبت: وقتی شما دایرکتوریهای غیرضروری (مانند پنل ادمین، فایلهای سیستمی، اسکریپتها یا نتایج جستجوی داخلی) را از طریق robots.txt مسدود (Disallow) میکنید، رباتها دیگر زمان خود را صرف بررسی آن صفحات بیارزش نمیکنند.
- نتیجه: این بودجه خزش آزاد شده، صرف بررسی صفحات مهمتر، جدیدتر یا عمیقتر سایت شما (مانند مقالات جدید بلاگ یا محصولات) میشود. این کار به ایندکس شدن سریعتر و دقیقتر محتوای مفید شما کمک میکند.
دستورالعمل گام به گام Disallow کردن دایرکتوری /blog/
فرض کنید میخواهید به تمام رباتها بگویید که به هیچ عنوان وارد دایرکتوری /blog/ و هیچکدام از زیرشاخههای آن نشوند.
۱. دسترسی به فایل: فایل robots.txt را که در ریشه سایت شما قرار دارد (مثلاً YourDomain.com/robots.txt) باز کنید.
۲. تعیین User-agent: برای اینکه این دستورالعمل شامل حال همهی رباتها (گوگل، بینگ و…) شود، از User-agent: * استفاده میکنیم.
۳. نوشتن دستور Disallow: در خط بعدی، دستور مسدودسازی را به شکل دقیق وارد کنید.
کد نهایی که باید در فایل robots.txt شما قرار گیرد، به این شکل است:
Plaintext
User-agent: *
Disallow: /blog/
۴. ذخیره و بررسی: فایل را ذخیره کنید. رباتها در بازدید بعدی خود این دستورالعمل جدید را میخوانند.
مثال عملی: تفاوت Disallow: /blog/ و Disallow: /blog
درک تفاوت این دو دستور برای جلوگیری از خطاهای فاجعهبار فنی ضروری است. دقت به یک اسلش (/) میتواند همهچیز را تغییر دهد.
- Disallow: /blog/ (با اسلش در انتها)
- معنی: فقط دایرکتوری /blog/ و تمام فایلها و زیرشاخههای داخل آن را مسدود کن.
- مثال: /blog/post-1/ مسدود میشود. اما /blog-reviews.html (اگر وجود داشته باشد) مسدود نمیشود.
- Disallow: /blog (بدون اسلش در انتها)
- معنی: هر URL در سایت که با رشته کاراکتر /blog شروع شود را مسدود کن.
- مثال: /blog/، /blog.html، /blog-post-title/ و /blogging-strategy/ همگی مسدود میشوند.
توصیه تخصصی: اگر هدفتان فقط مسدود کردن یک دایرکتوری مشخص است، همیشه از اسلش در انتهای نام آن (/blog/) استفاده کنید تا از مسدود شدن ناخواسته صفحات دیگر جلوگیری کنید.
نکته تخصصی: آیا Disallow جلوی ایندکس شدن را میگیرد؟ (پاسخ کوتاه: خیر!)
این یکی از رایجترین اشتباهات در سئو است.
- Disallow در robots.txt فقط جلوی خزش (Crawling) را میگیرد. یعنی به ربات میگوید: “این صفحه را نخوان“.
- این دستور جلوی ایندکس (Indexing) را نمیگیرد.
- سناریوی مشکلساز: اگر شما صفحهای را Disallow کنید، اما آن صفحه از سایت دیگری (بکلینک) یا حتی از صفحهای در داخل سایت خودتان (لینک داخلی) لینک داشته باشد، گوگل ممکن است آن URL را بدون اینکه محتوایش را بخواند، ایندکس کند.
- نتیجه: در این حالت، URL مورد نظر در نتایج جستجو با متنی شبیه به “No information is available for this page” (اطلاعاتی برای این صفحه در دسترس نیست) ظاهر میشود، چون گوگل اجازه خواندن محتوا و تایتل آن را نداشته است.
راه حل صحیح: اگر میخواهید صفحهای به طور کامل از نتایج جستجو حذف شود، نباید آن را در robots.txt مسدود کنید. بلکه باید به ربات اجازه خزش بدهید تا بتواند تگ noindex را در آن صفحه بخواند.
روش دوم: جلوگیری از ایندکس (Indexing) دایرکتوری با noindex
وقتی از noindex استفاده میکنیم، به ربات جستجوگر اجازه میدهیم صفحه را بخزد و آن را بخواند. اما به طور مشخص و محترمانه از او میخواهیم که آن صفحه را در نتایج جستجوی عمومی (SERP) به کاربران نشان ندهد.
این روش، برخلاف robots.txt که روی بودجه خزش (Crawl Budget) تمرکز داشت، مستقیماً روی مدیریت ایندکس و آنچه کاربر نهایی در گوگل میبیند، تأثیر میگذارد. این دستور برای صفحاتی مانند نتایج جستجوی داخلی، آرشیوهای ضعیف، یا صفحات تشکر از خرید که ارزشی برای کاربر جستجوگر ندارند، ایدهآل است.
تفاوت حیاتی noindex و Disallow (مهمترین بخش برای سئو)
درک تفاوت این دو دستور، مرز بین مدیریت حرفهای سایت و ایجاد یک مشکل فنی بزرگ است. این دو دستور کاملاً اهداف متفاوتی دارند و نباید به جای هم استفاده شوند.
- Disallow (در robots.txt): دستوری برای “خزش نکردن” (Do Not Crawl) است.
- مثل یک تابلوی “ورود ممنوع” در ابتدای یک کوچه است. ربات اصلاً وارد نمیشود تا ببیند داخل آن چیست.
- هدف: صرفهجویی در بودجه خزش.
- noindex (در متا تگ): دستوری برای “ایندکس نکردن” (Do Not Index) است.
- ربات وارد کوچه (صفحه) میشود، آن را کامل بررسی میکند، اما وقتی دستور noindex را میبیند، تصمیم میگیرد آدرس این کوچه را در نقشههای عمومی (نتایج گوگل) ثبت نکند.
- هدف: مدیریت نمایش محتوا در نتایج جستجو.
هشدار جدی و اشتباه رایج:
هرگز، هرگز و هرگز صفحهای را که میخواهید از ایندکس گوگل حذف شود، در robots.txt مسدود (Disallow) نکنید.
چرا؟ چون برای اینکه گوگل صفحهای را noindex کند، باید ابتدا آن را بخزد و دستور noindex را بخواند. اگر شما دسترسی خزش را با Disallow ببندید، ربات هرگز آن دستور را نمیبیند و صفحه از ایندکس حذف نخواهد شد.
پیادهسازی noindex از طریق متا تگ (Meta Robots Tag)
این روش استاندارد، رایجترین و سادهترین راه برای noindex کردن صفحات HTML (مانند مقالات، صفحات محصول، یا دستهبندیها) است.
شما باید یک خط کد ساده را به بخش <head> در HTML صفحه مورد نظر اضافه کنید.
کد استاندارد:
HTML
<meta name=”robots” content=”noindex, follow”>
- noindex: به ربات میگوید این صفحه را در نتایج نشان نده.
- follow: (بسیار مهم) به ربات میگوید: “اگرچه این صفحه را ایندکس نمیکنی، اما لینکهای داخل آن را دنبال کن و اعتبار (Link Equity) را به آنها منتقل کن.”
اگر از nofollow استفاده کنید (noindex, nofollow)، ربات نهتنها صفحه را ایندکس نمیکند، بلکه تمام لینکهای خروجی آن را نیز نادیده میگیرد که معمولاً برای سئوی داخلی مضر است.
پیادهسازی noindex از طریق هدر HTTP (X-Robots-Tag)
اما اگر بخواهیم فایلی را noindex کنیم که HTML نیست و بخش <head> ندارد (مثل یک فایل PDF، یک عکس یا یک سند Word) چه کنیم؟
در این حالت، ما دستور noindex را مستقیماً در هدر HTTP که سرور قبل از ارسال فایل برای ربات میفرستد، قرار میدهیم.
این کار معمولاً از طریق تنظیمات سرور (مانند فایل .htaccess در آپاچی) انجام میشود.
مثال دستور در .htaccess برای noindex کردن تمام فایلهای PDF:
Apache
<FilesMatch “\.pdf$”>
Header set X-Robots-Tag “noindex, follow”
</FilesMatch>
این دستور به سرور میگوید هر زمان که رباتی درخواست یک فایل PDF کرد، قبل از ارسال فایل، این هدر (X-Robots-Tag: noindex, follow) را برایش ارسال کن.
بهترین روش برای وردپرس (استفاده از افزونههای سئو مانند Yoast یا Rank Math)
برای کاربرانی که از وردپرس استفاده میکنند، درگیر شدن با کدهای <head> یا تنظیمات سرور نه لازم است و نه توصیه میشود. این کار ریسک خطا دارد.
بهترین، سادهترین و امنترین راه، استفاده از قابلیتهای داخلی افزونههای معتبر سئو است:
- دسترسی: هنگام ویرایش یک نوشته، برگه، یا دستهبندی، به باکسی که افزونه سئو (Yoast, Rank Math و…) در پایین صفحه اضافه کرده است، بروید.
- بخش پیشرفته (Advanced): روی تب “پیشرفته” یا “Advanced” کلیک کنید.
- تنظیمات متا: به دنبال گزینهای با عنوان “Allow search engines to show this post in search results?” (آیا به موتورهای جستجو اجازه نمایش این صفحه در نتایج داده شود؟) بگردید.
- انتخاب: آن را روی “No” (خیر) تنظیم کنید.
چه اتفاقی میافتد؟
با انتخاب “No”، افزونه به صورت خودکار و ایمن، متا تگ <meta name=”robots” content=”noindex, follow”> را به بخش <head> همان صفحه اضافه میکند، بدون اینکه شما نیاز به دستکاری مستقیم کد داشته باشید.
باید توجه داشته باشید که این نوع فیلتر (در گوگل آنالیتیکس) با فیلترهایی که قبلاً بحث کردیم (robots.txt و noindex) کاملاً متفاوت است.
فیلتر کردن در آنالیتیکس هیچ تأثیری بر سئو، خزش یا ایندکس شدن صفحات شما در گوگل ندارد. این کار صرفاً یک ابزار تحلیل داده است. ما از آن استفاده میکنیم تا گزارشهای تمیزتر و قابل اعتمادتری برای تصمیمگیریهای کسبوکار به دست آوریم.
فیلتر کردن دایرکتوری /blog/ در گزارشهای گوگل آنالیتیکس (GA4)
وقتی دایرکتوری /blog/ را در گوگل آنالیتیکس 4 (GA4) فیلتر میکنیم، در واقع به آنالیتیکس میگوییم که هنگام نمایش گزارشها، دادههای مربوط به آن بخش را نادیده بگیرد یا جداگانه نمایش دهد. این کار به ما کمک میکند تا رفتار کاربران اصلی سایت (مثلاً خریداران فروشگاه) را با رفتار بازدیدکنندگان بلاگ (که به دنبال اطلاعات هستند) مخلوط نکنیم.
چرا باید ترافیک یک بخش را در آنالیتیکس فیلتر کنیم؟ (ایجاد نمای داده تمیز)
هدف اصلی، دقت در تحلیل است. رفتار کاربری که برای خواندن یک مقاله وارد دایرکتوری /blog/ میشود، با رفتار کاربری که قصد خرید از دایرکتوری /products/ را دارد، زمین تا آسمان فرق میکند.
- کاربر بلاگ: معمولاً یک صفحه را میخواند، شاید زمان زیادی در صفحه بماند (Time on Page بالا)، اما اقدامی (Action) مرتبط با اهداف اصلی کسبوکار (مثل خرید) انجام نمیدهد و سایت را ترک میکند.
- کاربر فروشگاه: ممکن است صفحات بیشتری را ببیند (Pageviews بالا)، زمان کمتری در هر صفحه بماند، اما هدف او نزدیک شدن به «قیف فروش» (Sales Funnel) است.
مشکل کجاست؟
اگر این دو گروه کاربر را در یک گزارش واحد تحلیل کنید، شاخصهای کلیدی شما (KPIs) «آلوده» میشوند. مثلاً، نرخ پرش (Bounce Rate) بالای بلاگ، ممکن است نرخ پرش کلی سایت را به اشتباه بالا نشان دهد و شما را گمراه کند که در صفحات فروشگاهی مشکلی وجود دارد.
ایجاد یک نمای داده تمیز (Clean Data View) به شما اجازه میدهد رفتار هر بخش را جداگانه تحلیل کنید و تصمیمات درستی، مثلاً در زمینه بهینهسازی نرخ تبدیل (CRO)، بگیرید.
آموزش ساخت یک Filter (فیلتر) در GA4 برای Exclude کردن دایرکتوری
در گوگل آنالیتیکس 4، مفهوم “View” که در نسخههای قدیمی (یونیورسال) وجود داشت، حذف شده است. ما دیگر یک فیلتر دائمی که دادهها را برای همیشه حذف کند، به سادگی قبل نداریم.
به جای آن، از “Comparisons” (مقایسهها) برای فیلتر کردن در لحظهی گزارشگیری استفاده میکنیم. این روش بسیار امنتر است چون دادههای اصلی شما دستنخورده باقی میمانند.
مراحل گام به گام:
- وارد اکانت GA4 خود شوید و به بخش “Reports” (گزارشها) بروید (مثلاً گزارش “Pages and screens”).
- در بالای صفحه گزارش، روی گزینه “Add comparison” (افزودن مقایسه) کلیک کنید.
- یک پنل در سمت راست باز میشود. در بخش “Dimension” (بُعد)، “Page path and screen class” را پیدا و انتخاب کنید.
- در بخش “Match Type” (نوع انطباق)، گزینه “does not contain” (شامل نمیشود) را انتخاب کنید.
- در کادر “Value” (مقدار)، نام دایرکتوری مورد نظر را تایپ کنید: /blog/
- روی دکمه “Apply” (اعمال) کلیک کنید.
نتیجه:
اکنون GA4 گزارش را در دو ستون به شما نشان میدهد: یکی “All Users” (همه کاربران) و دیگری ستون جدیدی که فقط شامل ترافیک کاربرانی است که با دایرکتوری /blog/ در تعامل نبودهاند. شما میتوانید مقایسه “All Users” را ببندید تا فقط نمای فیلتر شده (یعنی سایت بدون بلاگ) را ببینید.
استفاده از Regex (عبارات باقاعده) برای فیلترینگ پیشرفته در آنالیتیکس
گاهی اوقات فیلتر ساده “does not contain” کافی نیست، چون ممکن است دقت لازم را نداشته باشد و بخشهایی را به اشتباه فیلتر کند. اینجا از Regex (Regular Expressions) استفاده میکنیم.
Regex یک زبان الگویابی دقیق است.
سناریوی اول: فیلتر کردن دقیق /blog/
فرض کنید شما دایرکتوری /blog/ را دارید، اما صفحهای به نام /new-blogging-strategy/ هم دارید.
- اگر از does not contain /blog/ استفاده کنید، هر دو مورد را فیلتر میکند که اشتباه است.
- راه حل Regex:
- Match Type: “does not match regex” (با عبارات باقاعده مطابقت ندارد)
- Value: ^/blog/
- توضیح: علامت ^ در Regex به معنای “شروع خط” است. این دستور دقیقاً URLهایی را فیلتر میکند که با /blog/ شروع میشوند و کاری به سایر URLها ندارد.
سناریوی دوم: فیلتر کردن چند دایرکتوری
فرض کنید میخواهید هم /blog/ و هم /forum/ را از گزارشها حذف کنید.
- راه حل Regex:
- Match Type: “does not match regex“
- Value: ^/blog/|^/forum/
- توضیح: علامت | در Regex به معنای “یا” (OR) است. این دستور ترافیک صفحاتی که با /blog/ یا با /forum/ شروع میشوند را فیلتر میکند.
بررسی و فیلتر کردن دادههای دایرکتوری در گوگل سرچ کنسول (GSC)
تحلیل دادههای یک دایرکتوری خاص در سرچ کنسول به ما اجازه میدهد تا به سوالات کلیدی پاسخ دهیم: آیا گوگل صفحات بلاگ ما را به درستی ایندکس میکند؟ کاربران با چه کلماتی (Queries) مقالات ما را پیدا میکنند؟ آیا مشکلات فنی مانند خطاهای 404 یا مشکلات noindex در این بخش وجود دارد؟
نحوه استفاده از فیلتر “Page” در گزارش Performance (عملکرد)
گزارش “Performance” (عملکرد) ارزشمندترین بخش GSC برای تحلیل ترافیک ارگانیک است. این گزارش، کلیکها، ایمپرشنها (تعداد دفعات دیده شدن)، CTR و میانگین رتبه شما را نشان میدهد.
برای فیلتر کردن این گزارش و دیدن دادههای صرفاً برای دایرکتوری /blog/:
- به گزارش Performance بروید.
- در بالای نمودار، روی دکمه “+ NEW” (جدید) کلیک کنید.
- از منوی باز شده، گزینه “Page…” (صفحه…) را انتخاب کنید.
- در پنجرهای که باز میشود، از منوی کشویی گزینه “URLs containing” (URLهای حاوی) را انتخاب کنید.
- در کادر متنی، آدرس دایرکتوری خود را وارد کنید: /blog/
- روی دکمه “Apply” (اعمال) کلیک کنید.
نتیجه:
پس از اعمال این فیلتر، تمام اعداد و نمودارها (کلیک، ایمپرشن) و همچنین لیست “Queries” (کوئریها) در پایین صفحه، فقط و فقط مربوط به صفحاتی خواهد بود که در URL خود عبارت /blog/ را دارند. این کار به شما کمک میکند تا بفهمید کدام مقالات بیشترین ورودی را دارند و کاربران برای رسیدن به بلاگ شما، دقیقاً چه عباراتی را جستجو کردهاند.
بررسی وضعیت خزش و ایندکس دایرکتوری در گزارش Pages
این گزارش، بخش فنی ماجرا است. گزارش “Pages” (که قبلاً “Coverage” نام داشت) به شما نشان میدهد که چه تعداد از صفحات دایرکتوری شما با موفقیت ایندکس شدهاند و چه تعداد از آنها به دلایل فنی مختلف، ایندکس نشدهاند.
- به گزارش “Pages” (صفحات) در منوی سمت چپ بروید.
- نمودار اصلی، وضعیت کل سایت را نشان میدهد. برای فیلتر کردن، به جدول پایین صفحه بروید.
- در بالای جدول (سمت راست)، یک آیکون فیلتر کوچک وجود دارد. روی آن کلیک کنید.
- این کار یک فیلتر در بالای لیست صفحات اضافه میکند. در کادر “Filter by URL” (فیلتر بر اساس URL)، آدرس دایرکتوری را تایپ کنید: /blog/
نتیجه:
اکنون کل گزارش “Pages” فقط برای URLهای /blog/ بهروزرسانی میشود. شما میتوانید دقیقاً ببینید:
- Indexed (ایندکس شده): چه تعداد از مقالات شما با موفقیت در گوگل هستند.
- Not indexed (ایندکس نشده): چه تعداد ایندکس نشدهاند.
- چرا ایندکس نشدهاند؟ این بخش مهمترین قسمت است. شما میتوانید دلایلی مانند “Excluded by ‘noindex’ tag” (که نشان میدهد شما عمداً آن را noindex کردهاید) یا “Crawled – currently not indexed” (گوگل آن را خزش کرده ولی بیارزش تشخیص داده) یا “Not found (404)” را ببینید. این بهترین ابزار برای عیبیابی فنی دایرکتوری بلاگ شماست.
استفاده از ابزار “Removals” برای حذف موقت دایرکتوری از نتایج
ابزار “Removals” (حذفها) یک ابزار اضطراری است، نه یک روش استاندارد برای مدیریت سئو. این ابزار برای زمانی است که شما نیاز دارید یک صفحه یا دایرکتوری را به سرعت (اما به صورت موقت) از نتایج جستجوی گوگل پنهان کنید.
چه زمانی استفاده میشود؟
زمانی که اطلاعات حساسی به اشتباه منتشر شده، سایت هک شده، یا صفحهای را حذف کردهاید و میخواهید تا زمان خزش مجدد گوگل، آن را فوراً از نتایج مخفی کنید.
نحوه استفاده برای حذف یک دایرکتوری:
- در منوی GSC، به “Removals” (حذفها) بروید.
- روی دکمه قرمز رنگ “New Request” (درخواست جدید) کلیک کنید.
- در تب “Temporary Removals” (حذفهای موقت)، گزینه “Remove all URLs with this prefix” (حذف همه URLها با این پیشوند) را انتخاب کنید.
- در کادر URL، آدرس کامل دایرکتوری را وارد کنید: https://www.yourdomain.com/blog/
- روی “Next” و سپس “Submit Request” کلیک کنید.
هشدار بسیار مهم (نکته تخصصی):
این اقدام فقط حدود ۶ ماه اعتبار دارد و صفحه را موقت پنهان میکند. این کار مشکل اصلی را حل نمیکند.
همزمان با ثبت این درخواست، شما باید راهحل دائمی را نیز پیاده کنید. یعنی:
- اگر صفحه باید برای همیشه حذف شود، آن را noindex کنید یا با کد 404 یا 410 (Gone) آن را از دسترس خارج کنید.
اگر فقط از Removals استفاده کنید و راهحل دائمی را اعمال نکنید، پس از ۶ ماه، گوگل دوباره آن صفحه یا دایرکتوری را ایندکس خواهد کرد.
در تجربه کاری، دیدهام که فیلتر کردن دایرکتوریها، با اینکه ساده به نظر میرسد، یکی از مستعدترین بخشها برای خطاهای فنی فاجعهبار است. یک اشتباه کوچک در robots.txt یا noindex میتواند به سرعت تلاشهای سئوی شما را بیاثر کند. اینها رایجترین اشتباهاتی هستند که باید به هر قیمتی از آنها اجتناب کنید.
اشتباهات رایج و بهترین شیوهها (تجربه عملی)
مدیریت خزش و ایندکس، یک بخش حیاتی از سئوی فنی است. این کار نیاز به دقت بالا دارد، زیرا یک دستور اشتباه میتواند بخش بزرگی از سایت شما را از دسترس گوگل خارج کند. بر اساس تجربه، این سه اشتباه بیشترین آسیب را به سایتها وارد میکنند.
اشتباه ۱: استفاده از Disallow برای صفحاتی که قبلاً ایندکس شدهاند
این رایجترین و مخربترین اشتباهی است که میبینم و نشاندهنده درک نادرست از تفاوت خزش و ایندکس است.
- سناریو: شما صفحهای (مثلاً yourdomain.com/blog/old-post/) دارید که در گوگل ایندکس شده و حالا میخواهید آن را حذف کنید.
- اقدام اشتباه: شما بلافاصله آن را در robots.txt مسدود (Disallow) میکنید.
- مشکل: ربات گوگل دیگر اجازه ندارد صفحه را بخزد. در نتیجه، هرگز متوجه نمیشود که شما آن صفحه را noindex کردهاید (یا کد 404/410 برگرداندهاید). آن صفحه برای مدت طولانی، حتی ماهها، به صورت ایندکس شده در نتایج باقی میماند، چون گوگل دستوری مبنی بر حذف آن دریافت نکرده است.
- راه حل درست (دو مرحلهای):
- ابتدا صفحه را noindex کنید (یا 404/410 کنید).
- صبر کنید تا گوگل صفحه را مجدداً بخزد، دستور noindex را ببیند و آن را از ایندکس حذف کند (میتوانید این را در سرچ کنسول بررسی کنید).
- فقط پس از آن، اگر میخواهید بودجه خزش را حفظ کنید، میتوانید آن URL را Disallow کنید.
اشتباه ۲: فیلتر کردن تصادفی فایلهای CSS/JS (و تخریب رندرینگ)
این یک اشتباه فنی است که مستقیماً بر درک گوگل از کیفیت محتوای شما تأثیر میگذارد. گوگل دیگر فقط HTML را نمیخواند؛ صفحات را مانند یک مرورگر رندر میکند.
- مشکل: گاهی توسعهدهندگان به اشتباه دایرکتوریهای حاوی فایلهای css ،js یا images را در robots.txt مسدود میکنند (مثلاً Disallow: /assets/).
- نتیجه: ربات گوگل نمیتواند صفحه را به درستی بارگذاری کند. از دید گوگل، صفحه شما شبیه به یک سند متنی بههمریخته و بدون استایل است (شبیه به محتوای سهلانگارانه و ناپخته که اعتمادی جلب نمیکند). این موضوع به شدت بر ارزیابی کیفیت صفحه (Page Quality) و تجربه کاربری (UX) و در نهایت رتبه شما تأثیر منفی میگذارد.
- راه حل: همیشه اطمینان حاصل کنید که تمام فایلهای منابع (CSS, JS) که برای نمایش صحیح صفحه ضروری هستند، برای گوگلبات قابل خزش باشند.
اشتباه ۳: فراموش کردن کاراکتر اسلش (/) در انتهای مسیر
این یک اشتباه کوچک تایپی با عواقب بزرگ است.
- سناریوی خطرناک: فرض کنید میخواهید فقط دایرکتوری /blog/ را مسدود کنید.
- دستور اشتباه: Disallow: /blog (بدون اسلش انتهایی)
- نتیجه: این دستور هر URL که با /blog شروع شود را مسدود میکند. این شامل:
- /blog/my-post/
- /blog.html
- /blogging-tips/ (یک دایرکتوری کاملاً متفاوت که به اشتباه مسدود شده)
- دستور صحیح: Disallow: /blog/ (با اسلش انتهایی)
- نتیجه: این دستور فقط دایرکتوری /blog/ و محتوای داخل آن را مسدود میکند و کاری به صفحاتی مانند /blogging-tips/ ندارد. این دقت، نشاندهنده تخصص است.
چکلیست نهایی: چگونه از فیلتر کردن صحیح مطمئن شویم؟
قبل از اعمال هرگونه تغییر در robots.txt یا noindex، این چکلیست را مرور کنید:
- ۱. هدف خود را مشخص کنید: آیا میخواهم بودجه خزش را مدیریت کنم (استفاده از robots.txt) یا میخواهم صفحهای از نتایج حذف شود (استفاده از noindex)؟ (اشتباه ۱ را به یاد بیاورید).
- ۲. از ابزار تست Robots.txt استفاده کنید: قبل از اعمال تغییرات، از تستر robots.txt در گوگل سرچ کنسول یا ابزارهای مشابه استفاده کنید. URLهای حیاتی (صفحات محصول، CSS, JS) و URLهایی که قصد مسدود کردنشان را دارید، در آن تست کنید.
- ۳. دقت در سینتکس: دستور خود را دوباره چک کنید. آیا از اسلش انتهایی (/) به درستی استفاده کردهاید؟ (اشتباه ۳).
- ۴. بررسی گزارش Pages در GSC: پس از اعمال noindex، گزارش “Pages” (بخش “Excluded by ‘noindex’ tag”) را در سرچ کنسول بررسی کنید تا مطمئن شوید گوگل دستور شما را دریافت و اجرا کرده است.
- ۵. بررسی رندرینگ (Rendering): پس از هر تغییر در robots.txt، از ابزار “URL Inspection” (بررسی URL) در سرچ کنسول استفاده کنید. گزینه “Test Live URL” را بزنید و سپس “View Tested Page” (مشاهده صفحه تست شده) را باز کنید. به بخش “Screenshot” (اسکرینشات) نگاه کنید. آیا صفحه دقیقاً شبیه چیزی است که کاربر میبیند؟ اگر نه، شما (اشتباه ۲) را مرتکب شدهاید.
کدام روش فیلترینگ برای شما مناسب است؟
برای اینکه تصمیم درستی بگیرید، ابتدا باید از خود بپرسید: «دقیقاً میخواهم به چه هدفی برسم؟» هر ابزار، کارکرد مشخصی دارد و نباید به جای دیگری استفاده شود.
- اگر هدف شما صرفهجویی در بودجه خزش (Crawl Budget) است:
- ابزار: robots.txt
- کاربرد: شما میخواهید ربات گوگل اصلاً وارد یک بخش نشود و وقت خود را در آنجا تلف نکند. این بخشها معمولاً هیچ ارزشی برای ایندکس شدن ندارند (مانند پنل ادمین، اسکریپتها، یا فایلهای سیستمی).
- هشدار: این کار جلوی ایندکس شدن را نمیگیرد.
- اگر هدف شما حذف یک صفحه از نتایج جستجوی گوگل (SERP) است:
- ابزار: متا تگ noindex (یا X-Robots-Tag)
- کاربرد: شما میخواهید ربات گوگل صفحه را ببیند و بخواند، اما به او دستور میدهید که آن را در نتایج جستجو به کاربران نمایش ندهد. این بهترین راه برای حذف صفحات بیارزش برای کاربر (مثل نتایج جستجوی داخلی، صفحات تشکر یا آرشیوهای ضعیف) است.
- نکته حیاتی: برای اجرای این دستور، صفحه نباید در robots.txt مسدود شده باشد.
- اگر هدف شما تحلیل دادههای تمیزتر و دقیقتر است:
- ابزار: فیلترها (Comparisons) در گوگل آنالیتیکس (GA4)
- کاربرد: شما میخواهید رفتار کاربران در بخشهای مختلف سایت (مثلاً بلاگ در مقابل فروشگاه) را جداگانه بررسی کنید.
- هشدار: این کار هیچ تأثیری بر سئو، خزش یا ایندکس شدن سایت شما ندارد و فقط یک ابزار تحلیلی است.
- اگر هدف شما بررسی و عیبیابی فنی یک بخش خاص است:
- ابزار: فیلترهای گزارش در گوگل سرچ کنسول (GSC)
- کاربرد: شما میخواهید وضعیت خزش، ایندکس و کلمات کلیدی ورودی فقط برای یک دایرکتوری خاص (مثلاً /blog/) را بررسی و مانیتور کنید.
- هشدار: این کار نیز صرفاً گزارشگیری است و هیچ تغییری در سایت شما ایجاد نمیکند.
به طور خلاصه، برای مدیریت سئو، شما فقط با robots.txt (برای خزش) و noindex (برای ایندکس) کار دارید. سایر ابزارها برای تحلیل و بررسی هستند.
جمعبندی
در نهایت، باید بدانید که هیچکدام از این روشها «بهترین» نیستند، بلکه هرکدام «ابزار مناسب» برای کار مشخصی هستند. اشتباه در استفاده از robots.txt به جای noindex (یا برعکس) میتواند منجر به حذف سایت شما از نتایج یا هدر رفتن بودجه خزش شود. درک این تفاوتها، مرز بین مدیریت حرفهای و آماتور در سئوی فنی است. همیشه با دقت و بر اساس هدف خود (خزش، ایندکس، یا تحلیل) ابزارتان را انتخاب کنید