مقالات

راهنمای جامع فیلتر کردن صفحات یک دایرکتوری (مانند /blog/): از SEO تا آنالیتیکس

راهنمای جامع فیلتر کردن صفحات یک دایرکتوری (مانند /blog/): از SEO تا آنالیتیکس

مدیریت صحیح دسترسی‌ها و فیلتر کردن دایرکتوری‌ها، یکی از ستون‌های اصلی سئوی فنی است. این کار فقط به معنای استفاده از robots.txt نیست؛ بلکه شامل مدیریت ایندکس، پاک‌سازی گزارش‌های آنالیتیکس و تحلیل دقیق سرچ کنسول نیز می‌شود. درک تفاوت‌های این ابزارها برای جلوگیری از خطاهای فاجعه‌بار ضروری است. البته، برای تحلیل‌های بسیار پیشرفته در ابزارهایی مانند GA4 یا GSC، تسلط بر الگوهای عملی رجکس برای تحلیل صفحات (Pages) اهمیت پیدا می‌کند، که در این مطلب به مبانی آن در آنالیتیکس اشاره خواهیم کرد. در ادامه، به بررسی چهار روش اصلی فیلترینگ و کاربرد هر یک می‌پردازیم.

 خلاصه تفاوت روش‌ها

این جدول به شما کمک می‌کند تا به سرعت تفاوت‌های اساسی ابزارهای مورد بحث را درک کنید:

ابزار (Tool) حوزه استفاده هدف اصلی تأثیر مستقیم بر سئو
robots.txt سئوی فنی مدیریت بودجه خزش (Crawl Budget) دارد (جلوگیری از خزش)
noindex سئوی فنی / مدیریت محتوا مدیریت ایندکس (Indexing) دارد (حذف از نتایج)
Google Analytics تحلیل داده پاک‌سازی گزارش برای تحلیل دقیق‌تر ندارد (فقط تحلیل)
Google Search Console عیب‌یابی سئو مانیتورینگ و فیلتر گزارش‌ها ندارد (فقط گزارش‌گیری)

چرا و چه زمانی باید یک دایرکتوری خاص را فیلتر کنیم؟

فیلتر کردن یا مسدود کردن یک دایرکتوری، یک ابزار مدیریتی در سئوی فنی است. ما از این کار برای پنهان‌کاری استفاده نمی‌کنیم، بلکه هدف اصلی، هدایت صحیح ربات‌های جستجوگر و مدیریت بهینه «بودجه خزش» (Crawl Budget) است.

ما می‌خواهیم اطمینان پیدا کنیم که ربات‌ها، زمان محدود خود را صرف خزش و ایندکس کردن صفحات مهم و باارزش وب‌سایت ما می‌کنند. فیلتر کردن به ما کمک می‌کند تا از هدر رفتن منابع ربات‌ها روی صفحاتی که برای کاربر نهایی یا موتور جستجو ارزشی ندارند، جلوگیری کنیم.

این اقدام به تمرکز بر محتوای اصلی و مفید برای مخاطبان واقعی سایت کمک می‌کند و از ایندکس شدن محتوایی که صرفاً برای نتایج جستجو ساخته شده‌اند (Search engine-first) جلوگیری می‌کند.

درک اهداف: فیلتر برای ربات‌های جستجو، کاربران یا تحلیلگران؟

هدف ما از “فیلتر” مشخص می‌کند که از چه ابزاری باید استفاده کنیم. این سه مورد کاملاً متفاوت هستند:

  • فیلتر برای ربات‌های جستجو (مسدودسازی خزش): این کار معمولاً از طریق فایل robots.txt انجام می‌شود. هدف، جلوگیری از دسترسی ربات‌ها به بخش‌هایی است که خزش آن‌ها هدر دادن منابع است (مانند پنل ادمین، اسکریپت‌ها یا فایل‌های سیستمی). این کار مستقیماً روی بودجه خزش تأثیر دارد.
  • فیلتر برای کاربران (جلوگیری از ایندکس): در اینجا از تگ noindex استفاده می‌کنیم. ربات، صفحه را می‌بیند و می‌خواند اما آن را در نتایج جستجو (SERP) به کاربر نشان نمی‌دهد. این روش برای صفحاتی مناسب است که ارزشی برای کاربر جستجوگر ندارند، مانند نتایج جستجوی داخلی یا صفحات تگِ بدون محتوا. این صفحات معمولاً تجربه رضایت‌بخشی به کاربر نمی‌دهند.
  • فیلتر برای تحلیلگران (پاک‌سازی داده): این مورد به سئوی فنی ربطی ندارد، بلکه مربوط به ابزارهای آماری مثل گوگل آنالیتیکس یا سرچ کنسول است. به عنوان مثال، ترافیک داخلی کارمندان شرکت را فیلتر می‌کنیم تا آمار دقیق‌تری از رفتار کاربران واقعی به دست آوریم.

سناریوهای رایج (مثلاً: بخش‌های ادمین، نتایج جستجوی داخلی، صفحات تگ)

دایرکتوری‌ها یا الگوهای URL خاصی وجود دارند که فیلتر کردن آن‌ها تقریباً همیشه توصیه می‌شود:

  • بخش‌های مدیریت و ورود: دایرکتوری‌هایی مانند /wp-admin/ یا صفحات لاگین و ثبت‌نام (/login/) نباید توسط ربات‌ها خزش شوند.
  • نتایج جستجوی داخلی: صفحاتی که با جستجوی کاربر در داخل سایت ایجاد می‌شوند (مثلاً /?s=query). اینها محتوای تکراری و کم‌ارزش برای گوگل هستند و صرفاً خلاصه‌ای از مطالب دیگران (یعنی خود سایت) هستند، بدون اینکه ارزش افزوده جدیدی ارائه دهند.
  • صفحات تگ و آرشیو (در صورت ضعیف بودن): اگر صفحات تگ، دسته‌بندی یا آرشیوهای زمانی شما محتوای اختصاصی ندارند و فقط لیستی از مقالات هستند، ممکن است کاندیدای noindex باشند تا از ایجاد “محتوای ضعیف” (Thin Content) و تکراری جلوگیری شود.
  • پارامترهای URL و فیلترها: صفحاتی که با فیلتر کردن در فروشگاه‌ها (مثلاً بر اساس رنگ، قیمت یا سایز) ایجاد می‌شوند، اغلب محتوای تکراری تولید می‌کنند و باید با Canonical مدیریت شده یا از خزش آن‌ها جلوگیری شود.
  • صفحات کاربری و شخصی: بخش‌هایی مانند پروفایل کاربران، سبد خرید، مراحل پرداخت و صفحات تشکر از خرید، برای مخاطب عام در نظر گرفته نشده‌اند و نباید در نتایج جستجو ظاهر شوند.

هشدار مهم: خطرات فیلتر کردن اشتباه (از دست دادن بودجه خزش و رتبه)

فیلتر کردن اشتباه می‌تواند به سئوی سایت آسیب جدی و جبران‌ناپذیری بزند. این نوع اشتباهات معمولاً نشان‌دهنده عدم تخصص است و تجربه کاربری بسیار بدی ایجاد می‌کند.

  • مسدود کردن فایل‌های حیاتی (CSS/JS): اگر فایل‌های CSS یا جاوا اسکریپت را به اشتباه در robots.txt مسدود کنید، گوگل نمی‌تواند صفحه را به درستی رندر کند (ببیند). در نتیجه، ممکن است محتوای شما را “سهل‌انگارانه یا عجولانه” و بی‌کیفیت ارزیابی کند، حتی اگر برای کاربر به درستی نمایش داده شود.
  • از دست دادن رتبه و ترافیک: مسدود کردن تصادفی یک دایرکتوری حاوی محتوای اصلی (مثل /blog/ یا /products/) باعث حذف کامل آن صفحات از نتایج جستجو و از دست رفتن رتبه‌ها می‌شود.
  • تداخل robots.txt و noindex: این یک اشتباه رایج و خطرناک است. اگر صفحه‌ای را در robots.txt مسدود کنید، ربات گوگل دیگر آن را نمی‌خواند. در نتیجه، اگر آن صفحه تگ noindex داشته باشد، گوگل هرگز آن تگ را نخواهد دید و صفحه ممکن است از ایندکس حذف نشود. برای حذف یک صفحه از ایندکس، ابتدا باید اجازه خزش به ربات بدهید تا تگ noindex را ببیند و پس از حذف شدن از ایندکس، می‌توانید خزش آن را مسدود کنید.
  • ایجاد نیاز به جستجوی مجدد: اگر محتوای مفیدی را به اشتباه فیلتر کنید، کاربر برای یافتن پاسخ کامل مجبور به جستجوی مجدد در منابع دیگر می‌شود که این یک سیگنال منفی قوی برای کیفیت سایت شما است.

روش اول: جلوگیری از خزش (Crawling) دایرکتوری با robots.txt

استفاده از فایل robots.txt، اساسی‌ترین روش در سئوی فنی (Technical SEO) برای مدیریت دسترسی ربات‌های جستجوگر است. این فایل، اولین جایی است که ربات‌ها قبل از شروع خزش سایت به آن نگاه می‌کنند.

هدف اصلی این روش، جلوگیری از ورود ربات‌ها به بخش‌هایی است که خزش آن‌ها هیچ ارزشی ندارد و صرفاً منابع ربات (و سرور شما) را هدر می‌دهد. این کار مستقیماً به بهینه‌سازی «بودجه خزش» (Crawl Budget) کمک می‌کند و نشان‌دهنده تخصص شما در مدیریت سایت است.

robots.txt چیست و چگونه بر بودجه خزش (Crawl Budget) تأثیر می‌گذارد؟

فایل robots.txt یک فایل متنی ساده است که در ریشه (Root) سایت شما قرار می‌گیرد و به ربات‌های جستجوگر می‌گوید که مجاز به خزش کدام بخش‌ها هستند یا نیستند.

بودجه خزش (Crawl Budget) به زبان ساده، میزان منابع و زمانی است که گوگل‌بات (یا ربات‌های دیگر) برای بررسی و خزش صفحات سایت شما در یک بازه زمانی مشخص اختصاص می‌دهد. این بودجه محدود است.

  • تأثیر مثبت: وقتی شما دایرکتوری‌های غیرضروری (مانند پنل ادمین، فایل‌های سیستمی، اسکریپت‌ها یا نتایج جستجوی داخلی) را از طریق robots.txt مسدود (Disallow) می‌کنید، ربات‌ها دیگر زمان خود را صرف بررسی آن صفحات بی‌ارزش نمی‌کنند.
  • نتیجه: این بودجه خزش آزاد شده، صرف بررسی صفحات مهم‌تر، جدیدتر یا عمیق‌تر سایت شما (مانند مقالات جدید بلاگ یا محصولات) می‌شود. این کار به ایندکس شدن سریع‌تر و دقیق‌تر محتوای مفید شما کمک می‌کند.

دستورالعمل گام به گام Disallow کردن دایرکتوری /blog/

فرض کنید می‌خواهید به تمام ربات‌ها بگویید که به هیچ عنوان وارد دایرکتوری /blog/ و هیچ‌کدام از زیرشاخه‌های آن نشوند.

۱. دسترسی به فایل: فایل robots.txt را که در ریشه سایت شما قرار دارد (مثلاً YourDomain.com/robots.txt) باز کنید.

۲. تعیین User-agent: برای اینکه این دستورالعمل شامل حال همه‌ی ربات‌ها (گوگل، بینگ و…) شود، از User-agent: * استفاده می‌کنیم.

۳. نوشتن دستور Disallow: در خط بعدی، دستور مسدودسازی را به شکل دقیق وارد کنید.

کد نهایی که باید در فایل robots.txt شما قرار گیرد، به این شکل است:

Plaintext

User-agent: *

Disallow: /blog/

۴. ذخیره و بررسی: فایل را ذخیره کنید. ربات‌ها در بازدید بعدی خود این دستورالعمل جدید را می‌خوانند.

مثال عملی: تفاوت Disallow: /blog/ و Disallow: /blog

درک تفاوت این دو دستور برای جلوگیری از خطاهای فاجعه‌بار فنی ضروری است. دقت به یک اسلش (/) می‌تواند همه‌چیز را تغییر دهد.

  • Disallow: /blog/ (با اسلش در انتها)
    • معنی: فقط دایرکتوری /blog/ و تمام فایل‌ها و زیرشاخه‌های داخل آن را مسدود کن.
    • مثال: /blog/post-1/ مسدود می‌شود. اما /blog-reviews.html (اگر وجود داشته باشد) مسدود نمی‌شود.
  • Disallow: /blog (بدون اسلش در انتها)
    • معنی: هر URL در سایت که با رشته کاراکتر /blog شروع شود را مسدود کن.
    • مثال: /blog/، /blog.html، /blog-post-title/ و /blogging-strategy/ همگی مسدود می‌شوند.

توصیه تخصصی: اگر هدفتان فقط مسدود کردن یک دایرکتوری مشخص است، همیشه از اسلش در انتهای نام آن (/blog/) استفاده کنید تا از مسدود شدن ناخواسته صفحات دیگر جلوگیری کنید.

نکته تخصصی: آیا Disallow جلوی ایندکس شدن را می‌گیرد؟ (پاسخ کوتاه: خیر!)

این یکی از رایج‌ترین اشتباهات در سئو است.

  • Disallow در robots.txt فقط جلوی خزش (Crawling) را می‌گیرد. یعنی به ربات می‌گوید: “این صفحه را نخوان“.
  • این دستور جلوی ایندکس (Indexing) را نمی‌گیرد.
  • سناریوی مشکل‌ساز: اگر شما صفحه‌ای را Disallow کنید، اما آن صفحه از سایت دیگری (بک‌لینک) یا حتی از صفحه‌ای در داخل سایت خودتان (لینک داخلی) لینک داشته باشد، گوگل ممکن است آن URL را بدون اینکه محتوایش را بخواند، ایندکس کند.
  • نتیجه: در این حالت، URL مورد نظر در نتایج جستجو با متنی شبیه به “No information is available for this page” (اطلاعاتی برای این صفحه در دسترس نیست) ظاهر می‌شود، چون گوگل اجازه خواندن محتوا و تایتل آن را نداشته است.

راه حل صحیح: اگر می‌خواهید صفحه‌ای به طور کامل از نتایج جستجو حذف شود، نباید آن را در robots.txt مسدود کنید. بلکه باید به ربات اجازه خزش بدهید تا بتواند تگ noindex را در آن صفحه بخواند.

روش دوم: جلوگیری از ایندکس (Indexing) دایرکتوری با noindex

وقتی از noindex استفاده می‌کنیم، به ربات جستجوگر اجازه می‌دهیم صفحه را بخزد و آن را بخواند. اما به طور مشخص و محترمانه از او می‌خواهیم که آن صفحه را در نتایج جستجوی عمومی (SERP) به کاربران نشان ندهد.

این روش، برخلاف robots.txt که روی بودجه خزش (Crawl Budget) تمرکز داشت، مستقیماً روی مدیریت ایندکس و آنچه کاربر نهایی در گوگل می‌بیند، تأثیر می‌گذارد. این دستور برای صفحاتی مانند نتایج جستجوی داخلی، آرشیوهای ضعیف، یا صفحات تشکر از خرید که ارزشی برای کاربر جستجوگر ندارند، ایده‌آل است.

تفاوت حیاتی noindex و Disallow (مهم‌ترین بخش برای سئو)

درک تفاوت این دو دستور، مرز بین مدیریت حرفه‌ای سایت و ایجاد یک مشکل فنی بزرگ است. این دو دستور کاملاً اهداف متفاوتی دارند و نباید به جای هم استفاده شوند.

  • Disallow (در robots.txt): دستوری برای “خزش نکردن” (Do Not Crawl) است.
    • مثل یک تابلوی “ورود ممنوع” در ابتدای یک کوچه است. ربات اصلاً وارد نمی‌شود تا ببیند داخل آن چیست.
    • هدف: صرفه‌جویی در بودجه خزش.
  • noindex (در متا تگ): دستوری برای “ایندکس نکردن” (Do Not Index) است.
    • ربات وارد کوچه (صفحه) می‌شود، آن را کامل بررسی می‌کند، اما وقتی دستور noindex را می‌بیند، تصمیم می‌گیرد آدرس این کوچه را در نقشه‌های عمومی (نتایج گوگل) ثبت نکند.
    • هدف: مدیریت نمایش محتوا در نتایج جستجو.

هشدار جدی و اشتباه رایج:

هرگز، هرگز و هرگز صفحه‌ای را که می‌خواهید از ایندکس گوگل حذف شود، در robots.txt مسدود (Disallow) نکنید.

چرا؟ چون برای اینکه گوگل صفحه‌ای را noindex کند، باید ابتدا آن را بخزد و دستور noindex را بخواند. اگر شما دسترسی خزش را با Disallow ببندید، ربات هرگز آن دستور را نمی‌بیند و صفحه از ایندکس حذف نخواهد شد.

پیاده‌سازی noindex از طریق متا تگ (Meta Robots Tag)

این روش استاندارد، رایج‌ترین و ساده‌ترین راه برای noindex کردن صفحات HTML (مانند مقالات، صفحات محصول، یا دسته‌بندی‌ها) است.

شما باید یک خط کد ساده را به بخش <head> در HTML صفحه مورد نظر اضافه کنید.

کد استاندارد:

HTML

<meta name=”robots” content=”noindex, follow”>

  • noindex: به ربات می‌گوید این صفحه را در نتایج نشان نده.
  • follow: (بسیار مهم) به ربات می‌گوید: “اگرچه این صفحه را ایندکس نمی‌کنی، اما لینک‌های داخل آن را دنبال کن و اعتبار (Link Equity) را به آن‌ها منتقل کن.”

اگر از nofollow استفاده کنید (noindex, nofollow)، ربات نه‌تنها صفحه را ایندکس نمی‌کند، بلکه تمام لینک‌های خروجی آن را نیز نادیده می‌گیرد که معمولاً برای سئوی داخلی مضر است.

پیاده‌سازی noindex از طریق هدر HTTP (X-Robots-Tag)

اما اگر بخواهیم فایلی را noindex کنیم که HTML نیست و بخش <head> ندارد (مثل یک فایل PDF، یک عکس یا یک سند Word) چه کنیم؟

در این حالت، ما دستور noindex را مستقیماً در هدر HTTP که سرور قبل از ارسال فایل برای ربات می‌فرستد، قرار می‌دهیم.

این کار معمولاً از طریق تنظیمات سرور (مانند فایل .htaccess در آپاچی) انجام می‌شود.

مثال دستور در .htaccess برای noindex کردن تمام فایل‌های PDF:

Apache

<FilesMatch “\.pdf$”>

Header set X-Robots-Tag “noindex, follow”

</FilesMatch>

این دستور به سرور می‌گوید هر زمان که رباتی درخواست یک فایل PDF کرد، قبل از ارسال فایل، این هدر (X-Robots-Tag: noindex, follow) را برایش ارسال کن.

بهترین روش برای وردپرس (استفاده از افزونه‌های سئو مانند Yoast یا Rank Math)

برای کاربرانی که از وردپرس استفاده می‌کنند، درگیر شدن با کدهای <head> یا تنظیمات سرور نه لازم است و نه توصیه می‌شود. این کار ریسک خطا دارد.

بهترین، ساده‌ترین و امن‌ترین راه، استفاده از قابلیت‌های داخلی افزونه‌های معتبر سئو است:

  1. دسترسی: هنگام ویرایش یک نوشته، برگه، یا دسته‌بندی، به باکسی که افزونه سئو (Yoast, Rank Math و…) در پایین صفحه اضافه کرده است، بروید.
  2. بخش پیشرفته (Advanced): روی تب “پیشرفته” یا “Advanced” کلیک کنید.
  3. تنظیمات متا: به دنبال گزینه‌ای با عنوان “Allow search engines to show this post in search results?” (آیا به موتورهای جستجو اجازه نمایش این صفحه در نتایج داده شود؟) بگردید.
  4. انتخاب: آن را روی No” (خیر) تنظیم کنید.

چه اتفاقی می‌افتد؟

با انتخاب “No”، افزونه به صورت خودکار و ایمن، متا تگ <meta name=”robots” content=”noindex, follow”> را به بخش <head> همان صفحه اضافه می‌کند، بدون اینکه شما نیاز به دستکاری مستقیم کد داشته باشید.

باید توجه داشته باشید که این نوع فیلتر (در گوگل آنالیتیکس) با فیلترهایی که قبلاً بحث کردیم (robots.txt و noindex) کاملاً متفاوت است.

فیلتر کردن در آنالیتیکس هیچ تأثیری بر سئو، خزش یا ایندکس شدن صفحات شما در گوگل ندارد. این کار صرفاً یک ابزار تحلیل داده است. ما از آن استفاده می‌کنیم تا گزارش‌های تمیزتر و قابل اعتمادتری برای تصمیم‌گیری‌های کسب‌وکار به دست آوریم.

فیلتر کردن دایرکتوری /blog/ در گزارش‌های گوگل آنالیتیکس (GA4)

وقتی دایرکتوری /blog/ را در گوگل آنالیتیکس 4 (GA4) فیلتر می‌کنیم، در واقع به آنالیتیکس می‌گوییم که هنگام نمایش گزارش‌ها، داده‌های مربوط به آن بخش را نادیده بگیرد یا جداگانه نمایش دهد. این کار به ما کمک می‌کند تا رفتار کاربران اصلی سایت (مثلاً خریداران فروشگاه) را با رفتار بازدیدکنندگان بلاگ (که به دنبال اطلاعات هستند) مخلوط نکنیم.

چرا باید ترافیک یک بخش را در آنالیتیکس فیلتر کنیم؟ (ایجاد نمای داده تمیز)

هدف اصلی، دقت در تحلیل است. رفتار کاربری که برای خواندن یک مقاله وارد دایرکتوری /blog/ می‌شود، با رفتار کاربری که قصد خرید از دایرکتوری /products/ را دارد، زمین تا آسمان فرق می‌کند.

  • کاربر بلاگ: معمولاً یک صفحه را می‌خواند، شاید زمان زیادی در صفحه بماند (Time on Page بالا)، اما اقدامی (Action) مرتبط با اهداف اصلی کسب‌وکار (مثل خرید) انجام نمی‌دهد و سایت را ترک می‌کند.
  • کاربر فروشگاه: ممکن است صفحات بیشتری را ببیند (Pageviews بالا)، زمان کمتری در هر صفحه بماند، اما هدف او نزدیک شدن به «قیف فروش» (Sales Funnel) است.

مشکل کجاست؟

اگر این دو گروه کاربر را در یک گزارش واحد تحلیل کنید، شاخص‌های کلیدی شما (KPIs) «آلوده» می‌شوند. مثلاً، نرخ پرش (Bounce Rate) بالای بلاگ، ممکن است نرخ پرش کلی سایت را به اشتباه بالا نشان دهد و شما را گمراه کند که در صفحات فروشگاهی مشکلی وجود دارد.

ایجاد یک نمای داده تمیز (Clean Data View) به شما اجازه می‌دهد رفتار هر بخش را جداگانه تحلیل کنید و تصمیمات درستی، مثلاً در زمینه بهینه‌سازی نرخ تبدیل (CRO)، بگیرید.

آموزش ساخت یک Filter (فیلتر) در GA4 برای Exclude کردن دایرکتوری

در گوگل آنالیتیکس 4، مفهوم “View” که در نسخه‌های قدیمی (یونیورسال) وجود داشت، حذف شده است. ما دیگر یک فیلتر دائمی که داده‌ها را برای همیشه حذف کند، به سادگی قبل نداریم.

به جای آن، از Comparisons” (مقایسه‌ها) برای فیلتر کردن در لحظه‌ی گزارش‌گیری استفاده می‌کنیم. این روش بسیار امن‌تر است چون داده‌های اصلی شما دست‌نخورده باقی می‌مانند.

مراحل گام به گام:

  1. وارد اکانت GA4 خود شوید و به بخش “Reports” (گزارش‌ها) بروید (مثلاً گزارش “Pages and screens”).
  2. در بالای صفحه گزارش، روی گزینه Add comparison” (افزودن مقایسه) کلیک کنید.
  3. یک پنل در سمت راست باز می‌شود. در بخش “Dimension” (بُعد)، “Page path and screen class” را پیدا و انتخاب کنید.
  4. در بخش “Match Type” (نوع انطباق)، گزینه does not contain” (شامل نمی‌شود) را انتخاب کنید.
  5. در کادر “Value” (مقدار)، نام دایرکتوری مورد نظر را تایپ کنید: /blog/
  6. روی دکمه Apply” (اعمال) کلیک کنید.

نتیجه:

اکنون GA4 گزارش را در دو ستون به شما نشان می‌دهد: یکی “All Users” (همه کاربران) و دیگری ستون جدیدی که فقط شامل ترافیک کاربرانی است که با دایرکتوری /blog/ در تعامل نبوده‌اند. شما می‌توانید مقایسه “All Users” را ببندید تا فقط نمای فیلتر شده (یعنی سایت بدون بلاگ) را ببینید.

استفاده از Regex (عبارات باقاعده) برای فیلترینگ پیشرفته در آنالیتیکس

گاهی اوقات فیلتر ساده “does not contain” کافی نیست، چون ممکن است دقت لازم را نداشته باشد و بخش‌هایی را به اشتباه فیلتر کند. اینجا از Regex (Regular Expressions) استفاده می‌کنیم.

Regex یک زبان الگویابی دقیق است.

سناریوی اول: فیلتر کردن دقیق /blog/

فرض کنید شما دایرکتوری /blog/ را دارید، اما صفحه‌ای به نام /new-blogging-strategy/ هم دارید.

  • اگر از does not contain /blog/ استفاده کنید، هر دو مورد را فیلتر می‌کند که اشتباه است.
  • راه حل Regex:
    • Match Type: does not match regex” (با عبارات باقاعده مطابقت ندارد)
    • Value: ^/blog/
    • توضیح: علامت ^ در Regex به معنای “شروع خط” است. این دستور دقیقاً URLهایی را فیلتر می‌کند که با /blog/ شروع می‌شوند و کاری به سایر URLها ندارد.

سناریوی دوم: فیلتر کردن چند دایرکتوری

فرض کنید می‌خواهید هم /blog/ و هم /forum/ را از گزارش‌ها حذف کنید.

  • راه حل Regex:
    • Match Type: does not match regex
    • Value: ^/blog/|^/forum/
    • توضیح: علامت | در Regex به معنای “یا” (OR) است. این دستور ترافیک صفحاتی که با /blog/ یا با /forum/ شروع می‌شوند را فیلتر می‌کند.

بررسی و فیلتر کردن داده‌های دایرکتوری در گوگل سرچ کنسول (GSC)

تحلیل داده‌های یک دایرکتوری خاص در سرچ کنسول به ما اجازه می‌دهد تا به سوالات کلیدی پاسخ دهیم: آیا گوگل صفحات بلاگ ما را به درستی ایندکس می‌کند؟ کاربران با چه کلماتی (Queries) مقالات ما را پیدا می‌کنند؟ آیا مشکلات فنی مانند خطاهای 404 یا مشکلات noindex در این بخش وجود دارد؟

نحوه استفاده از فیلتر “Page” در گزارش Performance (عملکرد)

گزارش “Performance” (عملکرد) ارزشمندترین بخش GSC برای تحلیل ترافیک ارگانیک است. این گزارش، کلیک‌ها، ایمپرشن‌ها (تعداد دفعات دیده شدن)، CTR و میانگین رتبه شما را نشان می‌دهد.

برای فیلتر کردن این گزارش و دیدن داده‌های صرفاً برای دایرکتوری /blog/:

  1. به گزارش Performance بروید.
  2. در بالای نمودار، روی دکمه “+ NEW” (جدید) کلیک کنید.
  3. از منوی باز شده، گزینه Page…” (صفحه…) را انتخاب کنید.
  4. در پنجره‌ای که باز می‌شود، از منوی کشویی گزینه URLs containing” (URLهای حاوی) را انتخاب کنید.
  5. در کادر متنی، آدرس دایرکتوری خود را وارد کنید: /blog/
  6. روی دکمه Apply” (اعمال) کلیک کنید.

نتیجه:

پس از اعمال این فیلتر، تمام اعداد و نمودارها (کلیک، ایمپرشن) و همچنین لیست “Queries” (کوئری‌ها) در پایین صفحه، فقط و فقط مربوط به صفحاتی خواهد بود که در URL خود عبارت /blog/ را دارند. این کار به شما کمک می‌کند تا بفهمید کدام مقالات بیشترین ورودی را دارند و کاربران برای رسیدن به بلاگ شما، دقیقاً چه عباراتی را جستجو کرده‌اند.

بررسی وضعیت خزش و ایندکس دایرکتوری در گزارش Pages

این گزارش، بخش فنی ماجرا است. گزارش “Pages” (که قبلاً “Coverage” نام داشت) به شما نشان می‌دهد که چه تعداد از صفحات دایرکتوری شما با موفقیت ایندکس شده‌اند و چه تعداد از آن‌ها به دلایل فنی مختلف، ایندکس نشده‌اند.

  1. به گزارش Pages” (صفحات) در منوی سمت چپ بروید.
  2. نمودار اصلی، وضعیت کل سایت را نشان می‌دهد. برای فیلتر کردن، به جدول پایین صفحه بروید.
  3. در بالای جدول (سمت راست)، یک آیکون فیلتر کوچک وجود دارد. روی آن کلیک کنید.
  4. این کار یک فیلتر در بالای لیست صفحات اضافه می‌کند. در کادر “Filter by URL” (فیلتر بر اساس URL)، آدرس دایرکتوری را تایپ کنید: /blog/

نتیجه:

اکنون کل گزارش “Pages” فقط برای URLهای /blog/ به‌روزرسانی می‌شود. شما می‌توانید دقیقاً ببینید:

  • Indexed (ایندکس شده): چه تعداد از مقالات شما با موفقیت در گوگل هستند.
  • Not indexed (ایندکس نشده): چه تعداد ایندکس نشده‌اند.
  • چرا ایندکس نشده‌اند؟ این بخش مهم‌ترین قسمت است. شما می‌توانید دلایلی مانند “Excluded by ‘noindex’ tag” (که نشان می‌دهد شما عمداً آن را noindex کرده‌اید) یا “Crawled – currently not indexed” (گوگل آن را خزش کرده ولی بی‌ارزش تشخیص داده) یا “Not found (404)” را ببینید. این بهترین ابزار برای عیب‌یابی فنی دایرکتوری بلاگ شماست.

استفاده از ابزار “Removals” برای حذف موقت دایرکتوری از نتایج

ابزار “Removals” (حذف‌ها) یک ابزار اضطراری است، نه یک روش استاندارد برای مدیریت سئو. این ابزار برای زمانی است که شما نیاز دارید یک صفحه یا دایرکتوری را به سرعت (اما به صورت موقت) از نتایج جستجوی گوگل پنهان کنید.

چه زمانی استفاده می‌شود؟

زمانی که اطلاعات حساسی به اشتباه منتشر شده، سایت هک شده، یا صفحه‌ای را حذف کرده‌اید و می‌خواهید تا زمان خزش مجدد گوگل، آن را فوراً از نتایج مخفی کنید.

نحوه استفاده برای حذف یک دایرکتوری:

  1. در منوی GSC، به Removals” (حذف‌ها) بروید.
  2. روی دکمه قرمز رنگ New Request” (درخواست جدید) کلیک کنید.
  3. در تب “Temporary Removals” (حذف‌های موقت)، گزینه Remove all URLs with this prefix” (حذف همه URLها با این پیشوند) را انتخاب کنید.
  4. در کادر URL، آدرس کامل دایرکتوری را وارد کنید: https://www.yourdomain.com/blog/
  5. روی “Next” و سپس “Submit Request” کلیک کنید.

هشدار بسیار مهم (نکته تخصصی):

این اقدام فقط حدود ۶ ماه اعتبار دارد و صفحه را موقت پنهان می‌کند. این کار مشکل اصلی را حل نمی‌کند.

همزمان با ثبت این درخواست، شما باید راه‌حل دائمی را نیز پیاده کنید. یعنی:

  • اگر صفحه باید برای همیشه حذف شود، آن را noindex کنید یا با کد 404 یا 410 (Gone) آن را از دسترس خارج کنید.

اگر فقط از Removals استفاده کنید و راه‌حل دائمی را اعمال نکنید، پس از ۶ ماه، گوگل دوباره آن صفحه یا دایرکتوری را ایندکس خواهد کرد.

در تجربه کاری، دیده‌ام که فیلتر کردن دایرکتوری‌ها، با اینکه ساده به نظر می‌رسد، یکی از مستعدترین بخش‌ها برای خطاهای فنی فاجعه‌بار است. یک اشتباه کوچک در robots.txt یا noindex می‌تواند به سرعت تلاش‌های سئوی شما را بی‌اثر کند. اینها رایج‌ترین اشتباهاتی هستند که باید به هر قیمتی از آن‌ها اجتناب کنید.

اشتباهات رایج و بهترین شیوه‌ها (تجربه عملی)

مدیریت خزش و ایندکس، یک بخش حیاتی از سئوی فنی است. این کار نیاز به دقت بالا دارد، زیرا یک دستور اشتباه می‌تواند بخش بزرگی از سایت شما را از دسترس گوگل خارج کند. بر اساس تجربه، این سه اشتباه بیشترین آسیب را به سایت‌ها وارد می‌کنند.

اشتباه ۱: استفاده از Disallow برای صفحاتی که قبلاً ایندکس شده‌اند

این رایج‌ترین و مخرب‌ترین اشتباهی است که می‌بینم و نشان‌دهنده درک نادرست از تفاوت خزش و ایندکس است.

  • سناریو: شما صفحه‌ای (مثلاً yourdomain.com/blog/old-post/) دارید که در گوگل ایندکس شده و حالا می‌خواهید آن را حذف کنید.
  • اقدام اشتباه: شما بلافاصله آن را در robots.txt مسدود (Disallow) می‌کنید.
  • مشکل: ربات گوگل دیگر اجازه ندارد صفحه را بخزد. در نتیجه، هرگز متوجه نمی‌شود که شما آن صفحه را noindex کرده‌اید (یا کد 404/410 برگردانده‌اید). آن صفحه برای مدت طولانی، حتی ماه‌ها، به صورت ایندکس شده در نتایج باقی می‌ماند، چون گوگل دستوری مبنی بر حذف آن دریافت نکرده است.
  • راه حل درست (دو مرحله‌ای):
    1. ابتدا صفحه را noindex کنید (یا 404/410 کنید).
    2. صبر کنید تا گوگل صفحه را مجدداً بخزد، دستور noindex را ببیند و آن را از ایندکس حذف کند (می‌توانید این را در سرچ کنسول بررسی کنید).
    3. فقط پس از آن، اگر می‌خواهید بودجه خزش را حفظ کنید، می‌توانید آن URL را Disallow کنید.

اشتباه ۲: فیلتر کردن تصادفی فایل‌های CSS/JS (و تخریب رندرینگ)

این یک اشتباه فنی است که مستقیماً بر درک گوگل از کیفیت محتوای شما تأثیر می‌گذارد. گوگل دیگر فقط HTML را نمی‌خواند؛ صفحات را مانند یک مرورگر رندر می‌کند.

  • مشکل: گاهی توسعه‌دهندگان به اشتباه دایرکتوری‌های حاوی فایل‌های css ،js یا images را در robots.txt مسدود می‌کنند (مثلاً Disallow: /assets/).
  • نتیجه: ربات گوگل نمی‌تواند صفحه را به درستی بارگذاری کند. از دید گوگل، صفحه شما شبیه به یک سند متنی به‌هم‌ریخته و بدون استایل است (شبیه به محتوای سهل‌انگارانه و ناپخته که اعتمادی جلب نمی‌کند). این موضوع به شدت بر ارزیابی کیفیت صفحه (Page Quality) و تجربه کاربری (UX) و در نهایت رتبه شما تأثیر منفی می‌گذارد.
  • راه حل: همیشه اطمینان حاصل کنید که تمام فایل‌های منابع (CSS, JS) که برای نمایش صحیح صفحه ضروری هستند، برای گوگل‌بات قابل خزش باشند.

اشتباه ۳: فراموش کردن کاراکتر اسلش (/) در انتهای مسیر

این یک اشتباه کوچک تایپی با عواقب بزرگ است.

  • سناریوی خطرناک: فرض کنید می‌خواهید فقط دایرکتوری /blog/ را مسدود کنید.
  • دستور اشتباه: Disallow: /blog (بدون اسلش انتهایی)
  • نتیجه: این دستور هر URL که با /blog شروع شود را مسدود می‌کند. این شامل:
    • /blog/my-post/
    • /blog.html
    • /blogging-tips/ (یک دایرکتوری کاملاً متفاوت که به اشتباه مسدود شده)
  • دستور صحیح: Disallow: /blog/ (با اسلش انتهایی)
  • نتیجه: این دستور فقط دایرکتوری /blog/ و محتوای داخل آن را مسدود می‌کند و کاری به صفحاتی مانند /blogging-tips/ ندارد. این دقت، نشان‌دهنده تخصص است.

چک‌لیست نهایی: چگونه از فیلتر کردن صحیح مطمئن شویم؟

قبل از اعمال هرگونه تغییر در robots.txt یا noindex، این چک‌لیست را مرور کنید:

  • ۱. هدف خود را مشخص کنید: آیا می‌خواهم بودجه خزش را مدیریت کنم (استفاده از robots.txt) یا می‌خواهم صفحه‌ای از نتایج حذف شود (استفاده از noindex)؟ (اشتباه ۱ را به یاد بیاورید).
  • ۲. از ابزار تست Robots.txt استفاده کنید: قبل از اعمال تغییرات، از تستر robots.txt در گوگل سرچ کنسول یا ابزارهای مشابه استفاده کنید. URLهای حیاتی (صفحات محصول، CSS, JS) و URLهایی که قصد مسدود کردنشان را دارید، در آن تست کنید.
  • ۳. دقت در سینتکس: دستور خود را دوباره چک کنید. آیا از اسلش انتهایی (/) به درستی استفاده کرده‌اید؟ (اشتباه ۳).
  • ۴. بررسی گزارش Pages در GSC: پس از اعمال noindex، گزارش “Pages” (بخش “Excluded by ‘noindex’ tag”) را در سرچ کنسول بررسی کنید تا مطمئن شوید گوگل دستور شما را دریافت و اجرا کرده است.
  • ۵. بررسی رندرینگ (Rendering): پس از هر تغییر در robots.txt، از ابزار “URL Inspection” (بررسی URL) در سرچ کنسول استفاده کنید. گزینه “Test Live URL” را بزنید و سپس “View Tested Page” (مشاهده صفحه تست شده) را باز کنید. به بخش “Screenshot” (اسکرین‌شات) نگاه کنید. آیا صفحه دقیقاً شبیه چیزی است که کاربر می‌بیند؟ اگر نه، شما (اشتباه ۲) را مرتکب شده‌اید.

کدام روش فیلترینگ برای شما مناسب است؟

برای اینکه تصمیم درستی بگیرید، ابتدا باید از خود بپرسید: «دقیقاً می‌خواهم به چه هدفی برسم؟» هر ابزار، کارکرد مشخصی دارد و نباید به جای دیگری استفاده شود.

  • اگر هدف شما صرفه‌جویی در بودجه خزش (Crawl Budget) است:
    • ابزار: robots.txt
    • کاربرد: شما می‌خواهید ربات گوگل اصلاً وارد یک بخش نشود و وقت خود را در آنجا تلف نکند. این بخش‌ها معمولاً هیچ ارزشی برای ایندکس شدن ندارند (مانند پنل ادمین، اسکریپت‌ها، یا فایل‌های سیستمی).
    • هشدار: این کار جلوی ایندکس شدن را نمی‌گیرد.
  • اگر هدف شما حذف یک صفحه از نتایج جستجوی گوگل (SERP) است:
    • ابزار: متا تگ noindex (یا X-Robots-Tag)
    • کاربرد: شما می‌خواهید ربات گوگل صفحه را ببیند و بخواند، اما به او دستور می‌دهید که آن را در نتایج جستجو به کاربران نمایش ندهد. این بهترین راه برای حذف صفحات بی‌ارزش برای کاربر (مثل نتایج جستجوی داخلی، صفحات تشکر یا آرشیوهای ضعیف) است.
    • نکته حیاتی: برای اجرای این دستور، صفحه نباید در robots.txt مسدود شده باشد.
  • اگر هدف شما تحلیل داده‌های تمیزتر و دقیق‌تر است:
    • ابزار: فیلترها (Comparisons) در گوگل آنالیتیکس (GA4)
    • کاربرد: شما می‌خواهید رفتار کاربران در بخش‌های مختلف سایت (مثلاً بلاگ در مقابل فروشگاه) را جداگانه بررسی کنید.
    • هشدار: این کار هیچ تأثیری بر سئو، خزش یا ایندکس شدن سایت شما ندارد و فقط یک ابزار تحلیلی است.
  • اگر هدف شما بررسی و عیب‌یابی فنی یک بخش خاص است:
    • ابزار: فیلترهای گزارش در گوگل سرچ کنسول (GSC)
    • کاربرد: شما می‌خواهید وضعیت خزش، ایندکس و کلمات کلیدی ورودی فقط برای یک دایرکتوری خاص (مثلاً /blog/) را بررسی و مانیتور کنید.
    • هشدار: این کار نیز صرفاً گزارش‌گیری است و هیچ تغییری در سایت شما ایجاد نمی‌کند.

به طور خلاصه، برای مدیریت سئو، شما فقط با robots.txt (برای خزش) و noindex (برای ایندکس) کار دارید. سایر ابزارها برای تحلیل و بررسی هستند.

جمع‌بندی 

در نهایت، باید بدانید که هیچ‌کدام از این روش‌ها «بهترین» نیستند، بلکه هرکدام «ابزار مناسب» برای کار مشخصی هستند. اشتباه در استفاده از robots.txt به جای noindex (یا برعکس) می‌تواند منجر به حذف سایت شما از نتایج یا هدر رفتن بودجه خزش شود. درک این تفاوت‌ها، مرز بین مدیریت حرفه‌ای و آماتور در سئوی فنی است. همیشه با دقت و بر اساس هدف خود (خزش، ایندکس، یا تحلیل) ابزارتان را انتخاب کنید

author-avatar

درباره صابر رحیمی

من صابر رحیمی 2 ساله که در زمینه سئو و تولید محتوا متنی فعالیت می‌کنم هر روز در این حوزه مطالب جدید یاد می‌گیرم و اگر دوست داشتی در تلگرام، سئوکده رو دنبال کن بهم پیام بده.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *