مقالات

راهنمای جامع ساخت سیستم ثبت لاگ خطای 404 (404 Logging) در CMS

ثبت خطاهای 404

ثبت خطای 404 فقط یه بن‌بست آزاردهنده برای کاربر نیست؛ راستش رو بخوای، برای ما متخصص‌های سئو، یه معدن طلای پنهانه! اکثر وبمسترها یا به گزارش‌های کند سرچ کنسول بسنده می‌کنن یا اصلاً به 404ها اهمیت نمی‌دن. اما این خطاها می‌تونن همه‌چیز رو به ما بگن: از لینک‌های شکسته داخلی و بک‌لینک‌های از دست رفته گرفته تا ایده‌های جدید برای تولید محتوا. این داده‌ها حتی می‌تونن مکمل ابزارهای مانیتورینگ و امنیت سرور باشن و الگوهای حمله رو به ما نشون بدن. تو این راهنمای جامع و فنی، می‌خوایم فراتر از یه افزونه ساده بریم و یاد بگیریم چطور قدم به قدم سیستم لاگ (ثبت) خطای 404 خودمون رو بسازیم، داده‌هاش رو تحلیل کنیم و تصمیم‌های سئویی هوشمندانه بگیریم.

جدول کاربردی: مقایسه روش‌های مانیتورینگ 404

روش مانیتورینگ سطح دشواری پیاده‌سازی تاثیر بر عملکرد سایت قدرت تحلیل داده بهترین برای
Google Search Console بسیار آسان (آماده است) صفر متوسط (فقط خطاهای گوگل‌بات و با تاخیر) بررسی نگاه گوگل به سایت و خطاهای اصلی
افزونه‌های CMS (مثل Rank Math) بسیار آسان (نصب افزونه) کم متوسط (رابط کاربری آماده و ساده) کاربران وردپرس که دنبال راه‌حل سریع هستند
سیستم لاگر سفارشی (دیتابیس) متوسط (نیاز به کدنویسی) بسیار کم (ناچیز) عالی (تحلیل در لحظه با کوئری SQL) متخصصان سئو و سایت‌های جدی
تحلیل لاگ سرور (Apache/Nginx) بسیار دشوار (فنی) صفر فوق‌العاده (داده‌های خام و کامل) سئو تکنیکال پیشرفته و تحلیل امنیتی

چرا ثبت لاگ خطاهای 404 برای سئو و تجربه کاربری حیاتی است؟

تأثیر مستقیم 404ها بر تجربه کاربری (UX) و نرخ پرش

بذار خیلی ساده بگم. کاربر (چه از گوگل اومده باشه چه از داخل سایت خودت) روی یک لینک کلیک می‌کنه چون به اون محتوا نیاز داشته. وقتی با صفحه 404 (صفحه یافت نشد) روبرو می‌شه، اولین حسش چیه؟ سرخوردگی.

این تجربه کاربری (UX) منفی، مستقیم روی نرخ پرش (Bounce Rate) تأثیر می‌ذاره. کاربر بلافاصله دکمه “Back” رو می‌زنه و به نتایج جستجو برمی‌گرده (این رفتار رو بهش میگن Pogo Sticking). این یه سیگنال واضح به گوگله که «صفحه‌ی تو نتونست نیاز من رو برطرف کنه». تکرار این اتفاق می‌تونه به اعتبار کلی سایتت آسیب بزنه.

شناسایی لینک‌های شکسته داخلی و خارجی (Referrer)

خطاهای 404 یهویی به وجود نمیان؛ همیشه یک «ارجاع‌دهنده» (Referrer) دارن. یعنی یک جایی (داخلی یا خارجی) به این آدرس اشتباه لینک داده. وقتی لاگ 404ها رو بررسی می‌کنی، می‌تونی دقیقاً ببینی این لینک شکسته کجاست:

  • لینک داخلی: شاید توی یکی از مقاله‌های قدیمی‌ت، منوی سایت، یا فوتر، لینکی دادی که الان حذف شده. پیدا کردن و اصلاح اینها فوق‌العاده مهمه. هم جلوی گیج شدن کاربر رو می‌گیره و هم به انتقال درست «ارزش و اعتبار» (Link Juice) در ساختار سایت کمک می‌کنه.
  • لینک خارجی (Referrer): گاهی یه سایت معتبر دیگه به تو لینک داده، اما آدرس رو اشتباه وارد کرده. با بررسی لاگ‌ها، می‌تونی این فرصت‌های بک‌لینک رو شناسایی کنی و با یه ریدایرکت 301 ساده، تمام اعتبار اون لینک رو به صفحه درست هدایت کنی و اون اعتبار رو از دست ندی.

بهینه‌سازی بودجه خزش (Crawl Budget) و جلوگیری از هدر رفت منابع گوگل

ربات‌های گوگل (مثل Googlebot) منابع نامحدود ندارن. اونها یه «بودجه خزش» (Crawl Budget) مشخص برای سایت تو دارن.

حالا فرض کن ربات گوگل وارد سایتت می‌شه و مدام به درهای بسته (صفحات 404) می‌خوره. چه اتفاقی می‌افته؟ بودجه خزشش رو برای صفحاتی هدر می‌ده که اصلاً وجود ندارن. این یعنی گوگل دیرتر به سراغ صفحات جدید و مهم تو (مثل مقالات تازه یا محصولات جدیدت) می‌ره و پروسه ایندکس شدن اونها کند می‌شه. با ثبت لاگ و رفع 404ها (یا 410 کردن اونها در صورت لزوم)، تو در واقع داری مسیر رو برای ربات گوگل تمیز می‌کنی تا مستقیم بره سراغ محتوای ارزشمندت.

کشف الگوهای محتوایی مورد تقاضا (کاربران دنبال چه چیزی هستند؟)

این یکی از هوشمندانه‌ترین کاربردهای بررسی لاگ 404هاست که خیلی‌ها ازش غافل می‌شن. گاهی وقت‌ها، کاربران آدرس‌هایی رو در سایت تو جستجو می‌کنن (یا حدس می‌زنن) که وجود نداره، اما «قصد» (Intent) پشت اونها مشخصه.

مثلاً، اگه در لاگ‌هات ببینی تعداد زیادی بازدید 404 برای آدرسی مثل /آموزش-سئو-تکنیکال داری، این یه سیگنال مستقیمه که کاربران به این محتوا نیاز دارن و تو هنوز اون رو نساختی! این یعنی تو می‌تونی از دل خطاهای 404، ایده‌های عالی برای تولید محتوای جدید (که دقیقاً می‌دونی تقاضا داره) پیدا کنی و شکاف‌های محتوایی (Content Gaps) سایتت رو پر کنی.

گام اول: معماری سیستم لاگ 404 (انتخاب روش ذخیره‌سازی)

خب، قبل از اینکه کدی بنویسیم، باید تصمیم بگیریم این لاگ‌ها (گزارش خطاها) رو کجا ذخیره کنیم. این یه تصمیم مهم در معماری سیستمه، چون مستقیماً روی سرعت سایت و راحتیِ تحلیل داده‌ها اثر می‌ذاره. دو تا راه اصلی داریم: ذخیره در فایل متنی یا ذخیره در دیتابیس.

روش اول: ذخیره‌سازی در فایل متنی (Logging to .txt / .log)

این ساده‌ترین و سریع‌ترین روشه. ایده اینه که هر بار خطای 404 اتفاق می‌افته، ما یه خط جدید به انتهای یه فایل متنی (مثلاً 404_logs.txt یا errors.log) اضافه می‌کنیم.

این خط می‌تونه شامل اطلاعاتی مثل تاریخ، ساعت، آدرس URL درخواستی (که 404 شده) و آدرس صفحه‌ای که کاربر از اونجا اومده (Referrer) باشه.

مزایا و معایب: سادگی پیاده‌سازی در مقابل سختی تحلیل

  • مزایا (Pros):
    • پیاده‌سازی خیلی ساده: اضافه کردن یه خط به فایل متنی، کدنویسی پیچیده‌ای نداره.
    • بار (Load) نزدیک به صفر: تقریباً هیچ فشاری به سرور یا دیتابیس اصلی سایت وارد نمی‌کنه. چون فقط یه فایل ساده باز می‌شه و یه خط بهش اضافه می‌شه.
  • معایب (Cons):
    • تحلیل و گزارش‌گیری سخت: این بزرگترین ضعفه. وقتی هزاران خط لاگ در یه فایل متنی داشته باشی، چطور می‌خوای بفهمی کدوم URL بیشترین خطا رو داشته؟ یا کدوم Referrer داره بیشترین ترافیک 404 رو می‌فرسته؟ باید فایل رو دانلود کنی و با ابزارهای دیگه (مثل اکسل یا اسکریپت‌های جداگونه) تحلیلش کنی که اصلاً بهینه نیست.
    • مدیریت حجم فایل: اگه سایتت پربازدید باشه، این فایل متنی می‌تونه خیلی سریع حجیم بشه و مدیریت (مثل چرخاندن لاگ‌ها یا Log Rotation) رو سخت کنه.

روش دوم: ذخیره‌سازی در دیتابیس (Database Logging)

در این روش، به جای فایل متنی، یه جدول جداگونه در دیتابیس (مثلاً MySQL یا هر دیتابیسی که استفاده می‌کنی) می‌سازیم و هر خطای 404 رو به عنوان یه ردیف (Row) جدید در اون جدول ثبت می‌کنیم.

مزایا و معایب: تحلیل قدرتمند در مقابل بار (Load) احتمالی روی سرور

  • مزایا (Pros):
    • تحلیل و گزارش‌گیری فوق‌العاده: این نقطه قوت اصلیه. تو می‌تونی با کوئری‌های ساده SQL، گزارش‌های پیچیده و کاربردی بگیری. مثلاً: “بهم بگو ۱۰ تا URL که بیشترین تکرار 404 رو در هفته گذشته داشتن” یا “لیست Referrer‌هایی که به صفحات حذف شده لینک دادن رو بر اساس تعداد خطا مرتب کن”.
    • مدیریت داده ساختاریافته: داده‌ها تمیز و تفکیک‌شده (مثل ستون URL، ستون Referrer، ستون تاریخ) ذخیره می‌شن.
  • معایب (Cons):
    • بار (Load) احتمالی روی سرور: هر خطای 404، یه عملیات INSERT در دیتابیس ایجاد می‌کنه. اگه سایتت خیلی پربازدیده و همزمان خطاهای 404 زیادی هم داری (مثلاً در زمان حمله ربات‌ها)، این می‌تونه روی عملکرد دیتابیس اصلی سایتت یه کم فشار بیاره. (البته برای اکثر سایت‌های معمولی و متوسط، این فشار واقعاً ناچیزه و قابل چشم‌پوشیه).
    • پیاده‌سازی یه کم پیچیده‌تر: خب، باید یه جدول بسازی و به دیتابیس وصل بشی. یه کم بیشتر از نوشتن در فایل کار می‌بره.

توصیه من به عنوان متخصص: اگه دنبال تحلیل داده و نتیجه‌محور بودن هستی، قطعاً از روش دیتابیس استفاده کن. اون فشار جزئی روی سرور، کاملاً به ارزشِ داده‌های تحلیلی که به دست میاری، می‌ارزه.

ساختار جدول SQL پیشنهادی برای لاگ 404 (Schema Design)

اگه تصمیم گرفتی از دیتابیس استفاده کنی (که تصمیم هوشمندانه‌ایه)، این یه ساختار جدول (Schema) پیشنهادی و بهینه برای MySQL هست که می‌تونی برای نگهداری لاگ‌هات بسازی:

SQL

CREATE TABLE `seo_404_logs` (

`id` BIGINT UNSIGNED NOT NULL AUTO_INCREMENT,

`requested_url` VARCHAR(2048) NOT NULL,

`referrer_url` VARCHAR(2048) NULL DEFAULT NULL,

`user_agent` VARCHAR(512) NULL DEFAULT NULL,

`ip_address` VARCHAR(45) NULL DEFAULT NULL,

`hit_count` INT UNSIGNED NOT NULL DEFAULT 1,

`created_at` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,

`last_seen_at` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,

PRIMARY KEY (`id`),

INDEX `idx_requested_url` (`requested_url`(255)),

INDEX `idx_referrer_url` (`referrer_url`(255))

);

تحلیل این ساختار:

  • id: یه شناسه یکتا برای هر ردیف.
  • requested_url: این مهم‌ترین ستونه. همون آدرسی که کاربر درخواست کرده و 404 شده.
  • referrer_url: صفحه‌ای که کاربر از اونجا اومده (لینک شکسته اینجاست).
  • user_agent: اطلاعات مرورگر کاربر (کمک می‌کنه بفهمی بازدیدکننده رباته یا انسان).
  • ip_address: آی‌پی کاربر (برای شناسایی حملات یا ربات‌های اسپم).
  • hit_count: (یه ترفند بهینه‌سازی) به جای اینکه برای هر بازدید تکراری از یه URL، یه ردیف جدید ثبت کنیم، می‌تونیم چک کنیم اگه این URL قبلاً ثبت شده، فقط hit_count رو یکی زیاد کنیم. اینجوری جدول خیلی بهینه‌تر می‌مونه. (البته پیاده‌سازیش یه کم سخت‌تره، می‌تونی در فاز اول این ستون رو حذف کنی و برای هر بازدید یه ردیف جدید بزنی).
  • created_at و last_seen_at: تاریخ اولین بازدید و آخرین بازدید از این URL.
  • ایندکس‌ها (INDEX): ما روی requested_url و referrer_url ایندکس گذاشتیم. این کار برای اینه که وقتی می‌خوایم گزارش بگیریم (مثلاً GROUP BY requested_url)، کوئری ما با سرعت برق اجرا بشه و دیتابیس کند نشه.

گام دوم: پیاده‌سازی هسته لاگر (کدنویسی بدون افزونه)

چه اطلاعاتی باید ثبت شوند؟ (URL، Referrer، User Agent، Timestamp)

خب، بیایم ببینیم دقیقاً چه داده‌هایی رو باید توی لاگمون ذخیره کنیم تا بعداً بتونیم بهترین تحلیل سئویی رو ازش بگیریم. هرکدوم از اینها یه تیکه از پازل رو به ما می‌دن:

  • URL درخواستی (Requested URL): واضح و حیاتی‌ترین بخش. دقیقاً چه آدرسی 404 شده؟ این همون صفحه‌ایه که باید اصلاح یا ریدایرکت بشه.
  • ارجاع‌دهنده (Referrer): این داده فوق‌العاده ارزشمنده. به ما می‌گه کاربر از کجا روی لینک کلیک کرده که به این صفحه 404 رسیده.
    • اگه Referrer داخلی باشه (یعنی یکی از صفحات سایت خودت)، یعنی یه لینک شکسته داخلی داری که باید فوراً اصلاحش کنی.
    • اگه Referrer خارجی باشه (سایت دیگه)، یعنی یه بک‌لینک ارزشمند رو داری از دست می‌دی. باید سریعاً اون URL رو به یه صفحه مرتبط ریدایرکت 301 کنی تا اعتبارش رو جذب کنی.
  • عامل کاربر (User Agent): این به ما می‌گه «کی» این خطا رو دیده.
    • آیا کاربر عادی با مرورگر کروم بوده؟ (اولویت با تجربه کاربری)
    • آیا Googlebot بوده؟ (اولویت حیاتی! یعنی گوگل داره بودجه خزشش رو هدر می‌ده و باید سریع‌تر رفع بشه).
    • آیا یه ربات اسپم یا ابزار مانیتورینگ بوده؟ (می‌تونیم فیلترشون کنیم).
  • زمان (Timestamp): دقیقاً چه تاریخ و ساعتی این خطا رخ داده؟ این به ما کمک می‌کنه الگوها رو پیدا کنیم. مثلاً اگه یهو بعد از یه تغییرات در سایت، آمار 404ها زیاد بشه، می‌فهمیم که احتمالاً یه دسته لینک رو خراب کردیم.
  • (اختیاری ولی مفید) آدرس IP: برای شناسایی ربات‌های خاص یا حملاتی که دنبال صفحات آسیب‌پذیر (مثل wp-login.php در آدرس‌های مختلف) می‌گردن، خیلی به درد می‌خوره.

پیاده‌سازی در CMSهای مبتنی بر PHP (مانند وردپرس، جوملا)

در اکثر سیستم‌های مدیریت محتوای محبوب که با PHP نوشته شدن (مثل وردپرس، جوملا، دروپال)، یه مکان مشخص برای مدیریت صفحات 404 وجود داره. منطق ما اینه که کدی رو به این بخش اضافه کنیم که قبل از نمایش دادن پیام «صفحه یافت نشد» به کاربر، اطلاعات اون خطا رو در جایی که می‌خوایم (فایل یا دیتابیس) ثبت کنه.

بهترین روش: ویرایش فایل 404.php قالب

اگه از وردپرس استفاده می‌کنی، بهترین و استانداردترین جا برای قرار دادن کد لاگر، فایل 404.php در پوشه قالب شماست.

هشدار و توصیه کلیدی (بر اساس تجربه): هرگز، هرگز و هرگز فایل 404.php قالب اصلی (Parent Theme) رو ویرایش نکن. اگه این کار رو بکنی، بعد از اولین آپدیت قالب، تمام تغییراتی که دادی پاک می‌شه.

راه حل درست: همیشه از یه «قالب فرزند» (Child Theme) استفاده کن. فایل 404.php قالب اصلی رو در پوشه چایلد تم کپی کن و بعد کدهای لاگر رو در ابتدای اون فایلِ کپی شده قرار بده. اینجوری هم کدهات حفظ می‌شن و هم آپدیت‌های قالب رو از دست نمی‌دی.

نمونه کد PHP کامل برای دریافت اطلاعات و ذخیره‌سازی (در فایل و دیتابیس)

اینجا دو تا نمونه کد برات آماده کردم. این کدها باید در بالاترین قسمت فایل 404.php (در چایلد تم وردپرس) یا فایل مشابه در CMS خودت قرار بگیرن.

۱. جمع‌آوری اطلاعات (مشترک برای هر دو روش)

PHP

<?php

// دریافت اطلاعات کلیدی

// اطمینان از اینکه متغیرها وجود دارن (isset) تا خطای PHP نگیریم

$requested_url = $_SERVER[‘REQUEST_URI’] ?? ‘Unknown URL’;

$referrer      = $_SERVER[‘HTTP_REFERER’] ?? ‘Direct/Unknown’;

$user_agent    = $_SERVER[‘HTTP_USER_AGENT’] ?? ‘Unknown UA’;

$ip_address    = $_SERVER[‘REMOTE_ADDR’] ?? ‘Unknown IP’;

$timestamp     = date(‘Y-m-d H:i:s’);

?>

حالا که داده‌ها رو داریم، می‌تونیم اونها رو ذخیره کنیم:

۲. نمونه کد ذخیره در فایل متنی (روش ساده)

PHP

<?php

// (کدهای بخش ۱ باید اینجا باشن)

 

// فرمت کردن خط لاگ (مثلاً به صورت CSV تا بعداً بشه راحت در اکسل باز کرد)

$log_line = “{$timestamp},\”{$requested_url}\”,\”{$referrer}\”,\”{$user_agent}\”,\”{$ip_address}\”\n”;

 

// مسیر فایل لاگ (در وردپرس می‌تونیم از ABSPATH استفاده کنیم تا به ریشه سایت بریم)

// این فایل باید قابل نوشتن (Writable) توسط سرور باشه (دسترسی 644 یا 664)

$log_file_path = ABSPATH . ‘404_errors.log’;

 

// نوشتن در فایل با فلگ FILE_APPEND (تا به انتهای فایل اضافه بشه و بازنویسی نکنه)

@file_put_contents($log_file_path, $log_line, FILE_APPEND);

 

// ادامه کدهای فایل 404.php (مثلاً get_header() و …)

?>

علامت @ اول file_put_contents برای اینه که اگه به هر دلیلی نوشتن فایل شکست خورد، سایتت به کاربر خطا نشون نده و لود صفحه ادامه پیدا کنه.

۳. نمونه کد ذخیره در دیتابیس (روش پیشنهادی در وردپرس)

این روش حرفه‌ای‌تره و از آبجکت دیتابیس خود وردپرس ($wpdb) استفاده می‌کنه (فرض می‌کنیم جدولی که در گام قبل گفتم رو ساختی).

PHP

<?php

// (کدهای بخش ۱ باید اینجا باشن)

 

// دسترسی به آبجکت دیتابیس وردپرس

global $wpdb;

 

// نام جدولی که ساختی (با پیشوند وردپرس)

$table_name = $wpdb->prefix . ‘seo_404_logs’;

 

// آماده‌سازی داده‌ها برای ورود امن به دیتابیس

$data_to_insert = [

‘requested_url’ => $requested_url,

‘referrer_url’  => $referrer,

‘user_agent’    => $user_agent,

‘ip_address’    => $ip_address,

// ‘created_at’ و ‘last_seen_at’ معمولاً خود دیتابیس مدیریت می‌کنه

];

 

// فرمت داده‌ها (s% یعنی رشته یا string)

$data_formats = [

‘%s’,

‘%s’,

‘%s’,

‘%s’,

];

 

// اجرای کوئری امن INSERT

// (اینجا هم از @ استفاده می‌کنیم تا جلوی خطای احتمالی به کاربر رو بگیریم)

@$wpdb->insert($table_name, $data_to_insert, $data_formats);

 

// ادامه کدهای فایل 404.php (مثلاً get_header() و …)

?>

پیاده‌سازی در CMSهای مبتنی بر .NET (مانند DNN)

اگه با پلتفرم .NET کار می‌کنی (چه ASP.NET قدیمی‌تر و چه .NET Core مدرن)، داستان یه کم متفاوته. تو اینجا معمولاً فایلی به اسم 404.php نداری. به جاش باید خطاهای سطح اپلیکیشن (Application-Level) رو مدیریت کنی.

مدیریت خطا از طریق Application_Error در Global.asax

در فریم‌ورک‌های کلاسیک ASP.NET (که مثلاً CMSهایی مثل DNN یا Umbraco قدیمی‌تر روی اونها بنا شدن)، یه فایل مرکزی به اسم Global.asax.cs وجود داره.

این فایل یه متد (Event Handler) به اسم Application_Error داره. این متد مثل یه «تور ماهیگیری» عمل می‌کنه و هر خطای مدیریت‌نشده‌ای (Unhandled Exception) که در هر جای سایتت رخ بده رو قبل از ارسال به کاربر، می‌گیره.

ما می‌تونیم کدمون رو اینجا اضافه کنیم:

C#

// داخل فایل Global.asax.cs

 

protected void Application_Error(object sender, EventArgs e)

{

// دریافت آخرین خطایی که رخ داده

Exception lastError = Server.GetLastError();

 

// بررسی می‌کنیم که خطا از نوع خطای HTTP باشه

if (lastError is HttpException httpError)

{

// چک می‌کنیم که کد خطا دقیقاً 404 باشه

if (httpError.GetHttpCode() == 404)

{

// حالا که مطمئنیم 404 هست، اطلاعات رو جمع می‌کنیم

var request = HttpContext.Current.Request;

 

string requestedUrl = request.Url.ToString();

string referrer = request.UrlReferrer?.ToString() ?? “Direct/Unknown”;

string userAgent = request.UserAgent ?? “Unknown UA”;

string ipAddress = request.UserHostAddress ?? “Unknown IP”;

DateTime timestamp = DateTime.UtcNow;

 

// … اینجا کد لاگ کردن در دیتابیس رو اضافه کن …

// (مثلاً با استفاده از Entity Framework یا یه کانکشن SQL ساده)

// LogToDatabase(requestedUrl, referrer, userAgent, ipAddress, timestamp);

 

// (اختیاری) می‌تونی کاربر رو به صفحه 404 سفارشی خودت هدایت کنی

// Server.ClearError(); // خطا رو پاک می‌کنه

// Response.Redirect(“/path-to-your-custom-404-page”);

}

}

}

نکته برای .NET Core مدرن: در ASP.NET Core، فایل Global.asax وجود نداره. این منطق به جاش در Startup.cs و با استفاده از «میان‌افزار» (Middleware) پیاده‌سازی می‌شه (مثلاً با app.UseStatusCodePages یا نوشتن یه میان‌افزار سفارشی).

گام سوم: تحلیل و اقدام (چگونه از داده‌های لاگ 404 استفاده کنیم؟)

خب، تبریک می‌گم! سخت‌ترین بخش کار (پیاده‌سازی فنی) تموم شد. حالا ما یه معدن طلا از داده‌ها داریم. اما داده‌ی خام به تنهایی ارزشی نداره؛ این «تحلیل» و «اقدام» بر اساس اون داده‌هاست که نتایج سئویی رو می‌سازه.

بیا ببینیم چطور باید این لاگ‌ها رو بخونیم و چه تصمیم‌هایی بگیریم.

فیلتر کردن و نادیده گرفتن ربات‌ها (Bots) از لاگ‌ها

اولین قدم قبل از هر تحلیلی، تمیز کردن داده‌هاست. لاگ‌های تو به سرعت پر می‌شن از بازدید ربات‌های مختلف؛ ربات‌های ابزارهای سئو (مثل Ahrefs, Semrush, Moz)، ربات‌های اسپم، اسکنرهای امنیتی و… .

اگه اینها رو فیلتر نکنی، تحلیلت کاملاً اشتباه از آب درمیاد. مثلاً ممکنه فکر کنی یه صفحه ۱۰۰ تا بازدید 404 داشته، در حالی که ۹۵ تاش ربات Ahrefs بوده که داشته سایتت رو می‌خزیده.

چطور فیلتر کنیم؟

  • بر اساس User Agent: ستون user_agent که ذخیره کردیم، دقیقاً برای همین کاره.
  • ربات‌هایی که باید فیلتر بشن (نادیده بگیریم): دنبال اسم‌هایی مثل AhrefsBot, SemrushBot, MJ12bot, DotBot, PetalBot و هر چیز ناشناس دیگه‌ای بگرد.
  • ربات‌هایی که نباید فیلتر بشن (بسیار مهم): بازدیدهای Googlebot و Bingbot رو هرگز فیلتر نکن. اگه گوگل‌بات به صفحه 404 بخوره، این یه سیگنال مهم و با اولویت بالاست که باید فوراً بررسی بشه، چون مستقیم روی بودجه خزش (Crawl Budget) تو تأثیر می‌ذاره.

اکثر تحلیل‌هات باید روی بازدیدهای «کاربران واقعی» (اونایی که User Agent مرورگر مثل Chrome, Firefox, Safari دارن) و «گوگل‌بات» متمرکز باشه.

شناسایی خطاهای پرتکرار و اولویت‌بندی آن‌ها

بعد از فیلتر کردن ربات‌ها، حالا باید لاگ‌ها رو مرتب (Sort) کنیم. تو نباید سعی کنی همه‌ی 404ها رو درست کنی؛ این اتلاف وقته. باید اونهایی رو پیدا کنی که بیشترین ضربه رو می‌زنن.

اولویت‌بندی من به عنوان یه متخصص سئو اینجوریه:

  1. اولویت اول (بحرانی): خطاهای گوگل‌بات.
    • هر URLی که user_agent اون Googlebot بوده. مهم نیست چند بار تکرار شده. این یعنی گوگل داره منابعش رو هدر می‌ده.
  2. اولویت دوم (خیلی مهم): لینک‌های شکسته داخلی.
    • URLهایی که hit_count (تعداد تکرار) بالایی دارن و referrer_url (ارجاع‌دهنده) اونها یکی از صفحات داخلی سایت خودته.
    • این بدترین نوع 404 برای تجربه کاربریه. یعنی تو خودت کاربر رو به یه بن‌بست هدایت کردی. اینها باید فوراً اصلاح بشن.
  3. اولویت سوم (مهم): بک‌لینک‌های از دست رفته.
    • URLهایی که referrer_url اونها یه دامنه خارجی (یه سایت دیگه) است.
    • این یعنی یه سایت دیگه به تو بک‌لینک داده، اما تو داری اعتبار (Link Juice) اون بک‌لینک رو از دست می‌دی. اینها فرصت‌های طلایی هستن.
  4. اولویت چهارم (بررسی): خطاهای پرتکرار بدون ارجاع.
    • URLهایی که hit_count بالایی دارن ولی referrer_url اونها Direct/Unknown هست.
    • اینها معمولاً تایپ مستقیم URL توسط کاربر یا بازدید از بوکمارک‌های قدیمی هستن.

تصمیم‌گیری: چه زمانی باید ریدایرکت 301 انجام داد؟

ریدایرکت 301 (انتقال دائم) اصلی‌ترین ابزار تو برای رفع 404هاست. اما کی باید ازش استفاده کنیم؟

  • وقتی آدرس صفحه عوض شده: مثلاً مقاله‌ی /blog/seo-tips رو آدرسش رو به /blog/technical-seo-tips تغییر دادی. باید آدرس قدیمی رو به جدید 301 کنی.
  • وقتی بک‌لینک خارجی داری (اولویت سوم): اون URLی که از سایت دیگه لینک گرفته (و 404 می‌شه) رو پیدا کن و به مرتبط‌ترین صفحه‌ی موجود در سایتت ریدایرکت 301 کن.
  • وقتی اشتباه تایپی رایجه: اگه می‌بینی کاربران (یا لینک‌های داخلی) مدام آدرس /contact-us رو به اشتباه /conatct-us می‌زنن، اون آدرس اشتباه رو به آدرس درست 301 کن.
  • وقتی محتوا رو ادغام کردی: اگه قبلاً سه تا مقاله جدا در مورد «لینک‌سازی» داشتی و حالا همه‌ رو در یه «راهنمای جامع لینک‌سازی» ادغام کردی، باید اون سه تا URL قدیمی رو به راهنمای جامع 301 کنی.

هشدار مهم: هرگز، هرگز و هرگز تعداد زیادی از صفحات 404 نامرتبط رو به صفحه اصلی (Homepage) ریدایرکت نکن. این کار از نظر گوگل یه «Soft 404» حساب می‌شه و هیچ ارزشی رو منتقل نمی‌کنه و فقط گوگل رو گیج می‌کنه. هر ریدایرکت باید به مرتبط‌ترین صفحه ممکن انجام بشه.

چه زمانی باید محتوای جدید ایجاد کرد؟

این بخش جذاب ماجراست. گاهی وقت‌ها لاگ 404 تو، یه تحقیق کلمات کلیدی رایگان بهت می‌ده!

  • وقتی «قصد کاربر» (User Intent) مشخصه: به لاگ requested_url نگاه کن. آیا الگویی می‌بینی؟ مثلاً اگه تو یه سایت فروشگاهی داری و مدام لاگ 404 برای /محصول/گوشی-آیفون-۱۵-پرومکس-آبی می‌بینی، در حالی که تو فقط رنگ مشکیش رو موجود داری، این یه سیگناله.
  • کشف شکاف محتوایی (Content Gap): اگه یه وبلاگ سئو داری و در لاگ‌هات مدام URLهایی مثل /آموزش-سئو-برای-پادکست یا /مقایسه-semrush-و-ahrefs رو می‌بینی (در حالی که این مقالات رو ننوشتی)، این یعنی کاربران دنبال این محتوا در سایت تو هستن. اقدام: به جای ریدایرکت، اون محتوا رو ایجاد کن! تو همین الان می‌دونی که برای این محتوا تقاضا وجود داره.

تشخیص حملات امنیتی (مانند اسکن URLهای حساس)

لاگ 404 تو یه ابزار مانیتورینگ امنیتی ساده هم هست. هکرها و ربات‌های مخرب قبل از حمله، سایتت رو برای پیدا کردن نقاط ضعف «اسکن» می‌کنن. این اسکن‌ها معمولاً کلی خطای 404 به جا می‌ذارن.

  • دنبال چه چیزی بگردیم؟
    • تعداد بازدیدهای خیلی زیاد (ده‌ها یا صدها بار در دقیقه) از یک IP خاص.
    • تلاش برای دسترسی به فایل‌های حساس: /wp-login.php، /wp-admin/ (در مسیرهای عجیب)، /.env، /xmlrpc.php، /config.php.
    • تلاش برای پیدا کردن آسیب‌پذیری پلاگین‌ها: مثلاً /wp-content/plugins/some-vulnerable-plugin/readme.txt.
  • اقدام فوری: اگه این الگوها رو دیدی، اون ip_address رو مستقیماً در سطح سرور (مثلاً از طریق .htaccess یا فایروال سرور) یا از طریق سرویس‌هایی مثل Cloudflare مسدود (Block) کن. این کار هم امنیت سایتت رو بالا می‌بره و هم بار اضافی رو از روی سرورت برمی‌داره.

اشتباهات رایج در ساخت لاگر 404 (درس‌هایی از تجربه)

ساختن لاگر قدم اوله، اما استفاده‌ی درست از اون یه بحث دیگه‌ست. توی این ۱.۵ سال تجربه عملی، دیدم که خیلی‌ها (حتی خودم در اوایل!) اشتباهات مشابهی رو تکرار می‌کنن که نه تنها کمکی نمی‌کنه، بلکه باعث تحلیل اشتباه و اتلاف وقت هم می‌شه.

بیا چند تا از این اشتباهات رایج که از تجربه به دست اومده رو با هم مرور کنیم:

اشتباه ۱: ثبت لاگ تمام ربات‌ها (به‌خصوص Googlebot)

این مورد یه کم ظرافت داره و شاید منظور از این اشتباه، «ثبت لاگ تمام ربات‌ها بدون تفکیک» باشه.

بذارید دقیق‌تر بگم: اشتباه واقعی، فیلتر نکردن ربات‌های اسپم و ابزارهای سئو (مثل AhrefsBot, SemrushBot, MJ12bot و…) هست. وقتی تو لاگ این ربات‌ها رو کنار لاگ کاربران واقعی و گوگل‌بات ذخیره می‌کنی، اتفاقی که می‌افته «آلودگی داده» (Data Pollution) هست.

فرض کن می‌خوای گزارش «پرتکرارترین 404ها» رو بگیری. اگه ربات Semrush یه بار کل سایتت رو خزیده باشه، لیست تو پر می‌شه از خطاهایی که این ربات دیده، در حالی که شاید کاربران واقعی یا گوگل‌بات اصلاً اونها رو ندیدن. در نتیجه تو وقتت رو برای رفع خطاهایی می‌ذاری که هیچ اولویتی نداشتن.

اما در مورد گوگل‌بات (Googlebot): این دقیقاً برعکسه. اشتباه بزرگتر، فیلتر کردن و نادیده گرفتن گوگل‌باته. ما اتفاقاً باید خطاهای گوگل‌بات رو با حساسیت بالا مانیتور کنیم. هر 404ی که گوگل‌بات می‌بینه، یعنی هدر رفتن مستقیم بودجه خزش (Crawl Budget).

پس درس تجربه اینه: لاگ‌ها رو تمیز نگه دار. ربات‌های اسپم و ابزارهای مانیتورینگ رو فیلتر کن (یا در ستون user_agent شناسایی کن و در تحلیل‌هات نادیده‌شون بگیر)، اما لاگ بازدید کاربران واقعی و ربات‌های موتور جستجوی اصلی (Googlebot, Bingbot) رو با دقت بالا بررسی کن.

اشتباه ۲: عدم مدیریت حجم فایل لاگ (Log Rotation)

این یه اشتباه فنی رایجه که اولش بی‌اهمیت به نظر می‌رسه، اما بعداً فاجعه می‌سازه.

  • اگر در فایل متنی (.log) ذخیره می‌کنی: اگه هیچ مدیریتی روش نداشته باشی، این فایل روز به روز بزرگتر می‌شه. بعد از چند ماه، ممکنه به چند گیگابایت برسه! باز کردن، جستجو کردن، یا حتی اضافه کردن یه خط جدید به انتهای این فایل غول‌پیکر، می‌تونه کند و منابع‌بر باشه و حتی فضای دیسک هاستت رو پر کنه.
  • اگر در دیتابیس ذخیره می‌کنی (بدتر): اگه جدول لاگت رو هیچ‌وقت پاکسازی نکنی، میلیون‌ها ردیف توش جمع می‌شه. این باعث می‌شه کوئری گرفتن از این جدول (برای گزارش‌گیری) به شدت کند بشه و حجم بک‌آپ‌های دیتابیست هم بی‌دلیل زیاد بشه.

راه حل چیه؟ پیاده‌سازی «چرخش لاگ» (Log Rotation):

  1. برای فایل: باید یه اسکریپت (مثلاً Cron Job روی سرور) داشته باشی که مثلاً هر شب، فایل 404.log رو به 404_دیروز.log.gz تغییر نام بده و فشرده کنه و یه فایل 404.log خالی جدید بسازه.
  2. برای دیتابیس (روش بهتر): یه Cron Job یا SQL Event تنظیم کن که به طور خودکار، ردیف‌هایی که مثلاً قدیمی‌تر از ۶ ماه هستن رو از جدول لاگ حذف (DELETE) کنه. ما واقعاً به لاگ 404 دو سال پیش نیازی نداریم! داده‌های ۶ ماه اخیر برای تحلیل و رفع خطاها کاملاً کافیه.

اشتباه ۳: ریدایرکت کردن کورکورانه تمام 404ها به صفحه اصلی

این یکی از کشنده‌ترین و قدیمی‌ترین اشتباهات سئو هست.

  • چرا این اشتباه رو می‌کنن؟ طرف با خودش فکر می‌کنه: «خب، به‌جای اینکه کاربر یا گوگل صفحه 404 رو ببینه و بره، حداقل بیاد تو صفحه اصلی! شاید یه کم از اعتبار لینک (Link Juice) هم منتقل بشه.»
  • چرا این فاجعه‌ست؟ (از نگاه کاربر و گوگل)
    1. تجربه کاربری (UX) افتضاح: من به عنوان کاربر، دنبال «آموزش سئو تکنیکال» بودم. روی لینک تو کلیک می‌کنم و یهو پرت می‌شم به صفحه اصلی سایتت! گیج می‌شم، نمی‌فهمم چی شد و بلافاصله دکمه Back رو می‌زنم. تو همین الان یه کاربر رو از دست دادی.
    2. فریب گوگل (Soft 404): گوگل احمق نیست. وقتی رباتش میاد صفحه‌ی /آموزش-تکنیکال رو بخزه و تو اون رو ریدایرکت 301 می‌کنی به صفحه اصلی (/)، گوگل می‌فهمه که اینها دو تا محتوای نامرتبط هستن.
      • گوگل این کار تو رو به عنوان یه خطای «Soft 404» شناسایی می‌کنه.
      • Soft 404 یعنی: «تو داری ادعا می‌کنی این صفحه وجود داره (چون کد 200 یا 301 برمی‌گردونی)، اما محتوات اصلاً ربطی به URL درخواستی نداره.»
      • این سیگنال خیلی بدیه و نشون می‌ده ساختار سایتت مشکل داره. گوگل گیج می‌شه، بودجه خزشش رو برای فهمیدن این صفحات نامرتبط هدر می‌ده و در نهایت هیچ اعتباری هم به صفحه اصلی تو منتقل نمی‌شه.

راه حل درست (که قبلاً گفتیم): هر URLی که 404 می‌شه باید به مرتبط‌ترین صفحه‌ی جایگزین ریدایرکت 301 بشه. اگر هیچ جایگزین مرتبطی براش نداری، بذار همون 404 یا 410 (Gone) باقی بمونه. این خیلی صادقانه و تمیزتر از ریدایرکت کورکورانه به صفحه اصلیه.

جایگزین‌های ساخت سیستم سفارشی (چه زمانی نباید خودتان بسازید؟)

خب، ما تا اینجا در مورد ساخت یه سیستم سفارشی و قدرتمند برای لاگ 404 صحبت کردیم. این روش به ما کنترل کامل و داده‌های عمیق می‌ده. اما بذارید صادق باشم (همون‌طور که همیشه سعی می‌کنم باشم)، این روش همیشه بهترین راه‌حل نیست.

ساختن و نگهداری یه سیستم سفارشی، نیازمند زمان، دانش فنی (حداقل آشنایی با PHP یا پلتفرمت) و تعهد به نگهداری (مثل مدیریت حجم لاگ‌ها) هست.

گاهی وقت‌ها، یه راه‌حل «به اندازه کافی خوب» که در عرض ۵ دقیقه راه‌اندازی بشه، خیلی ارزشمندتر از یه راه‌حل «کامل» هست که هیچ‌وقت فرصت پیاده‌سازیش رو پیدا نمی‌کنی. بیا ببینیم چه جایگزین‌هایی داریم:

مقایسه با ابزارهای موجود (افزونه‌های CMS)

اگه از یه CMS محبوب مثل وردپرس استفاده می‌کنی، افزونه‌های فوق‌العاده‌ای وجود دارن که این کار رو برات انجام می‌دن.

  • افزونه‌ها چطور کار می‌کنن؟ اونها دقیقاً همون منطقی رو پیاده‌سازی می‌کنن که ما در موردش حرف زدیم (اتصال به 404.php یا مکانیزم‌های مشابه)، اما همه‌چیز رو در یه رابط کاربری قشنگ داخل پیشخوان وردپرس بهت نشون می‌دن.
  • بهترین گزینه‌ها (بر اساس تجربه):
    • Rank Math: نسخه رایگانش یه مانیتور 404 خیلی خوب و سبک داره. بهت نشون می‌ده چه URLی، چند بار و کِی 404 خورده.
    • Redirection: این یکی از افزونه‌های مورد علاقه منه. کار اصلیش مدیریت ریدایرکت‌هاست، اما یه بخش «404s» عالی هم داره. بهترین ویژگیش اینه که می‌تونی از همون لیست لاگ 404، با یه کلیک برای اون URL یه ریدایرکت 301 بسازی. فوق‌العاده کارآمده.
    • Yoast SEO Premium: نسخه پولی یواست هم یه بخش مدیریت ریدایرکت داره که خطاهای 404 رو نشون می‌ده.
  • چه زمانی از افزونه استفاده کنیم؟
    • اگه با کدنویسی راحت نیستی یا نمی‌خوای درگیر ویرایش فایل‌های قالب بشی.
    • اگه دنبال یه راه‌حل «سریع و راحت» هستی که کار رو راه بندازه.
    • اگه می‌خوای لاگ 404 و ابزار ریدایرکت کردن رو در یه جا (همون پیشخوان وردپرس) داشته باشی.
  • عیب افزونه‌ها چیه؟
    • کنترل کمتری روی جزئیات لاگ (مثلاً فیلتر کردن پیشرفته ربات‌ها) داری.
    • هر افزونه، یه بار پردازشی (هرچند کم) به سایتت اضافه می‌کنه.

چرا Google Search Console به تنهایی کافی نیست (اما ضروری است)

خیلی‌ها می‌گن «چرا لاگر بسازیم؟ سرچ کنسول گوگل که خودش 404ها رو نشون می‌ده!».

این حرف هم درسته و هم غلط. سرچ کنسول (GSC) حیاتی و ضروریه، اما اصلاً کافی نیست.

  • چرا سرچ کنسول ضروریه؟ GSC تنها جاییه که بهت می‌گه Googlebot (ربات گوگل) دقیقاً چه خطاهایی رو در سایتت پیدا کرده. این خطاهایی هستن که گوگل موقع خزش لینک‌های داخلی یا بک‌لینک‌های خارجی بهشون برخورده. بررسی گزارش “Pages” (یا همون Coverage سابق) در سرچ کنسول یه کار روتین و واجبه.
  • چرا سرچ کنسول کافی نیست؟ (محدودیت‌های کلیدی)
    1. تأخیر زیاد (Not Real-time): GSC با تأخیر زیاد کار می‌کنه. ممکنه تو امروز یه لینک داخلی رو خراب کنی، اما چند روز (یا حتی چند هفته!) طول بکشه تا گوگل‌بات دوباره اون صفحه رو بخزه، خطای 404 رو پیدا کنه و بعدش در گزارش تو نشون بده. سیستم سفارشی ما در لحظه (Real-time) خطا رو ثبت می‌کنه.
    2. فقط خطاهای دیده‌شده توسط گوگل: GSC فقط خطاهایی رو نشون می‌ده که گوگل‌بات دیده. اگه یه کاربر واقعی به خاطر اشتباه تایپی تو در یه لینک داخلی، مدام به یه صفحه 404 برسه، تا وقتی گوگل‌بات اون لینک رو نخزیده، تو اصلاً از این تجربه کاربری بد (UX) باخبر نمی‌شی!
    3. عدم نمایش ارجاع‌دهنده (Referrer) داخلی: GSC بهت می‌گه URL example.com/page-x یافت نشد. اما به سختی بهت می‌گه که این لینک شکسته دقیقاً در کدوم مقاله‌ی داخلی خودت قرار داره. لاگر سفارشی ما با داشتن ستون referrer_url بلافاصله بهمون می‌گه مشکل از کجاست.

استفاده از لاگ‌های سطح سرور (Apache/Nginx) برای تحلیل پیشرفته

این روش، حرفه‌ای‌ترین، کامل‌ترین و در عین حال پیچیده‌ترین روشه.

  • قضیه چیه؟ وب سرور تو (چه آپاچی باشه، چه Nginx یا لایت‌اسپید) قبل از اینکه درخواست اصلاً به PHP و وردپرس برسه، اون رو پردازش می‌کنه. و سرور، تک‌تک درخواست‌ها رو در یه فایل متنی خام به اسم access.log (یا مشابهش) ذخیره می‌کنه. این لاگ شامل IP، تاریخ، URL درخواستی، کد وضعیت (200, 301, 404, 500 و…)، User Agent و Referrer هست.
  • مزایای خفن:
    • صفر درصد بار روی CMS: چون این کار رو خود سرور انجام می‌ده، هیچ فشاری به وردپرس، PHP یا دیتابیس تو نمیاد. این سریع‌ترین روش ممکنه.
    • داده‌های کامل: تو همه‌چیز رو می‌بینی. نه فقط 404ها، بلکه خطاهای 500 (خطای سرور)، 403 (دسترسی ممنوع) و…
  • معایب بزرگ (چرا همه از این استفاده نمی‌کنن؟):
    1. سختی دسترسی: در خیلی از هاست‌های اشتراکی، دسترسی به این لاگ‌های خام سخته یا محدوده.
    2. حجم وحشتناک: این فایل‌ها غول‌پیکرن. چون هر درخواستی (حتی لود شدن عکس‌ها، فایل‌های CSS و JS) توش لاگ می‌شه.
    3. تحلیل بسیار فنی: تو نمی‌تونی این فایل چند گیگابایتی رو با نوت‌پد باز کنی. باید با ابزارهای خط فرمان (Command Line) مثل grep, awk در لینوکس کار کنی تا فقط خطوطی که کد 404 دارن رو فیلتر کنی، یا از نرم‌افزارهای تحلیل لاگ گرون‌قیمت (مثل Splunk) یا پیچیده (مثل ELK Stack) استفاده کنی.
  • چه زمانی سراغش بریم؟ معمولاً وقتی که یه متخصص سئو تکنیکال هستی، به سرور دسترسی کامل داری (مثلاً سرور مجازی یا اختصاصی)، و می‌خوای تحلیل‌های خیلی عمیق (مثلاً الگوهای حمله ربات‌ها یا مشکلات عملکردی سرور) رو دربیاری. برای ۹۵٪ سایت‌ها، این روش برای مانیتور 404 زیادی پیچیده‌ست (Overkill).

جمع‌بندی (ثبت خطاهای 404)

دیدن خطاهای 404 دیگه نباید باعث نگرانیت بشه؛ برعکس، باید خوشحال باشی که حالا یه سیستم دقیق برای رصد کردنشون داری. تو این راهنما دیدیم که هر خطای 404 یه «داده» ارزشمنده. چه یه لینک شکسته داخلی باشه که تجربه کاربری رو خراب کرده، چه یه بک‌لینک خارجی که اعتبارش هدر رفته، یا حتی یه ایده محتوایی جدید که کاربرا دنبالش بودن و پیداش نکردن.

یادت باشه، هدف ما صرفاً «صفر کردن» 404ها نیست (که تقریباً غیرممکنه). هدف اینه که از این داده‌ها برای بهینه‌سازی بودجه خزش، بهبود UX و گرفتن تصمیم‌های هوشمندانه‌تر استفاده کنیم. این سیستم لاگر، چشم بینای تو در مسیرهای بن‌بست سایته؛ ازش هوشمندانه استفاده کن.

author-avatar

درباره حسین محمودی

سئو رو از روی علاقه شروع کردم و توی این ۱ سال و نیم یاد گرفتم که موفقیت فقط با یادگیری مداوم اتفاق می‌افته. من همیشه دنبال بهترین راه برای دیده‌شدن کسب‌وکارها هستم؛ بدون حاشیه و با تمرکز روی نتیجه.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *