قطعاً برای بهینهسازی یک سایت، باید پارامترهای مختلفی را بررسی کرد؛ اما در این مقاله قصد داریم به یکی از کلیدیترین و در عین حال، سادهترین موارد سئو سایت بپردازیم. فایل Robots.txt، یکی از آن مواردی است که از آشنایی با آن، شگفتزده خواهید شد. این فایل، مثل یک تور لیدر یا راهنمای سفر عمل میکند و به رباتهای موتور جستجوگر میگوید به کدام قسمتهای سایت شما سر بزنند و از کدام قسمتها چشمپوشی کنند. اما با این فایل به طور قطعی نمی توانید صفحاتی از سایت را که علاقهای به ایندکس آنها ندارید، از نتایج جستجوی گوگل حذف کنید. اما اینکه دقیقا فایل Robots.txt چیست و چه تاثیری در سئو سایت دارد، مطلبی است که در ادامه بیشتر به آن خواهیم پرداخت.
سرفصل مطالب
فایل Robots.txt چیست؟
به طور خلاصه، فایل Robots.txt، یک فایل متنی ساده است که در آن با نوشتن چند دستور، میتوانید مجوز دسترسی به بخشهایی از سایت را به رباتهای جستجوگر یا خزنده ها (Crawler) بدهید. همچنین میتوانید دسترسی آنها را به بخشهای دیگر سایت را مسدود کنید. مثلاً از رباتها بخواهید که فایلهای صوتی در سایت را بررسی نکنند یا دسترسی آنها را به دایرکتوری سایت ببندید. با اضافه کردن این فایل به سایت خود، رباتهای خوب در زمان سر زدن به سایت شما، ابتدا فایل Robots.txt را میخوانند و سپس، فقط بخشهایی که اجازه دارند را بررسی میکنند. با این کار، در زمان بررسی سایت توسط این رباتها صرفهجویی میشود و به همین دلیل، تاثیر مثبتی روی سئو سایت شما خواهد داشت.
اهمیت فایل Robots.txt
شاید بپرسید اهمیت فایل Robots.txt چیست؟ آیا واقعاً استفاده از این فایل، مهم است؟ اگر این مسأله ذهن شما را هم درگیر کرده است، مطالعه این بخش را از دست ندهید! در ادامه، به دلایل اهمیت این فایل پرداختهایم.
مسدود کردن بررسی محتواهای تکراری
یکی از کاربردهای ربات فایل (Robots.txt)، جلوگیری از بررسی محتواهای تکراری در سایت است. اگر صاحب یک سایت باشید، آدرس صفحات جستجو، صفحه بندی، ارجاع از تگ (برچسب) را دیده اید. این صفحات در سایت فروشگاهی شامل صفحات حساب کاربری، تسویه حساب، فیلترهای مرتب سازی کالا و … هستند. شما میتوانید در ربات فایل، دستورات لازم برای عدم بررسی این محتواهای تکراری را بنویسید تا برای خزیدن رباتهای گوگل مسدود باشند. با این کار، تعداد صفحاتی که رباتها باید بررسی کنند را کاهش میدهید.
البته خوب است بدانید که این بلاک کردن با دستور Noindex متفاوت است. پس بهترین راهحل برای ایندکس نشدن صفحاتی که نمیخواهیم در گوگل نمایش داده شوند، درج متا ربات تگ Noindex در کدهای صفحه است. برای انجام این کار میتوانید از طراح سایت فروشگاهی خود کمک بگیرید.
بهینه سازی Crawl Budget
ربات خزنده گوگل (Googlebot) دارای یک ویژگی بنام Crawl Budget است. Crawl Budget، به معنای تعداد صفحات وبسایت شما است که ربات گوگل در مدت زمانی مثلا یک روز آنها را خزیده و بررسی میکند. این بودجه بر اساس اندازه وبسایت شما (تعداد صفحات)، بهینه بودن (عدم داشتن خطا) و تعداد لینکهای ورودی به سایتتان مشخص میشود. اگر وبسایت شما دارای صفحات زیادی باشد و این تعداد از بودجه خزیدن بیشتر شود، صفحات ایندکس نشده بیشتری پیدا خواهید کرد. رباتهای جستجوگر برای خزیدن و ایندکس کردن آنها نیاز به وقت بیشتری دارند. این موضوع ممکن است روی رتبه وبسایت شما در نتایج جستجو تاثیر منفی داشته باشد. زمانی که از یک فایل Robots.txt استفاده میکنید، در بودجه کراول سایت شما صرفهجویی میشود.
بهینهسازی عملکرد سرور میزبان
در ابتدا باید ذکر کنیم که اگرچه فایل robots.txt دستورالعملهایی را ارائه میکند، اما نمیتواند آنها را اجرا کند. پس آن را به عنوان یک کد رفتاری در نظر بگیرید. رباتهای خوب (مانند رباتهای موتور جستجو) از قوانین پیروی میکنند، اما رباتهای بد (مانند رباتهای اسپم) آنها را نادیده میگیرند. با این حال یکی از مسائل مهم در مدیریت وب سایت، کنترل ترافیک رباتهای خوب است. اگر سرور شما برای پاسخ به درخواستهای این رباتها زیادی زمان صرف کند، ممکن است عملکرد وبسایت شما کاهش یابد. علاوه بر این، بسیاری از سرورها یا میزبانهای وبسایت دارای محدودیت در پهنای باند و ترافیک هستند؛ بنابراین، اجازه دادن بررسی همه صفحات به این رباتها برای استفاده از ترافیک شما به صرفه نخواهد بود. برای جلوگیری از افزایش ترافیک رباتهای خوب، میتوانید خیلی راحت از یک فایل ربات تکست استفاده کنید.
نحوه استفاده از فایل Robots.txt
برای استفاده از این فایل، شما باید یک فایل متنی با نام Robots.txt در دایرکتوری سایت خود قرار دهید. در این فایل، شما میتوانید با شناسایی User-agent (ربات موتور جستجو) و استفاده از قوانین به موتورهای جستجو بگویید که چه صفحات یا پوشههای سایت خود را نمیخواهید بررسی شود.
همچنین میتوانید از علامت ستاره (*) برای اختصاص دستورالعملها به هر کاربر-عامل استفاده کنید، که این قانون را برای همه رباتها اعمال میکند.
البته، خوب است بدانید که Robots.txt یک فرمان الزامی نیست و تنها یک توصیه است. بنابراین، شما نمیتوانید به طور قطع از رعایت آن توسط همه موتورهای جستجو اطمینان حاصل کنید. همچنین، Robots.txt نمیتواند از دسترسی کاربران عادی به صفحات سایت شما جلوگیری کند. بنابراین، اگر شما میخواهید بخشهای حساس سایت خود را از دید عموم محافظت کنید، باید از روشهای دیگری برای این کار استفاده کنید.
دستورالعمل Disallow Robots.txt
میتوانید دستورالعملهای Allow و Disallow متعددی داشته باشید که مشخص میکنند خزنده می تواند یا نمیتواند به کدام قسمتهای سایت شما دسترسی داشته باشد.
یک خط خالی “Allow” به این معنی است که شما هیچ چیزی را غیرمجاز نمی کنید – یک خزنده می تواند به تمام بخش های سایت شما دسترسی داشته باشد.
به عنوان مثال، اگر می خواهید به همه موتورهای جستجو اجازه دهید کل سایت شما را بخزند، بلوک شما به شکل زیر خواهد بود:
User-agent: *
Allow: /
اگر می خواهید تمام موتورهای جستجو را از خزیدن در سایت خود مسدود کنید، بلوک شما به شکل زیر خواهد بود:
User-agent: *
Disallow: /
توجه: دستورالعملهایی مانند «Allow» و «Disallow» به حروف بزرگ و کوچک حساس نیستند. اما مقادیر درون هر دستورالعمل هست.
برای مثال، /photo/ با /Photo/ یکی نیست.
همچنین دستورالعمل نقشه سایت به موتورهای جستجو – به ویژه Google می گوید که نقشه سایت XML خود را کجا پیدا کنند. نقشه های سایت عموماً شامل صفحاتی هستند که می خواهید موتورهای جستجو آن ها را بخزند و فهرست کنند.
این دستورالعمل در بالا یا پایین یک فایل robots.txt قرار دارد و به شکل زیر است:
Sitemap: https://opencart.ir/sitemap.xml
افزودن دستورالعمل نقشه سایت به فایل robots.txt شما یک جایگزین سریع است. اما شما همچنین می توانید (و توصیه می شود) نقشه سایت XML خود را با استفاده از ابزارهای سرچ کنسول آنها به گوگل ارسال کنید.
موتورهای جستجو در نهایت سایت شما را می خزند، اما ارسال نقشه سایت روند خزیدن را سرعت می بخشد. برای عملکرد صحیح این فایل بهتر است از متخصصان سئوی اپن کارت کمک بگیرید.
فایل Robots.txt در کدام قسمت سایت قرار دارد؟
اگر یک ربات خوب فایل Robots.txt را پیدا کند قبل از انجام هر کار دیگری آن را می خواند. این فایل باید در پوشه روت سایت (Root Directory) شما قرار گیرد که میتوانید با ابزار FTP یا به طور مستقیم به آن دسترسی پیدا کنید. اگر از سی پنل یا دایرکت ادمین استفاده میکنید، میتوانید فایل Robots.txt را در پوشه public_html بیابید. حجم این فایل معمولاً خیلی کم است و چند صد بایت بیشتر نمیشود.
فایل robots.txt را برای هر وب سایتی با تایپ URL کامل برای صفحه اصلی و افزودن “/robots.txt” در پایان مشاهده کنید.
رباتهای گوگل چیست؟
شاید تا این لحظه متوجه شده باشید که ارتباط نزدیکی بین فایل Robots.txt و رباتهای گوگل وجود دارد. در حقیقت، این فایل مخصوص رباتها است. اما منظور از رباتهای موتور جستجوگر یا برای مثال رباتهای گوگل چیست؟
رباتهای گوگل نرم افزارهایی هستند که به طور خودکار وب را جستجو میکنند و صفحات را برای فهرست بندی و رتبهبندی در نتایج جستجو شناسایی میکنند. این رباتها با نامهای دیگری مانند عنکبوتها، خزندهها یا اسکنرها نیز شناخته میشوند.
رباتهای گوگل با استفاده از الگوریتمهای پیچیده تعیین میکنند که چه صفحاتی را باید بازدید کرده و چه اطلاعاتی را باید جمع آوری کرده تا آنها را به پایگاه داده گوگل اضافه کنند. این رباتها به طور مداوم وب را بروزرسانی میکنند و صفحات جدید، تغییرات یا حذف شدهها را شناسایی میکنند.
تأثیر فایل Robots.txt در سئو سایت چیست؟
یکی از سؤالات مهم این است رابطه سئو سایت با فایل Robots.txt چیست؟ خوب است بدانید که این فایل برای بهبود عملکرد سئو سایت اثر گذار باشد زیرا میتواند جلوی بررسی شدن صفحات غیرمهم، دارای محتوای تکراری و … را بگیرد و بهینهسازی منابع سرور را به خوبی انجام دهد.
همچنین این فایل میتواند دستورالعملهای خاصی را برای موتورهای جستجو مختلف تعریف کند و به بهبود روند ربات ها کمک کند.
ایجاد فایل Robots.txt در ماژول سئو سایت اپن کارت
اپن کارت، یکی از ابزارهای ساخت فروشگاههای اینترنتی است که مانند وردپرس، یک سیستم مدیریت محتوای فروشگاهی محسوب میشود. برای ایجاد فایل Robots.txt سایت فروشگاهی خود نیز غیر از روش دستی می توانید از ماژول سئوی اپن کارت استفاده کنید. در تنظیمات ماژول گزینه ای برای این مورد قرار گرفته که می تواند به شما کمک کند.
همچنین در این ماژول تنظیماتی برای متا ربات ها وجود دارد که تگ های noindex، nofollow، noimageindex و … را در صفحه مورد نظر شما قرار می دهد.
نمونه کد استاندارد robots.txt فروشگاه ساز اپن کارت
User-agent: * Disallow: /*?route=checkout/ Disallow: /*?route=account/ Disallow: /*?route=affiliate/ Disallow: /*?route=product/search Disallow: /*&limit Disallow: /*?limit Disallow: /*?sort Disallow: /*&sort Disallow: /*?order Disallow: /*&order Disallow: /*?price Disallow: /*&price Disallow: /*?mode Disallow: /*&mode Disallow: /*?cat Disallow: /*&cat Disallow: /*?dir Disallow: /*&dir Disallow: /*?color Disallow: /*&color Disallow: /*?product_id Disallow: /*&product_id Disallow: /*?minprice Disallow: /*&minprice Disallow: /*?maxprice Disallow: /*&maxprice Disallow: /*page Disallow: /*tag= Disallow: /*&create=1 Disallow: /*?keyword Disallow: /*?av Sitemap: https://opencart.ir/sitemap.xml
جمعبندی
در این مقاله به این سؤال پاسخ دادیم که فایل Robots.txt چیست و چه نقشی در سئو سایت دارد. این فایل یکی از ابزارهای مهم SEO است که به شما اجازه میدهد تعیین کنید که چه بخشهایی از سایت توسط ربات های موتورهای جستجو بررسی شود و چه بخشهایی بررسی نشود. با استفاده از Robots.txt، شما میتوانید به یهبود روند خزیدن ربات ها کمک کنید و از بررسی صفحات ناخواسته جلوگیری کنید. اگر هنوز فایل Robots.txt را برای سایت خود ایجاد نکردهاید، پیشنهاد میکنیم هر چه سریعتر اقدام کنید و با استفاده از راهنماییهای این مقاله، یک فایل Robots.txt مناسب بسازید. مطمئن باشید که با این کار، سایت شما در نتایج جستجو هم عملکرد بهتری خواهد داشت.