نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی پرتال اطلاعاتی
  • خانه
  • اهن
  • Robot txt نمایه سازی را ممنوع نمی کند. و حالا با توضیحات

Robot txt نمایه سازی را ممنوع نمی کند. و حالا با توضیحات

Robots.txt یک فایل سرویس است که به عنوان توصیه ای برای محدود کردن دسترسی به محتوای اسناد وب برای موتورهای جستجو عمل می کند. در این مقاله به تجزیه و تحلیل پیکربندی Robots.txt، توضیحات دستورالعمل ها و کامپایل آن برای CMS های محبوب می پردازیم.

این فایل Robot در دایرکتوری ریشه سایت شما قرار دارد و باز/ویرایش می شود دفترچه یادداشت ساده، من Notepad ++ را توصیه می کنم. برای کسانی که دوست ندارند بخوانند - یک ویدیو وجود دارد، انتهای مقاله را ببینید 😉

چرا robots.txt مورد نیاز است

همانطور که در بالا گفتم، با استفاده از فایل robots.txt، می توانیم دسترسی ربات های جستجو را به اسناد محدود کنیم، یعنی. ما مستقیماً بر نمایه سازی سایت تأثیر می گذاریم. اغلب آنها از نمایه سازی بسته می شوند:

  • فایل های سرویس و پوشه های CMS
  • موارد تکراری
  • اسنادی که برای کاربر مفید نیستند
  • صفحات غیر منحصر به فرد

بیایید به یک مثال خاص نگاه کنیم:

فروشگاه اینترنتی فروش کفش و پیاده سازی شده بر روی یکی از CMS های محبوب و نه به بهترین شکل. من می توانم فوراً بگویم که در صفحه نتایج جستجو، صفحه بندی، سبد خرید، برخی از فایل های موتور و غیره چه خواهد شد. همه اینها فایل های تکراری و خدماتی هستند که برای کاربر بی فایده هستند. بنابراین، آنها باید از نمایه سازی بسته شوند، و اگر هنوز یک بخش "اخبار" وجود دارد که در آن کپی های مختلف و چسبانده شده است. مقالات جالباز سایت های رقبا - پس نیازی نیست فکر کنید، ما فورا آن را می بندیم.

بنابراین، حتما آن را با یک فایل robots.txt دریافت کنید تا زباله وارد نتایج نشود. فراموش نکنید که فایل باید در http://site.ru/robots.txt باز شود.

دستورالعمل ها و قوانین سفارشی سازی Robots.txt

عامل کاربر.این برای یک ربات موتور جستجوی خاص یا برای همه ربات ها جذاب است. در صورت تجویز نام خاصربات، به عنوان مثال "YandexMedia"، سپس دستورالعمل های عامل کاربر عمومی برای آن استفاده نمی شود. نمونه ای از نوشتن:

عامل کاربر: YandexBot Disallow: / سبد خرید # فقط توسط ربات اصلی نمایه ساز Yandex استفاده می شود

غیر مجاز / اجازه دادن.این ممنوعیت / اجازه نمایه سازی یک سند یا بخش خاص است. ترتیب نگارش مهم نیست اما با ۲ بخشنامه و همین پیشوند اولویت با «اجازه» است. ربات جستجوگر آنها را با توجه به طول پیشوند، از کوچکترین به بزرگترین می خواند. اگر نیاز به عدم اجازه ایندکس کردن صفحه دارید، کافیست مسیر نسبی آن را وارد کنید (Disallow: / blog / post-1).

عامل کاربر: Yandex غیر مجاز: / مجاز: / مقالات # ممنوعیت نمایه سازی سایت، به جز مقالات 1 بخش

عبارات منظم با * و $.ستاره به معنای هر دنباله ای از کاراکترها (از جمله شخصیت های خالی) است. علامت دلار به معنای وقفه است. نمونه هایی از استفاده:

غیر مجاز: / صفحه * # همه صفحات، ساختارها را ممنوع می کند http://site.ru/page غیر مجاز: / arcticles $ # فقط صفحه http://site.ru/articles را ممنوع می کند، صفحات مجاز http://site.ru/ مقالات / جدید

دستورالعمل نقشه سایتاگر از آن استفاده می کنید، در robots.txt باید به صورت زیر نشان داده شود:

نقشه سایت: http://site.ru/sitemap.xml

دستورالعمل میزبان.همانطور که می دانید سایت ها دارای آینه هستند (بخوانید،). این قانونربات جستجو را به آینه اصلی منبع شما نشان می دهد. به Yandex اشاره دارد. اگر آینه بدون WWW دارید، بنویسید:

میزبان: site.ru

خزیدن-تاخیر.تأخیر (بر حسب ثانیه) بین بارگیری ربات اسناد شما را مشخص می کند. بعد از دستورات Disallow/Allow ثبت شده است.

تأخیر خزیدن: 5 # تایم اوت در 5 ثانیه

Clean-param.به ربات جستجو نشان می دهد که نیازی به بارگیری اطلاعات تکراری اضافی (شناسه جلسات، ارجاع دهندگان، کاربران) نیست. Clean-param باید برای صفحات پویا تجویز شود:

Clean-param: ref / دسته / کتاب های # نشان می دهیم که صفحه ما اصلی است و http://site.ru/category/books?ref=yandex.ru&id=1 همان صفحه است اما با پارامترها

قانون اصلی: robots.txt باید در آن نوشته شود حروف کوچکو در ریشه سایت دراز بکشید. نمونه ساختار فایل:

عامل کاربر: Yandex Disallow: / cart Allow: / cart / images نقشه سایت: http://site.ru/sitemap.xml میزبان: site.ru Crawl-delay: 2

متا تگ روبات و نحوه نگارش آن

این گزینه مسدود کردن صفحات بهتر است توسط موتور جستجو در نظر گرفته شود سیستم گوگل... Yandex هر دو گزینه را به یک اندازه خوب در نظر می گیرد.

دارای 2 دستورالعمل: دنبال کردن / نوفالوو index / noindex... اینها مجوز / ممنوعیت دنبال کردن پیوندها و اجازه / ممنوعیت نمایه سازی سند هستند. دستورالعمل ها را می توان با هم نوشت، مثال زیر را ببینید.

برای هرچی صفحه جداگانهمی توانید در تگ بنویسید ذیل:

فایل‌های robots.txt را برای CMS محبوب تصحیح کنید

مثال Robots.txt برای وردپرس

در زیر می توانید نسخه من از این وبلاگ سئو را مشاهده کنید.

عامل کاربر: Yandex Disallow: / wp-content / uploads / Allow: / wp-content / uploads / * / * / Disallow: /wp-login.php غیر مجاز: /wp-register.php غیر مجاز: /xmlrpc.php غیر مجاز : /template.html غیر مجاز: / cgi-bin غیر مجاز: / wp-admin غیر مجاز: / wp-includes غیر مجاز: / wp-content / plugins غیر مجاز: / wp-content / cache غیر مجاز: / wp-content / themes غیر مجاز: / wp-trackback غیر مجاز: / wp-feed غیر مجاز: / wp-comments غیر مجاز: * / trackback غیر مجاز: * / فید غیر مجاز: * / نظرات غیر مجاز: / برچسب غیر مجاز: / بایگانی غیر مجاز: * / trackback / غیر مجاز: * / feed / غیر مجاز: * / نظرات / غیر مجاز: /؟ فید = غیر مجاز: /?.php غیر مجاز: /wp-register.php غیر مجاز: /xmlrpc.php غیر مجاز: /template.html غیر مجاز: / cgi-bin غیر مجاز: / wp-admin غیر مجاز: / wp-includes غیر مجاز: / wp-content / افزونه ها غیر مجاز: / wp-content / cache غیر مجاز: / wp-content / themes غیر مجاز: / wp-trackback غیر مجاز: / wp-feed غیر مجاز: / wp-comments غیر مجاز: * / trackback غیر مجاز: * / خوراک غیر مجاز: * / نظرات غیر مجاز: / برچسب غیر مجاز: / بایگانی غیر مجاز: * / پیگیری / Disallo w: * / خوراک / غیر مجاز: * / نظرات / غیر مجاز: /؟ خوراک = غیر مجاز: /?.xml

من ترک بک را ممنوع می کنم زیرا بخشی از مقاله را در نظرات کپی می کند. و اگر بازخوردهای زیادی وجود داشته باشد، انبوهی از نظرات یکسان دریافت خواهید کرد.

من سعی می کنم پوشه های سرویس و فایل های هر CMS را ببندم، زیرا من نمی خواهم آنها در فهرست قرار گیرند (اگرچه موتورهای جستجو به هر حال آن را قبول نمی کنند، بدتر نمی شود).

خوراک باید بسته شود زیرا این صفحات جزئی یا کامل تکراری هستند.

اگر از تگ ها استفاده نکنیم یا برای بهینه سازی آنها تنبلی کنیم، آن ها را می بندیم.

نمونه هایی برای CMS های دیگر

بارگذاری ربات های صحیحبرای CMS مورد نیاز فقط روی پیوند مربوطه کلیک کنید.

چگونه یک سایت، لینک، صفحه را از فهرست بندی ببندیم؟

همیشه لازم نیست موتورهای جستجو همه اطلاعات سایت را فهرست کنند.


گاهی اوقات، مدیران وب سایت حتی نیاز دارند تا سایت را به طور کامل از فهرست بندی ببندند، اما مبتدیان نمی دانند چگونه این کار را انجام دهند. در صورت تمایل، می توانید هر محتوا، منبع یا صفحات جداگانه آن را از موتورهای جستجو مخفی کنید.

چگونه یک سایت، لینک، صفحه را از فهرست بندی ببندیم؟ چند وجود دارد توابع سادهکه می توانید برای بستن هرگونه اطلاعات از Yandex و Google استفاده کنید. در این مقاله به شما نشان خواهیم داد چگونه یک سایت را از نمایه سازی از طریق روبات ها مسدود کنیمو به شما نشان می دهد چه کدهایی باید به این فایل اضافه شود.

بستن موتورهای جستجو از نمایه سازی

قبل از صحبت در مورد روش استفاده از robots.txt، ما به شما نشان خواهیم داد که چگونه از طریق پنل مدیریت سایت را از نمایه سازی در وردپرس مسدود کنید. در تنظیمات (خواندن بخش)، یک عملکرد راحت وجود دارد:

شما می توانید نمایان بودن سایت را حذف کنید، اما به نکته توجه کنید. می گوید که موتورهای جستجو هنوز هم می توانند یک منبع را فهرست کنند، بنابراین بهتر است از یک روش اثبات شده استفاده کنید و اضافه کنید کد مورد نیازدر robots.txt.

فایل متنی روبات داخل است و اگر آنجا نیست، آن را از طریق notepad ایجاد کنید.

کد زیر به بستن سایت از نمایه سازی کمک می کند:

فقط آن را به خط اول اضافه کنید (خطوط موجود را جایگزین کنید). اگر می خواهید سایت را فقط از Yandex ببندید، به جای ستاره Yandex را مشخص کنید، اگر منبع را از Google می بندید، Googlebot را وارد کنید.

اگر نمی توانید از این روش استفاده کنید، فقط خط را به کد سایت اضافه کنید .

وقتی این مراحل را کامل کردید، سایت دیگر ایندکس نمی شود، این بیشترین است بهترین راهبرای بستن منبع از ربات های جستجوگر.

چگونه یک صفحه را از نمایه سازی ببندیم؟

اگر می خواهید فقط یک صفحه را مخفی کنید، باید کد دیگری را در فایل روبات ثبت کنید:

غیر مجاز: / دسته / kak-nachat-zarabatyvat

در خط دوم باید آدرس صفحه را بدون نام دامنه مشخص کنید. یا اگر در کد آن بنویسید، می توانید صفحه را از فهرست بندی ببندید:

تمام شد گزینه دشوار، اما اگر نمی خواهید خطوطی را به robots.txt اضافه کنید، این یک راه حل عالی است. اگر به دنبال راهی برای جلوگیری از نمایه سازی موارد تکراری به این صفحه آمده اید، ساده ترین راه این است که همه پیوندها را به روبات ها اضافه کنید.

چگونه یک لینک یا متن را از نمایه سازی ببندیم؟

در اینجا نیز هیچ چیز پیچیده ای وجود ندارد، فقط باید اضافه کنید برچسب های ویژهدر کد پیوند یا آن را با آنها احاطه کنید:

لنگر

با استفاده از همین برچسب های noindexمی توانید از موتورهای جستجو پنهان شوید متن متفاوت... برای این کار باید این تگ را در ویرایشگر مقاله ثبت کنید.

متأسفانه گوگل چنین برچسبی ندارد، بنابراین نمی توانید برخی از متن ها را از آن پنهان کنید. ساده ترین راه برای انجام این کار اضافه کردن یک تصویر با متن است.

یکی از مراحل بهینه سازی وب سایت برای موتورهای جستجو، تدوین فایل robots.txt است. از طريق از این فایلمی توانید برخی یا همه ربات های جستجوگر را از نمایه سازی سایت شما یا قسمت های خاصی از آن که برای نمایه سازی در نظر گرفته نشده اند جلوگیری کنید. به ویژه، می توانید از نمایه سازی محتوای تکراری مانند نسخه های چاپی صفحات جلوگیری کنید.

قبل از شروع نمایه سازی، ربات های جستجوگر همیشه به فایل robots.txt در دایرکتوری ریشه سایت خود، به عنوان مثال http://site.ru/robots.txt مراجعه می کنند تا بدانند ربات در کدام بخش از سایت ممنوع است. از نمایه سازی اما حتی اگر قرار نیست چیزی را ممنوع کنید، باز هم توصیه می شود این فایل را ایجاد کنید.

همانطور که از پسوند robots.txt می بینید، این است فایل متنی... برای ایجاد یا ویرایش این فایل بهتر است از ساده ترین آنها استفاده کنید ویرایشگرهای متنمانند Notepad robots.txt باید در دایرکتوری ریشه سایت قرار داشته باشد و دارد فرمت اختصاصیکه در ادامه به آن خواهیم پرداخت.

فرمت فایل robots.txt

فایل robots.txt باید حداقل شامل دو ورودی لازم باشد. اولین مورد دستورالعمل User-agent است که نشان می دهد کدام خزنده باید دستورالعمل های زیر را دنبال کند. اگر به همه روبات‌ها به طور همزمان آدرس می‌دهید، مقدار می‌تواند نام ربات (googlebot، Yandex، StackRambler) یا نماد * باشد. برای مثال:

عامل کاربر: googlebot

نام ربات را می توان در وب سایت موتور جستجوی مربوطه یافت. یک یا چند دستورالعمل غیر مجاز باید دنبال شود. این دستورالعمل‌ها به ربات می‌گویند که کدام فایل‌ها و پوشه‌ها از فهرست‌سازی ممنوع هستند. برای مثال، خطوط زیراز ایندکس کردن فایل feedback.php و دایرکتوری cgi-bin توسط روبات ها جلوگیری کنید:

Disallow: /feedback.php غیر مجاز: / cgi-bin /

همچنین می توانید فقط از کاراکترهای اصلی فایل ها یا پوشه ها استفاده کنید. خط Disallow: / forum فهرست کردن همه فایل‌ها و پوشه‌ها را در ریشه سایت که نام آن با forum شروع می‌شود، ممنوع می‌کند، به عنوان مثال، فایل http://site.ru/forum.php و پوشه http://site. ru/forum/ با تمام محتوای آن. اگر Disallow خالی باشد، به این معنی است که ربات می تواند همه صفحات را ایندکس کند. اگر مقدار Disallow نماد / باشد به این معنی است که کل سایت مجاز به ایندکس شدن نیست.

هر قسمت User-agent باید حداقل یک قسمت Disallow داشته باشد. یعنی اگر قرار نیست چیزی را برای نمایه سازی ممنوع کنید، فایل robots.txt باید حاوی ورودی های زیر باشد:

عامل کاربر: * غیر مجاز:

بخشنامه های اضافی

بعلاوه عبارات با قاعده Yandex و Google اجازه استفاده از دستورالعمل Allow را می دهند، که برعکس Disallow است، یعنی مشخص می کند کدام صفحات را می توان ایندکس کرد. V مثال زیر Yandex از فهرست کردن همه چیز به جز آدرس صفحاتی که با / مقالات شروع می شوند ممنوع است:

عامل کاربر: Yandex Allow: / مقالات غیر مجاز: /

V این مثالدستورالعمل Allow باید قبل از Disallow نوشته شود، در غیر این صورت Yandex این را به عنوان ممنوعیت کامل نمایه سازی سایت درک خواهد کرد. یک دستورالعمل Allow خالی نیز نمایه سازی سایت را به طور کامل ممنوع می کند:

عامل کاربر: Yandex Allow:

مساوی است با

عامل کاربر: Yandex Disallow: /

دستورالعمل های غیر استاندارد باید فقط برای موتورهای جستجویی که از آنها پشتیبانی می کنند مشخص شود. در غیر این صورت، ربات نمی فهمد این ورودیممکن است با آن یا کل فایل robots.txt به درستی کار نکند. برای اطلاعات بیشتر در مورد دستورالعمل های اضافی و به طور کلی، در مورد درک دستورات فایل robots.txt توسط یک ربات جداگانه، به وب سایت موتور جستجوی مربوطه مراجعه کنید.

عبارات منظم در robots.txt

اکثر موتورهای جستجو فقط به طور صریح در نظر می گیرند اسامی مشخص شدهفایل ها و پوشه ها، اما موتورهای جستجوی پیشرفته تری نیز وجود دارند. ربات گوگل و ربات Yandex از استفاده از عبارات منظم ساده در robots.txt پشتیبانی می کنند که به میزان قابل توجهی میزان کار را برای وب مسترها کاهش می دهد. به عنوان مثال، دستورات زیر مجاز نیستند به ربات گوگلفهرست همه فایل ها با پسوند pdf:

عامل کاربر: googlebot غیر مجاز: * .pdf $

در این مثال، کاراکتر * هر دنباله ای از کاراکترها است و $ پایان پیوند را نشان می دهد.

عامل کاربر: Yandex Allow: /articles/*.html$ غیر مجاز: /

دستورالعمل های فوق به Yandex اجازه می دهد فقط فایل هایی با پسوند ".html" واقع در پوشه / articles / را فهرست کند. هر چیز دیگری برای نمایه سازی ممنوع است.

نقشه سایت

می توانید مکان نقشه سایت XML خود را در فایل robots.txt خود مشخص کنید:

عامل کاربر: googlebot غیر مجاز: نقشه سایت: http://site.ru/sitemap.xml

اگر خیلی دارید تعداد زیادی ازصفحات موجود در سایت و شما مجبور شدید نقشه سایت را به قسمت هایی تقسیم کنید، سپس باید تمام قسمت های نقشه را در فایل robots.txt مشخص کنید:

عامل کاربر: Yandex Disallow: نقشه سایت: http://mysite.ru/my_sitemaps1.xml نقشه سایت: http://mysite.ru/my_sitemaps2.xml

آینه های سایت

همانطور که می دانید معمولاً یک سایت از دو آدرس قابل دسترسی است: هم با www و هم بدون آن. برای یک ربات جستجوگر، site.ru و www.site.ru سایت های متفاوتی هستند، اما با محتوای یکسان. به آنها آینه می گویند.

با توجه به اینکه صفحات سایت هم با www و هم بدون لینک دارند، وزن صفحات را می توان بین www.site.ru و site.ru تقسیم کرد. برای جلوگیری از این اتفاق، موتور جستجو باید آینه اصلی سایت را مشخص کند. در نتیجه "چسباندن" تمام وزن متعلق به یک آینه اصلی خواهد بود و سایت می تواند موقعیت بالاتری را در نتایج جستجو.

می توانید آینه اصلی Yandex را مستقیماً در فایل robots.txt با استفاده از دستورالعمل Host مشخص کنید:

عامل کاربر: Yandex Disallow: /feedback.php غیر مجاز: / cgi-bin / میزبان: www.site.ru

پس از چسباندن، آینه www.site.ru تمام وزن را در اختیار خواهد داشت و در نتایج جستجو جایگاه بالاتری را اشغال می کند. و موتور جستجو به هیچ وجه site.ru را ایندکس نمی کند.

برای سایر موتورهای جستجو، انتخاب آینه اصلی، تغییر مسیر دائمی سمت سرور (کد 301) از آینه های اضافی به آینه اصلی است. این کار با استفاده از فایل htaccess و ماژول mod_rewrite انجام می شود. برای این کار فایل .htaccess را در ریشه سایت قرار دهید و موارد زیر را در آنجا بنویسید:

RewriteEngine On Options + FollowSymlinks RewriteBase / RewriteCond% (HTTP_HOST) ^ site.ru $ RewriteRule ^ (. *) $ Http://www.site.ru/$1

در نتیجه، تمام درخواست های site.ru به www.site.ru می روند، یعنی site.ru/page1.php به www.site.ru/page1.php هدایت می شود.

روش تغییر مسیر برای همه موتورهای جستجو و مرورگرها کار می کند، اما همچنان توصیه می شود دستورالعمل Host برای Yandex را به فایل robots.txt اضافه کنید.

نظرات Robots.txt

همچنین می توانید نظراتی را به فایل robots.txt خود اضافه کنید - آنها با یک # شروع می شوند و با یک فید خط پایان می یابند. توصیه می شود نظرات را در یک خط جداگانه بنویسید و بهتر است به هیچ وجه از آنها استفاده نکنید.

نمونه ای از استفاده از نظرات:

User-agent: StackRambler Disallow: / garbage / # هیچ چیز مفیدی در این پوشه وجود ندارد Disallow: /doc.xhtml # و در این صفحه نیز # و تمام نظرات این فایل نیز بی فایده است.

نمونه فایل robots.txt

1. ما به همه روبات‌ها اجازه می‌دهیم تمام اسناد سایت را فهرست کنند:

عامل کاربر: * غیر مجاز:
عامل کاربر: * غیر مجاز: /

3. ما ربات را ممنوع می کنیم موتور جستجوی گوگلفایل feedback.php و محتویات دایرکتوری cgi-bin را فهرست کنید:

عامل کاربر: googlebot Disallow: / cgi-bin / Disallow: /feedback.php

4. ما به همه روبات‌ها اجازه می‌دهیم کل سایت را فهرست کنند و ربات موتور جستجوی Yandex را از فهرست‌بندی فایل feedback.php و محتویات فهرست cgi-bin منع می‌کنیم:

عامل کاربر: Yandex Disallow: / cgi-bin / Disallow: /feedback.php میزبان: www.site.ru User-agent: * Disallow:

5. ما به همه روبات‌ها اجازه می‌دهیم کل سایت را ایندکس کنند و به ربات Yandex اجازه می‌دهیم تنها بخشی از سایت را که برای آن در نظر گرفته شده است ایندکس کند:

عامل کاربر: Yandex Allow: / yandex Disallow: / میزبان: www.site.ru User-agent: * Disallow:

خطوط خالی محدودیت هایی را برای ربات های مختلف جدا می کند. هر بلوک از محدودیت ها باید با یک خط با یک قسمت User-Agent شروع شود که نشان دهنده رباتی است که این قوانین نمایه سازی سایت برای آن اعمال می شود.

اشتباهات رایج

باید در نظر داشت که خط خالیدر فایل robots.txt یک جداکننده بین دو رکورد برای ربات های مختلف است. همچنین، نمی توانید چندین دستورالعمل را در یک خط مشخص کنید. هنگامی که فهرست کردن یک فایل را ممنوع می کنند، مدیران وب اغلب از / قبل از نام فایل پرش می کنند.

شما نیازی به ثبت نام در robots.txt برای ایندکس سایت ندارید برنامه های مختلف، که برای دانلود کامل سایت به عنوان مثال TeleportPro در نظر گرفته شده است. نه "برنامه های تکان دهنده" و نه مرورگرها هرگز به این فایل نگاه نمی کنند و دستورالعمل های نوشته شده در آنجا را دنبال نمی کنند. این منحصراً برای موتورهای جستجو در نظر گرفته شده است. همچنین نباید پنل مدیریت سایت خود را در robots.txt مسدود کنید، زیرا اگر لینکی به آن وجود نداشته باشد، ایندکس نمی شود. شما فقط مکان ناحیه مدیریت را برای افرادی که نباید در مورد آن بدانند نشان می دهید. همچنین شایان ذکر است که robots.txt بسیار بزرگ می تواند توسط موتور جستجو نادیده گرفته شود. اگر صفحات زیادی دارید که برای نمایه سازی در نظر گرفته نشده اند، بهتر است آنها را به سادگی از سایت حذف کنید یا به یک دایرکتوری جداگانه منتقل کنید و فهرست کردن این فهرست را ممنوع کنید.

بررسی فایل robots.txt برای وجود خطا

حتما بررسی کنید که موتورهای جستجو چگونه فایل ربات شما را درک می کنند. برای بررسی گوگل می توانید استفاده کنید ابزار گوگلبرای مدیران سایت اگر می خواهید بدانید که Yandex چگونه فایل robots.txt شما را درک می کند، می توانید از سرویس Yandex.Webmaster استفاده کنید. این به شما امکان می دهد تا اشتباهات انجام شده را به موقع اصلاح کنید. همچنین در صفحات این سرویس ها می توانید توصیه هایی برای کامپایل فایل robots.txt و بسیاری از اطلاعات مفید دیگر بیابید.

کپی برداری از مقاله ممنوع

جنبه های فنی سایت ایجاد شده کمتر بازی نمی کند نقش مهمبرای ارتقای وب سایت در موتورهای جستجو نسبت به محتوای آن. یکی از مهمترین جنبه های تکنیکینمایه سازی سایت است، یعنی تعریف مناطقی از سایت (فایل ها و دایرکتوری ها) که ممکن است توسط روبات های موتورهای جستجو ایندکس شوند یا نباشند. برای این منظور از robots.txt استفاده می شود - این است فایل ویژهکه حاوی دستوراتی برای ربات های موتورهای جستجو است. فایل صحیح robots.txt برای Yandex و Google به جلوگیری از بسیاری از عواقب ناخوشایند مرتبط با نمایه سازی سایت کمک می کند.

2. مفهوم فایل robots.txt و الزامات آن

فایل /robots.txt برای دستور دادن به همه عنکبوت ها برای فهرست بندی در نظر گرفته شده است سرورهای اطلاعاتهمانطور که در این فایل تعریف شده است، i.e. فقط آن دسته از دایرکتوری ها و فایل های سروری که در /robots.txt توضیح داده نشده اند. این فایل باید حاوی 0 یا چند رکورد باشد که با یک یا ربات دیگر مرتبط است (که با مقدار فیلد agent_id تعیین می شود) و برای هر ربات یا برای همه به طور همزمان مشخص کند که دقیقاً چه چیزی نیازی به ایندکس شدن ندارد.

نحو فایل به شما امکان می دهد مناطق فهرست بندی ممنوع را هم برای همه و هم برای ربات های خاص تنظیم کنید.

الزامات خاصی برای فایل robots.txt وجود دارد که رعایت نکردن آنها ممکن است منجر به خواندن نادرست توسط ربات موتور جستجو یا حتی عدم عملکرد این فایل شود.

الزامات اولیه:

  • تمام حروف در نام فایل باید بزرگ باشد، یعنی باید کوچک باشد:
  • robots.txt - درست است،
  • Robots.txt یا ROBOTS.TXT اشتباه است.
  • فایل robots.txt باید در آن تولید شود قالب متنیونیکس هنگام کپی کردن این فایل در سایت، کلاینت ftp باید به آن پیکربندی شود حالت متنیبه اشتراک گذاری فایل؛
  • فایل robots.txt باید در دایرکتوری ریشه سایت قرار داشته باشد.

3. محتوای فایل robots.txt

فایل robots.txt شامل دو ورودی است: "User-agent" و "Disallow". نام این رکوردها به حروف بزرگ و کوچک حساس نیست.

برخی از موتورهای جستجو نیز پشتیبانی می کنند ورودی های اضافی... به عنوان مثال، موتور جستجوی Yandex از رکورد Host برای تعیین آینه اصلی سایت استفاده می کند (آینه اصلی سایت، سایتی است که در فهرست موتورهای جستجو قرار دارد).

هر ورودی هدف خاص خود را دارد و بسته به تعداد صفحات و/یا دایرکتوری هایی که از فهرست بندی بسته می شوند و تعداد ربات هایی که به آنها دسترسی دارید، می توان چندین بار با آن مواجه شد.

فرض می شود فرمت زیرخطوط فایل robots.txt:

ورودی_نام[اختیاری

فضاها] : [اختیاری

فضاها] معنی[فضاهای اختیاری]

برای اینکه یک فایل robots.txt معتبر در نظر گرفته شود، حداقل یک دستور "عدم اجازه" باید بعد از هر ورودی "کاربر-عامل" وجود داشته باشد.

به طور کامل فایل خالی robots.txt معادل no robots.txt است که به معنای اجازه فهرست کردن کل سایت است.

ورود عامل کاربر

رکورد "کاربر-عامل" باید حاوی نام ربات جستجوگر باشد. در این ورودی می توانید به هر ربات خاصی بگویید که کدام صفحات سایت را ایندکس کند و کدام را نه.

مثالی از یک رکورد "کاربر-عامل"، که در آن تماس برای همه اتفاق می افتد موتورهای جستجوبدون استثنا و نماد "*" استفاده می شود:

نمونه ای از یک رکورد "کاربر-عامل"، که در آن تماس فقط با ربات موتور جستجوی Rambler برقرار می شود:

عامل کاربر: StackRambler

ربات هر موتور جستجو نام مخصوص به خود را دارد. دو راه اصلی برای تشخیص آن وجود دارد (نام):

در سایت های بسیاری از موتورهای جستجو بخش تخصصی "کمک به مدیر وب" وجود دارد که در آن نام ربات جستجوگر اغلب نشان داده می شود.

هنگامی که به گزارش های یک وب سرور نگاه می کنید، یعنی زمانی که به ارجاعات به فایل § robots.txt نگاه می کنید، می توانید نام های بسیاری را مشاهده کنید که حاوی نام موتورهای جستجو یا بخشی از آنها هستند. بنابراین فقط باید نام مورد نظر را انتخاب کرده و در فایل robots.txt وارد کنید.

ضبط را ممنوع کنید

رکورد "عدم اجازه" باید حاوی دستورالعمل هایی باشد که به ربات جستجوگر از رکورد "کاربر-عامل" نشان می دهد که کدام فایل ها و/یا فهرست ها از فهرست بندی منع شده اند.

در نظر گرفتن نمونه های مختلفسوابق غیر مجاز

نمونه‌ای از ورودی robots.txt (به همه چیز برای نمایه‌سازی اجازه می‌دهد):

غیر مجاز:

مثال (سایت کاملاً ممنوع است. برای این کار از نماد "/" استفاده کنید): Disallow: /

مثال (فایل "page.htm" واقع در دایرکتوری ریشه و فایل "page2.htm" واقع در دایرکتوری "dir" برای نمایه سازی ممنوع هستند):

غیر مجاز: /page.htm

غیر مجاز: /dir/page2.htm

به عنوان مثال (دایرکتوری های "cgi-bin" و "forum" و بنابراین، کل محتویات این فهرست برای نمایه سازی ممنوع است):

غیر مجاز: / cgi-bin /

غیر مجاز: / انجمن /

ممکن است از فهرست بندی تعدادی از اسناد و (یا) دایرکتوری هایی که با همان کاراکترها شروع می شوند، تنها با استفاده از یک ورودی «عدم اجازه» بسته شود. برای انجام این کار، باید کاراکترهای یکسان اولیه را بدون اسلش پایانی بنویسید.

به عنوان مثال (دایرکتوری "dir" برای نمایه سازی ممنوع است، همچنین تمام فایل ها و دایرکتوری هایی که با حروف "dir" شروع می شوند، یعنی فایل ها: "dir.htm"، "direct.htm"، دایرکتوری ها: "dir"، "directory1 "," Directory2 ", etc.):

اجازه ورود

گزینه "Allow" برای نشان دادن موارد استثنا از دایرکتوری ها و صفحات غیر نمایه شده که توسط ورودی "Disallow" مشخص شده اند استفاده می شود.

به عنوان مثال، یک ورودی وجود دارد که به شکل زیر است:

غیر مجاز: / انجمن /

اما در همان زمان، page1 باید در فهرست / forum / فهرست شود. سپس به خطوط زیر در فایل robots.txt خود نیاز دارید:

غیر مجاز: / انجمن /

مجاز: / انجمن / صفحه 1

رکورد نقشه سایت

این ورودی به مکان نقشه سایت در آن اشاره می کند فرمت xmlکه توسط ربات های جستجوگر استفاده می شود. این ورودی مسیر این فایل را نشان می دهد.

نقشه سایت: http://site.ru/sitemap.xml

رکورد میزبان

ورودی "میزبان" توسط موتور جستجوی Yandex استفاده می شود. باید آینه اصلی سایت مشخص شود، یعنی اگر سایت دارای آینه باشد (آینه جزئی است یا کپی کاملسایت. وجود منابع تکراری گاهی اوقات برای صاحبان سایت های پربازدید ضروری است تا قابلیت اطمینان و در دسترس بودن سرویس خود را افزایش دهند)، سپس با استفاده از دستورالعمل "Host" می توانید نامی را که می خواهید تحت آن ایندکس شوید انتخاب کنید. در غیر این صورت، Yandex به تنهایی آینه اصلی را انتخاب می کند و بقیه نام ها از فهرست بندی منع می شوند.

برای سازگاری با خزنده‌هایی که هنگام پردازش فایل robots.txt دستورالعمل Host را نمی‌پذیرند، بلافاصله پس از ورودی‌های Disallow، ورودی "Host" را اضافه کنید.

مثال: www.site.ru - آینه اصلی:

میزبان: www.site.ru

ورود با تاخیر خزیدن

این ورودی توسط Yandex درک شده است. این دستوری است برای ربات که فواصل زمانی مشخص (بر حسب ثانیه) بین صفحات نمایه سازی ایجاد کند. گاهی اوقات لازم است از سایت در برابر بار اضافی محافظت شود.

بنابراین، ورودی زیر به این معنی است که ربات Yandex باید زودتر از 3 ثانیه بعد از یک صفحه به صفحه دیگر برود:

نظرات (1)

هر خطی در robots.txt که با کاراکتر "#" شروع شود، نظر در نظر گرفته می شود. استفاده از نظرات در انتهای خطوط دارای دستورالعمل مجاز است، اما برخی از روبات ها ممکن است این خط را به درستی تشخیص ندهند.

مثال (نظر به همراه دستورالعمل در همان خط است):

غیر مجاز: / cgi-bin / # نظر

توصیه می شود نظر را در یک خط جداگانه قرار دهید. فضای سفید در ابتدای یک خط مجاز است اما توصیه نمی شود.

4. نمونه فایل robots.txt

مثال (نظر در یک خط جداگانه است):
غیر مجاز: / cgi-bin / # نظر

نمونه ای از فایل robots.txt که به همه روبات ها اجازه می دهد کل سایت را فهرست کنند:

میزبان: www.site.ru

نمونه ای از فایل robots.txt که همه ربات ها را از ایندکس کردن یک سایت منع می کند:

میزبان: www.site.ru

نمونه‌ای از فایل robots.txt که همه روبات‌ها را از ایندکس کردن دایرکتوری "abc" و همچنین همه فهرست‌ها و فایل‌هایی که با کاراکترهای "abc" شروع می‌شوند، منع می‌کند.

میزبان: www.site.ru

نمونه ای از فایل robots.txt که نمایه سازی صفحه "page.htm" واقع در فهرست اصلی سایت توسط ربات جستجوگر "googlebot" را ممنوع می کند:

عامل کاربر: googlebot

غیر مجاز: /page.htm

میزبان: www.site.ru

نمونه‌ای از فایل robots.txt که فهرست‌سازی را مجاز نمی‌داند:

- برای ربات "googlebot" - صفحه "page1.htm" واقع در دایرکتوری "دایرکتوری"؛

- برای ربات Yandex - همه دایرکتوری ها و صفحاتی که با نمادهای "dir" شروع می شوند (/ dir /، / direct /، dir.htm، direction.htm، و غیره) و در فهرست اصلی سایت قرار دارند.

عامل کاربر: googlebot

غیر مجاز: /directory/page1.htm

عامل کاربر: Yandex

5. خطاهای مربوط به فایل robots.txt

یکی از رایج ترین اشتباهات نحو معکوس است.

نه به درستی:

غیر مجاز: Yandex

درست:

عامل کاربر: Yandex

نه به درستی:

غیر مجاز: / dir / / cgi-bin / / انجمن /

درست:

غیر مجاز: / cgi-bin /

غیر مجاز: / انجمن /

اگر هنگام پردازش یک خطای 404 (سند یافت نشد)، وب سرور یک صفحه خاص صادر می کند و فایل robots.txt گم شده باشد، در این صورت وضعیتی ممکن است زمانی که ربات جستجوگر هنگام درخواست فایل robots.txt یکسان داده شود. صفحه ویژهکه به هیچ وجه یک فایل کنترلی نمایه سازی نیست.

خطای مربوط به مورد Robots.txt. به عنوان مثال، اگر باید دایرکتوری "cgi-bin" را ببندید، در ورودی "Disallow" نمی توانید نام دایرکتوری را با حروف بزرگ "cgi-bin" بنویسید.

نه به درستی:

غیر مجاز: / CGI-BIN /

درست:

غیر مجاز: / cgi-bin /

خطای مربوط به عدم وجود اسلش باز هنگام بستن دایرکتوری از نمایه سازی.

نه به درستی:

غیر مجاز: page.HTML

درست:

غیر مجاز: /page.html

برای جلوگیری از رایج ترین خطاها، می توانید فایل robots.txt را با استفاده از Yandex.Webmaster tools یا Tools for بررسی کنید. وب مسترهای گوگل... بررسی پس از دانلود فایل انجام می شود.

6. نتیجه گیری

بنابراین وجود فایل robots.txt و همچنین کامپایل آن می تواند بر ارتقای یک سایت در موتورهای جستجو تاثیر بگذارد. بدون دانستن نحو فایل robots.txt، می‌توانید فهرست‌بندی صفحات احتمالی ارتقا یافته و همچنین کل سایت را ممنوع کنید. و برعکس، گردآوری شایسته این فایل می تواند کمک زیادی به ارتقای منبع کند، به عنوان مثال، می توانید اسنادی را از فهرست بندی که در ارتقاء صفحات مورد نظر اختلال ایجاد می کنند، ببندید.

از نویسنده:آیا صفحاتی در سایت خود دارید که دوست ندارید آنها را به موتورهای جستجو نشان دهید؟ در این مقاله با جزئیات نحوه جلوگیری از ایندکس شدن صفحه در robots.txt، آیا صحیح بودن آن و به طور کلی نحوه مسدود کردن صحیح دسترسی به صفحات را خواهید آموخت.

بنابراین، شما باید از نمایه سازی برخی از آنها جلوگیری کنید صفحات خاص... ساده ترین راه برای انجام این کار در خود فایل robots.txt و افزودن خطوط لازم به آن خواهد بود. می خواهم توجه داشته باشم که ما آدرس های پوشه را نسبت به آدرس های url ثبت کرده ایم صفحات خاصبه همین ترتیب مشخص کنید، اما می توانید بنویسید مسیر مطلق.

فرض کنید وبلاگ من چند صفحه دارد: مخاطبین، درباره من و خدمات من. دوست ندارم ایندکس شوند. بر این اساس می نویسیم:

عامل کاربر: * غیر مجاز: / kontakty / غیر مجاز: / درباره / غیر مجاز: / uslugi /

یک نوع دیگر

عالیه ولی اینطور نیست تنها راهدسترسی ربات به صفحات خاصی را ببندید. دوم این است که یک متا تگ ویژه در کد html قرار دهید. به طور طبیعی، فقط در آن دسته از رکوردهایی قرار دهید که باید بسته شوند. به نظر می رسد این است:

< meta name = "robots" content = "noindex,nofollow" >

تگ باید در قسمت head در سند html برای قرار داده شود کار درست... همانطور که می بینید دو پارامتر دارد. نام به عنوان یک خزنده مشخص می شود و مشخص می کند که این نشانه ها برای خزنده ها هستند.

پارامتر محتوا باید دارای دو مقدار باشد که با کاما از هم جدا شده اند. اولی ممنوعیت یا اجازه نمایه سازی است اطلاعات متنیدر صفحه، دومی نشانگر ایندکس کردن پیوندها در صفحه است.

بنابراین، اگر می خواهید صفحه به هیچ وجه ایندکس نشود، مقادیر noindex، nofollow را مشخص کنید، یعنی متن را ایندکس نکنید و در صورت وجود، کلیک روی لینک ها را ممنوع کنید. یک قانون وجود دارد که اگر متنی در صفحه وجود نداشته باشد، ایندکس نمی شود. یعنی اگر تمام متن در noindex بسته شود، چیزی برای ایندکس شدن وجود ندارد، بنابراین چیزی وارد ایندکس نمی شود.

علاوه بر این، چنین مقادیری وجود دارد:

noindex، فالو - ممنوعیت نمایه سازی متن، اما اجازه دنبال کردن پیوندها.

index، nofollow - زمانی که محتوا باید به فهرست وارد شود، قابل استفاده است، اما تمام پیوندهای موجود در آن باید بسته شوند.

index, follow - مقدار پیش فرض. همه چیز مجاز است.

مقالات مرتبط برتر