Как да редактирате txt файла robots. Как да редактирате txt файл на роботи Роботи txt файл

Всеки блог има свой собствен отговор на това. Следователно новодошлите в промоцията в търсачките често се объркват, като това:

Какви роботи ти бивши?

Файл robots.txtили индексен файл- обикновен текстов документ в UTF-8 кодировка, валиден за протоколите http, https и FTP. Файлът дава препоръки на роботите за търсене: кои страници/файлове трябва да бъдат обходени.Ако файлът съдържа знаци в кодировка, различна от UTF-8, роботите за търсене може да ги обработят неправилно. Правилата, изброени във файла robots.txt, са валидни само за хоста, протокола и номера на порта, където се намира файлът.

Файлът трябва да се намира в главната директория като обикновен текстов документ и да е достъпен на: https://site.com.ua/robots.txt.

В други файлове е обичайно да се маркира BOM (Byte Order Mark). Това е Unicode знак, който се използва за определяне на последователността на байтовете при четене на информация. Неговият кодов знак е U+FEFF. В началото на файла robots.txt знакът за последователност от байтове се игнорира.

Google постави ограничение за размера на файла robots.txt – той не трябва да тежи повече от 500 KB.

Добре, ако се интересувате от чисто технически подробности, файлът robots.txt е описание във формата на Backus-Naur (BNF). Това използва правилата на RFC 822.

Когато обработват правила във файла robots.txt, роботите за търсене получават една от трите инструкции:

  • частичен достъп: налично е сканиране на отделни елементи на уебсайта;
  • пълен достъп: можете да сканирате всичко;
  • пълна забрана: роботът не може да сканира нищо.

При сканиране на файла robots.txt роботите получават следните отговори:

  • 2xx —сканирането беше успешно;
  • 3xx -роботът за търсене следва пренасочването, докато не получи друг отговор. Най-често има пет опита за робота да получи отговор, различен от 3xx, след което се записва грешка 404;
  • 4xx —роботът за търсене вярва, че е възможно да се обходи цялото съдържание на сайта;
  • 5xx —се оценяват като временни сървърни грешки, сканирането е напълно забранено. Роботът ще има достъп до файла, докато не получи друг отговор. Роботът за търсене на Google може да определи дали отговорът на липсващите страници на сайта е конфигуриран правилно или неправилно, т.е. ако вместо грешка 404 страницата върне отговор 5xx, в в този случай страницата ще бъде обработена с код на отговор 404.

Все още не е известно как се обработва файлът robots.txt, който е недостъпен поради проблеми със сървъра с достъп до интернет.

Защо ви е необходим файл robots.txt?

Например понякога роботите не трябва да посещават:

  • страници с лична информация на потребителите на сайта;
  • страници с различни форми за изпращане на информация;
  • огледални сайтове;
  • страници с резултати от търсенето.

Важно: дори ако страницата е във файла robots.txt, има възможност тя да се появи в резултатите, ако е намерена връзка към нея в сайта или някъде на външен ресурс.

Ето как роботите на търсачките виждат сайт с и без файл robots.txt:

Без robots.txt информацията, която трябва да бъде скрита от любопитни очи, може да се окаже в резултатите от търсенето и поради това ще пострадате както вие, така и сайтът.

Ето как роботът на търсачката вижда файла robots.txt:

Google откри файла robots.txt на сайта и установи правилата, по които трябва да се обхождат страниците на сайта

Как да създадете файл robots.txt

Използване на бележник, Notepad, Sublime или друг текстов редактор.

User-agent - визитка за роботи

Потребителски агент – правило за това кои роботи трябва да преглеждат инструкциите, описани във файла robots.txt. В момента има 302 известни робота за търсене

Казва, че ние определяме правила в robots.txt за всички роботи за търсене.

За Google основният робот е Googlebot. Ако искаме да вземем предвид само това, записът във файла ще бъде така:

В този случай всички други роботи ще обхождат съдържанието въз основа на техните директиви за обработка на празен файл robots.txt.

За Yandex основният робот е... Yandex:

Други специални роботи:

  • Mediapartners-Google— за услугата AdSense;
  • AdsBot-Google— за проверка на качеството на целевата страница;
  • YandexImages— Индексатор на Yandex.Images;
  • Изображение на Googlebot- за снимки;
  • YandexMetrika— робот Yandex.Metrica;
  • YandexMedia— робот, който индексира мултимедийни данни;
  • YaDirectFetcher— Yandex.Direct робот;
  • Googlebot-видео— за видео;
  • Googlebot-Mobile- за мобилна версия;
  • YandexDirectDyn— динамичен робот за генериране на банери;
  • YandexBlogs— робот за търсене в блогове, който индексира публикации и коментари;
  • YandexMarket— робот Yandex.Market;
  • YandexNews— Yandex.News робот;
  • YandexDirect— изтегля информация за съдържанието на партньорските сайтове на Рекламната мрежа с цел изясняване на техните теми за избор на подходяща реклама;
  • YandexPagechecker— валидатор на микро маркиране;
  • YandexCalendar— Yandex.Calendar робот.

Забрана - поставяне на „тухли“

Струва си да го използвате, ако сайтът е в процес на подобрения и не искате той да се показва в резултатите от търсенето в текущото си състояние.

Важно е да премахнете това правило веднага щом сайтът е готов за потребителите да го видят. За съжаление много уебмастъри забравят за това.

Пример. Как да настроите правило за забрана, за да съветвате роботите да не преглеждат съдържанието на папка /папка/:

Този ред забранява индексирането на всички файлове с разширение .gif

Разрешете - ние насочваме роботите

Allow позволява сканиране на всеки файл/директива/страница. Да приемем, че искате роботите да могат да преглеждат само страници, които започват с /catalog, и да затварят цялото друго съдържание. В този случай се предписва следната комбинация:

Правилата за разрешаване и забрана се сортират по дължина на префикса на URL адреса (от най-малкото към най-голямото) и се прилагат последователно. Ако повече от едно правило съответства на една страница, роботът избира последното правило в сортирания списък.

Хост - изберете огледален сайт

Хостът е едно от задължителните правила за robots.txt; той казва на робота Yandex кои от огледалата на сайта трябва да бъдат взети под внимание за индексиране.

Огледалото на сайта е точно или почти точно копие на сайт, достъпно на различни адреси.

Роботът няма да се обърка при намирането на огледала на сайта и ще разбере, че основното огледало е посочено във файла robots.txt. Адресът на сайта се посочва без префикса „http://“, но ако сайтът работи на HTTPS, трябва да се посочи префиксът „https://“.

Как се пише това правило:

Пример за файл robots.txt, ако сайтът работи на HTTPS протокол:

Sitemap - медицинска карта на сайта

Картата на сайта казва на роботите, че всички URL адреси на сайта, необходими за индексиране, се намират на http://site.ua/sitemap.xml. При всяко обхождане роботът ще преглежда какви промени са направени в този файл и бързо ще актуализира информацията за сайта в базите данни на търсачката.

Crawl-delay - хронометър за слаби сървъри

Crawl-delay е параметър, който може да се използва за задаване на периода, след който страниците на сайта ще се зареждат. Това правило е приложимо, ако имате слаб сървър. В този случай може да има големи забавяния, когато роботите за търсене имат достъп до страниците на сайта. Този параметър се измерва в секунди.

Clean-param - ловец на дублирано съдържание

Clean-param помага да се справят с параметрите за получаване, за да се избегне дублиране на съдържание, което може да е достъпно на различни динамични адреси (с въпросителни). Такива адреси се появяват, ако сайтът има различни сортировки, идентификатори на сесии и т.н.

Да приемем, че страницата е достъпна на следните адреси:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

В този случай файлът robots.txt ще изглежда така:

Тук рефпоказва откъде идва връзката, така че се изписва в самото начало и едва след това се посочва останалата част от адреса.

Но преди да преминете към референтния файл, все пак трябва да научите за някои знаци, които се използват при писане на файл robots.txt.

Символи в robots.txt

Основните символи на файла са “/, *, $, #”.

Като се използва наклонена черта "/"ние показваме, че искаме да се предпазим от откриване от роботи. Например, ако има една наклонена черта в правилото Disallow, ние забраняваме сканирането на целия сайт. С две наклонени черти можете да предотвратите сканирането на определена директория, например: /каталог/.

Този запис казва, че забраняваме сканирането на цялото съдържание на папката на каталога, но ако напишем /catalog, ще забраним всички връзки на сайта, които започват с /catalog.

звездичка "*"означава всяка последователност от знаци във файла. Поставя се след всяко правило.

Този запис казва, че всички роботи не трябва да индексират никакви файлове с разширение .gif в папката /catalog/

Знак за долар «$» ограничава действията на знака звездичка. Ако искате да блокирате цялото съдържание на папката на каталога, но не можете да блокирате URL адреси, които съдържат /catalog, записът в индексния файл ще бъде като този:

Решетка "#"използвани за коментари, които даден уеб администратор оставя за себе си или други уеб администратори. Роботът няма да ги вземе предвид при сканиране на сайта.

Например:

Как изглежда идеалният robots.txt

Файлът отваря съдържанието на сайта за индексиране, хостът се регистрира и се посочва карта на сайта, което ще позволи на търсачките винаги да виждат адресите, които трябва да бъдат индексирани. Правилата за Yandex са посочени отделно, тъй като не всички роботи разбират инструкциите на хоста.

Но не бързайте да копирате съдържанието на файла в себе си - всеки сайт трябва да има уникални правила, които зависят от вида на сайта и CMS. Затова си струва да запомните всички правила, когато попълвате файла robots.txt.

Как да проверите вашия файл robots.txt

Ако искате да знаете дали файлът robots.txt е попълнен правилно, проверете го в Инструменти за уеб администратори Googleи Yandex. Просто въведете изходния код на файла robots.txt във формуляра чрез връзката и посочете сайта за проверка.

Как да не попълвате файла robots.txt

Често при попълване на индексен файл се допускат досадни грешки и те са свързани с обикновено невнимание или бързане. По-долу е дадена диаграма на грешките, които срещнах на практика.

2. Написване на няколко папки/директории в един Disallow оператор:

Такъв запис може да обърка роботите за търсене; те може да не разберат какво точно не трябва да индексират: или първата папка, или последната, така че трябва да напишете всяко правило отделно.

3. Самият файл трябва да бъде извикан само robots.txt,а не Robots.txt, ROBOTS.TXT или нещо друго.

4. Не можете да оставите правилото User-agent празно - трябва да кажете кой робот трябва да вземе предвид правилата, записани във файла.

5. Допълнителни знаци във файла (наклонени черти, звездички).

6. Добавяне на страници към файла, които не трябва да присъстват в индекса.

Нестандартно използване на robots.txt

В допълнение към преките функции, индексният файл може да се превърне в платформа за творчество и начин за намиране на нови служители.

Ето един сайт, където самият robots.txt е малък сайт с работещи елементи и дори рекламна единица.

Файлът се използва предимно от SEO агенции като платформа за търсене на специалисти. Кой друг може да знае за съществуването му? :)

И Google има специален файл хора.txt, за да не си позволявате да мислите за дискриминация на специалистите по кожи и месо.

заключения

С Robots.txt можете да давате инструкции за търсене на роботи, да рекламирате себе си, вашата марка и да търсите специалисти. Това е чудесно поле за експерименти. Основното е да запомните правилното попълване на файла и типичните грешки.

Правила, известни също като директиви, известни също като инструкции във файла robots.txt:

  1. Потребителски агент - правило за това кои роботи трябва да преглеждат инструкциите, описани в robots.txt.
  2. Disallow дава препоръки каква информация не трябва да се сканира.
  3. Sitemap казва на роботите, че всички URL адреси на сайтове, необходими за индексиране, се намират на http://site.ua/sitemap.xml.
  4. Хостът казва на робота Yandex кои от огледалата на сайта трябва да бъдат взети предвид за индексиране.
  5. Allow позволява сканиране на всеки файл/директива/страница.

Знаци при компилиране на robots.txt:

  1. Знакът за долар "$" ограничава действията на знака звездичка.
  2. С помощта на наклонената черта “/” показваме, че искаме да го скрием от откриване от роботи.
  3. Звездицата "*" означава всяка последователност от знаци във файла. Поставя се след всяко правило.
  4. Хешът "#" се използва за обозначаване на коментари, които даден уеб администратор пише за себе си или за други уеб администратори.

Използвайте разумно индексния файл - и сайтът винаги ще бъде в резултатите от търсенето.

Създаване на самия файл

Robots.txt е файл с инструкции за роботи за търсене. Създава се в основата на сайта. Можете да го създадете точно сега на вашия работен плот с помощта на Notepad, точно както създавате всеки текстов файл.

За да направите това, щракнете с десния бутон върху празното място и изберете Нов – Текстов документ (не Word). Ще се отвори с обикновен бележник. Наричайте го роботи, разширението му вече е правилно - txt. Това е всичко за създаването на самия файл.

Как да съставя robots.txt

Сега остава само да попълните файла с необходимите инструкции. Всъщност командите за роботите имат най-простия синтаксис, много по-прост, отколкото във всеки език за програмиране. Като цяло можете да попълните файла по два начина:

Погледнете друг сайт, копирайте и променете, за да отговаря на структурата на вашия проект.

Напишете го сами

Вече писах за първия метод в. Подходящо е, ако сайтовете имат еднакви двигатели и няма съществени разлики във функционалността. Например, всички WordPress сайтове имат една и съща структура, но може да има различни разширения, като форум, онлайн магазин и много допълнителни директории. Ако искате да знаете как да промените robots.txt, прочетете тази статия, можете също да прочетете предишната, но тази ще каже доста.

Например имате директория /source на уебсайта си, където се съхраняват източниците за статиите, които пишете в блога си, но друг уеб администратор няма такава директория. И вие, например, искате да затворите папката източник от индексиране. Ако копирате robots.txt от друг ресурс, тогава такава команда няма да има. Ще трябва да добавите вашите инструкции, да изтриете ненужни неща и т.н.

Така че във всеки случай е полезно да знаете основния синтаксис на инструкциите за роботи, които сега ще анализираме.

Как да напишете вашите инструкции за роботи?

Първото нещо, с което започва файлът, е указание към кои търсачки са адресирани инструкциите. Това се прави по следния начин:

Потребителски агент: Yandex Или потребителски агент: Googlebot

Потребителски агент: Yandex

Потребителски агент: Googlebot

Няма нужда да поставяте точка и запетая в края на реда, това не е програмиране за вас). Като цяло е ясно, че в първия случай само ботът на Yandex ще прочете инструкциите, във втория - само Google. Ако командите трябва да се изпълняват от всички роботи, напишете това: Потребителски агент:

Страхотен. Разбрахме привлекателността на роботите. Не е трудно. Можете да илюстрирате това с прост пример. Имате трима по-малки братя, Вася, Дима и Петя, а вие сте основният. Родителите ти си тръгнаха и ти казаха да ги държиш под око.

И тримата те молят за нещо. Представете си, че трябва да им дадете отговор, сякаш пишете инструкции за роботи за търсене. Ще изглежда така:

Потребителски агент: Vasya Allow: отидете на футбол Потребителски агент: Dima Disallow: отидете на футбол (Дима счупи стъклото на съседите си последния път, той беше наказан) User-agent: Petya Allow: отидете на кино (Petya вече е на 16 и като цяло е шокиран, че трябва да искам и вашето разрешение, но добре, пуснете го).

Така Вася щастливо завързва маратонките си, Дима, с наведена глава, гледа през прозореца към брат си, който вече мисли колко гола ще вкара днес (Дима получи командата за забрана, тоест забрана). Е, Петя отива на неговия филм.

От този пример е лесно да се разбере, че Allow е разрешение, а Disallow е забрана. Но в robots.txt даваме команди не на хора, а на роботи, така че вместо конкретни задачи там са написани адресите на страници и директории, които трябва да бъдат разрешени или забранени за индексиране.

Например, имам уебсайт site.ru. Поддържа се от WordPress. Започвам да пиша инструкции:

Потребителски агент: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Добре и т.н.

Потребителски агент: *

Забрана: /wp-admin/

Забрана: /wp-съдържание/

Забрана: /wp-includes/

Забрана: /източник/

Нуит. д.

Първо се свързах с всички роботи. Второ, блокирах индексирането на папките на двигателя, но в същото време дадох на робота достъп до папката за изтегляне. Всички снимки обикновено се съхраняват там и обикновено не се блокират от индексиране, ако планирате да получавате трафик от търсене на изображения.

Е, не забравяйте, че по-рано в статията казах, че можете да имате допълнителни директории? Можете да ги създадете сами за различни цели. Например, на един от моите сайтове има флаш папка, където поставям флаш игри, за да мога да ги стартирам в сайта. Или източник – тази папка може да съхранява файлове, достъпни за изтегляне от потребителите.

По принцип няма значение как се нарича папката. Ако трябва да го затворите, посочете пътя до него и командата Disallow.

Командата Allow е необходима именно за отваряне на някои части от вече затворени раздели. В крайна сметка, по подразбиране, ако нямате файл robots.txt, целият сайт ще бъде достъпен за индексиране. Това е едновременно добро (със сигурност няма да затворите нещо важно по погрешка) и в същото време лошо (ще бъдат отворени файлове и папки, които не трябва да бъдат в резултатите от търсенето).

За да разберете по-добре тази точка, предлагам ви да погледнете това парче отново:

Забрана: /wp-content/ Разрешаване: /wp-content/uploads/

Забрана: /wp-съдържание/

Разрешаване: /wp-content/uploads/

Както можете да видите, първо блокираме индексирането на цялата директория wp-content. Съхранява всички ваши шаблони, плъгини, но съдържа и снимки. Очевидно те могат да бъдат отворени. Ето защо се нуждаем от командата Allow.

Допълнителни опции

Изброените команди не са единствените неща, които могат да бъдат посочени във файла. Има и такива: Хост – обозначава основното огледало на сайта. За тези, които не знаят, всеки уебсайт има две опции за изписване по подразбиране за името на своя домейн: domain.com и www.domain.com.

За да избегнете проблеми, трябва да посочите една опция като основно огледало. Това може да стане както в инструментите за уеб администратори, така и във файла Robots.txt. За целта пишем: Host: domain.com

Какво дава това? Ако някой се опита да стигне до вашия сайт по този начин: www.domain.com, той автоматично ще бъде пренасочен към версията без www, защото тя ще бъде разпозната като основно огледало.

Втората директива е карта на сайта. Мисля, че вече разбирате, че той указва пътя до картата на сайта в xml формат. Пример: http://domain.com/sitemap.xml

Отново можете да качите картата в Yandex.Webmaster, можете също да я посочите в robots.txt, така че роботът да чете този ред и ясно да разбира къде да търси картата на сайта. За един робот картата на сайта е толкова важна, колкото и за Вася - топката, с която ще отиде на футбол. Все едно те пита (като по-голям брат) къде е топката. И ти му казваш:

погледни зад дивана

Сега знаете как правилно да конфигурирате и променяте robots.txt за Yandex и като цяло всяка друга търсачка, за да отговаря на вашите нужди.

Какво прави персонализирането на файла?

Аз също говорих за това по-рано, но ще го повторя. Благодарение на ясно конфигуриран файл с команди за роботи, можете да спите по-лесно, знаейки, че роботът няма да пропълзи в ненужен раздел и няма да вземе ненужни страници в индекса.

Казах също, че настройването на robots.txt не решава всичко. По-специално, това не ви спасява от дубликати, които възникват поради факта, че двигателите са несъвършени. Също като хората. Вие позволихте на Вася да отиде на футбол, но не е факт, че той няма да направи същото като Дима там. Същото е и с дубликатите: можете да дадете команда, но определено не можете да сте сигурни, че нещо допълнително няма да се промъкне в индекса, разрушавайки позициите.

Също така няма нужда да се страхувате от двойници като огън. Например Yandex третира повече или по-малко нормално сайтове, които имат сериозни технически проблеми. Друго нещо е, че ако започнете бизнес, тогава наистина можете да загубите сериозен процент от трафика за себе си. Въпреки това, скоро в нашия раздел, посветен на SEO, ще има статия за дубликати, тогава ще се борим с тях.

Как мога да получа нормален robots.txt, ако самият аз не разбирам нищо?

В края на краищата създаването на robots.txt не е създаване на уебсайт. Някак си е по-просто, така че можете просто да копирате съдържанието на файла от всеки повече или по-малко успешен блогър. Разбира се, ако имате WordPress сайт. Ако е на различен двигател, тогава трябва да търсите сайтове, използвайки същия cms. Вече казах как да видите съдържанието на файл на чужд уебсайт: Domain.com/robots.txt

Долен ред

Не мисля, че има какво повече да се каже тук, защото писането на инструкции за роботи не трябва да е целта ви за годината. Това е задача, която дори начинаещ може да изпълни за 30-60 минути, а професионалистът обикновено може да изпълни само за няколко минути. Ще успеете и не можете да се съмнявате в това.

И за да разберете други полезни и важни съвети за популяризиране и популяризиране на блог, можете да разгледате нашия уникален. Ако приложите 50-100% от препоръките от там, ще можете да рекламирате успешно всякакви сайтове в бъдеще.

Файлът robot.txt е необходим за повечето сайтове.

Всеки SEO оптимизатор трябва да разбира значението на този файл, както и да може да напише най-популярните директиви.

Правилно съставените роботи подобряват позицията на сайта в резултатите от търсенето и, наред с други методи за промоция, са ефективен SEO инструмент.

За да разберем какво е robot.txt и как работи, нека си припомним как работят търсачките.

За да го проверите, въведете основния си домейн в адресната лента, след което добавете /robots.txt в края на URL адреса.

Например файлът на робота Moz се намира на: moz.com/robots.txt. Влизаме и получаваме страницата:

Инструкции за "робота"

Как да създадете файл robots.txt?

3 вида инструкции за robots.txt.

Ако установите, че вашият файл robots.txt липсва, лесно е да го създадете.

Както вече беше споменато в началото на статията, това е обикновен текстов файл в основната директория на сайта.

Може да стане през админ панела или файловия мениджър, с който програмистът работи с файловете в сайта.

Ще разберем как и какво да пишем там, докато статията напредва.

Търсачките получават три вида инструкции от този файл:

  • сканиране на всичко, тоест пълен достъп (Разрешаване);
  • не можете да сканирате нищо - пълна забрана (Disallow);
  • Не можете да сканирате отделни елементи (които са посочени) - частичен достъп.

На практика изглежда така:

Моля, имайте предвид, че страницата все още може да се показва в резултатите от търсенето, ако е свързана към или извън този сайт.

За да разберем това по-добре, нека проучим синтаксиса на този файл.

Синтаксис Robots.Txt

Robots.txt: как изглежда?

Важни точки: какво винаги трябва да помните за роботите.

Седем общи термина, които често се срещат в уебсайтовете.

В най-простата си форма роботът изглежда така:

Потребителски агент: [име на системата, за която пишем директиви] Disallow: Sitemap: [посочете къде имаме картата на сайта] # Правило 1 User agent: Googlebot Disallow: /prim1/ Sitemap: http://www.nashsite. com /sitemap.xml

Заедно тези три реда се считат за най-простия robots.txt.

Тук попречихме на бота да индексира URL: http://www.nashsite.com/prim1/ и посочихме къде се намира картата на сайта.

Моля, обърнете внимание, че във файла robots наборът от директиви за един потребителски агент (търсачката) е разделен от набора от директиви за друг с нов ред.

Във файл с множество директиви за търсачки всяка забрана или разрешение се отнася само за търсачката, посочена в този конкретен блок от редове.

Това е важен момент и не трябва да се забравя.

Ако даден файл съдържа правила, които се прилагат за множество потребителски агенти, системата ще даде приоритет на директиви, които са специфични за определената търсачка.

Ето един пример:

В илюстрацията по-горе MSNbot, discobot и Slurp имат индивидуални правила, които ще работят само за тези търсачки.

Всички други потребителски агенти следват общите директиви в групата потребителски агент: *.

Синтаксисът на robots.txt не е абсолютно сложен.

Има седем общи термина, които често се срещат в уебсайтовете.

  • Потребителски агент: конкретна уеб търсачка (бот на търсачка), на която давате инструкции за обхождане. Списък с повечето потребителски агенти можете да намерите тук. Общо той има 302 системи, от които двете най-подходящи са Google и Yandex.
  • Disallow: команда за забрана, която казва на агента да не посещава URL адреса. Само един ред "disallow" е разрешен за URL адрес.
  • Разрешаване (приложимо само за Googlebot): Командата казва на бота, че има достъп до страница или подпапка, дори ако нейната родителска страница или подпапка е затворена.
  • Забавяне при обхождане: Колко милисекунди трябва да изчака търсачката, преди да зареди и обходи съдържанието на страницата.

Моля, обърнете внимание – Googlebot не поддържа тази команда, но скоростта на обхождане може да бъде зададена ръчно в Google Search Console.

  • Карта на сайта: Използва се за извикване на местоположението на всякакви XML карти, свързани с този URL адрес. Тази команда се поддържа само от Google, Ask, Bing и Yahoo.
  • Хост: тази директива показва основното огледало на сайта, което трябва да се вземе предвид при индексиране. Може да се регистрира само веднъж.
  • Clean-param: Тази команда се използва за борба с дублираното съдържание по време на динамично адресиране.

Регулярни изрази

Регулярни изрази: как изглеждат и какво означават.

Как да разрешите и забраните обхождането в robots.txt.

На практика файловете robots.txt могат да растат и да станат доста сложни и тромави.

Системата позволява използването на регулярни изрази за осигуряване на необходимата функционалност на файла, тоест гъвкава работа със страници и подпапки.

  • * е заместващ знак, означава, че директивата работи за всички търсещи ботове;
  • $ съответства на края на URL или низ;
  • # използван за коментари на разработчици и оптимизатори.

Ето няколко примера за robots.txt за http://www.nashsite.com

URL адрес на файла robots.txt: www.nashsite.com/robots.txt

Потребителски агент: * (т.е. за всички търсачки) Disallow: / (наклонена черта показва основната директория на сайта)

Току-що спряхме всички търсачки да обхождат и индексират целия сайт.

Колко често се изисква това действие?

Не често, но има случаи, когато е необходимо даден ресурс да не участва в резултатите от търсенето, а посещенията да се извършват чрез специални връзки или чрез корпоративна авторизация.

Ето как работят вътрешните уебсайтове на някои компании.

В допълнение, такава директива се предписва, ако сайтът е в етап на развитие или модернизация.

Ако трябва да позволите на търсачката да обхожда всичко, което е на сайта, тогава трябва да напишете следните команди в robots.txt:

Потребителски агент: * Забрана:

Няма нищо в отказа, което означава, че всичко е възможно.

Използването на този синтаксис във файл robots.txt позволява на роботите да обхождат всички страници на http://www.nashsite.com, включително началната страница, страницата на администратора и страницата за контакти.

Блокиране на конкретни търсачки и конкретни папки

Синтаксис за търсачката Google (Googlebot).

Синтаксис за други агенти за търсене.

Потребителски агент: Googlebot Disallow: /example-subfolder/

Този синтаксис само казва на търсачката на Google (Googlebot) да не обхожда адреса: www.nashsite.com/example-subfolder/.

Блокиране на отделни страници за определени ботове:

Потребителски агент: Bingbot Disallow: /example-subfolder/blocked-page.html

Този синтаксис казва на Bingbot (името на агента за търсене на Bing) само да не посещава страницата на: www.nashsite.com/example-subfolder/blocked-page.

Това е общо взето.

Ако усвоите тези седем команди и три символа и разберете логиката на приложението, ще можете да напишете правилния robots.txt.

Защо не работи и какво да правя

Основен алгоритъм на действие.

Други методи.

Неправилният robots.txt е проблем.

В крайна сметка идентифицирането на грешка и след това разбирането й ще отнеме време.

Прочетете отново файла, уверете се, че не сте блокирали нищо ненужно.

Ако след известно време се окаже, че страницата все още виси в резултатите от търсенето, погледнете в Google Webmaster дали търсачката е индексирала повторно сайта и проверете дали има външни връзки към затворената страница.

Защото ако съществуват, ще бъде по-трудно да го скриете от резултатите от търсенето;

Е, преди да използвате, проверете този файл с безплатен тестер от Google.

Навременният анализ помага да се избегнат проблеми и спестява време.

Robots.txt е сервизен файл, който служи като препоръка за ограничаване на достъпа до съдържанието на уеб документи за търсачките. В тази статия ще разгледаме настройката на Robots.txt, описвайки директивите и композирайки го за популярни CMS.

Този файл на Robot се намира в главната директория на вашия сайт и може да се отваря/редактира с обикновен бележник, препоръчвам Notepad++. За тези, които не обичат да четат, има ВИДЕО, вижте края на статията 😉

Защо се нуждаете от robots.txt?

Както казах по-горе, с помощта на файла robots.txt можем да ограничим достъпа на търсещи ботове до документи, т.е. пряко влияем върху индексирането на сайта. Най-често те са блокирани от индексиране:

  • Сервизни файлове и CMS папки
  • Дубликати
  • Документи, които не са полезни за потребителя
  • Не са уникални страници

Нека да разгледаме конкретен пример:

Онлайн магазин за продажба на обувки е внедрен на една от популярните CMS и не по най-добрия начин. Веднага мога да кажа, че резултатите от търсенето ще включват страници за търсене, пагинация, пазарска количка, някои файлове на двигателя и т.н. Всичко това ще бъдат дубликати и служебни файлове, които са безполезни за потребителя. Следователно те трябва да бъдат затворени от индексиране и ако има и раздел „Новини“, в който се копират и поставят различни интересни статии от сайтове на конкуренти, тогава няма нужда да мислите за това, ние го затваряме веднага.

Затова се уверяваме, че създаваме файл robots.txt, така че в резултатите да не попадне боклук. Не забравяйте, че файлът трябва да бъде отворен на http://site.ru/robots.txt.

Robots.txt директиви и правила за конфигуриране

Потребителски агент.Това е обръщение към конкретен робот на търсачката или към всички роботи. Ако е посочено конкретно име на робот, например „YandexMedia“, тогава за него не се използват общи директиви за потребителски агент. Пример за писане:

Потребителски агент: YandexBot Disallow: /cart # ще се използва само от основния индексиращ робот на Yandex

Забрани/Разреши.Това е забрана/разрешение за индексиране на определен документ или раздел. Редът на писане няма значение, но ако има 2 директиви и един и същ префикс, „Allow“ има предимство. Роботът за търсене ги чете по дължината на префикса, от най-малкия до най-големия. Ако трябва да деактивирате индексирането на страница, просто въведете относителния път до нея (Disallow: /blog/post-1).

Потребителски агент: Yandex Disallow: / Allow: /articles # Ние забраняваме индексирането на сайтове, с изключение на статии от 1 раздел

Регулярни изрази с * и $.Звездичката означава всяка последователност от знаци (включително празни). Знакът за долар означава прекъсване. Примери за използване:

Disallow: /page* # забранява всички страници, конструкции http://site.ru/page Disallow: /arcticles$ # забранява само страницата http://site.ru/articles, разрешавайки страници http://site.ru/ статии /нов

Директива за карта на сайта.Ако го използвате, тогава в robots.txt трябва да се посочи така:

Карта на сайта: http://site.ru/sitemap.xml

Директива за хост.Както знаете, сайтовете имат огледала (ние четем). Това правило насочва търсещия бот към основното огледало на вашия ресурс. Отнася се за Yandex. Ако имате огледало без WWW, напишете:

Домакин: site.ru

Обхождане-закъснение.Задава забавянето (в секунди) между изтеглянето на вашите документи от бота. Пише се след директивите Disallow/Allow.

Забавяне при обхождане: 5 # изчакване за 5 секунди

Clean-param.Показва на бота за търсене, че няма нужда да изтегля допълнителна дублираща се информация (идентификатори на сесии, референти, потребители). Clean-param трябва да се посочи за динамични страници:

Clean-param: ref /category/books # показваме, че нашата страница е основната, а http://site.ru/category/books?ref=yandex.ru&id=1 е същата страница, но с параметри

Основно правило: robots.txt трябва да се изписва с малки букви и да се намира в корена на сайта. Примерна файлова структура:

Потребителски агент: Yandex Disallow: /cart Allow: /cart/images Карта на сайта: http://site.ru/sitemap.xml Хост: site.ru Закъснение при обхождане: 2

Meta robots таг и как се пише

Тази опция за забрана на страници е по-добре взета предвид от търсачката на Google. Yandex взема предвид еднакво добре и двете опции.

Има 2 директиви: следване/неследванеИ индекс/без индекс. Това е разрешение/забрана за следване на връзки и разрешение/забрана за индексиране на документи. Директивите могат да бъдат написани заедно, вижте примера по-долу.

За всяка отделна страница можете да пишете в тага следното:

Коригирайте файловете robots.txt за популярни CMS

Пример Robots.txt за WordPress

По-долу можете да видите моята версия от този SEO блог.

Потребителски агент: Yandex Disallow: /wp-content/uploads/ Allow: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow : /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Забранявам проследяване, защото дублира част от статията в коментарите. И ако има много обратни връзки, ще получите куп идентични коментари.

Опитвам се да затворя служебните папки и файлове на всяка CMS, защото... Не искам да бъдат включени в индекса (въпреки че търсачките така или иначе не ги приемат, но няма да е по-лошо).

Емисиите трябва да бъдат затворени, т.к Това са частични или пълни дублирани страници.

Затваряме тагове, ако не ги използваме или ако ни мързи да ги оптимизираме.

Примери за други CMS

За да изтеглите правилните роботи за желаната CMS, просто щракнете върху съответната връзка.

Време за четене: 7 минути


Почти всеки проект, който идва при нас за одит или промоция, има неправилен файл robots.txt, а често той изобщо липсва. Това се случва, защото при създаването на файл всеки се ръководи от въображението си, а не от правилата. Нека да разберем как правилно да съставим този файл, така че роботите за търсене да работят с него ефективно.

Защо трябва да конфигурирате robots.txt?

Robots.txtе файл, разположен в основната директория на сайт, който казва на роботите на търсачките до кои секции и страници от сайта имат достъп и до кои не.

Настройването на robots.txt е важна част от резултатите от търсачката; правилно конфигурираните роботи също повишават ефективността на сайта. Липсата на Robots.txt няма да спре търсачките да обхождат и индексират вашия сайт, но ако нямате този файл, може да имате два проблема:

    Роботът за търсене ще прочете целия сайт, което ще „подкопае“ бюджета за обхождане. Бюджетът за обхождане е броят страници, които роботът за търсене може да обходи за определен период от време.

    Без robots файл, търсачката ще има достъп до чернови и скрити страници, до стотици страници, използвани за администриране на CMS. Той ще ги индексира и когато се стигне до необходимите страници, които предоставят директно съдържание за посетителите, бюджетът за обхождане ще „изтече“.

    Индексът може да включва страницата за влизане в сайта и други администраторски ресурси, така че нападателят може лесно да ги проследи и да извърши ddos ​​атака или да хакне сайта.

Как роботите за търсене виждат сайт с и без robots.txt:


Синтаксис на robots.txt

Преди да започнем да разбираме синтаксиса и да настройваме robots.txt, нека да разгледаме как трябва да изглежда „идеалният файл“:


Но не трябва да го използвате веднага. Всеки сайт най-често изисква свои собствени настройки, тъй като всички имаме различна структура на сайта и различен CMS. Нека разгледаме всяка директива по ред.

Потребителски агент

Потребителски агент - дефинира робот за търсене, който трябва да следва инструкциите, описани във файла. Ако трябва да се обърнете към всички наведнъж, използвайте иконата *. Можете също да се свържете с конкретен робот за търсене. Например Yandex и Google:


Използвайки тази директива, роботът разбира кои файлове и папки са забранени за индексиране. Ако искате целият ви сайт да бъде отворен за индексиране, оставете стойността Disallow празна. За да скриете цялото съдържание на сайта след Disallow, поставете „/“.

Можем да предотвратим достъпа до конкретна папка, файл или файлово разширение. В нашия пример ние се свързваме с всички роботи за търсене и блокираме достъпа до bitrix, папката за търсене и разширението pdf.


Позволява

Allow принуждава страниците и секциите на сайта да бъдат индексирани. В горния пример се свързваме с робота за търсене на Google, блокираме достъпа до bitrix, папката за търсене и разширението pdf. Но в папката bitrix отваряме принудително 3 папки за индексиране: компоненти, js, инструменти.


Хост - огледало на сайта

Огледален сайт е дубликат на основния сайт. Огледалата се използват за различни цели: промяна на адреса, сигурност, намаляване на натоварването на сървъра и др.

Домакинът е едно от най-важните правила. Ако това правило е записано, роботът ще разбере кое от огледалата на сайта трябва да се вземе предвид при индексиране. Тази директива е необходима за роботите Yandex и Mail.ru. Други роботи ще пренебрегнат това правило. Домакинът се регистрира само веднъж!

За протоколите „https://“ и „http://“ синтаксисът във файла robots.txt ще бъде различен.

Sitemap - карта на сайта

Картата на сайта е форма на навигация на сайта, която се използва за информиране на търсачките за нови страници. Използвайки директивата за карта на сайта, ние „принудително“ показваме на робота къде се намира картата.


Символи в robots.txt

Използвани символи във файла: “/, *, $, #”.


Проверка на функционалността след настройка на robots.txt

След като поставите Robots.txt на уебсайта си, трябва да го добавите и проверите в уеб администратора на Yandex и Google.

Проверка на Yandex:

  1. Следвайте тази връзка.
  2. Изберете: Настройки за индексиране - Анализ на Robots.txt.

Google проверка:

  1. Следвайте тази връзка.
  2. Изберете: Сканиране - Инструмент за проверка на файл Robots.txt.

По този начин можете да проверите вашия robots.txt за грешки и да направите необходимите корекции, ако е необходимо.

  1. Съдържанието на файла трябва да бъде изписано с главни букви.
  2. Директивата Disallow трябва да посочи само един файл или директория.
  3. Редът "User-agent" не трябва да е празен.
  4. User-agent винаги трябва да идва преди Disallow.
  5. Не забравяйте да включите наклонена черта, ако трябва да деактивирате индексирането на директория.
  6. Преди да качите файл на сървъра, не забравяйте да го проверите за синтактични и правописни грешки.

Пожелавам ти успех!

Видео преглед на 3 метода за създаване и персонализиране на файла Robots.txt

Хареса ли ви статията? Сподели с приятели: