Robots.txt fájl helyes beállítása

SEO alapok3 hét ezelőtt016 mins perc

Keresőoptimalizálás -SEO

Robots.txt fájl helyes beállítása

A keresőoptimalizálás világában gyakran találkozunk a robots.txt fájl fogalmával, de kevesen értik igazán, milyen fontos szerepet játszik egy weboldal életében. Ez az egyszerű, mégis kulcsfontosságú szöveges fájl irányítja a keresőrobotokat abban, hogy mely oldalakat indexeljék és melyeket ne. Egy jól beállított robots.txt fájl segít abban, hogy a weboldalunk tartalma megfelelően jelenjen meg a keresőmotorok találati listáján, miközben védi a privát vagy kevésbé fontos oldalakat a nyilvános indexeléstől. Azonban egyetlen rossz sor is komoly SEO problémákat, vagy akár teljes láthatatlanságot okozhat a keresőkben.

Ebben a cikkben részletesen bemutatjuk, hogy mi is az a robots.txt fájl, hogyan kell helyesen beállítani, mire figyeljünk a szerkesztése során, és milyen gyakori hibákat kerüljünk el. A kezdők megtalálják az alapvető szabályokat, példákat, míg a haladó felhasználók számára is tartogatunk tippeket és trükköket, hogy kihozzák a maximumot weboldalukból. Megmutatjuk, hogyan tesztelhetjük a fájl működését, és áttekintjük a legújabb, 2024-es szakmai ajánlásokat. Mindezen felül készítettünk egy táblázatot az előnyökről és hátrányokról is, hogy könnyebben átláthasd, mikor és hogyan érdemes használni ezt az eszközt.

A tudatos robots.txt kezelés nemcsak a keresőrobotokat segíti, hanem a weboldalunk felhasználóit is, hiszen lehetővé teszi, hogy csak a legfontosabb és legrelevánsabb tartalmak jelenjenek meg a keresési találatok között. Cikkünkben minden lépést gyakorlati példákkal magyarázunk el, hiszen a valós szituációk alapján könnyebb megérteni, mire figyeljünk. A végén egy 10 pontos, gyakran ismételt kérdésekből álló FAQ is segíteni fog abban, hogy a leggyakoribb problémákra gyorsan választ kapj.

Ha szeretnéd, hogy weboldalad keresőbarátabb legyen, és elkerülnéd a tipikus hibákat, akkor tarts velünk! Legyen szó blogról, céges oldalról vagy webáruházról, a robots.txt helyes beállítása mindenki számára fontos. Készülj fel egy hosszabb, átfogó és részletes útmutatóra, amely kezdőként és haladóként is hasznodra lesz.

Mi az a robots.txt fájl és miért fontos a weboldalnak?

A robots.txt fájl egy egyszerű szöveges dokumentum, amelyet a weboldalad gyökérkönyvtárába, azaz a fő könyvtárába helyezel el. Ez a fájl mondja meg a keresőmotorok robotjainak (mint például a Googlebot, Bingbot), hogy mely oldalakat, mappákat vagy fájlokat indexelhetnek, és melyeket kell elkerülniük a feltérképezés során. Ezáltal tudod szabályozni, hogy mi jelenik meg a keresőkben, és mi marad rejtve.

A robots.txt fájl elsődleges szerepe a weboldalad tartalmának irányított megjelenítése a keresőmotorokban. Például, ha van egy fejlesztési vagy privát mappa, amit nem szeretnél, hogy bárki is megtaláljon keresés útján, egyszerűen kizárhatod azt a robots.txt segítségével. Ugyanakkor lehetőséget ad arra is, hogy bizonyos robotokat korlátozz, vagy éppen csak egyes részeket engedélyezz számukra a feltérképezésben.

A helytelenül beállított robots.txt fájl komoly SEO problémákat okozhat. Ha például véletlenül kizárod a teljes oldalt a keresők elől, az egész weboldalad eltűnhet a Google találati listájáról. Ugyanez igaz a fontos aloldalakra, fő kategóriákra vagy termékoldalakra is, így minden változtatás előtt alaposan át kell gondolni, hogy pontosan mit szeretnél elérni a szabályokkal.

Fontos megjegyezni, hogy a robots.txt nem biztonsági eszköz! Nem akadályozza meg, hogy az emberek vagy rosszindulatú programok hozzáférjenek egy-egy oldalhoz vagy fájlhoz, csupán a keresőrobotoknak ad iránymutatást. Ha valódi védelemre van szükség, mindig használj megfelelő hozzáférés-kezelési megoldásokat (például jelszóval védett könyvtárakat vagy szerveroldali szabályokat).

Alapvető szabályok a robots.txt fájl szerkesztéséhez

A robots.txt fájl szerkesztése első ránézésre egyszerűnek tűnhet, de fontos ismerni az alapvető kulcsszavakat, szabályokat és szintaxist. A fájl minden egyes sora bizonyos robotokra vagy útvonalakra vonatkozik, így pontosnak és következetesnek kell lennünk, hogy ne blokkoljunk véletlenül fontos tartalmakat.

Robots.txt alapszerkezete

A robots.txt fájl két kulcselemre épül:

User-agent: Meghatározza, hogy melyik keresőrobotra vonatkozik a szabály (például: Googlebot, Bingbot, stb.). A * (csillag) karakter minden robotra vonatkozik.
Disallow / Allow: Ezek a paranccsorok határozzák meg, hogy az adott robot számára mely útvonalakat tiltunk le vagy engedélyezünk.

Példa egy alap robots.txt fájlra:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

A fenti esetben minden robot számára tiltjuk az /admin/ és /private/ mappákat, de engedélyezzük a /public/ mappát. Minden sor egy-egy szabályt jelent, amelyeket a robotok sorban végrehajtanak.

Fontos szabályok és ajánlott gyakorlatok

Mindig helyezd el a robots.txt fájlt a domain gyökérkönyvtárába (például: https://www.pelda.hu/robots.txt), különben a keresőrobotok nem fogják megtalálni.
Ügyelj a helyes elérési utakra: a / (per jel) a weboldalad gyökerére utal, míg a /konyvtar/ a gyökér alatti mappára.
Ha minden keresőrobotot szeretnél kizárni egy mappából, használd a User-agent: * sort.
Ha csak bizonyos robotokat akarsz szabályozni, használd a robot nevét (pl.: User-agent: Googlebot).

Gyakori példák:

Cél	Példa robots.txt szabály
Minden robotot kizárni	User-agent: *Disallow: /
Csak egy mappát kizárni	User-agent: *Disallow: /admin/
Mindenki számára engedélyezni	User-agent: *Disallow:
Csak Googlebotot szabályozni	User-agent: GooglebotDisallow: /private/

Kiegészítő direktívák

A robots.txt fájl további parancsokat is tartalmazhat:

Sitemap: Megadhatod a weboldalad XML oldaltérképének helyét, pl.:
Sitemap: https://www.pelda.hu/sitemap.xml
Crawl-delay: Szabályozhatod, hogy a robotok milyen gyakran látogassák meg az oldalad (ez főleg nagyobb oldalaknál hasznos).
Crawl-delay: 10 (másodpercben)

A robots.txt verziózása és tesztelése

Fontos, hogy minden változtatás után teszteld a robots.txt fájlt, hiszen egyetlen hiba is súlyos következményekkel járhat. A Google Search Console vagy más online eszközök segítenek ebben, melyeket a későbbiekben részletesen ismertetünk.

Gyakori hibák és tévhitek a robots.txt használatában

A robots.txt fájl használata során számos hibát el lehet követni, melyek jelentősen befolyásolhatják weboldalad teljesítményét a keresőkben. Sokan azt gondolják, hogy a robots.txt egyfajta védelmi vonal, azonban ez csak részben igaz, és a hibás beállítás akár az egész oldal eltűnéséhez is vezethet a találati listákról.

1. Teljes oldal véletlen kizárása

Az egyik leggyakoribb hiba, amikor valaki az alábbi sort írja be:

User-agent: *
Disallow: /

Ez a szabály minden robot számára tiltja a weboldal teljes tartalmát. Eredmény: Az oldal egyáltalán nem fog szerepelni a keresési találatok között, ami végzetes lehet egy weboldal számára, különösen egy új vagy forgalmas oldal esetén. Mindig ellenőrizd, hogy nem zártad-e ki véletlenül az egész weboldalt!

2. Egyéni oldalak helytelen tiltása

Gyorsan hibázhatunk, ha nem pontosan adjuk meg az elérési utakat. Például, ha csak az admin.php oldalt akarjuk kizárni, de ezt írjuk:

Disallow: admin

Ez azt eredményezi, hogy minden olyan útvonalat kizár a robot, amely tartalmazza az “admin” szöveget, pl. /adminisztracio/ vagy /adminpanel/ is blokkolva lesz. Mindig pontos elérési utakat használjunk:
Disallow: /admin.php

3. A robots.txt biztonsági eszközként való használata

Sokan hiszik, hogy a robots.txt fájl meggátolja az érzékeny adatokhoz való hozzáférést. Ez tévhit! A robots.txt csak a keresőrobotokat irányítja, bármely felhasználó (vagy hacker) könnyedén megnézheti a tiltott tartalmat. Ha érzékeny adatokat kell védened, használj szerveroldali védelmet (pl. .htaccess, jelszavas védelem).

4. Noindex és robots.txt keverése

Gyakori tévhit, hogy ha a robots.txt-el kizárunk egy oldalt, az nem kerül indexelésre. Azonban, ha egy oldalra már mutat link, és csak a feltérképezés van tiltva, előfordulhat, hogy a keresőmotor indexeli az oldalt a lapcím és meta adatok nélkül, csak az URL-t jelenítve meg a találatok között. Ha egy oldalt biztosan nem szeretnél indexeltetni, használj “noindex” meta taget az adott oldal forráskódjában, és ne tiltst a robots.txt fájlban a feltérképezését – így a robot be tudja olvasni a “noindex” utasítást.

Hogyan teszteljük a robots.txt fájl működését?

A robots.txt fájl helyes működését rendszeresen ellenőrizni kell, hogy elkerüljük az esetleges hibákat és biztosítsuk a keresőrobotok megfelelő irányítását. Számos eszköz áll rendelkezésre erre a célra, amelyek segítenek az ellenőrzésben, hibakeresésben és optimalizálásban.

1. Google Search Console használata

A Google Search Console egy ingyenes, hivatalos eszköz, amely többek között a robots.txt tesztelésére is alkalmas. A “robots.txt-tesztelő” funkcióval ellenőrizheted, hogy a Googlebot hozzáfér-e az adott oldalakhoz vagy sem. A következő lépésekből áll a használata:

Lépj be a Google Search Console-ba, majd válaszd ki a megfelelő webhelyet.
Navigálj a “Beállítások” vagy “Indexelési lefedettség” menüpontba.
Itt megtalálod a robots.txt tesztelő eszközt, ahol beírhatod az ellenőrizni kívánt URL-t.
Az eszköz megmutatja, hogy az adott robot el tudja-e érni az oldalt.

Ez különösen hasznos lehet, ha gyakran módosítod a robots.txt-t, vagy új mappákat, oldalakat teszel közzé.

2. Online robots.txt validátorok és tesztelők

Számos online eszköz érhető el, amelyekkel gyorsan ellenőrizheted a robots.txt fájlod szintaxisát és hatékonyságát. Ilyen például a https://www.robots.txtchecker.com/ vagy a https://technicalseo.com/tools/robots-txt/. Ezek az eszközök ellenőrzik a szintaxis hibákat, és megjelenítik, mely URL-ek vannak letiltva vagy engedélyezve.

3. HTTPS és robots.txt

Fontos megjegyezni, hogy ha weboldalad HTTPS protokollon is elérhető, külön robots.txt fájl szükséges a https:// és a http:// verzióhoz is. Mindig győződj meg róla, hogy mindkét protokoll alatt ugyanazok a szabályok érvényesülnek. Ezt ellenőrizheted böngészőből is, ha beírod a https://www.pelda.hu/robots.txt címet.

4. Log elemzés és gyakorlati tesztelés

A szervered hozzáférési naplóit (access log) is elemezheted, hogy lásd, mely robotok látogatják az oldalad, milyen gyakran, és mely oldalakat próbálják elérni. Ha a naplóban sok 403 vagy 404-es hibát látsz robotokra vonatkozóan, érdemes újra ellenőrizni a robots.txt beállításokat. Emellett manuálisan is próbálkozhatsz: egyszerűen írd be a kizárni kívánt URL-t a keresőbe, és nézd meg, megjelenik-e a Google találati listáján.

Haladó tippek a robots.txt beállításának optimalizálásához

A robots.txt fájl beállítása nem ér véget az alapértelmezett szabályokkal. Akik szeretnék finomhangolni weboldaluk SEO teljesítményét, haladó módszereket is alkalmazhatnak a még jobb eredmények érdekében. Ezekkel a trükkökkel időt, erőforrást spórolhatsz, és pontosabb kontrollt szerezhetsz a keresőrobotok felett.

1. Dinamikus robots.txt generálás

Nagyobb weboldalak vagy webáruházak esetében gyakran előfordul, hogy a tartalom folyamatosan változik. Ilyenkor érdemes lehet dinamikusan generálni a robots.txt fájlt, például PHP vagy más szerveroldali nyelv segítségével. Így azonnal alkalmazkodni tudsz a frissítésekhez, például új mappák vagy ideiglenes oldalak létrehozásakor.

2. User-agent szintű finomhangolás

Bizonyos robotokat külön szabályokkal is elláthatsz. Például a Googlebot számára engedélyezheted az oldalt, míg a kevésbé ismert vagy spam robotokat kizárhatod. Ez különösen hasznos lehet, ha nem szeretnéd, hogy minden robot indexelje a tartalmat.

Példa:

User-agent: Googlebot
Disallow:

User-agent: BadBot
Disallow: /

3. Crawl-delay beállítása

Ha szerveredet túlterhelik a robotok, beállíthatsz késleltetést a “Crawl-delay” utasítással. Ez megmondja a robotoknak, hogy két lekérés között mennyi időt várjanak. Bár a Googlebot nem támogatja hivatalosan ezt a parancsot, más keresőmotorok – például a Bing – igen.

Példa:

User-agent: Bingbot
Crawl-delay: 5

4. Oldaltérkép (Sitemap) hivatkozása

Mindig célszerű a robots.txt fájlban megadni az oldaltérkép (sitemap.xml) elérhetőségét. Ez segíti a keresőrobotokat abban, hogy gyorsabban és könnyebben megtalálják a weboldalad összes releváns tartalmát.

Példa:

Sitemap: https://www.pelda.hu/sitemap.xml

5. Fájlok típusonkénti kezelése

Néha előfordulhat, hogy bizonyos fájltípusokat (pl. képeket, PDF-eket) szeretnél kizárni a keresőkből. Ezt globális szabályokkal is megteheted:

Példa (minden .pdf fájl kizárása):

User-agent: *
Disallow: /*.pdf$

Ez a szabály minden olyan URL-t kizár, amely .pdf-re végződik.

6. Előnyök és hátrányok táblázata

Az alábbi táblázat összefoglalja a robots.txt használatának főbb előnyeit és hátrányait:

Előnyök	Hátrányok
Egyszerűen szabályozhatod a keresőrobotok hozzáférését	Nem nyújt valódi védelmet az érzékeny adatok ellen
Segít elkerülni a duplikált tartalom indexelését	Egyetlen hiba az egész oldal indexelését blokkolhatja
Csökkenti a szerverterhelést a felesleges robotlátogatások miatt	A keresőrobotok nem mindig “tartják be” az utasításokat
Támogatja az oldaltérkép elérhetőségének megadását	Nem garantálja, hogy az oldal nem kerül indexelésre (csak ajánlás!)
Bármikor könnyen szerkeszthető	A helytelen szintaxis miatt szabályok “kieshetnek” vagy hibázhatnak

10 GYIK (Gyakran Ismételt Kérdések) a robots.txt fájl beállításáról 🤖

Mi történik, ha nincs robots.txt fájlom?
- Semmi végzetes, a keresőrobotok alapértelmezetten feltérképezik a teljes weboldalad. De ha szeretnél irányítani, mindenképp készíts robots.txt-t!
Elrejthetem a privát adataimat robots.txt-tel?
- Nem! A robots.txt csak a keresőrobotokat irányítja, nem véd az illetéktelen hozzáféréstől! Használj szerveroldali védelmet is. 🔐
Mikor frissül a robots.txt változtatás a keresőkben?
- Általában 1-2 napon belül, de ez változhat a keresőrobotok látogatási gyakoriságától függően.
Beállíthatom, hogy csak bizonyos robotokat tiltsak ki?
- Igen! A “User-agent” sorral megadhatod, hogy mely robotokra vonatkozik a szabály.
Miért jelenik meg mégis egy letiltott oldal a keresőben?
- Ha más oldalról link mutat rá, előfordulhat, hogy csak az URL jelenik meg, tartalom nélkül. Használj “noindex” meta taget is! 🏷️
Hogyan tudom ellenőrizni a robots.txt fájlomat?
- Használj Google Search Console-t vagy külső online tesztelő eszközöket.
Kell külön robots.txt a www és a non-www verziókhoz?
- Nem, egy domainhez (akár www, akár non-www) egy robots.txt tartozik, de érdemes a domain átirányításokat is ellenőrizni.
Érdemes-e feltüntetni a sitemap elérhetőségét a robots.txt-ben?
- Igen, a keresőrobotok könnyebben megtalálják a webhelytérképedet, ha ott van.
Mi az a Crawl-delay, és mikor használjam?
- Meghatározza, hogy egy robot milyen gyakran kérdezze le a szervert. Használd, ha túlterhelik a robotok a weboldalad.
Lehet-e hibát javítani egy már indexelt oldalon?
- Igen, módosítsd a robots.txt-t, majd kérj újraindexelést például a Google Search Console-ban! 🔄

Összefoglalás

A robots.txt fájl helyes beállítása elengedhetetlen minden weboldal számára, amely szeretne jól teljesíteni a keresőkben és kontrollálni a tartalmai megjelenését. Legyél kezdő vagy haladó, mindig legyen naprakész a robots.txt fájlod, teszteld rendszeresen, és alkalmazd a cikkben bemutatott tippeket, hogy maximalizáld weboldalad SEO eredményeit!