Haladó robots.txt beállítások és esettanulmányok

Keresőoptimalizálás -SEO Keresőoptimalizálás -SEO

Haladó robots.txt beállítások és esettanulmányok

A robots.txt fájl a modern keresőoptimalizálás (SEO) egyik alappillére, amelynek helyes használata rendkívül sokat számít egy weboldal láthatóságában. Az interneten böngésző robotok, vagyis keresőmotorok (Google, Bing, Yandex stb.) elsőként ezt a fájlt keresik fel, mielőtt feltérképeznék a weboldal tartalmát. Míg az alapbeállításokkal sokan tisztában vannak, a haladó szintű szabályok és stratégiák már kevésbé ismertek, pedig ezekkel jelentős versenyelőnyre tehetünk szert. Ez a cikk bemutatja a haladó robots.txt taktikákat, hibákat és azok javítását, valamint konkrét példákon keresztül segít megérteni, hogyan alkalmazhatjuk ezeket a mindennapi gyakorlatban.

Ebben a cikkben megtudhatod, hogy a robots.txt miként segítheti a keresőmotorok megfelelő irányítását honlapodon, és hogyan hat a weboldal indexálására és rangsorolására. Részletesen kitérünk arra, hogy milyen gyakori hibák fordulnak elő, amikor valaki haladó módon próbálja konfigurálni a robots.txt fájlt, és pontosan hogyan lehet ezeket a hibákat kijavítani. Megmutatjuk, hogyan készíthetsz egyedi User-agent szabályokat, amelyek lehetővé teszik, hogy különböző keresőrobotok más-más utasításokat kapjanak. Arról is szó lesz, hogyan kezelhetők a dinamikusan generált tartalmak, amelyek külön kihívást jelentenek a keresőrobotok számára.

A cikk későbbi részében valós esettanulmányokat is bemutatunk, melyekből láthatod, hogy a haladó robots.txt beállítások miként járulnak hozzá konkrét weboldalak sikeréhez. Az elmélet mellett tehát gyakorlati útmutatót is kapsz, hogy saját weboldaladon is alkalmazhasd a tanultakat. Ahogy egyre több tartalom és aloldal keletkezik egy weboldalon, úgy válik egyre fontosabbá a keresőrobotok hatékony irányítása, amelyhez a robots.txt fájl a legjobb barátod lehet.

A robots.txt helytelen használata akár teljes weboldalak eltűnésével is járhat a keresési találatokból, ezért érdemes kiemelt figyelmet fordítani a beállításokra. A cikk végén egy átfogó GYIK (gyakran ismételt kérdések) szekciót is találsz, ahol a legfontosabb kérdésekre kapsz gyors választ. Ha szeretnéd, hogy weboldalad ne csak elérhető, hanem kereshető is legyen a neten, akkor a következő bekezdések neked szólnak! Győződj meg róla, hogy a robots.txt fájlod nemcsak létezik, de a lehető legjobban is teljesít! Merüljünk hát el együtt a haladó robots.txt beállítások világában, hogy weboldalad láthatósága mindig a maximumon legyen.

A robots.txt fájl szerepe a keresőoptimalizálásban

A robots.txt fájl elsődleges szerepe, hogy útmutatást adjon a weboldaladhoz érkező robotok, vagyis crawler-ek számára. Ezek a programok automatikusan bejárják a weboldalad oldalait, és indexelik a tartalmat a keresőmotorok adatbázisába. A robots.txt egy szöveges fájl, amely a weboldalad gyökérkönyvtárában (például: https://pelda.hu/robots.txt) található. Működése rendkívül egyszerű, de hatása annál nagyobb: meghatározhatod, mely aloldalak, könyvtárak vagy fájltípusok legyenek indexelhetők, és melyek ne.

A keresőoptimalizálásban a robots.txt legnagyobb előnye, hogy szabályozhatod a keresőrobotok mozgását. Például kizárhatod a duplikált tartalmakat, privát aloldalakat vagy adminisztrációs felületeket az indexelésből. Ezzel elkerülheted, hogy felesleges vagy érzékeny tartalmak jelenjenek meg a keresési találatokban. Egy jól beállított robots.txt segítségével a keresőmotorok erőforrásait is optimalizálhatod: ha csak a leglényegesebb oldalakat engeded indexelni, gyorsabban és hatékonyabban térképezik fel az oldaladat. Ez különösen fontos nagy webáruházak vagy portálok esetén, ahol több tízezer oldal is lehet.

Fontos megjegyezni, hogy a robots.txt NEM egy biztonsági eszköz. Csak utasításokat ad a keresőmotoroknak, de nem akadályozza meg, hogy valaki például böngészőből közvetlenül elérje a tiltott oldalakat. Emellett nem minden keresőrobot tartja be a robots.txt utasításait – a jó hírű keresők (Google, Bing, Yahoo) igen, de vannak, amelyek figyelmen kívül hagyják. Épp ezért nem szabad érzékeny adatokat pusztán robots.txt-vel elzárni.

A leggyakoribb robots.txt direktívák közé tartozik a User-agent, amely meghatározza, hogy melyik keresőrobotra vonatkoznak a szabályok; a Disallow, amely megtiltja egy útvonal indexelését; és az Allow, amely engedélyezi egy adott útvonal indexelését, még akkor is, ha egy magasabb szintű tiltás van érvényben. Fontos még a Sitemap direktíva is, amellyel a keresőrobotok számára megadhatod a weboldalad XML oldaltérképének (sitemap) elérhetőségét. Így biztosíthatod, hogy a legfontosabb oldalaidat biztosan felfedezik és indexelik a keresők.

Gyakori hibák és azok javítása haladó szinten

A robots.txt fájl beállítása során számos hiba csúszhat a rendszerbe – ezek egy része rövid távon is komoly következményekkel járhat. Az egyik leggyakoribb hiba, hogy a weboldal tulajdonosa vagy fejlesztője véletlenül letiltja az egész weboldalt a keresőrobotok elől. Például a következő sor:

User-agent: *
Disallow: /

Ezzel a beállítással minden keresőrobot számára megtiltjuk, hogy bármilyen oldalt feltérképezzen. Ez hasznos lehet fejlesztési időszakban, de ha a publikálás után elfelejtik eltávolítani, a weboldal teljesen eltűnhet a keresési találatokból.

Egy másik gyakori hiba a túlzott tiltás, amikor a robots.txt-ben túl sok mappát vagy fájlt zárnak ki az indexelésből. Például:

User-agent: *
Disallow: /images/
Disallow: /css/
Disallow: /js/
Disallow: /admin/

A fenti példa alapján a keresőrobotok nem tudják indexelni az oldal képeit, ami jelentős hátrányt jelenthet a Google Képkeresőben való megjelenés szempontjából. A CSS és JS fájlok tiltása szintén problémás: a Google egyre nagyobb hangsúlyt fektet a weboldalak renderelésének helyességére és sebességére. Ha a keresőrobot nem fér hozzá ezekhez az erőforrásokhoz, akkor hibásan ítélheti meg az oldal kinézetét vagy működését, ami rontja a SEO eredményeket.

Haladó szinten gyakori, hogy dinamikusan generált URL-eket szeretnénk kizárni az indexelésből (pl. keresési találatok, filterezett oldalak). Ezek általában valamilyen paraméterrel ellátott URL-ek, például: /termekek?szin=piros&meret=42. Ilyenkor a robots.txt-ben a Disallow: direktívát használhatjuk mintákkal vagy a * karakterrel:

User-agent: *
Disallow: /*?szin=
Disallow: /*?rendez=

Ezzel az összes olyan URL-t kizárjuk, amely tartalmazza ezeket a paramétereket. Fontos azonban tudni, hogy a robots.txt NEM támogatja a szabályos kifejezéseket (reguláris expression), ezért csak egyszerű mintákat lehet használni.

A hibák elkerülése érdekében érdemes rendszeresen ellenőrizni a robots.txt fájlt, például a Google Search Console robots.txt tesztelő eszközével. Itt azonnal láthatod, hogy a beállítások megfelelőek-e, és hogy a Googlebot hozzáfér-e a legfontosabb oldaladhoz. Egy apró elgépelés vagy logikai hiba akár hónapokra kizárhatja a weboldalad a kereső találati listáiból, ezért érdemes nagy körültekintéssel eljárni.

Gyakori hibák és azok következményei (Táblázat):

Hiba típusaKövetkezményMegoldás
Teljes oldal tiltásaOldal eltűnik a keresőbőlDisallow: / eltávolítása, tesztelés
Szükséges erőforrások tiltásaHibás megjelenés, mobil indexelési problémákCSS, JS Allow direktíva hozzáadása
Dinamikus paraméterek indexeléseDuplikált tartalom, káosz az indexbenParaméterek kizárása a robots.txt-ben
Hibás User-agent használatEgyes keresők mást látnak, mint szeretnénkPontos User-agent beállítás
Hibás Sitemap elérési útOldaltérkép nem kerül be az indexelésbeHelyes Sitemap útvonal megadása

Egyedi User-agent szabályok létrehozása

A robots.txt valódi ereje a User-agent szabályokban rejlik, amelyek lehetővé teszik, hogy különböző keresőrobotok más-más utasításokat kapjanak. Ez különösen hasznos, ha például csak a Googlebotnak szeretnénk engedélyezni bizonyos tartalmak indexelését, vagy épp ellenkezőleg, más keresőrobotokat akarunk kizárni. A User-agent szintaxis lényege, hogy egy szabályblokk minden sora csak az adott robotra vonatkozik.

Példa:

User-agent: Googlebot
Disallow: /privat/
Allow: /privat/fontos-hir.html

User-agent: Bingbot
Disallow: /

User-agent: *
Disallow: /admin/

Ebben a példában a Googlebot indexelheti a /privat/fontos-hir.html oldalt, de a többi keresőrobot nem. A Bingbot számára az egész weboldal tiltva van, míg minden más robot csak az /admin/ könyvtárat nem láthatja. Ez a fajta rugalmasság lehetővé teszi, hogy finoman szabályozd, mely oldalak legyenek láthatóak mely keresőmotorok számára.

Haladó szinten előfordulhat, hogy bizonyos robotokat teljesen ki akarsz zárni (pl. agresszív, nem kívánt robotokat, scraping botokat). Ilyenkor megadhatod a bot nevét:

User-agent: AhrefsBot
Disallow: /

Fontos tudni, hogy a User-agent értéke NEM kis- és nagybetű érzékeny. A leggyakoribb robotok neveit megtalálod a dokumentációjukban, de a legfontosabbak: Googlebot, Bingbot, Yandex, Slurp (Yahoo), DuckDuckBot, stb.

Egy másik haladó alkalmazás a Crawl-delay direktíva, amely egyes keresőrobotoknál elérhető (főleg Bing, Yandex). Ezzel szabályozhatod, hogy hány másodpercet várjon a robot két lekérés között:

User-agent: Bingbot
Crawl-delay: 10

Ezzel a Bingbot minden lekérés között 10 másodpercet vár, kímélve a szerveredet. Fontos azonban, hogy a Googlebot ezt a direktívát nem támogatja!

User-agent szabályok előnyei és hátrányai (Táblázat)

ElőnyökHátrányok
Precíz irányítás robotok szintjénHibás beállítás esetén fontos tartalmak kieshetnek
Felesleges indexelés és forgalom elkerüléseNem minden robot tartja be a szabályokat
Szerver terhelés csökkentéseFolyamatos karbantartást igényel
Versenytárs botok kizárásaEgyes robotokat nehéz azonosítani

Dinamikus tartalmak kezelése robots.txt segítségével

A modern weboldalak jelentős része dinamikusan generált tartalommal dolgozik. Ezek lehetnek terméklisták, szűrők, keresési találatok, vagy akár egyedi kampány aloldalak. Ezek indexelése gyakran duplikációhoz, illetve az indexelési kapacitás felesleges elhasználásához vezethet. A robots.txt fájl haladó használatával hatékonyan szabályozhatod, hogy ezek a dinamikus URL-ek ne jelenjenek meg a keresőmotorok találati listáján.

Példaként vegyünk egy webáruházat, ahol a termékeket szín, méret vagy ár alapján lehet szűrni. A filterezett oldalak URL-jei általában így néznek ki: /termekek?szin=piros&meret=42. Ezek indexelése fölösleges, hiszen tartalmuk nagyon hasonló az alap terméklistához. A robots.txt-ben ilyen esetekre használható a * karakter, amely tetszőleges karakterláncot helyettesít:

User-agent: *
Disallow: /*?szin=
Disallow: /*?meret=
Disallow: /*?ar=

A fenti minta kizárja az összes szűrő-paraméterrel ellátott URL-t az indexelésből. Ezáltal csak a fő termékoldalak maradnak láthatóak a keresőkben, javítva a SEO eredményeket és csökkentve a duplikáció veszélyét.

Egy másik gyakori kihívás a keresési találatok, lapozott tartalmak vagy végtelen scroll-al működő dinamikus oldalak kezelése. Ezeknél az URL-eknél általában jellemző valamilyen query paraméter, mint például ?q=, ?page=, ?offset=. Ezeket is érdemes kizárni:

User-agent: *
Disallow: /*?q=
Disallow: /*?page=
Disallow: /*?offset=

Fontos, hogy a Google Search Console-ban érdemes leellenőrizni, hogy a kizárt URL-ek valóban nem szerepelnek az indexben, és a fontos oldalak nem lettek véletlenül kizárva.

Haladó szinten érdemes figyelni arra is, hogy a robots.txt NEM tud minden dinamikus tartalmat teljesen kizárni, például ha az URL nem tartalmaz egyértelmű mintát. Ilyenkor érdemes a canonical tag-et is használni az oldalon belül, amely a keresőrobotnak megmutatja, mely URL-t tekintse fő változatnak. A robots.txt kizárás és a canonical tag együttesen nyújt teljes védelmet a duplikált tartalom ellen.

Végül, érdemes figyelembe venni, hogy a robots.txt túlzott használata “crawl trap”-et idézhet elő, vagyis ha túl sok URL-t tiltunk ki vagy túl szigorúak a szabályok, a keresőrobotok elvesznek a tiltásokban és a fontos oldalak is kimaradhatnak az indexből. Ezért érdemes rendszeresen monitorozni az indexelési statisztikákat és finomítani a szabályokat.

Valós esettanulmányok: sikeres beállítások bemutatása

A haladó robots.txt beállítások igazi hatását a gyakorlatban lehet igazán lemérni. Az alábbiakban néhány magyarországi weboldal (anonimizált) példáját mutatjuk be, ahol a robots.txt okos használata jelentős eredményeket hozott a keresőoptimalizálás terén.

1. Esettanulmány: Nagy webáruház termék szűrőinek kizárása

Egy magyarországi webáruház 150 000+ termékkel szembesült azzal, hogy a Google indexében több százezer, filterezett URL jelent meg – például /termekek?ar=10000-20000&szin=piros. Ezek között voltak oldalak, amelyek lényegében azonos termékeket tartalmaztak, csak más szűrőparaméterrel. Ennek eredményeképp a keresőrobotok indexelési kapacitása feleslegesen pazarolódott el, a fő termékoldalak pedig hátrasorolódtak.

Megoldás: A robots.txt-ben kizárták a filterező paramétereket:

User-agent: *
Disallow: /*?ar=
Disallow: /*?szin=
Disallow: /*?marka=

Eredmény: 3 hónap alatt az indexelt oldalak száma 65%-kal csökkent, a fő termékoldalak forgalma 18%-kal emelkedett, és a Googlebot indexelési kapacitása hatékonyabban hasznosult.

2. Esettanulmány: Képek indexelésének engedélyezése

Egy design portál kezdetben az összes /images/ mappát kizárta a robots.txt-ben, így a Google Képkeresőből minimális forgalmat kapott. Egy SEO audit során kiderült, hogy a képek indexelésének engedélyezése nagyban növelhetné a látogatottságot.

Megoldás: Az /images/ mappa tiltását eltávolították, sőt, az összes fontos képhez alt attribútumokat is adtak.

# régi:
Disallow: /images/
# új:
# nem tiltják már a képeket

Eredmény: 6 hónap alatt a Google Képkeresőből érkező forgalom több mint háromszorosára nőtt, az oldal látogatottsága pedig 25%-kal emelkedett.

3. Esettanulmány: Adminisztrációs felületek és belső keresés kizárása

Egy nagy magyar közösségi oldalnál gyakran kerültek indexelésre az /admin/ és /search/ útvonalak, amelyek belső keresési eredményeket, illetve admin felületeket tartalmaztak. Ezek nem relevánsak a felhasználók számára, ráadásul érzékeny információkat is tartalmazhattak.

Megoldás: A robots.txt-ben célzott Disallow szabályokat alkalmaztak:

User-agent: *
Disallow: /admin/
Disallow: /search/

Eredmény: Az irreleváns találatok eltűntek a Google-ból, a felhasználói élmény javult, és az oldal biztonsága is nőtt.

4. Esettanulmány: Egyedi User-agent szabály alkalmazása

Egy magyar ár-összehasonlító oldalon kifejezetten csak a Googlebot számára szerettek volna különleges tartalmakat megmutatni (pl. egyedi promóciós aloldalakat), miközben más botokat ki akartak zárni.

Megoldás: User-agent szintű Allow és Disallow szabályokat hoztak létre:

User-agent: Googlebot
Allow: /promocio/

User-agent: *
Disallow: /promocio/

Eredmény: A promóciós oldalak kizárólag a Google keresőben jelentek meg, a konkurens scraping botok nem tudták indexelni ezeket.

5. Esettanulmány: Sitemap integráció a robots.txt-ben

Egy magyarországi híroldalnál a keresőrobotok nem találták meg a teljes tartalmat, mert nem volt sitemap linkelve. A robots.txt-be bekerült a sitemap elérhetősége:

Sitemap: https://pelda.hu/sitemap.xml

Eredmény: Egy hónapon belül az indexelt oldalak száma 40%-kal nőtt, új híroldalak jelentek meg a keresőben, a látogatottság 15%-kal emelkedett.

GYIK – 10 gyakori kérdés a haladó robots.txt beállításokról 🤖


  1. Mi a robots.txt fájl pontos szerepe?
    A robots.txt egy szöveges fájl, amely útmutatást ad a keresőrobotoknak arról, mely oldalakat indexelhetnek és melyeket nem.



  2. Kizárhatom vele a bizalmas oldalakat a nyilvánosságból?
    Nem! A robots.txt nem biztonsági eszköz, csak a keresőrobotoknak szóló instrukció. Érzékeny adatokat mindig jelszóval védj!



  3. Hogyan ellenőrizhetem, hogy jól működik a robots.txt?
    Használd a Google Search Console robots.txt tesztelőjét vagy a Bing Webmaster eszközt. Ezek megmutatják, hogy a robotok mit látnak.



  4. Minden keresőrobot követi a robots.txt utasításokat?
    Nem. A nagy keresők (Google, Bing, Yahoo) igen, de sok kisebb vagy rosszindulatú bot figyelmen kívül hagyja.



  5. Használhatok szabályos kifejezéseket (regex) a robots.txt-ben?
    Nem, csak egyszerű mintákat, illetve a * és $ karaktereket használhatod.



  6. Mi a különbség a Disallow és az Allow között?
    A Disallow megtiltja egy útvonal indexelését, az Allow kifejezetten engedélyezi, akkor is, ha egy magasabb szintű tiltás él.



  7. Mit tegyek, ha túl sok oldalam van indexelve a keresőben?
    Ellenőrizd a robots.txt fájlt, és zárd ki a nem releváns, duplikált vagy dinamikus URL-eket.



  8. Hogyan zárhatok ki bizonyos botokat az oldalról?
    User-agent szintű szabályokat használj, például: User-agent: AhrefsBot Disallow: /



  9. Kell-e sitemap-et megadni a robots.txt-ben?
    Igen, ajánlott! A Sitemap direktíva segít, hogy a keresőrobotok minden fontos oldalt megtaláljanak.



  10. Mi a legnagyobb hiba robots.txt beállításnál?
    A teljes oldal véletlen kizárása (Disallow: /), ami elveszi a keresőből az összes tartalmat. Mindig ellenőrizd a beállításaidat! 🚨



Reméljük, hogy ez az útmutató hasznosnak bizonyult mind a kezdők, mind a haladó webfejlesztők és SEO szakemberek számára! A robots.txt helyes használatával jelentősen javítható egy weboldal keresőben való jelenléte – tesztelj, optimalizálj, és hozd ki a maximumot weboldaladból! 🚀