KezdőlapBlog Az ismétlődő tartalmakról
Az ismétlődő – vagyis duplikált – tartalmakat sem a felhasználók, sem a keresőmotorok nem szeretik. Ha ugyanis a content egy része vagy egésze a webhely több oldalán is szerepel, az rontja a felhasználói élményt, ezért a webhely helyezését is a Google találati listákon.
 
A SEO őskorában egy-egy tartalom több ízben történő szerepeltetése előszeretettel használt trükk volt, hogy minél több kulcsszót és minél több szöveget lehessen minél kevesebb erőfeszítés árán elhelyezni a webhelyeken. Ez a potya lehetőség azonban nem tartott örökké, mert a Google olyan rendszert fejlesztett ki és vezetett be, amely képessé tette a keresőmotort a duplikált tartalmak megtalálására, és az ilyen anyagokat publikáló webhelyek szankcionálására: napjainkban, ha a keresőmotor egy site-ot rajtakap azon, hogy ismétlődő tartalmakat publikál, a webhely domain tekintélye, és az egyes kulcsszavakra elért helyezései nagy valószínűséggel romlani fognak.
 
Nemhogy érdemes tehát, hanem kimondottan kötelező törekedniük a webmestereknek és a webhelytulajdonosoknak arra, hogy a webhelyük mentes legyen a duplikált tartalmaktól: vagyis, ha egy site sikeres szeretne lenni – vagy az maradni – olyan contentet kell publikálnia, amely sem a webhelyen belül, sem az internet más oldalain nem szerepel. Nem babra megy a játék ugyanis.

Ezért a következőkben egyebek mellett megnézzük, hogy:
  • Mit is jelent az ismétlődő tartalom, és hogy mi a probléma vele;
  • Milyen típusai vannak;
  • Hogyan kapcsolódik egymáshoz az ismétlődő tartalom és a szindikált (szinkronizált) tartalom kérdése;
  • Milyen tartalomkészítő eszközök, eljárások vezethetnek duplikált tartalmak létrejöttéhez;
  • Hogyan lehet elkerülni és/vagy megtisztítani a webhelyeket az ismétlődő tartalmaktól.
 

Az ismétlődő tartalom meghatározása

 
Az esetek túlnyomó többségében a duplikált content nem rosszindulatú, hanem csak annak a tartalomkezelő rendszernek a mellékterméke, amelyen a webhely fut. Például, amikor a legismertebb CMS, a WordPress címkékkel lát el oldalakat, előfordulhat, hogy egy oldal több ilyen tag-et is kap, és amikor a kategória-oldalak alá kerülnek besorolásra a felcímkézett aloldalak, több kategória alatt is meg fognak jelenni. Ebben az esetben pedig máris előállt az ismétlődő tartalom esete.
Az előbbihez hasonlóan: ha egy oldal nem www-s változata nem megfelelően van átirányítva a www-s variánsra, tehát több URL alatt is megtalálható ugyanaz a tartalom, szintén a duplikált content esetéről beszélünk.
 
Ilyenkor a Google kétféleképpen „határozhat”:
  • A keresőmotor elengedi a „bűnöst” egy figyelmeztetéssel, és egyszerűen úgy dönt, hogy a 100 ismétlődő tartalmat közlő oldal közül 99-et nem indexel. Ebben az esetben a duplikált content jelenléte nem befolyásolja a webhely helyezését.
  • A másik esetben a keresőmotor szankcionálja a webhelyet, mert úgy „látja”, hogy a rendszer kijátszása céljából szerepel a site-on az ismétlődő tartalom. Ebben az esetben a Google eltávolítja a webhelyet az indexéből, így az nem fog megjelenni a keresési eredmények között. Akár az is előfordulhat, hogy ha egy felhasználó a „pelda.hu” webhelyre direkt módon keres rá, akkor sem fogja megtalálni.
 
Tehát a fenti két forgatókönyv közül az egyik biztosan bekövetkezik. A kérdés csak az, hogy melyik. Ez attól függ, hogy a Google mennyire súlyosnak ítéli meg a baklövést.
 
Ezügyben a keresőmotor a következőképp fogalmaz:
„A webhelyen található duplikált tartalom önmagában nem elég ok ahhoz, hogy az adott webhellyel szemben lépéseket foganatosítsunk, kivéve azt az esetet, amikor úgy tűnik, hogy a duplikátumokat szerepeltető site-ok célja a keresőmotor megtévesztése, és találati eredményeinek manipulálása. Ha a webhely ismétlődő tartalom okozta problémákkal küzd… kiválasztjuk a kanonikus oldalváltozatot, így az fog megjelenni a keresési eredmények között. Ez a fajta nem rosszindulatú duplikálás meglehetősen gyakori, legfőképp azért, mert sok CMS alapértelmezés szerint nem megfelelően kezeli a kérdést …”
 
A lényeg tehát az, hogy mivel a legtöbb keresőmotor változatosságra törekszik, vagyis tíz különböző találatot akarnak megjeleníteni a keresési listákon, nem pedig tíz különböző URL-t, amelyek mindegyike azonos tartalommal rendelkezik, a Google megpróbálja kiszűrni a duplikált tartalmakat, hogy a felhasználók lehetőleg minél kevesebb redundanciát tapasztaljanak, és ennek köszönhetően minél elégedettebbek legyenek.
 

Az ismétlődő tartalom felkutatása

 
A duplikált tartalom kijavítása viszonylag egyszerű feladat, a nehézség inkább ezek felkutatásában, megtalálásban van. Előfordulhat ugyanis az az eset, hogy felhasználói szempontból nézve nincs is ilyen content, a keresőmotor szempontjából nézve azonban nagyon is van.
Az ismétlődő tartalmak felkutatásának fapados, mégis hatékony módját az oldalak kézi átfésülése jelenti: vagyis érdemes végignézni a webhelyen szereplő tartalmakat, és a nyilvánvaló ismétlődéseket – például egy olyan záró bekezdést, amely minden oldalon megjelenik – átírni vagy kihúzni. A manuális vizsgálat elvégzése után két fő eszköz áll rendelkezésére, amelyek segítségével a rejtett ismétlődések is felkutathatók.
 
  • Google keresés a webhely oldalain belül végrehajtva
Jó módszert jelent az ismétlődő tartalmak kiszűrésére, ha a Google szemével nézünk rá a webhelyre. Ehhez nem kell mást tenni, mint a „site” és az „intitle” tagokat szerepeltetve rákeresni a kérdéses szövegrészletekre: az előbbi lehetővé teszi, hogy a lekérdezés a site-on belül történjen meg, utóbbi pedig, hogy annak a duplikátumgyanús kifejezésnek a keresése valósulhasson meg, amelyre kíváncsi az ember. Például: site: ezazoldal.com intitle: „kérdéses szövegrészlet a site-on”. Ezzel a típusú kereséssel minden olyan eredmény látható lesz a webhelyen, amely megfelel a választott kifejezésnek – ha több azonos eredményt mutat a Google, akkor a duplikált tartalom esete áll fent.
 
  • Ellenőrzés a Google Search Console-ban
Az ismétlődő tartalmak ellenőrzésének másik módját a Google Search Console kínálja. A funkció használatához nem kell mást tenni, mint kattintani a Search Appearance fülre, majd a HTML Improvements gombra klikkelni. Itt megtekinthető és letölthető az ismétlődő metaleírások és címcímkék listája; ezek gyakori és könnyen javítható problémák, amelyek rendbe tétele csak kis időt igényel.
Annak megállapításához, hogy a duplikált tartalom rontani fogja-e a webhely rangsorát, az embernek magába kell néznie, és be kell vallania, miért tesz közzé ilyen anyagokat – ugyanis a Google általi szankciók be- vagy nem bekövetkezte a dolog céljától függ. Ha a cél az, hogy máshol közzétett tartalom újbóli felhasználásával szeretne az ember eredményeket elérni, akkor a büntetés borítékolható, hisz a szándék és cél – a keresési eredmények manipulálása – egyértelműen megtévesztő. Az ilyen helytelen viselkedéssel kapcsolatban a Google a következőképpen fogalmaz: „A site-on található ismétlődő tartalom csak akkor ad okot a webhellyel szembeni lépések megtételére, ha úgy tűnik, a duplikált tartalom célja a keresőmotor találatainak manipulálása.”
 
  • A Copyscape és a hasonló célú szoftverek használata
A Copyscape tulajdonképpen egy plágiumellenőrző alkalmazás, mely nem tesz mást, mint átkutatja a netet, hogy kiderítse, az éppen közzétett tartalom másolat-e. Az eszköznek van fizetős és ingyenesen használható változata: előbbi keresésenként 5 dollárcentért fésüli át a netet, azonban ha a költségvetés nem teszi lehetővé az ilyen jellegű kiadásokat, az ingyenes változat is elvégzi a feladatot, bár ennek használatához először közzé kell tenni a tartalmat, és csak utána végezhető el az ellenőrzés. A Copyscape egy megbízható eszköz, amelyet sok kiadó használ a szövegek eredetiségének ellenőrzéséhez, bár nem ez az egyetlen ilyen alkalmazás: a Plagiarism Detect és az InterNIC is megfelel a célnak.
 

Egy szó, mint száz: az ismétlődő tartalom ellenőrzése nem túl bonyolult feladat: a megfelelő eszközkészlettel és ismeretekkel felvértezve kényelmesen megbizonyosodhat az ember arról, hogy tartalmai egyediek-e.
 

Az ismétlődő tartalomaktól való megszabadulás módjai

 
Ha sikerült azonosítani a webhelyen a duplikátumokat, nincs más hátra, mint megszabadulni tőlük. Minél hamarabb megvalósulnak ezek a korrekciós intézkedéseket, annál hamarabb fog a site felépülni az esetleges negatív szankciók okozta következményekből. A legjobb módszereket a következő megoldások jelentik:
 
  • Az ismétlődő tartalmak átírása
Az első és legegyszerűbb módszert a duplikátumok átírása, más szavak használatával történő átfogalmazása jelenti, bár ha sok ismétlődés van, készülni kell rá, hogy a művelet időigényes is lehet.

 
  • Kötelező sablonszövegek egy oldalra történő elhelyezése
Előfordulhat, hogy az ismétlődést olyan sablon szövegrészletek okozzák, amelyek szerepeltetése kötelező minden oldalon (például szerzői jogi passzusok, felhasználói feltételek stb.). Ebben az esetben érdemes a szóban forgó részletet egy önálló oldalon elhelyezni, és ott, ahol szerepelniük kellene a szövegeknek, egy linket elhelyezni, amely a kötelező passzusokat tartalmazó lapra mutat.
 
  • Az elkerülhetetlenül ismétlődő tartalmú oldalak átszabása
Vannak esetek, amikor nagyon hasonló vagy teljesen ismétlődő tartalmakat, azonos információkat tartalmazó oldalakat kell közzétenni (pl. külön SEO kisvállalatok, külön SEO nagyvállalatok számára). Ebben az esetben érdemes a szolgáltatások leírását specifikus módon megfogalmazni.
 
  • Noindex címke használata
Előfordulhat, hogy a webhelyen publikált tartalmat más oldalak egy az egyben lemásolják és közzéteszik, vagyis szindikálják (szinkronizált módon publikálják) a szövegeket (mint ahogy például azt egyes hírgyűjtő site-ok teszik). Ebben az esetben érdemes a tartalom alatt feltüntetni egy megjegyzést, amely az ilyen „felhasználókat” arra kéri, hogy helyezzenek el noindex címkét a szindikált tartalmat közlő oldal meta elemei között, így a duplikált contentet közlő oldalt nem indexeli majd a Google.
 
  • 301-es átirányítások elhelyezése
A 301-es átirányítások elhelyezésével a Google webrobotok tudtára adható, hogy egy oldal véglegesen elköltözött. Ez a megoldás ugyanakkor arra is figyelmezteti a keresőmotort, hogy távolítsa el a régi URL-t az indexéből, és cserélje ki az új címre.
 
  • Egyedi tartalom készítése és publikálása
Értelemszerűen törekedni kell az egyedi tartalom létrehozására. Tehát bár a kész tartalmak – pl. gyári termékleírások – közlése kényelmes, SEO szempontból azonban biztosan nem kifizetődő megoldást jelent.
 
Hogyan szankcionálja a Google az ismétlődő tartalmakat közlő webhelyeket?
 
A Google elég egyértelműen fogalmaz a duplikátumokkal kapcsolatos irányelveiről, és nem titok, ha ezeket a direktívákat a webhelyek nem tartják be, szankciókra számíthatnak. Azonban különbséget kell tenni ártalmatlan és rosszindulatú ismétlődő tartalmak között – előbbiek esetében a Google elnéző, utóbbiak esetében könyörtelen.
Ha a Google ártalmatlannak ítéli az ismétlődést, mert pl. ugyanannak a weboldalnak két különböző verziójával találkozik, vagy olyan contenttel, amely érezhetően hasonlít az internet más szegleteiben fellelhető tartalmakhoz, akkor a különböző verziók közül kiválaszt egyet – ez lesz a kanonikus változat –, amelyet indexel. Ha az ismétlődő tartalmakat közlő webhely webmestere ezt a kanonizációs döntést nem szeretné a Google-re bízni, a rel=“canonical” címke elhelyezésével tájékoztathatja a keresőmotort, hogy melyik oldal legyen a preferált, indexelt változat.
 
A Google példája szerint:
„Ha egy weboldalnak van egy szabványos és egy nyomtatóbarát változata, azonos tartalommal, akkor a Google véletlenszerűen választja ki a kettő közül az egyik oldalt az indexeléshez, és teljesen figyelmen kívül hagyja a másik verziót.” Tehát bár a rel=”canonical” címke használata önmagában nem szavatolja, hogy a site nem fog esetleg büntetésben részesülni, mégis a site elemi érdeke, hogy a Google megfelelően indexelje az oldalait
Tehát, ha egy domainen belül több URL alatt szerepel ugyanaz a tartalom – és ezek az URL-ek nem ezerszám tenyésznek – nincs különösebb ok az aggodalomra. Az egyik URL indexelve lesz, mint az adott URL-klaszter „képviselője”. Amikor a felhasználók keresési lekérdezéseket hajtanak végre, és a szóban forgó tartalom releváns lesz a Google szerint számukra, akkor a kanonizált URL megjelenik a találatok között, a fürt többi URL-je pedig nem. Ilyen egyszerű a dolog.
 
Az igazi gond akkor kezdődik, amikor Google azt gyanítja, hogy a duplikálódás mögött rosszindulatú vagy manipulatív szándék áll. Vagyis, ha a keresőmotor úgy gondolja, hogy az ismétlődő tartalom létrejöttének oka a rangsorolási algoritmus megtévesztése, akkor hiába szerepel a rel=”canonical” tag a preferált oldal metacímkéi között, a webhelynek szankciókkal kell számolnia. Ezeket a hibákat ezért minél hamarabb ki kell javítani – vagyis eltüntetni a duplikátumokat –, ha a site szeretné megelőzni a büntetést, vagy ha a szankcionálás már megtörtént, minél hamarabb felépülni belőle.
 
A manipulatív szándék feltételezésére okot adó gyakorlatok között említhető például az, amikor egy site:
  • A régi tartalmait reprodukálja, és annyit tesz, hogy az elavult contentet egy-két aktuális információval felüti, de az idejét múlt anyagot tartalmazó oldalt nem törli.
  • Az anyagait új oldalakra másolja be, hogy további lapokkal szaporítsa magát.
  • Egyszerűen plagizál, vagyis más anyagát a sajátjaként adja el.
 
A jó szándékú, véletlenül becsúszó duplikált tartalom példái a következők
  • Ha webhelynek két verziója van a https:// és a https:// számára, és a Google mindkét verziót külön indexeli, majd ezeket az oldalakat ismétlődő tartalomként jelöli meg.
  • Ha egy weboldal rendelkezik „nyomtatóbarát” változattal, mely különálló URL-ként jelenik meg, és ugyanazt a contentet tartalmazza, mint a szabványos változat.

Speciális eset az, amikor egy webhely négy verzióban (https://peldadomain.com, https://www.peldadomain.com, http://peldadomain.com, http://www.peldadomain.com) létezik, mely változatokat különálló webhelyként kezel(het)nek a keresőmotorok. Ebben az esetben egy verziót kell megjelölni, mint elsődleges site-ot, és az összes többi verziót erre az elsődleges site-ra kell átirányítani. Igen ám, de ha a Google a webhelynek már több verzióját is indexelte, az hatással lehet a site rangsorolására. Vagyis, ha a linkek a http://peldadomain.com ra mutatnak, akkor csak ez a verzió fogja megkapni a linkértéket, így, ha az elsődleges webhely amúgy a https://www.peldadomain.com, akkor az ezen domain alatt lévő oldalak rangsorolásának javításához ráadás linkek szükségesek.
 

Szindikálás, szinkronizálás: duplikált tartalmak közlése domainek között

 
Gyakran előfordul, hogy egy tartalom szóról-szóra megegyező módon jelenik meg különböző URL-ek alatt, különböző domaineken. Ilyen anyagok lehetnek például a:
  • Hírcikkek (gondoljunk a különböző megyei lapokban változtatás nélkül leközölt anyagokra);
  • Sajtóközlemények, amelyek egyszerre, szóról-szóra megegyező módon jelennek meg a különböző netes felületeken;
  • Gyártók által közzétett termékleírások, melyek a kereskedők oldalain változtatás nélkül kerülnek publikálásra;
 
Mindezek a példák a tartalom szinkronizált (szindikált) módon történő terjesztését illusztrálják, ugyanis a világháló tele van ilyen anyagokkal: egy mezei sajtóközlemény is ismétlődő tartalmat hozhat létre, akár több ezer egyedi domainen.  Azonban, ahogy arról már volt szó, a Google arra törekszik, hogy minőségi felhasználói élményt nyújtson a usereknek, és ha ugyanazokat a tartalomelemeket tartalmazó eredményoldalakat jelenít meg, az senkit sem tesz boldoggá. Tehát mit kell tennie ebben az esetben egy keresőmotornak? Valahogy el kell döntenie, hogy melyik az az oldal, amelyikkel találkozva a leginkább elégedettek a felhasználók.
 
A Google ezzel kapcsolatban a következőképp fogalmaz:
„Amikor ismétlődő tartalommal találkozunk a különböző webhelyeken, különféle jeleket vizsgálunk annak meghatározására, hogy melyik site az eredeti közlő, amely eljárás általában nagyon jól működik. Ez azt is jelenti, hogy nem kell aggódnia annak, aki azt veszi észre, hogy a webhelyén lévő tartalmát egy másik site változtatás nélkül leközli (lekaparja).”
 
Nos, a helyzet az, hogy bármit is állít a Google, valójában nem szuperál a keresőmotor túl jól annak eldöntésében, hogy melyik oldal volt a tartalom eredeti leközlője – gyakran esik ugyanis abba a hibába, hogy nem a contentet elsőként publikáló site-ot jelöli meg eredeti forrásként. Ennek oka, hogy a keresőmotor a döntése során a DA-érték nagyságából indul ki. Ha a másodközlő oldal nem helyez el hivatkozást, vagyis az anyagot eredetileg publikáló honlapra mutató linket a felületén, akkor a Google mindig a „fiatalabb”, vagy alacsonyabb DA-értékkel rendelkező honlapot fogja megjelölni másodközlőnek, még akkor is, ha valójában ez a honlap volt az eredeti forrás. (A Google ugye duplikátumok esetekor mindig azt a verziót jeleníti meg, amely szerinte a legmegfelelőbb a felhasználók számára az egyes kereséseknél, márpedig a magas DA-érték vagy az „öregkorú”, régebbi domain a keresőmotor szemében a minőségre utal).
 
Vagyis érdemes törekedni arra, hogy minden olyan webhely, amely újra leközöl bizonyos tartalmakat, helyezzen el egy az eredeti cikkre mutató hivatkozást a felületén. Az is jó megoldás lehet, ha a másodpublikáló honlapot sikerül rávenni arra, hogy használja a noindex metacímkét, ezáltal megakadályozva a Google-t a másolt változat indexelésében.

 

Összefoglalás

 
A „duplikált tartalom” utalhat plagizált anyagokra, webhelyfrissítés céljából összemásolt tartalomra, de ami még fontosabb az átlagos felhasználó számára, olyan oldalakra, amelyeket a Google kétszer indexel. Ezek az ismétlődő tartalomtalálatok könnyen nyomon követhetők a Google Search Console segítségével, és kijavíthatók a kanonizálási megoldások vagy átirányítások használatával. Mindenesetre, ha a duplikált tartalom okozta problémák nem kerülnek kijavításra, az valószínűleg rontja a site helyezéseit (ha rosszindulatú duplikátumokat észlel a Google, akkor biztosan). Érdemes tehát a kérdéshez proaktív módon hozzáállni, vagyis legalább néhány havonta átnézni a site-ot és kiegyelni az ismétlődéseket, ugyanis valószínűleg akkor jelenik meg ismétlődő tartalom, amikor a legkevésbé számít rá az ember. Ha szeretne további segítséget kapni a témában, vegye fel bátran a kapcsolatot a cégünkkel.
 
Vissza a cikkekhez