Feltörték a Yandex-et?

Bár a Yandex tagadja a törést, mégis egy hacker fórumon jelent meg 47,1 GB-nyi adat a vállalat kódjával, 266 millióra becsült c++ program sorral.

Yandex hack

Az archívum a Gitről származik, 79 szolgáltatás és projekt forráskódjával, köztük a keresőmotor (frontend és backend), az oldalindexelő bot, a webanalitikai platform (Yandex Metrika), a térképrendszer (Yandex Maps), a hangasszisztens Alice, a helpdesk információs rendszer, a Phone, a Yandex Direct hirdetési platform, az email szolgáltatás, a Yandex Disk tároló- és tartalomszolgáltató hálózat, a Yandex Market kereskedelmi platform, a Yandex360 üzleti szolgáltatások, a Yandex Cloud felhőplatform, a Yandex Pay fizetési rendszer, a Yandex Search, a Yandex Taxi, a Yandex Travel, a Yandex 360 és a Salomon diagnosztika belső rendszere.

Röviden, (ha jól sejtem) most áll a bál náluk is és a Google-nél is.

Miért érdekes a Yandex feltörése SEO szempontból?

A Yandex a második legnagyobb keresőmotor Oroszországban. A keresési találatok kb 70%-ban hasonlítanak a Google találati listájára. Ez azért sem meglepő, mert ex-Google alkalmazottak is részt vesznek a fejlesztésében.

Hány SEO keresési faktor látott napvilágot?

Ez az elmúlt évek talán legnagyobb SEO híre, hiszen 1923 faktort találtak a kódban. Ebből kb 1000 “elavult” jelzőt kapott, míg 200 “használaton kívül”-t. Így maradt 7xx faktor és egyéb jelző, pl. “ez egy shop”, “ez egy blog” vagy “ez egy Ukrán oldal”.

A Yandex (és a Google) motorja előnyben részesíti azokat a weboldalakat, amelyek:

  • Nem túl régiek (vagy nem túl régen lettek frissítve).
  • Több közvetlen (direkt) forgalmat (egyedi látogatókat) és kevesebb keresés által nyert forgalmat bonyolítanak.
  • Kevesebb számot és kötőjelet tartalmaznak az URL-címükben.
  • Kevés a PageRank 0-áról jövő link és aloldal.
  • Megbízható szervereken vannak elhelyezve, azaz kevés a szerverhiba és kevés spammer használja az adott szervert.
  • A Wikipédiáról vannak linkelve.
  • Kevesebb kattintásból érjük el az adott oldalt. Ha linkelnek ránk, akkor az a link is erősebb, ami nem egy eldugott kis 20-ik aloldalról elérhető zugban leledzik.
  • Kulcsszavak szerepelnek az URL címükben (legfeljebb három).
  • Ha egy link megélt 3 évet, akkor az erősebb. (Sok spam linképítő törli a bejegyzéseket vagy a linkeket egy idő után. Rosszabb esetben az egész domaint, aztán persze elérhetetlen az illető.) Ha szeretnél erős linkeket építeni házilag, akkor itt találod hozzá az útmutatót.

Ahogy sejteni lehetett a PageRank és a szavak egymáshoz való viszonya fontos tényező. Erre a tf-idf és az Okapi BM25 algoritmusok adnak választ. Ezeket már a SeoTurbo is használja. Ilyen szépséges képletek ezek:

Tf képlet
Tf képlet és normalizációi
IDF
Inverse Document Frequency (idf) súlyozások
Okapi BM25 képlet
Okapi BM25 képlet

Akit érdekel, az bővebben olvashat ezekről a wikipédián. A képek is onnan származnak.

Az sajnos (vagy inkább szerencsére) nem derült ki, hogy mi alapján azonosítanak egy honlapot tartalom spam-ként. SEO-s szemmel érdekes lenne látni, másfelől meg végzetes is, mert még több spam oldal nyerne teret a keresőkben.

Csupán Egy kérdés maradt: valós-e a törés?

Mindig kihívás megmondani, hogy a kiszivárgott forráskód valódi-e vagy sem. Az archívumban található összes fájl dátuma 2022. február 24. A kiszivárogtató azt állítja, hogy az adatokat 2022 júliusában töltötte le, míg a fájlokhoz vezető linket 2023. január 25-én tette közzé. Miért várna hónapokat, mielőtt nyilvánosságra hozná? Lehetséges, hogy a hacker először a darkweb-en próbálta eladni az adatokat, vagy váltságdíjat követelt a Yandex-től – ki tudja?

A különböző modulok forrás-, média- és konfigurációs fájljainak vizsgálata alapján azt feltételezzük, hogy a kiszivárogtatás valódi adatokat tartalmaz. Elképzelhetetlen, hogy valaki pusztán szórakozásból hozzon létre ekkora mennyiségű anyagot. Mivel azonban az üzleti logika forrása nem látható, arra következtethetünk, hogy a törés a Yandex szoftvertárházainak lecsupaszított változatát tartalmazza.

Ha szeretnél többet megtudni a keresési faktorokról, illetve arról, hogy hogyan érdemes forgalmat növelned, akkor ez a cikk hasznos lesz számodra.