Bár a Yandex tagadja a törést, mégis egy hacker fórumon jelent meg 47,1 GB-nyi adat a vállalat kódjával, 266 millióra becsült c++ program sorral.

Az archívum a Gitről származik, 79 szolgáltatás és projekt forráskódjával, köztük a keresőmotor (frontend és backend), az oldalindexelő bot, a webanalitikai platform (Yandex Metrika), a térképrendszer (Yandex Maps), a hangasszisztens Alice, a helpdesk információs rendszer, a Phone, a Yandex Direct hirdetési platform, az email szolgáltatás, a Yandex Disk tároló- és tartalomszolgáltató hálózat, a Yandex Market kereskedelmi platform, a Yandex360 üzleti szolgáltatások, a Yandex Cloud felhőplatform, a Yandex Pay fizetési rendszer, a Yandex Search, a Yandex Taxi, a Yandex Travel, a Yandex 360 és a Salomon diagnosztika belső rendszere.
Röviden, (ha jól sejtem) most áll a bál náluk is és a Google-nél is.
Miért érdekes a Yandex feltörése SEO szempontból?
A Yandex a második legnagyobb keresőmotor Oroszországban. A keresési találatok kb 70%-ban hasonlítanak a Google találati listájára. Ez azért sem meglepő, mert ex-Google alkalmazottak is részt vesznek a fejlesztésében.
Hány SEO keresési faktor látott napvilágot?
Ez az elmúlt évek talán legnagyobb SEO híre, hiszen 1923 faktort találtak a kódban. Ebből kb 1000 “elavult” jelzőt kapott, míg 200 “használaton kívül”-t. Így maradt 7xx faktor és egyéb jelző, pl. “ez egy shop”, “ez egy blog” vagy “ez egy Ukrán oldal”.
A Yandex (és a Google) motorja előnyben részesíti azokat a weboldalakat, amelyek:
- Nem túl régiek (vagy nem túl régen lettek frissítve).
- Több közvetlen (direkt) forgalmat (egyedi látogatókat) és kevesebb keresés által nyert forgalmat bonyolítanak.
- Kevesebb számot és kötőjelet tartalmaznak az URL-címükben.
- Kevés a PageRank 0-áról jövő link és aloldal.
- Megbízható szervereken vannak elhelyezve, azaz kevés a szerverhiba és kevés spammer használja az adott szervert.
- A Wikipédiáról vannak linkelve.
- Kevesebb kattintásból érjük el az adott oldalt. Ha linkelnek ránk, akkor az a link is erősebb, ami nem egy eldugott kis 20-ik aloldalról elérhető zugban leledzik.
- Kulcsszavak szerepelnek az URL címükben (legfeljebb három).
- Ha egy link megélt 3 évet, akkor az erősebb. (Sok spam linképítő törli a bejegyzéseket vagy a linkeket egy idő után. Rosszabb esetben az egész domaint, aztán persze elérhetetlen az illető.) Ha szeretnél erős linkeket építeni házilag, akkor itt találod hozzá az útmutatót.
Ahogy sejteni lehetett a PageRank és a szavak egymáshoz való viszonya fontos tényező. Erre a tf-idf és az Okapi BM25 algoritmusok adnak választ. Ezeket már a SeoTurbo is használja. Ilyen szépséges képletek ezek:



Akit érdekel, az bővebben olvashat ezekről a wikipédián. A képek is onnan származnak.
Az sajnos (vagy inkább szerencsére) nem derült ki, hogy mi alapján azonosítanak egy honlapot tartalom spam-ként. SEO-s szemmel érdekes lenne látni, másfelől meg végzetes is, mert még több spam oldal nyerne teret a keresőkben.
Csupán Egy kérdés maradt: valós-e a törés?
Mindig kihívás megmondani, hogy a kiszivárgott forráskód valódi-e vagy sem. Az archívumban található összes fájl dátuma 2022. február 24. A kiszivárogtató azt állítja, hogy az adatokat 2022 júliusában töltötte le, míg a fájlokhoz vezető linket 2023. január 25-én tette közzé. Miért várna hónapokat, mielőtt nyilvánosságra hozná? Lehetséges, hogy a hacker először a darkweb-en próbálta eladni az adatokat, vagy váltságdíjat követelt a Yandex-től – ki tudja?
A különböző modulok forrás-, média- és konfigurációs fájljainak vizsgálata alapján azt feltételezzük, hogy a kiszivárogtatás valódi adatokat tartalmaz. Elképzelhetetlen, hogy valaki pusztán szórakozásból hozzon létre ekkora mennyiségű anyagot. Mivel azonban az üzleti logika forrása nem látható, arra következtethetünk, hogy a törés a Yandex szoftvertárházainak lecsupaszított változatát tartalmazza.

Keresőoptimalizáló szakember, a SeoTurbo nevű SEO eszköz fejlesztője.