Výzkumník strojového učení pro Vyhledávání

Praha

Pro muže i ženy OZP Plný úvazek

Internetové vyhledávání je technologicky pokročilá mašinerie, který zahrnuje použití strojového učení v mnoha svých komponentách – od počítání relevance dotazu a webové stránky, přes řazení výsledků či kvantifikaci zpětné vazby uživatelů, až po základní zpracování a pochopení obsahu webových stránek.

Náš pražský výzkumný tým se právě těmito aplikacemi zabývá. Vyvíjíme prototypy modelů v Pythonu, našimi každodenními nástroji jsou PyTorch, PySpark, CatBoost, Docker, K8 (mimo jiné). Máme spoustu dat a další si neustále vytváříme (manuálně či automaticky), v závislosti na potřebách projektu. Disponujeme silnou flotilou vlastního hardwaru (GPU clustery, Hadoop), takže nedostatek výpočetní kapacity není naší starostí.

Kromě plně industriálního zaměření jsme aktivní i v publikační činnosti (z nedávné doby můžeme zmínit: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking a Some Like It Small: Czech Semantic Embedding Models for Industry Applications), návštěvách konferencí a snažíme se věnovat čas také sebevzdělávání a neformálním týmovým stmelovacím aktivitám (fotbálek, discgolf nebo třeba deskovky).

S čím se budete potkávat

CatBoost
GitLab
Pandas
Python
Spark

Základní předpoklady

  • Umíte programovat v jazyce Python a navrhovat efektivní algoritmy
  • Orientujete se v problematice strojového učení
  • Ovládáte základy Linuxu
  • Máte praxi v oboru alespoň 1 rok

Kdo bude váš nadřízený

Martin Bachura

Vedoucí týmu výzkumu

Výzkumem pro fulltextové vyhledávání se zabývám z různých pozic už téměř 5 let. Vedu menší tým, se kterým řešíme širokou škálu úkolů týkajících se strojového učení. Jinými slovy: žijeme v koloběhu data - model - evaluace - data - model - evaluace a tak dále a tak dále. Každý krok tohoto koloběhu je pro mě výzvou, kterou rád řeším, a s rostoucí kariérní zkušeností se od 'sexy' modelování více a více posouvám k fundamentálnějším částem našeho cyklu - vstupním a evaluačním datům. A vůbec hledání odpovědí na to, jak přínosné je to, co děláme, a jak to přínosné udělat

Součástí práce výzkumníka je

  • Podílení se na formování zadání výzkumné úlohy a analýzy problému
  • Příprava a analýza dat – Python, pandas, (Py)Spark, Polars
  • Učení ML modelů – pracujeme se širokou škálou modelů od rozhodovacích lesů (XGBoost/CatBoost) až po hluboké neuronové sítě (PyTorch)
  • Aplikace state-of-the-art metod pro zpracování jazyka a obrazu
  • Týmová spolupráce při řešení problému a tvorbě kódu – Git, code review
  • Vyhodnocení navržených řešení, interpretace a prezentace výsledků
  • Předávání modelů a kódu do produkce např. pomocí Docker containerů

Co nabízíme

  • Zajímavou a rozmanitou práci, řešení netriviálních problémů
  • Velká data, možnost anotací 
  • Vyrábíme prototypy pro řešení těžkých problémů
  • Dostáváme věci do produkce, přímý dopad na miliony uživatelů
  • Vlastní výkonné servery, dedikovaná výpočetní kapacita
  • Sdílení znalostí a zkušeností napříč Seznamem
  • Osobní rozvoj – vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích)
  • Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code
  • Možnost HO (až 3 dny v týdnu)

Co je v Seznamu taky bezva

Dny volna navíc
K dovolené ještě dalších 5 dnů? No fakt. Ať už chcete třeba jen lenošit nebo vás hezké počasí naopak žene ven, užijte si volno podle vašich představ.
Dovolená o týden delší
Dovolené není nikdy dost. Proto vám ke standardním 4 týdnům dovolené přidáme ještě další týden.
Fandíme rodinám
Zkombinovat práci a rodinu je důležité, proto jsme založili firemní školku Seznámek, aby si byly děti i rodiče vždycky nablízku.
Home office lze dohodnout
V kanceláři bychom vás přeci jen rádi občas potkali, ať se nedivíme, kde jste se u nás vzali. Ale že jde někdy práce líp od ruky z domácího prostředí, tomu taky rozumíme. Domluvte se s nadřízeným a jistě najdete dobrý kompromis.
Interní vzdělávání
U nás se nudit nebudete. Osobnímu i profesnímu rozvoji fandíme a nabízíme nekonečně příležitostí k seberozvoji a vzdělávání, včetně pomoci od profesionálních trenérů.
Konference
Načerpejte nové inspirace a trendy, a to buď v publiku nebo rovnou na pódiu.
Ovoce do práce
Nálož vitamínů 2x měsíčně, občas i s nějakým chuťovým překvápkem.
Pet friendly
Že je maskot Seznamu pes, není úplná náhoda. Čtyřnohé kolegy vítáme, dokonce s námi chodí i na porady.
Pružná pracovní doba
Někdo je ranní ptáče a nejvíc práce udělá se svítáním, někdo zas sova a nejvíc klidu na práci má večer. Důležité jsou pro nás kvalitní výsledky, ne váš rozvrh hodin.
Technika na přání
Apple, Linux nebo Windows? Všechno máme a k dispozici dáme. A pokud už jste zvyklí na své vymazlené miláčky, pracujte klidně na vlastním zařízení a my vám budeme finančně přispívat.

Kde budete pracovat

Praha

Seznam.cz, a.s.
Radlická 3294/10
150 00 Praha 5 – Smíchov
Naše centrála je velmi dobře dostupná, můžete dorazit metrem na lince B, jednou z nesčetných tramvají nebo autobusem. Autobusové nádraží Na Knížecí je hned za rohem.
Metro
B – Anděl
Tramvaj
4 5 7 9 10 12 15 16 20
Bus
120 123 137 167 191

Kudy vede cesta do Seznamu

Koukněte, jak vypadá výběrko, pohovor nebo první den v Seznamu, ať se vaše cesta na vysněnou pozici obejde bez zbytečných škobrtnutí.

1 Zaslání životopisu

Dejte nám o sobě vědět, i když třeba hned nevíte, co by vám slušelo za pozici. Míst máme spousty a HR profíků taky, určitě něco vymyslíme.

2 Jak probíhá výběrko

Pokud vaše kvality pasují na pozici, zavoláme vám a probereme vzájemné představy o nástupu, náplni práce nebo finančním očekávání. Máme shodu? Rádi vás pozveme na první (nebo druhé) kolo pohovoru.

3 A je tu samotné výběrko

Výběrka probíhají online i offline, ale nebojte se žádného výslechu, je to spíš profesní pokec a upřímnosti si ceníme.

4 Je to tady! Nabídka práce

Do týmu skvěle pasujete a rádi bychom vás pasovali na Seznamáka. E-mailem vám proto pošleme oficiální nabídku práce, kde znova shrnujeme důležité body spolupráce. Všechno souhlasí? Prima, dejte nám vědět, že do toho jdete s námi.

5 Vítejte na palubě aneb Pre-onboarding

Skvěle, plácli jsme si na spolupráci. Smlouvu u nás můžete podepsat v den nástupu, ale jestli už se nemůžete dočkat, připravíme ji k podpisu i dřív. A rovnou můžete nasát informace na dobrém kafi s někým z budoucího týmu.

6 Hurá, váš první den v Seznamu

Každý začátek měsíce vítáme všechny nováčky u nás na centrále v Praze. Vyřešíme potřebnou administrativu, předáme vám techniku, seznámíme vás s kolegy a nakonec vás provedeme po našem labyrintu.

7 Adaptace aneb jééé, funguje to!

Na začátku to vypadá možná trochu chaoticky, ale nebojte, máme promakaný systém školení pro každou pozici, takže co neumíte, rádi naučíme.

8 Umíte vše levou zadní? Pak je tu interní vzdělávání

Po rozpačitém začátku jste už profíci v oboru, gratulujeme. A protože umět všechno je nuda, náš tým trenérů vám rád poradí s dalším rozvojem. A nabídka je nekonečně bohatá, vybrat si můžete z našeho e-learningu nebo školení přímo na míru.

Časté dotazy

Jak produktový management funguje ve Vyhledávání?

Tým Vyhledávání ve zkratce řeší, aby lidé na dotaz dostali to, co hledají. Za tímhle jednoduchým shrnutím ale stojí mravenčí práce. Na dotaz poskytneme až 10 dokumentů, ze kterých se staví výsledek vyhledávání, a to v takovém pořadí, aby uživatel co nejdříve spokojeně řekl “ahá.” To s sebou přináší spoustu zajímavých problémů. Třeba když někdo napíše do vyhledání “restaurace”, co bychom mu měli nabídnout? Přehled restaurací v okolí? Recenze restaurací? Etymologii slova “restaurace”? Problémy, co řešíme, jsou velmi nestrukturované a velmi těžko uchopitelné. A to je pro nás dělá extrémně zajímavé. Nutno dodat, že nejsme typičtí produkťáci, ale spíše “decision making data scientist”. Velkou část práce trávíme hrabáním se v datech a až podle našich závěrů z nich uděláme rozhodnutí.

  • Naše projekty se odvíjí od aktuální vize celého Vyhledávání. Například teď chceme poskytovat jasnější a důvěryhodnější odpovědi, proto se zabýváme důležitostí slov v dotazech, jak lépe vyhodnotit, jestli je stránka důvěryhodná, nebo jak rychleji návštěvníka nasměrovat na správnou stránku, kterou hledá. Aktuálně také pracujeme na rychlejší identifikaci “nadějných” stránek, ve kterých se nachází odpověď. Musíme tedy umět zhodnotit více než miliardu stránek na českém internetu ve velice krátkém čase a vybrat z nich ty nejrelevantnější. Abychom dokázali rychle hledat mezi takovým množstvím stránek využíváme tzv. invertované a vektorové indexy. Ve vektorových indexech jsou dané stránky uloženy ve formě vektorů vytvořených pomocí sémantických jazykových modelů. Tyto indexy nám pomáhají hlavně ve chvílích, kdy daná stránka neobsahuje přesně slova z dotazu, ale slova sémanticky blízká.
  • Základem veškeré práce u nás je Python a jeho knihovny, pandas, matplotlib, seaborn, sklearn, polars, pyspark. Zkrátka všechny knihovny pro práci s velkými daty a jejich vizualizací. Jakmile máme data prozkoumaná, tak trénujeme modely. A samozřejmě stále sledujeme nové technologie, které by nám s prací píchly. V týmu máme velkou svobodu v jejich použití a jsme pro (skoro) každou novinku.
  • Ve Vyhledávání využíváme spoustu lidských kontrolorů, kteří zajišťují, aby Vyhledávání fungovalo jako po drátkách. Do budoucna chceme část ručních kontrol nahradit jazykovými modely, například pro detekci špatných výsledků ve Vyhledávání. Náš vztah s LLM v naší firmě je ale spíš opačný. My totiž dodáváme podklady, se kterými LLM pracují, třeba při shrnování odpovědí. Pokud má jazykový model poskytnout dobrou a krátkou odpověď, musí od nás obdržet dobrou stránku jako podklad, z které tu odpověď vytvoří.
  • Datová centra jsou páteří veškeré naší práce. Naštěstí se o ně nemusíme moc starat, protože na to máme znalejší kolegy. Naše práce se celá točí kolem dat a čísel, takže jsme na datová centra napojení v jednom kuse. Ať už zjišťujeme, jak často uživatelům nabízíme nějaký e-shop, nebo trénujeme nový model pro rozhodování o pořadí výsledků, anebo třeba rozjíždíme nějaký monitoring, to vše řešíme přes naše datová centra.
Jak v týmu Výzkumu spolupracujeme s datovými centry?

Seznamácká interní datová centra se starají o provoz několika výzkumných Hadoop clusterů, které nám umožňují rychlé zpracování velkých a rychlých dat. Dále pro nás provozují několik GPU clusterů, ty pak umožňují trénink a inferenci stovek modelů strojového učení, včetně LLM modelů, které jsou základem služeb Seznamu.

Jak ve Výzkumu pracujeme s velkými jazykovými modely?

Pracujeme s nimi často, ve zkratce můžeme říct, že je učíme i používáme. Encoder modely (ze kterých získáváme sémantickou reprezentaci textu) používáme i vytváříme v projektech už léta, některé naše modely poskytujeme s open-source licencí komunitě (Small-E-Czech, RetroMAE). Obecné a univerzální generativní jazykové modely v Seznamu sami vytváříme, čímž se může chlubit jen hrstka výzkumných pracovišť z celé střední Evropy. Naším cílem je vytvořit model, který umí česky jako ještě žádný jiný. Tak nám držte palce.

Jaké využíváme ve Výzkumu technologie?

Na projektech využíváme převážně Python (Numpy, Pandas, Polars, Dask, Scipy, PyTorch a další), Spark, Docker, Git. 

S jakými školami za tým Výzkumu spolupracujeme?

Jsme v kontaktu s technickými fakultami skoro všech českých vysokých škol. Tradičními partnery jsme už s ČVUT, VUT, MUNI a UK. Vybrané výzkumné skupiny aktivně podporujeme (například CIIRC ČVUT), s některými plánujeme společné projekty (třeba s VUT, ČVUT nebo UK). Na MUNI a UK příležitostně přednášíme jako externí lektoři. Samozřejmě podporujeme také neakademickou komunitu jako MLMU, MLPrague a jiné konference a pořádáme i vlastní odborná setkání a meetupy.

Jak se v týmu Výzkumu dále vzděláváme?

Pro každý výzkum je konstantní vzdělávání naprosto zásadní a ne jinak je tomu i v Seznamu. Máme přístupy k vědeckým článkům a publikacím a aktivně navštěvujeme i přínosné konference, přednášky, nebo tématické kurzy a nechybíme ani na meetupech.

Zajímá vás tato pozice?

Zajímá vás tato pozice?