Machine Learning Engineer

Plzeň, Praha

Pro muže i ženy Plný úvazek

Budete převádět modely LLM (Large Language Model), TTS (Text to Speech) a ASR (Automatic Speech Recognition) z výzkumu do produkce, tak aby splňovaly požadavky na škálovatelnost, nízké latence a dostupnost. Pokud vás baví Python, Linux, Kubernetes a práce s LLM, TTS a ASR technologiemi, připojte se k nám a využijte stovky GPU karet pro inovativní projekty! 

 

S čím se budete potkávat

Docker
Kubeflow
Kubernetes
Linux
Pandas
Python
Spark

Co od vás očekáváme: 

• Zkušenosti s vývojem v Pythonu nejlépe 2 až 3 roky a alespoň základní zkušenosti s Linuxovým prostředím. 

• Znalost Kubernetes, Dockeru a cloudových technologií (SCIF). 

• Zkušenosti s optimalizací inference serverů a monitoringem nasazených modelů. 

• Znalost technologií jako KServe, S3, MLflow, FastAPI a dalších. 

• Zájem o LLM, TTS a ASR technologie a ochota se v nich dále vzdělávat. 

• Schopnost automatizovat a optimalizovat procesy, budovat spolehlivou infrastrukturu. 

Kdo bude váš nadřízený

Marek Šimůnek

Vedoucí týmu vývoje

Během osmi let v Seznamu jsem se posunul od zpracování miliard dokumentů k budování platformy pro automatické přeučování ML modelů. Vedle toho vedu tým, který zrychluje a zajišťuje vysokou dostupnost Seznam LLM, TTS i ASR modelů v produkci. Dlouhodobě mě motivuje budovat řešení, která v českém kontextu překonávají i velikány typu Google. K dispozici máme stovky GPU (H100, L4), ke kterým se jinde v ČR běžně nedostaneš. Mimo práci mě najdeš na discgolfovém hřišti nebo na horách, ať je to lyžování, nebo pěší výšlap.

 Co můžete očekávat vy: 

• Možnost pracovat s unikátními daty a stovkami GPU karet (H100 a L4) pro inovativní projekty. 

• Samoorganizovaný tým s přátelskou atmosférou a týmovým duchem. 

• Prostor pro seberealizaci a profesní růst, včetně sdílení nápadů a inspirace mezi kolegy. 

• Práci s moderními technologiemi jako vLLM a Triton (TensorRT-LLM, ONNX). 

• Spolupráci s výzkumníky na implementaci nových LLM, TTS a ASR funkcionalit. 

 

Jak probíhá výběrko:  

Po zaslání životopisu se vám ozveme do 3 pracovních dní. Následně vás čeká praktický úkol – řešení problému, který jsme museli implementovat do naší service (časová náročnost 2–8 hodin). Poté se setkáte s hiring managerem Markem Šimůnkem na osobním setkání. Pokud vše ladí, následuje nabídka a vítejte na palubě! 

 

Co je v Seznamu taky bezva

Dny volna navíc
K dovolené ještě dalších 5 dnů? No fakt. Ať už chcete třeba jen lenošit nebo vás hezké počasí naopak žene ven, užijte si volno podle vašich představ.
Dovolená o týden delší
Dovolené není nikdy dost. Proto vám ke standardním 4 týdnům dovolené přidáme ještě další týden.
Home office lze dohodnout
V kanceláři bychom vás přeci jen rádi občas potkali, ať se nedivíme, kde jste se u nás vzali. Ale že jde někdy práce líp od ruky z domácího prostředí, tomu taky rozumíme. Domluvte se s nadřízeným a jistě najdete dobrý kompromis.
Interní vzdělávání
U nás se nudit nebudete. Osobnímu i profesnímu rozvoji fandíme a nabízíme nekonečně příležitostí k seberozvoji a vzdělávání, včetně pomoci od profesionálních trenérů.
Konference
Načerpejte nové inspirace a trendy, a to buď v publiku nebo rovnou na pódiu.
Ovoce do práce
Nálož vitamínů 2x měsíčně, občas i s nějakým chuťovým překvápkem.
Pet friendly
Že je maskot Seznamu pes, není úplná náhoda. Čtyřnohé kolegy vítáme, dokonce s námi chodí i na porady.
Sportu zdar
V Praze a Brně si můžete dát do těla v naší posilovně, ve velkých pobočkách i na hodinách jógy.
Technika na přání
Apple, Linux nebo Windows? Všechno máme a k dispozici dáme. A pokud už jste zvyklí na své vymazlené miláčky, pracujte klidně na vlastním zařízení a my vám budeme finančně přispívat.

Kde budete pracovat

Mapa Česko a Slovensko
Plzeň
Seznam.cz, a.s.
Náměstí T. G. Masaryka 1931/12
301 00 Plzeň – Jižní Předměstí
Vlakem bude nejlepší vystoupit až na vlakovém nádraží Plzeň Jižní Předměstí a jít 10 minut pěšky. A pokud jedete autem, v okolí se nějaké parkovací místo vždycky najde.
Tramvaj
4
Praha
Seznam.cz, a.s.
Radlická 3294/10
150 00 Praha 5 – Smíchov
Naše centrála je velmi dobře dostupná, můžete dorazit metrem na lince B, jednou z nesčetných tramvají nebo autobusem. Autobusové nádraží Na Knížecí je hned za rohem.
Metro
B – Anděl
Tramvaj
4 5 7 9 10 12 15 16 20
Bus
120 123 137 167 191

První dny v Seznamu

Koukněte, jak vypadá první den, ať se vaše cesta na vysněnou pozici obejde bez zbytečných škobrtnutí.

1 Vítejte na palubě aneb Pre-onboarding

Skvěle, plácli jsme si na spolupráci. Nástupní dokumenty podepíšete elektronicky klidně ještě před nástupem. Žádné papírování, šetříme přírodu. A když budete chtít, můžeme se rovnou domluvit na kafe s někým z týmu, ať se naladíte na naši atmosféru.

2 Hurá, váš první den v Seznamu

Každý začátek měsíce vítáme všechny nováčky u nás na centrále v Praze. Vyřešíme potřebnou administrativu, předáme vám techniku, seznámíme vás s kolegy a nakonec vás provedeme po našem labyrintu.

3 Adaptace aneb jééé, funguje to!

Na začátku to vypadá možná trochu chaoticky, ale nebojte, máme promakaný systém školení pro každou pozici, takže co neumíte, rádi naučíme.

4 Umíte vše levou zadní? Pak je tu interní vzdělávání

Po rozpačitém začátku jste už profíci v oboru, gratulujeme. A protože umět všechno je nuda, náš tým trenérů vám rád poradí s dalším rozvojem. A nabídka je nekonečně bohatá, vybrat si můžete z našeho e-learningu nebo školení přímo na míru.

Časté dotazy

Jak vypadá Kontejnerizace a Orchestrace?

Pracujeme s Dockerem a Kubernetem pro správu a škálování aplikací v kontejnerizovaných prostředích. Zahrnujeme práci s Ansible a Terraform pro automatizaci konfigurací.

Jak vypadá Monitoring a Vizualizace?

Využíváme Grafanu a Prometheus pro vizualizaci dat a monitorování systémů.

Jak produktový management funguje ve Vyhledávání?

Tým Vyhledávání ve zkratce řeší, aby lidé na dotaz dostali to, co hledají. Za tímhle jednoduchým shrnutím ale stojí mravenčí práce. Na dotaz poskytneme až 10 dokumentů, ze kterých se staví výsledek vyhledávání, a to v takovém pořadí, aby uživatel co nejdříve spokojeně řekl “ahá.” To s sebou přináší spoustu zajímavých problémů. Třeba když někdo napíše do vyhledání “restaurace”, co bychom mu měli nabídnout? Přehled restaurací v okolí? Recenze restaurací? Etymologii slova “restaurace”? Problémy, co řešíme, jsou velmi nestrukturované a velmi těžko uchopitelné. A to je pro nás dělá extrémně zajímavé. Nutno dodat, že nejsme typičtí produkťáci, ale spíše “decision making data scientist”. Velkou část práce trávíme hrabáním se v datech a až podle našich závěrů z nich uděláme rozhodnutí.

  • Naše projekty se odvíjí od aktuální vize celého Vyhledávání. Například teď chceme poskytovat jasnější a důvěryhodnější odpovědi, proto se zabýváme důležitostí slov v dotazech, jak lépe vyhodnotit, jestli je stránka důvěryhodná, nebo jak rychleji návštěvníka nasměrovat na správnou stránku, kterou hledá. Aktuálně také pracujeme na rychlejší identifikaci “nadějných” stránek, ve kterých se nachází odpověď. Musíme tedy umět zhodnotit více než miliardu stránek na českém internetu ve velice krátkém čase a vybrat z nich ty nejrelevantnější. Abychom dokázali rychle hledat mezi takovým množstvím stránek využíváme tzv. invertované a vektorové indexy. Ve vektorových indexech jsou dané stránky uloženy ve formě vektorů vytvořených pomocí sémantických jazykových modelů. Tyto indexy nám pomáhají hlavně ve chvílích, kdy daná stránka neobsahuje přesně slova z dotazu, ale slova sémanticky blízká.
  • Základem veškeré práce u nás je Python a jeho knihovny, pandas, matplotlib, seaborn, sklearn, polars, pyspark. Zkrátka všechny knihovny pro práci s velkými daty a jejich vizualizací. Jakmile máme data prozkoumaná, tak trénujeme modely. A samozřejmě stále sledujeme nové technologie, které by nám s prací píchly. V týmu máme velkou svobodu v jejich použití a jsme pro (skoro) každou novinku.
  • Ve Vyhledávání využíváme spoustu lidských kontrolorů, kteří zajišťují, aby Vyhledávání fungovalo jako po drátkách. Do budoucna chceme část ručních kontrol nahradit jazykovými modely, například pro detekci špatných výsledků ve Vyhledávání. Náš vztah s LLM v naší firmě je ale spíš opačný. My totiž dodáváme podklady, se kterými LLM pracují, třeba při shrnování odpovědí. Pokud má jazykový model poskytnout dobrou a krátkou odpověď, musí od nás obdržet dobrou stránku jako podklad, z které tu odpověď vytvoří.
  • Datová centra jsou páteří veškeré naší práce. Naštěstí se o ně nemusíme moc starat, protože na to máme znalejší kolegy. Naše práce se celá točí kolem dat a čísel, takže jsme na datová centra napojení v jednom kuse. Ať už zjišťujeme, jak často uživatelům nabízíme nějaký e-shop, nebo trénujeme nový model pro rozhodování o pořadí výsledků, anebo třeba rozjíždíme nějaký monitoring, to vše řešíme přes naše datová centra.
Jak ve Výzkumu pracujeme s velkými jazykovými modely?

Pracujeme s nimi často, ve zkratce můžeme říct, že je učíme i používáme. Encoder modely (ze kterých získáváme sémantickou reprezentaci textu) používáme i vytváříme v projektech už léta, některé naše modely poskytujeme s open-source licencí komunitě (Small-E-Czech, RetroMAE). Obecné a univerzální generativní jazykové modely v Seznamu sami vytváříme, čímž se může chlubit jen hrstka výzkumných pracovišť z celé střední Evropy. Naším cílem je vytvořit model, který umí česky jako ještě žádný jiný. Tak nám držte palce.

Jak využíváme Machine Learning pro naše projekty?

Ve Vyhledávání textu, obrázků, zpráv a videí využíváme strojové učení (ML) pro zpracování uživatelských dotazů, analýzu obsahu dokumentů (například webových stránek nebo obrázků), návrhy dotazů (včetně našeptávače, souvisejících dotazů a trending topics), hodnocení relevance dokumentů k uživatelskému dotazu (předvýběr výsledků, filtrování, řazení) nebo například pro vydávání chytrých karet a přímých odpovědí. Generativní jazykové modely používáme pro interakci s uživatelem a pro lepší formování odpovědí.

V Skliku se Machine Learning využívá na výběr optimální reklamy, detekci fraudových kliků, segmentaci uživatelů, modelování online chování, optimalizaci online aukcí a kampaní.

V Doporučování nám strojové učení pomáhá při personalizaci doporučování a detekce clickbaitu.

Tým Mapy.cz zas strojové učení chválí při rozpoznávání obrazu, detekci anomálií, relevanci výsledků hledání. 

Pro Zboží.cz je ML nepostradatelné při kategorizaci a shlukování inzerátů, relevanci výsledků hledání a na rozpoznávání parametrů výrobků.

Zajímá vás tato pozice?

Zajímá vás tato pozice?