AI výzkumník generativních jazykových modelů

Brno, Praha, Zlín

Pro muže i ženy OZP Plný úvazek

S čím se budete potkávat

Docker

Git

Kubernetes

Linux

Pandas

Python

PyTorch

Spark

Naším cílem je tvorba a rozvoj velkých jazykových modelů pro interní LLM platformu. Na vlastním výpočetním klastru s nejmodernějšími AI akcelerátory Nvidia H100 učíme modely ve velikosti desítek miliard parametrů. Naše zodpovědnost začíná technickým zprovozněním distribuovaného učení a končí předáním modelu do produkce. Chystáme experimenty, data, měření a neobejdeme se bez neustálého studia SOTA přístupů.

První generaci vlastních modelů máme nasazenou v provozu a modely dále iterativně rozvíjíme v obecné kvalitě i specifických vlastnostech, např. velikost kontextu, function calling, strukturovaný výstup, multimodalita nebo finetuning/preference optimization pro konkrétní downstream task.

Jsme součástí oddělení výzkumu na vyhledávání, díky čemuž máme možnost sledovat řadu projektů týkajících se strojového učení. Samotný výzkum velkých jazykových modelů funguje distribuovaně (Praha, Brno, Zlín), přesto je řada příležitostí k setkání celého týmu, ať už pracovním nebo teambuildingovém. Úzce spolupracujeme s MLOps týmem, který se stará o LLM platformu, na které naše modely běží produkčně.

Základní předpoklady

Máte netriviální zkušenost s velkými jazykovými modely: ideálně učení nebo vyhodnocování LLM, příp. pokročilé promptování
Máte dobrou znalost strojového učení, neuronových sítí a architektury Transformers
Umíte programovat v Pythonu, vč. znalosti algoritmizace
Praxe na výzkumné nebo obdobné pozici minimálně 2 roky

Kdo bude váš nadřízený

Ondřej Filip

Vedoucí týmu vývoje

Za svoji téměř dekádu trvající kariéru v Seznamu jsem měl možnost zažít transformaci práce našeho výzkumu od mnohdy ručně implementovaných algoritmů přes využívání vyladěných nástrojů pro tvorbu modelů až po současnou dynamickou éru LLM, ve které jsem se chopil příležitosti vést tým, se kterým vyvíjíme vlastní český model.

Součástí práce výzkumníka pro LLM je

Tvorba experimentů – PyTorch, HF Transformers
Spouštění experimentů v distrubuovaném prostředí (multi-node) – linux, Docker, k8s, DeepSpeed/FSDP
Příprava a analýza dat – python, HF Datasets, Pandas, PySpark apod.
Tvorba metrik a vyhodnocování modelu
Studium State-of-the-Art literatury
Týmová spolupráce při řešení problému a tvorbě kódu – Git, code review

Co nabízíme

Zajímavou a rozmanitou práci, řešení netriviálních problémů
Možnost podílet se na rozvoji velkých jazykových modelů
Práce s velkými daty, možnost nechat si data anotovat
Dostáváme věci do produkce, přímý dopad na miliony uživatelů
Vlastní klastr s kartami nvidia H100 a další výkonný hardware
Osobní rozvoj – vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích)
Sdílení znalostí a zkušeností napříč Seznamem
Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code

Jak probíhá výběrové řízení

Zašlete nám svůj životopis nebo odkaz na profesní profil, který si pečlivě prostudujeme.
Pokud uvidíme shodu, do tří dnů se vám telefonicky ozveme, sladíme vzájemná očekávání a domluvíme další postup.
Dalším krokem je online test na platformě Codility a zadání, které odráží práci našeho výzkumného týmu. Tyto části slouží jako první technická zkouška na cestě k získání pozice.
Po úspěšném absolvování následuje osobní pohovor s vedoucím týmu. Detailněji vám představíme pozici a fungování týmu. Zároveň se budeme ptát na vaše předchozí zkušenosti a společně projdeme váš postup při řešení zadání. Osobní setkání obvykle trvá přibližně 1,5–2 hodiny.

Co je v Seznamu taky bezva

Dny volna navíc

K dovolené ještě dalších 5 dnů? No fakt. Ať už chcete třeba jen lenošit nebo vás hezké počasí naopak žene ven, užijte si volno podle vašich představ.

Dovolená o týden delší

Dovolené není nikdy dost. Proto vám ke standardním 4 týdnům dovolené přidáme ještě další týden.

Home office lze dohodnout

V kanceláři bychom vás přeci jen rádi občas potkali, ať se nedivíme, kde jste se u nás vzali. Ale že jde někdy práce líp od ruky z domácího prostředí, tomu taky rozumíme. Domluvte se s nadřízeným a jistě najdete dobrý kompromis.

Interní vzdělávání

U nás se nudit nebudete. Osobnímu i profesnímu rozvoji fandíme a nabízíme nekonečně příležitostí k seberozvoji a vzdělávání, včetně pomoci od profesionálních trenérů.

Konference

Načerpejte nové inspirace a trendy, a to buď v publiku nebo rovnou na pódiu.

Ovoce do práce

Nálož vitamínů 2x měsíčně, občas i s nějakým chuťovým překvápkem.

Pet friendly

Že je maskot Seznamu pes, není úplná náhoda. Čtyřnohé kolegy vítáme, dokonce s námi chodí i na porady.

Pružná pracovní doba

Někdo je ranní ptáče a nejvíc práce udělá se svítáním, někdo zas sova a nejvíc klidu na práci má večer. Důležité jsou pro nás kvalitní výsledky, ne váš rozvrh hodin.

Technika na přání

Apple, Linux nebo Windows? Všechno máme a k dispozici dáme. A pokud už jste zvyklí na své vymazlené miláčky, pracujte klidně na vlastním zařízení a my vám budeme finančně přispívat.

Kde budete pracovat

Brno

Seznam.cz, a.s.
The Campus Science Park – Budova C
Palachovo náměstí 797/4
625 00 Brno – Starý Lískovec

Nejbližší zastávka je Nemocnice Bohunice. Pokud jste přijeli vlakem, na nádraží skočte do šaliny č. 8 a za 20 minut jste u nás. Parkovat lze v podzemních garážích nebo v okolních oblastech Campus Square.

Šalina	8
Bus	40 50 51 69 E56
Trolejbus	25 37

Volné pozice na pobočce

Praha

Seznam.cz, a.s.
Radlická 3294/10
150 00 Praha 5 – Smíchov

Naše centrála je velmi dobře dostupná, můžete dorazit metrem na lince B, jednou z nesčetných tramvají nebo autobusem. Autobusové nádraží Na Knížecí je hned za rohem.

Metro	B – Anděl
Tramvaj	4 5 7 9 10 12 15 16 20
Bus	120 123 137 167 191

Volné pozice na pobočce

Zlín

Seznam.cz, a.s.
Tečovská 1052
763 02 Zlín – Malenovice

Z vlakového nádraží je to k nám jen 10 minut chůze a pokud přijedete MHD, vyskočte na zastávce Malenovice, Tečovská. S parkováním není problém, pobočka má vlastní parkovací místa.

Bus	52 154 155

Volné pozice na pobočce

První dny v Seznamu

Koukněte, jak vypadá první den, ať se vaše cesta na vysněnou pozici obejde bez zbytečných škobrtnutí.

1 Vítejte na palubě aneb Pre-onboarding

Skvěle, plácli jsme si na spolupráci. Nástupní dokumenty podepíšete elektronicky klidně ještě před nástupem. Žádné papírování, šetříme přírodu. A když budete chtít, můžeme se rovnou domluvit na kafe s někým z týmu, ať se naladíte na naši atmosféru.

2 Hurá, váš první den v Seznamu

Každý začátek měsíce vítáme všechny nováčky u nás na centrále v Praze. Vyřešíme potřebnou administrativu, předáme vám techniku, seznámíme vás s kolegy a nakonec vás provedeme po našem labyrintu.

3 Adaptace aneb jééé, funguje to!

Na začátku to vypadá možná trochu chaoticky, ale nebojte, máme promakaný systém školení pro každou pozici, takže co neumíte, rádi naučíme.

4 Umíte vše levou zadní? Pak je tu interní vzdělávání

Po rozpačitém začátku jste už profíci v oboru, gratulujeme. A protože umět všechno je nuda, náš tým trenérů vám rád poradí s dalším rozvojem. A nabídka je nekonečně bohatá, vybrat si můžete z našeho e-learningu nebo školení přímo na míru.

Časté dotazy

Jak produktový management funguje ve Vyhledávání?

Tým Vyhledávání ve zkratce řeší, aby lidé na dotaz dostali to, co hledají. Za tímhle jednoduchým shrnutím ale stojí mravenčí práce. Na dotaz poskytneme až 10 dokumentů, ze kterých se staví výsledek vyhledávání, a to v takovém pořadí, aby uživatel co nejdříve spokojeně řekl “ahá.” To s sebou přináší spoustu zajímavých problémů. Třeba když někdo napíše do vyhledání “restaurace”, co bychom mu měli nabídnout? Přehled restaurací v okolí? Recenze restaurací? Etymologii slova “restaurace”? Problémy, co řešíme, jsou velmi nestrukturované a velmi těžko uchopitelné. A to je pro nás dělá extrémně zajímavé. Nutno dodat, že nejsme typičtí produkťáci, ale spíše “decision making data scientist”. Velkou část práce trávíme hrabáním se v datech a až podle našich závěrů z nich uděláme rozhodnutí.

Naše projekty se odvíjí od aktuální vize celého Vyhledávání. Například teď chceme poskytovat jasnější a důvěryhodnější odpovědi, proto se zabýváme důležitostí slov v dotazech, jak lépe vyhodnotit, jestli je stránka důvěryhodná, nebo jak rychleji návštěvníka nasměrovat na správnou stránku, kterou hledá. Aktuálně také pracujeme na rychlejší identifikaci “nadějných” stránek, ve kterých se nachází odpověď. Musíme tedy umět zhodnotit více než miliardu stránek na českém internetu ve velice krátkém čase a vybrat z nich ty nejrelevantnější. Abychom dokázali rychle hledat mezi takovým množstvím stránek využíváme tzv. invertované a vektorové indexy. Ve vektorových indexech jsou dané stránky uloženy ve formě vektorů vytvořených pomocí sémantických jazykových modelů. Tyto indexy nám pomáhají hlavně ve chvílích, kdy daná stránka neobsahuje přesně slova z dotazu, ale slova sémanticky blízká.
Základem veškeré práce u nás je Python a jeho knihovny, pandas, matplotlib, seaborn, sklearn, polars, pyspark. Zkrátka všechny knihovny pro práci s velkými daty a jejich vizualizací. Jakmile máme data prozkoumaná, tak trénujeme modely. A samozřejmě stále sledujeme nové technologie, které by nám s prací píchly. V týmu máme velkou svobodu v jejich použití a jsme pro (skoro) každou novinku.
Ve Vyhledávání využíváme spoustu lidských kontrolorů, kteří zajišťují, aby Vyhledávání fungovalo jako po drátkách. Do budoucna chceme část ručních kontrol nahradit jazykovými modely, například pro detekci špatných výsledků ve Vyhledávání. Náš vztah s LLM v naší firmě je ale spíš opačný. My totiž dodáváme podklady, se kterými LLM pracují, třeba při shrnování odpovědí. Pokud má jazykový model poskytnout dobrou a krátkou odpověď, musí od nás obdržet dobrou stránku jako podklad, z které tu odpověď vytvoří.
Datová centra jsou páteří veškeré naší práce. Naštěstí se o ně nemusíme moc starat, protože na to máme znalejší kolegy. Naše práce se celá točí kolem dat a čísel, takže jsme na datová centra napojení v jednom kuse. Ať už zjišťujeme, jak často uživatelům nabízíme nějaký e-shop, nebo trénujeme nový model pro rozhodování o pořadí výsledků, anebo třeba rozjíždíme nějaký monitoring, to vše řešíme přes naše datová centra.

Jak v týmu Výzkumu spolupracujeme s datovými centry?

Seznamácká interní datová centra se starají o provoz několika výzkumných Hadoop clusterů, které nám umožňují rychlé zpracování velkých a rychlých dat. Dále pro nás provozují několik GPU clusterů, ty pak umožňují trénink a inferenci stovek modelů strojového učení, včetně LLM modelů, které jsou základem služeb Seznamu.

Jak ve Výzkumu pracujeme s velkými jazykovými modely?

Pracujeme s nimi často, ve zkratce můžeme říct, že je učíme i používáme. Encoder modely (ze kterých získáváme sémantickou reprezentaci textu) používáme i vytváříme v projektech už léta, některé naše modely poskytujeme s open-source licencí komunitě (Small-E-Czech, RetroMAE). Obecné a univerzální generativní jazykové modely v Seznamu sami vytváříme, čímž se může chlubit jen hrstka výzkumných pracovišť z celé střední Evropy. Naším cílem je vytvořit model, který umí česky jako ještě žádný jiný. Tak nám držte palce.

Jaké využíváme ve Výzkumu technologie?

Na projektech využíváme převážně Python (Numpy, Pandas, Polars, Dask, Scipy, PyTorch a další), Spark, Docker, Git.

S jakými školami za tým Výzkumu spolupracujeme?

Jsme v kontaktu s technickými fakultami skoro všech českých vysokých škol. Tradičními partnery jsme už s ČVUT, VUT, MUNI a UK. Vybrané výzkumné skupiny aktivně podporujeme (například CIIRC ČVUT), s některými plánujeme společné projekty (třeba s VUT, ČVUT nebo UK). Na MUNI a UK příležitostně přednášíme jako externí lektoři. Samozřejmě podporujeme také neakademickou komunitu jako MLMU, MLPrague a jiné konference a pořádáme i vlastní odborná setkání a meetupy.

Sdílet tuto pracovní nabídku

Podobné pracovní pozice

Všechny pozice jsou vhodné pro muže i ženy

AI výzkumník generativních jazykových modelů

S čím se budete potkávat

Základní předpoklady

Kdo bude váš nadřízený

Součástí práce výzkumníka pro LLM je

Co nabízíme

Jak probíhá výběrové řízení

Co je v Seznamu taky bezva

Kde budete pracovat

První dny v Seznamu

Časté dotazy

Sdílet tuto pracovní nabídku

Podobné pracovní pozice

Infrastructure Engineer

C++ Engineer Mapy.com & FindHub

Hardware engineer

Senior Python Backend Developer pro Seznam Zprávy

Python programátor Lide.cz – vývojář doporučování a ML klasifikátorů

Zajímá vás tato pozice?