Opis posla
Tražimo inženjera koji se podjednako dobro snalazi u pripremi podataka i u izgradnji AI sloja proizvoda.
Tvoj posao pokriva ceo put podatka — od sirovog dokumenta do pouzdanog odgovora sistema: pretvaranje dokumenata u čist i dobro strukturisan format, njihovu segmentaciju po definisanoj strukturi, pa sve do izgradnje i podešavanja RAG mehanizma koji nad tim podacima generiše tačne, potkrepljene odgovore.
Tražimo nekoga ko je hands-on i koji razume da kvalitet AI rezultata direktno zavisi od kvaliteta podataka koji ulaze u sistem.
Ključne odgovornosti
- Izgradnja pipeline za unos i obradu dokumenata (PDF, DOCX, skenirani materijali), uz integraciju postojećih OCR i document AI servisa.
- Segmentacija teksta na strukturne jedinice i dosledno povezivanje sa izvorom radi pune sledljivosti.
- Čišćenje, normalizacija i strukturiranje velikog korpusa dokumenata, uključujući dokumente na više jezika, uz kontrolu kvaliteta obrade.
- Dizajn i implementacija RAG mehanizma — od pripreme i indeksiranja podataka do generisanja potkrepljenih odgovora sa citiranjem izvora.
- Definisanje i sprovođenje osnovnih provera kvaliteta RAG rezultata: relevantnost izvora, tačnost citata, konzistentnost odgovora i detekcija nepouzdanih rezultata.
- Rad sa vektorskim bazama i embedding modelima; priprema podataka za knowledge graph u saradnji sa timom.
- Definisanje kada koristiti klasičan kod, AI sloj ili postojeće gotove servise.
- Saradnja sa backend i frontend timom na integraciji AI logike u proizvod.
Potrebne tehničke kvalifikacije
- Solidno iskustvo u Python-u i radu sa bibliotekama za obradu teksta i podataka.
- Praktično iskustvo u NLP pretprocesiranju (čišćenje, tokenizacija, segmentacija teksta).
- Iskustvo sa RAG arhitekturom, LLM-ovima i prompt dizajnom.
- Iskustvo sa vektorskim bazama (pgvector, Qdrant, Weaviate ili sl.) i embedding modelima.
- Razumevanje API-ja i integracija, uključujući korišćenje gotovih OCR / document AI servisa.
- Iskustvo rada sa razvojnim timovima.
Bonus
- Iskustvo sa graf bazama (npr. Neo4j) ili modeliranjem odnosa između podataka.
- Iskustvo sa višejezičkim korpusima i obradom teksta na više jezika.
- Iskustvo u radu sa pravnim, regulatornim ili drugim formalno strukturiranim dokumentima.
- Iskustvo sa izgradnjom data pipeline-a na skali i kontrolom kvaliteta podataka.
- Iskustvo sa SaaS platformama ili sistemima u produkciji.
Nudimo
- Priliku da radiš na AI sistemu koji rešava stvaran, kompleksan problem.
- Rad na celom putu podatka — od sirovog dokumenta do pametnog odgovora sistema.
- Direktan uticaj na arhitekturu i blisku saradnju sa AI, backend i frontend timom.
- Fleksibilnost i rad u malom, fokusiranom timu bez nepotrebne birokratije.
Važno
Tražimo osobu koja je praktično radila i na pripremi podataka i na AI/RAG sloju — nekoga ko ume da uzme haotičan skup dokumenata i pretvori ga u pouzdan temelj za AI sistem, a ne samo da radi nad već očišćenim, gotovim podacima.
TCOM d.o.o. Beograd
Vidska 1A, Beograd, Srbija
PIB: 100136705
Matični broj: 17336959