Transkryptomat to polskie narzędzie do automatycznej transkrypcji, które ma udowadniać, że technologia AI może radzić sobie z wyzwaniami wykraczającymi daleko poza zwykłe przepisywanie tekstu – od analizy emocji w placówkach medycznych po wsparcie w sprawach rozwodowych. Choć transkrypcja kojarzy się głównie z pracą dziennikarzy czy badaczy, spektrum zastosowań Transkryptomatu okazało się dla samych twórców zaskakująco szerokie. Narzędzie trafia w ręce osób w procesach rozwodowych, które dokumentują kłótnie, a także gmin zobowiązanych ustawą do zapewnienia dostępności obrad.
Dużym wyzwaniem technicznym pozostaje diaryzacja, czyli rozpoznawanie, kto konkretnie wypowiada dane słowa, co jest kluczowe np. przy debatach politycznych. Jak zauważa Wojciech Gilewski: „gdybyś przypisał wypowiedź Grzegorza Brauna Rafałowi Trzaskowskiemu, to byłby straszny skandal polityczny”.
Czy AI wyczuje sarkazm i gniew?
Jednym z najciekawszych wątków rozmowy jest zdolność algorytmów do odczytywania ludzkich emocji. Transkryptomat z powodzeniem realizował projekty dedykowane, np. dla placówek medycznych, gdzie algorytm z ponad 90-procentową skutecznością potrafił ocenić gradację zdenerwowania pacjenta.
Schody zaczynają się przy bardziej subtelnych formach komunikacji:
- sarkazm i ironia: to wciąż ogromne wyzwanie dla modeli językowych opartych na samym audio;
- analiza wideo: Twórcy przewidują, że przyszłość to połączenie analizy dźwięku i obrazu, co pozwoli AI „widzieć” grymasy twarzy towarzyszące sarkazmowi;
- slang i nowomowa: słowa takie jak „six seven” czy specyficzny język gamingowy wymagają ciągłego douczania modeli (fine-tuningu).
Polska technologia w „czerwonym oceanie”
Wojciech i Radek świadomie zdecydowali się na wejście na rynek, który wydaje się nasycony (tzw. czerwony ocean), zamiast szukać całkowicie nowej niszy. Ich przewaga opiera się na trzech filarach:
- lokalizacja danych: infrastruktura znajduje się w Unii Europejskiej, co zapewnia higienę danych osobowych;
- indywidualne podejście: twórcy osobiście angażują się w poprawę jakości trudnych nagrań (szumy, trzaski, nagrania z tramwaju), traktując to jako inwestycję w lojalność klienta;
- optymalizacja kosztów: jako firma bez zewnętrznego finansowania (bootstrapująca), muszą ważyć każdą złotówkę, co wymusza niezwykłą efektywność.
– Dobra obsługa klienta i traktowanie fair klientów jest kluczowe i dla mnie bardzo odkrywcze jako osoby technicznej – tak Radek Baczyński podkreśla znaczenie relacji.
Biznes budowany o 6:00 rano
Transkryptomat nie jest jedynym zajęciem jego twórców – projekt rozwijają po godzinach, wieczorami i w weekendy. Receptą na sukces w takim modelu jest zachowanie tempa i małe, codzienne przyrosty.
– Wstając o 6:00, mam wrażenie, że świat jeszcze śpi, a ja sobie tutaj te 40 minut podłubię, popcham ten wózek do przodu – Wojciech Gilewski przyznaje, że woli pracować rano.
Chcesz dowiedzieć się, jak AI radzi sobie z nagraniami z Twitcha i dlaczego warto promptować w ojczystym języku? Posłuchaj pełnej rozmowy w MamStartup Podcast.