Blog - Vývoj AI aplikace: interaktivní osobnosti

Dostali jsme příležitost realizovat zajímavý projekt, jehož cílem bylo vytvořit webovou aplikaci umožňující komunikaci s imitací osobnosti pomocí AI. Naším záměrem bylo zjistit, zda je možné vytvořit simulaci, kde by uživatel mohl klást otázky buď textem, nebo hlasem, a dostával by odpovědi v reálném čase – a to nejen textové, ale i hlasové a vizuální, včetně animovaného obličeje. Pro tento účel jsme měli použít historickou postavu Alberta Einsteina.

Naším cílem bylo vytvořit prototyp, který by během krátkého času ukázal, zda je projekt realizovatelný a jaké technologie by k tomu byly potřeba. Zároveň jsme chtěli zjistit, jak složité bude naučit datový model rozumět informacím o konkrétní historické osobnosti a jak kvalitní může být výsledná imitace jejího hlasu a chování.

Nakonec se nám podařilo vytvořit funkční prototyp, který zvládá komunikovat hlasově i textově, přičemž odpovědi jsou doprovázeny videem s pohybujícími se ústy Einsteina. Tento koncept má široký potenciál využití například v muzeích, školách nebo webových či mobilních aplikacích, kde by lidé mohli komunikovat s historickými postavami a dozvídat se nové informace interaktivní formou.

Cíle projektu

Úkolem bylo vytvořit Proof of Concept (PoC) aplikace, která umožní komunikaci s historickou osobností prostřednictvím umělé inteligence. V našem případě jsme se zaměřili na Alberta Einsteina.

Projekt probíhal v rámci přiděleného rozpočtu 10 MD (odpovídající 80 hodinám práce), během kterých jsme zkoumali technologické možnosti a dodali funkční prototyp. Tento prototyp ukázal, že je možné vytvořit aplikaci kombinující několik prvků:

AI osobnost z minulosti: Vizualizace Einsteina byla vytvořena na základě fotografie, která se v reálném čase hýbe (pohybuje ústy) při odpovídání na dotazy uživatele.
Textový a hlasový vstup: Uživatel měl mít možnost položit dotaz textem nebo hlasem, na který by Einstein odpověděl syntetizovaným hlasem.
Syntéza hlasu: Bylo potřeba napodobit Einsteinův hlas. Použili jsme nahrávky jeho projevů k tréninku modelu.
Nízká odezva odpovědí: Cílem bylo dosáhnout co nejkratší latence, aby konverzace co nejvíce připomínala rozhovor mezi dvěma reálnými osobami.
Znalostní báze: Einsteinova AI musela být schopná odpovídat na otázky týkající se jeho života, vědecké kariéry a historického kontextu. Bylo nutné aplikovat prompt engineering a nastavit limity, aby odpovědi odpovídaly skutečné historické osobě a jejím názorům. Také jsme omezili systémový prompt na vyhnutí se citlivým tématům.

Hlavní otázky a cíle, které jsme během vývoje PoC řešili, byly:

Je takový projekt realizovatelný? Jaké technologické překážky se mohou objevit?
Kolik práce bude potřeba pro kompletní dokončení projektu?
Jaké budou provozní náklady?
Jaká je příprava výstupní dokumentace a doporučení pro případné investory?

Použité technologie

K vývoji prototypu jsme využili kombinaci několika nástrojů a API. Pro datový model jsme použili GPT-3.5 Turbo, který byl dostatečně výkonný pro naše potřeby a dokázal poskytovat rychlé a relevantní odpovědi. Tento model je natrénovaný na veřejných datových sadách a díky obrovskému množství dostupných informací o Einsteinovi dokázal velmi přesně odpovídat na otázky týkající se jeho života, práce a historického kontextu.

K převodu hlasu jsme použili OpenAI API s modelem whisper-1 pro rozpoznání mluvené řeči a její převod do textové podoby.

Pro syntézu hlasu a generování videa, ve kterém se Einsteinova tvář pohybuje, jsme využili službu D-iD API. Tato služba nám umožnila oživit statickou fotografii, simulovat pohyb úst při mluvení a generovat syntetizovaný klonovaný hlas. Klon hlasu Einsteina byl natrénován na veřejně dostupné nahrávce jeho anglického projevu.

Implementace prototypu a výsledky

Vytvořili jsme funkční prototyp, který umožňoval komunikaci prostřednictvím textového i hlasového vstupu a výstupu, doplněného o video napodobující Einsteinovu tvář při mluvení. Klíčové funkce prototypu zahrnovaly:

Kvalita hlasových nahrávek: Hlasová nahrávka, kterou jsme použili pro trénink modelu, byla relativně krátká a obsahovala šum. Kvůli přítomnosti šumu český hlas občasně vykazoval nedokonalosti, což je pochopitelné, protože vstupní nahrávka byla v anglickém jazyce.
Latence při složitějších otázkách: Zatímco kratší odpovědi byly rychlé, u složitějších dotazů jsme zaznamenali mírné zpoždění, které mohlo působit méně přirozeně a narušovat plynulost konverzace.
Vizuální problémy: Při přechodech mezi začátkem a koncem řeči bylo možné zaznamenat drobná probliknutí. Přesto byl celkový vizuální dojem velmi dobrý.

Náklady na provoz

Pro plnou realizaci projektu jsme identifikovali několik klíčových nákladových položek:

API služby
- D-iD API: Tato služba byla využita pro generování videa i zvuku, včetně pohybujících se úst postavy.
- OpenAI API: Používali jsme jej pro převod hlasu na text (speech-to-text) a pro jazykové modely. Náklady se odvíjejí od délky hlasového vstupu.
Další služby: Pro případné další historické či současné postavy je třeba počítat s náklady na nahrávání nebo nalezení kvalitních nahrávek a fotografií pro vytvoření věrné imitace.
Náklady na vývoj produkčního řešení a údržbu.

Právní otázky

Při realizaci projektu bylo nutné zvážit právní aspekty spojené se simulací žijících či zesnulých osob:

Použití hlasu a podoby skutečné osoby: Při použití hlasu či podoby reálné osoby je třeba zohlednit práva na ochranu osobnosti. V mnoha zemích, včetně České republiky a USA, může být napodobování hlasu a podoby chráněno autorským zákonem, a to i po smrti osoby (až 70 let).
Vodoznak AI: Pro etické a právní účely vygenerované video obsahovalo vodoznak s označením „AI“, který jasně signalizoval, že se nejedná o skutečné video dané osoby. Tento krok může snižovat riziko právních sporů.

Projekt zahrnoval simulaci Einsteinova hlasu a podoby, přičemž jsme vycházeli z veřejně dostupných materiálů. Pro budoucí nasazení bychom však doporučili detailní právní analýzu, protože práva známých osob mohou být chráněna i po jejich smrti.

Možnosti dalšího rozvoje

Po úspěšném vytvoření Proof of Concept jsme identifikovali další oblasti, kde by bylo možné projekt dále rozvíjet a vylepšovat:

Přidání dalších historických osobností
- Každá nová osobnost by měla mít specifický systémový příkaz, který by omezoval odpovědi na relevantní témata týkající se jejího života a doby, ve které žila. Tím bychom zajistili, že odpovědi budou autentické a odpovídající historickým faktům.

Vylepšení kvality hlasové imitace
- Pro zlepšení kvality imitace hlasu by bylo vhodné získat delší a kvalitnější nahrávky řeči osob, které budeme napodobovat. Delší vzorky hlasu by vedly k plynulejším a přesnějším výstupům, zejména při použití více jazyků.
- Integrace s nástroji jako ElevenLabs by mohla pomoci s detailnějším nastavením hlasu, včetně emocí a rychlosti řeči, což by zvýšilo realističnost a kvalitu zvuku.
Optimalizace latence a zlepšení výkonu
- I když byla doba odezvy většinou přijatelná, další optimalizace by mohla zkrátit prodlevu, zejména při složitějších otázkách. Rychlejší výpočetní kapacity by mohly zlepšit plynulost interakce a zvýšit uživatelský komfort.
Integrace do různých platforem
- Muzea a vzdělávací instituce: Aplikace by mohla být nasazena v muzeích, kde by návštěvníci mohli komunikovat s historickými osobnostmi. Tím by se obohatily výstavy a poskytly interaktivní možnosti pro získávání informací.
- Webové aplikace a mobilní aplikace: Tuto technologii by bylo možné snadno integrovat do webových stránek nebo mobilních aplikací, kde by uživatelé mohli vést rozhovory s historickými postavami z pohodlí domova. Výhodou by bylo snadné použití a široká dostupnost této technologie.
Zlepšení vizualizace a plynulejší animace
- Přestože vizuální napodobení obličeje a pohybů úst Einsteina bylo úspěšné, je zde prostor pro zlepšení plynulosti videa, zejména při přechodech mezi jednotlivými odpověďmi. Plynulejší animace by posílily dojem z interakce a zlepšily celkovou uživatelskou zkušenost.

Závěr

Projekt byl zaměřený na vytvoření simulace komunikace s historickou osobností pomocí AI. Ověřili jsme, že aktuální AI nástroje dokážou skombinovat jazykové modely, syntézu hlasu a generování videa pro tvorbu interaktivních zážitků v reálném čase. Pomocí AI je nyní možné vytvářet realistické a dynamické konverzace, které nejen informují, ale také pobaví.

V průběhu projektu se objevilo několik výzev, zejména v oblasti hlasové imitace a vizuální plynulosti. Tyto výzvy však představují příležitost pro další rozvoj, kde by bylo možné zlepšit kvalitu imitace hlasu a zkrátit dobu odezvy.

Díky těmto zjištěním věříme, že využití umělé inteligence pro interaktivní komunikaci má potenciál širšího nasazení v různých oborech.

Vývoj AI aplikace: interaktivní osobnosti