Dostali jsme příležitost realizovat zajímavý projekt, jehož cílem bylo vytvořit webovou aplikaci umožňující komunikaci s imitací osobnosti pomocí AI. Naším záměrem bylo zjistit, zda je možné vytvořit simulaci, kde by uživatel mohl klást otázky buď textem, nebo hlasem, a dostával by odpovědi v reálném čase – a to nejen textové, ale i hlasové a vizuální, včetně animovaného obličeje. Pro tento účel jsme měli použít historickou postavu Alberta Einsteina.
Naším cílem bylo vytvořit prototyp, který by během krátkého času ukázal, zda je projekt realizovatelný a jaké technologie by k tomu byly potřeba. Zároveň jsme chtěli zjistit, jak složité bude naučit datový model rozumět informacím o konkrétní historické osobnosti a jak kvalitní může být výsledná imitace jejího hlasu a chování.
Nakonec se nám podařilo vytvořit funkční prototyp, který zvládá komunikovat hlasově i textově, přičemž odpovědi jsou doprovázeny videem s pohybujícími se ústy Einsteina. Tento koncept má široký potenciál využití například v muzeích, školách nebo webových či mobilních aplikacích, kde by lidé mohli komunikovat s historickými postavami a dozvídat se nové informace interaktivní formou.
Cíle projektu
Úkolem bylo vytvořit Proof of Concept (PoC) aplikace, která umožní komunikaci s historickou osobností prostřednictvím umělé inteligence. V našem případě jsme se zaměřili na Alberta Einsteina.
Projekt probíhal v rámci přiděleného rozpočtu 10 MD (odpovídající 80 hodinám práce), během kterých jsme zkoumali technologické možnosti a dodali funkční prototyp. Tento prototyp ukázal, že je možné vytvořit aplikaci kombinující několik prvků:
- AI osobnost z minulosti: Vizualizace Einsteina byla vytvořena na základě fotografie, která se v reálném čase hýbe (pohybuje ústy) při odpovídání na dotazy uživatele.
- Textový a hlasový vstup: Uživatel měl mít možnost položit dotaz textem nebo hlasem, na který by Einstein odpověděl syntetizovaným hlasem.
- Syntéza hlasu: Bylo potřeba napodobit Einsteinův hlas. Použili jsme nahrávky jeho projevů k tréninku modelu.
- Nízká odezva odpovědí: Cílem bylo dosáhnout co nejkratší latence, aby konverzace co nejvíce připomínala rozhovor mezi dvěma reálnými osobami.
- Znalostní báze: Einsteinova AI musela být schopná odpovídat na otázky týkající se jeho života, vědecké kariéry a historického kontextu. Bylo nutné aplikovat prompt engineering a nastavit limity, aby odpovědi odpovídaly skutečné historické osobě a jejím názorům. Také jsme omezili systémový prompt na vyhnutí se citlivým tématům.
Hlavní otázky a cíle, které jsme během vývoje PoC řešili, byly:
-
Je takový projekt realizovatelný? Jaké technologické překážky se mohou objevit?
-
Kolik práce bude potřeba pro kompletní dokončení projektu?
-
Jaké budou provozní náklady?
-
Jaká je příprava výstupní dokumentace a doporučení pro případné investory?
Použité technologie
K vývoji prototypu jsme využili kombinaci několika nástrojů a API. Pro datový model jsme použili GPT-3.5 Turbo, který byl dostatečně výkonný pro naše potřeby a dokázal poskytovat rychlé a relevantní odpovědi. Tento model je natrénovaný na veřejných datových sadách a díky obrovskému množství dostupných informací o Einsteinovi dokázal velmi přesně odpovídat na otázky týkající se jeho života, práce a historického kontextu.
K převodu hlasu jsme použili OpenAI API s modelem whisper-1 pro rozpoznání mluvené řeči a její převod do textové podoby.
Pro syntézu hlasu a generování videa, ve kterém se Einsteinova tvář pohybuje, jsme využili službu D-iD API. Tato služba nám umožnila oživit statickou fotografii, simulovat pohyb úst při mluvení a generovat syntetizovaný klonovaný hlas. Klon hlasu Einsteina byl natrénován na veřejně dostupné nahrávce jeho anglického projevu.
Implementace prototypu a výsledky
Vytvořili jsme funkční prototyp, který umožňoval komunikaci prostřednictvím textového i hlasového vstupu a výstupu, doplněného o video napodobující Einsteinovu tvář při mluvení. Klíčové funkce prototypu zahrnovaly:
-
Kvalita hlasových nahrávek: Hlasová nahrávka, kterou jsme použili pro trénink modelu, byla relativně krátká a obsahovala šum. Kvůli přítomnosti šumu český hlas občasně vykazoval nedokonalosti, což je pochopitelné, protože vstupní nahrávka byla v anglickém jazyce.
-
Latence při složitějších otázkách: Zatímco kratší odpovědi byly rychlé, u složitějších dotazů jsme zaznamenali mírné zpoždění, které mohlo působit méně přirozeně a narušovat plynulost konverzace.
-
Vizuální problémy: Při přechodech mezi začátkem a koncem řeči bylo možné zaznamenat drobná probliknutí. Přesto byl celkový vizuální dojem velmi dobrý.
Náklady na provoz
Pro plnou realizaci projektu jsme identifikovali několik klíčových nákladových položek:
-
API služby
-
D-iD API: Tato služba byla využita pro generování videa i zvuku, včetně pohybujících se úst postavy.
-
OpenAI API: Používali jsme jej pro převod hlasu na text (speech-to-text) a pro jazykové modely. Náklady se odvíjejí od délky hlasového vstupu.
-
-
Další služby: Pro případné další historické či současné postavy je třeba počítat s náklady na nahrávání nebo nalezení kvalitních nahrávek a fotografií pro vytvoření věrné imitace.
-
Náklady na vývoj produkčního řešení a údržbu.
Právní otázky
Při realizaci projektu bylo nutné zvážit právní aspekty spojené se simulací žijících či zesnulých osob:
-
Použití hlasu a podoby skutečné osoby: Při použití hlasu či podoby reálné osoby je třeba zohlednit práva na ochranu osobnosti. V mnoha zemích, včetně České republiky a USA, může být napodobování hlasu a podoby chráněno autorským zákonem, a to i po smrti osoby (až 70 let).
-
Vodoznak AI: Pro etické a právní účely vygenerované video obsahovalo vodoznak s označením „AI“, který jasně signalizoval, že se nejedná o skutečné video dané osoby. Tento krok může snižovat riziko právních sporů.
Projekt zahrnoval simulaci Einsteinova hlasu a podoby, přičemž jsme vycházeli z veřejně dostupných materiálů. Pro budoucí nasazení bychom však doporučili detailní právní analýzu, protože práva známých osob mohou být chráněna i po jejich smrti.
Možnosti dalšího rozvoje
Po úspěšném vytvoření Proof of Concept jsme identifikovali další oblasti, kde by bylo možné projekt dále rozvíjet a vylepšovat:
-
Přidání dalších historických osobností
-
Každá nová osobnost by měla mít specifický systémový příkaz, který by omezoval odpovědi na relevantní témata týkající se jejího života a doby, ve které žila. Tím bychom zajistili, že odpovědi budou autentické a odpovídající historickým faktům.
-
-
Vylepšení kvality hlasové imitace
-
Pro zlepšení kvality imitace hlasu by bylo vhodné získat delší a kvalitnější nahrávky řeči osob, které budeme napodobovat. Delší vzorky hlasu by vedly k plynulejším a přesnějším výstupům, zejména při použití více jazyků.
-
Integrace s nástroji jako ElevenLabs by mohla pomoci s detailnějším nastavením hlasu, včetně emocí a rychlosti řeči, což by zvýšilo realističnost a kvalitu zvuku.
-
-
Optimalizace latence a zlepšení výkonu
-
I když byla doba odezvy většinou přijatelná, další optimalizace by mohla zkrátit prodlevu, zejména při složitějších otázkách. Rychlejší výpočetní kapacity by mohly zlepšit plynulost interakce a zvýšit uživatelský komfort.
-
-
Integrace do různých platforem
-
Muzea a vzdělávací instituce: Aplikace by mohla být nasazena v muzeích, kde by návštěvníci mohli komunikovat s historickými osobnostmi. Tím by se obohatily výstavy a poskytly interaktivní možnosti pro získávání informací.
-
Webové aplikace a mobilní aplikace: Tuto technologii by bylo možné snadno integrovat do webových stránek nebo mobilních aplikací, kde by uživatelé mohli vést rozhovory s historickými postavami z pohodlí domova. Výhodou by bylo snadné použití a široká dostupnost této technologie.
-
-
Zlepšení vizualizace a plynulejší animace
-
Přestože vizuální napodobení obličeje a pohybů úst Einsteina bylo úspěšné, je zde prostor pro zlepšení plynulosti videa, zejména při přechodech mezi jednotlivými odpověďmi. Plynulejší animace by posílily dojem z interakce a zlepšily celkovou uživatelskou zkušenost.
-
Závěr
Projekt byl zaměřený na vytvoření simulace komunikace s historickou osobností pomocí AI. Ověřili jsme, že aktuální AI nástroje dokážou skombinovat jazykové modely, syntézu hlasu a generování videa pro tvorbu interaktivních zážitků v reálném čase. Pomocí AI je nyní možné vytvářet realistické a dynamické konverzace, které nejen informují, ale také pobaví.
V průběhu projektu se objevilo několik výzev, zejména v oblasti hlasové imitace a vizuální plynulosti. Tyto výzvy však představují příležitost pro další rozvoj, kde by bylo možné zlepšit kvalitu imitace hlasu a zkrátit dobu odezvy.
Díky těmto zjištěním věříme, že využití umělé inteligence pro interaktivní komunikaci má potenciál širšího nasazení v různých oborech.