menu icon

visual triangle
Blog article image

Vývoj AI aplikace: interaktivní osobnosti

Dostali jsme příležitost realizovat zajímavý projekt, jehož cílem bylo vytvořit webovou aplikaci umožňující komunikaci s imitací osobnosti pomocí AI. Naším záměrem bylo zjistit, zda je možné vytvořit simulaci, kde by uživatel mohl klást otázky buď textem, nebo hlasem, a dostával by odpovědi v reálném čase – a to nejen textové, ale i hlasové a vizuální, včetně animovaného obličeje. Pro tento účel jsme měli použít historickou postavu Alberta Einsteina.

Naším cílem bylo vytvořit prototyp, který by během krátkého času ukázal, zda je projekt realizovatelný a jaké technologie by k tomu byly potřeba. Zároveň jsme chtěli zjistit, jak složité bude naučit datový model rozumět informacím o konkrétní historické osobnosti a jak kvalitní může být výsledná imitace jejího hlasu a chování.

Nakonec se nám podařilo vytvořit funkční prototyp, který zvládá komunikovat hlasově i textově, přičemž odpovědi jsou doprovázeny videem s pohybujícími se ústy Einsteina. Tento koncept má široký potenciál využití například v muzeích, školách nebo webových či mobilních aplikacích, kde by lidé mohli komunikovat s historickými postavami a dozvídat se nové informace interaktivní formou.

Vývoj AI aplikací

Cíle projektu

Úkolem bylo vytvořit Proof of Concept (PoC) aplikace, která umožní komunikaci s historickou osobností prostřednictvím umělé inteligence. V našem případě jsme se zaměřili na Alberta Einsteina.

Projekt probíhal v rámci přiděleného rozpočtu 10 MD (odpovídající 80 hodinám práce), během kterých jsme zkoumali technologické možnosti a dodali funkční prototyp. Tento prototyp ukázal, že je možné vytvořit aplikaci kombinující několik prvků:

  • AI osobnost z minulosti: Vizualizace Einsteina byla vytvořena na základě fotografie, která se v reálném čase hýbe (pohybuje ústy) při odpovídání na dotazy uživatele.
  • Textový a hlasový vstup: Uživatel měl mít možnost položit dotaz textem nebo hlasem, na který by Einstein odpověděl syntetizovaným hlasem.
  • Syntéza hlasu: Bylo potřeba napodobit Einsteinův hlas. Použili jsme nahrávky jeho projevů k tréninku modelu.
  • Nízká odezva odpovědí: Cílem bylo dosáhnout co nejkratší latence, aby konverzace co nejvíce připomínala rozhovor mezi dvěma reálnými osobami.
  • Znalostní báze: Einsteinova AI musela být schopná odpovídat na otázky týkající se jeho života, vědecké kariéry a historického kontextu. Bylo nutné aplikovat prompt engineering a nastavit limity, aby odpovědi odpovídaly skutečné historické osobě a jejím názorům. Také jsme omezili systémový prompt na vyhnutí se citlivým tématům.

Hlavní otázky a cíle, které jsme během vývoje PoC řešili, byly:

  • Je takový projekt realizovatelný? Jaké technologické překážky se mohou objevit?

  • Kolik práce bude potřeba pro kompletní dokončení projektu?

  • Jaké budou provozní náklady?

  • Jaká je příprava výstupní dokumentace a doporučení pro případné investory?

Použité technologie

K vývoji prototypu jsme využili kombinaci několika nástrojů a API. Pro datový model jsme použili GPT-3.5 Turbo, který byl dostatečně výkonný pro naše potřeby a dokázal poskytovat rychlé a relevantní odpovědi. Tento model je natrénovaný na veřejných datových sadách a díky obrovskému množství dostupných informací o Einsteinovi dokázal velmi přesně odpovídat na otázky týkající se jeho života, práce a historického kontextu.

K převodu hlasu jsme použili OpenAI API s modelem whisper-1 pro rozpoznání mluvené řeči a její převod do textové podoby.

Pro syntézu hlasu a generování videa, ve kterém se Einsteinova tvář pohybuje, jsme využili službu D-iD API. Tato služba nám umožnila oživit statickou fotografii, simulovat pohyb úst při mluvení a generovat syntetizovaný klonovaný hlas. Klon hlasu Einsteina byl natrénován na veřejně dostupné nahrávce jeho anglického projevu.

Implementace prototypu a výsledky

Vytvořili jsme funkční prototyp, který umožňoval komunikaci prostřednictvím textového i hlasového vstupu a výstupu, doplněného o video napodobující Einsteinovu tvář při mluvení. Klíčové funkce prototypu zahrnovaly:

  • Kvalita hlasových nahrávek: Hlasová nahrávka, kterou jsme použili pro trénink modelu, byla relativně krátká a obsahovala šum. Kvůli přítomnosti šumu český hlas občasně vykazoval nedokonalosti, což je pochopitelné, protože vstupní nahrávka byla v anglickém jazyce.

  • Latence při složitějších otázkách: Zatímco kratší odpovědi byly rychlé, u složitějších dotazů jsme zaznamenali mírné zpoždění, které mohlo působit méně přirozeně a narušovat plynulost konverzace.

  • Vizuální problémy: Při přechodech mezi začátkem a koncem řeči bylo možné zaznamenat drobná probliknutí. Přesto byl celkový vizuální dojem velmi dobrý.

Náklady na provoz

Pro plnou realizaci projektu jsme identifikovali několik klíčových nákladových položek:

  • API služby

    • D-iD API: Tato služba byla využita pro generování videa i zvuku, včetně pohybujících se úst postavy. 

    • OpenAI API: Používali jsme jej pro převod hlasu na text (speech-to-text) a pro jazykové modely. Náklady se odvíjejí od délky hlasového vstupu.

  • Další služby: Pro případné další historické či současné postavy je třeba počítat s náklady na nahrávání nebo nalezení kvalitních nahrávek a fotografií pro vytvoření věrné imitace.

  • Náklady na vývoj produkčního řešení a údržbu.

Právní otázky

Při realizaci projektu bylo nutné zvážit právní aspekty spojené se simulací žijících či zesnulých osob:

  • Použití hlasu a podoby skutečné osoby: Při použití hlasu či podoby reálné osoby je třeba zohlednit práva na ochranu osobnosti. V mnoha zemích, včetně České republiky a USA, může být napodobování hlasu a podoby chráněno autorským zákonem, a to i po smrti osoby (až 70 let).

  • Vodoznak AI: Pro etické a právní účely vygenerované video obsahovalo vodoznak s označením „AI“, který jasně signalizoval, že se nejedná o skutečné video dané osoby. Tento krok může snižovat riziko právních sporů.

Projekt zahrnoval simulaci Einsteinova hlasu a podoby, přičemž jsme vycházeli z veřejně dostupných materiálů. Pro budoucí nasazení bychom však doporučili detailní právní analýzu, protože práva známých osob mohou být chráněna i po jejich smrti.

Možnosti dalšího rozvoje

Po úspěšném vytvoření Proof of Concept jsme identifikovali další oblasti, kde by bylo možné projekt dále rozvíjet a vylepšovat:

  • Přidání dalších historických osobností

    • Každá nová osobnost by měla mít specifický systémový příkaz, který by omezoval odpovědi na relevantní témata týkající se jejího života a doby, ve které žila. Tím bychom zajistili, že odpovědi budou autentické a odpovídající historickým faktům.

  • Vylepšení kvality hlasové imitace

    • Pro zlepšení kvality imitace hlasu by bylo vhodné získat delší a kvalitnější nahrávky řeči osob, které budeme napodobovat. Delší vzorky hlasu by vedly k plynulejším a přesnějším výstupům, zejména při použití více jazyků.

    • Integrace s nástroji jako ElevenLabs by mohla pomoci s detailnějším nastavením hlasu, včetně emocí a rychlosti řeči, což by zvýšilo realističnost a kvalitu zvuku.

  • Optimalizace latence a zlepšení výkonu

    • I když byla doba odezvy většinou přijatelná, další optimalizace by mohla zkrátit prodlevu, zejména při složitějších otázkách. Rychlejší výpočetní kapacity by mohly zlepšit plynulost interakce a zvýšit uživatelský komfort.

  • Integrace do různých platforem

    • Muzea a vzdělávací instituce: Aplikace by mohla být nasazena v muzeích, kde by návštěvníci mohli komunikovat s historickými osobnostmi. Tím by se obohatily výstavy a poskytly interaktivní možnosti pro získávání informací.

    • Webové aplikace a mobilní aplikace: Tuto technologii by bylo možné snadno integrovat do webových stránek nebo mobilních aplikací, kde by uživatelé mohli vést rozhovory s historickými postavami z pohodlí domova. Výhodou by bylo snadné použití a široká dostupnost této technologie.

  • Zlepšení vizualizace a plynulejší animace

    • Přestože vizuální napodobení obličeje a pohybů úst Einsteina bylo úspěšné, je zde prostor pro zlepšení plynulosti videa, zejména při přechodech mezi jednotlivými odpověďmi. Plynulejší animace by posílily dojem z interakce a zlepšily celkovou uživatelskou zkušenost.

Závěr

Projekt byl zaměřený na vytvoření simulace komunikace s historickou osobností pomocí AI. Ověřili jsme, že aktuální AI nástroje dokážou skombinovat jazykové modely, syntézu hlasu a generování videa pro tvorbu interaktivních zážitků v reálném čase. Pomocí AI je nyní možné vytvářet realistické a dynamické konverzace, které nejen informují, ale také pobaví.

V průběhu projektu se objevilo několik výzev, zejména v oblasti hlasové imitace a vizuální plynulosti. Tyto výzvy však představují příležitost pro další rozvoj, kde by bylo možné zlepšit kvalitu imitace hlasu a zkrátit dobu odezvy.

Díky těmto zjištěním věříme, že využití umělé inteligence pro interaktivní komunikaci má potenciál širšího nasazení v různých oborech.