A.I – “Capete Vorbitoare” realiste folosind doar înregistrari audio și o fotografie

Avatar, Femeie

Autor: byrev | November 22, 2023

DIverse yet Realistic Facial Animations, sau DIRFA, este un program bazat pe inteligență artificială care folosește o înregistrare audio și o fotografie și produce un videoclip 3D care arată persoana mimand animații faciale realiste și consistente, sincronizate cu audio-ul vorbit.

O echipă de cercetători de la Universitatea Tehnologică Nanyang, Singapore (NTU Singapore) a dezvoltat un program computerizat care creează videoclipuri realiste care reflectă expresiile faciale și mișcările capului persoanei care vorbește, necesitând doar o înregistrare audio și o fotografie a feței persoanei.

DIverse-yet-Realistic-Facial-Animations-NTU
A team of researchers from the NTU

DIverse yet Realistic Facial Animations, sau DIRFA, este un program bazat pe inteligență artificială ce foloseste o inregistrare audio plus o fotografie și produce un videoclip 3D care arată persoana demonstrând animații faciale realiste și consistente, sincronizate cu audio-ul vorbit.

Programul dezvoltat de NTU îmbunătățește abordările existente, care se confruntă cu variații de postură și control emoțional.

Pentru a realiza acest lucru, echipa a antrenat DIRFA cu peste un milion de clipuri audiovizuale de la peste 6.000 de persoane derivate dintr-o bază de date open-source numită The VoxCeleb2 Dataset pentru a prezice indicii din vorbire și a le asocia cu expresii faciale și mișcări ale capului.

Cercetătorii au spus că DIRFA ar putea duce la noi aplicații în diverse industrii și domenii, inclusiv în domeniul sănătății, deoarece ar putea permite asistenți virtuali și chatboți mai sofisticați și mai realiști, îmbunătățind experiențele utilizatorilor. De asemenea, ar putea servi ca un instrument puternic pentru persoanele cu dizabilități de vorbire sau faciale, ajutându-le să transmită gândurile și emoțiile lor prin avatare expresive sau reprezentări digitale, îmbunătățindu-le capacitatea de a comunica.

Autorul corespondent, profesorul asociat Lu Shijian, de la School of Computer Science and Engineering (SCSE) de la NTU Singapore, care a condus studiul, a declarat:

“Impactul studiului nostru ar putea fi profund și de amploare, deoarece revoluționează domeniul comunicării multimedia prin permiterea creării de videoclipuri extrem de realiste cu persoane care vorbesc, combinând tehnici precum AI și învățarea automată. Programul nostru se bazează și pe studii anterioare și reprezintă un progres în tehnologie, deoarece videoclipurile create cu programul nostru sunt complete cu mișcări precise ale buzelor, expresii faciale vii și posturi naturale ale capului, folosind doar înregistrările lor audio și imaginile statice.”

Primul autor, Dr. Wu Rongliang, absolvent al doctoratului la SCSE de la NTU, a declarat:

“Vorbirea prezintă o multitudine de variații. Individuii pronunță aceleași cuvinte diferit în contexte diverse, cuprinzând variații de durată, amplitudine, ton și altele. Mai mult, dincolo de conținutul său lingvistic, vorbirea transmite informații bogate despre starea emoțională a vorbitorului și factori de identitate precum sexul, vârsta, etnia și chiar trăsăturile de personalitate. Abordarea noastră reprezintă un efort de pionierat în îmbunătățirea performanțelor din perspectiva învățării reprezentării audio în AI și învățarea automată.”

Dr. Wu este cercetător științific la Institutul pentru Cercetarea Infocomm, Agenția pentru Știință, Tehnologie și Cercetare (A*STAR), Singapore.

Concluziile au fost publicate în revista științifică Pattern Recognition în august.

via: https://www.ntu.edu.sg/

© 2023 ScurtPeDoi.ro - Toate drepturile rezervate.