來源:環球網
【環球網科技綜合報道】4月21日消息,微軟亞洲研究院近日發布了一款名為VASA-1的實驗性人工智能工具,它擁有將靜態圖像或繪畫與音頻文件結合,最終生成動態面孔的能力。這一技術能夠根據提供的靜態圖像生成相應的面部表情、頭部動作,甚至能匹配語音或歌曲的嘴唇動作。
研究人員在項目頁面上展示了多個示例,這些視頻的逼真程度足以讓人誤以為是真實的。然而,仔細觀察后可以發現,示例中的嘴唇和頭部動作略顯機械化,且存在輕微的同步問題。
值得注意的是,這項技術有可能被濫用,用于輕松快速地創建真人的深度偽造視頻。微軟研究人員已經認識到這種潛在的風險,并決定在確認該技術“將被負責任地使用并符合適當規定”之前,不發布任何在線演示、API、產品或相關實施細節。
盡管研究人員強調他們的技術可以帶來諸多好處,如增強教育公平、改善溝通障礙者的可及性,甚至為有需要的人提供陪伴和治療支持,但該技術的潛在濫用風險不容忽視。目前,研究人員并未透露是否已計劃采取保護措施,以防止不良行為者將其用于不正當目的,例如制作深度偽造不良內容或進行錯誤信息活動。
據公告中發布的論文顯示,VASA-1是在VoxCeleb2數據集上進行訓練的,該數據集包含從YouTube視頻中提取的超過100萬條名人話語。這一工具不僅適用于真實面孔的訓練,還可以應用于藝術照片,如《蒙娜麗莎》等。
研究人員已將這一技術與安妮·海瑟薇病毒式傳播的李爾·韋恩《狗仔隊》的音頻文件進行了有趣地結合,展示了其獨特的魅力。然而,對于這項技術究竟能做什么,仍存在諸多疑問和關注。