4 月 13 日消息,谷歌 DeepMind 首席執行官 Demis Hassabis 在由領英聯合創始人 Reid Hoffman 共同主持的播客節目 Possible 中透露,谷歌計劃將旗下的 Gemini AI 模型與 Veo 視頻生成模型進行融合,以此提升 Gemini 對物理世界的理解能力。
Hassabis 表示:“我們從一開始就將 Gemini 這一基礎模型打造為多模態模型,因為我們有著構建一個通用數字助手的愿景,這個助手能夠在現實世界中真正為你提供幫助。”
目前,整個 AI 行業正逐漸朝著“全能”模型的方向發展,這些模型能夠理解和整合多種媒體形式。谷歌最新的 Gemini 模型不僅可以生成圖像和文本,還能生成音頻;而 OpenAI 在 ChatGPT 中的默認模型如今也能創建圖像,包括宮崎駿風格的藝術作品。亞馬遜也宣布計劃在今年晚些時候推出一款“任意到任意”的模型。
據IT之家了解,這些“全能”模型需要大量的訓練數據,包括圖像、視頻、音頻、文本等。Hassabis 暗示,Veo 的視頻數據主要來源于谷歌旗下的 YouTube 平臺。他說道:“通過觀看大量的 YouTube 視頻,Veo 2 能夠了解世界的物理規律。”此前,谷歌曾向 TechCrunch 表示,其模型可能會根據與 YouTube 創作者達成的協議,使用“部分”YouTube 內容進行訓練。據報道,該公司去年擴大了服務條款的部分內容,以便獲取更多數據來訓練其 AI 模型。https://www.zhangbenwang.com/工商公司注冊-代理記賬-商標注冊-知識產權資質辦理-賬本網