今天,Google 年度開發(fā)者 I/O 大會(huì) 2024 在加利福尼亞州山景城的 Shoreline Amphitheatre 舉行,此次大會(huì)以 Alphabet 首席執(zhí)行官桑達(dá)爾·皮查伊 (Sundar Pichai) 的主題演講拉開序幕。谷歌此前已經(jīng)明確表示,今年的 I/O 大會(huì)將全部圍繞人工智能展開。
這次大會(huì)上,皮查伊宣布了谷歌內(nèi)部的最新技術(shù)進(jìn)展,尤其是圍繞 Gemini 所做的所有工作。
狂卷長文本,Gemini 家族迎來重大更新
“我們希望每個(gè)人都能從 Gemini 所做的事情中受益,”皮查伊說。他還透露了 Gemini 將如何融入谷歌的許多服務(wù)中。人們使用 Google 搜索的方式比以往任何時(shí)候都多,關(guān)鍵字搜索的時(shí)間甚至更長。
大會(huì)一開始皮查伊就宣布了 Gemini 系列大模型的更新。首先是 Gemini 1.5 Pro,可提供 100 萬長文本能力,并且已經(jīng)向全球開發(fā)者開放。
Gemini 1.5 Pro 是在上個(gè)月舉辦的 Google Cloud Next 2024 大會(huì)上發(fā)布的,具有原生音頻理解、系統(tǒng)指令、JSON 模式等。
Gemini 1.5 Pro 能夠使用視頻計(jì)算機(jī)視覺來分析圖像(幀)和音頻(語音)的視頻,這使其具有人類水平的視覺感知。使用深度神經(jīng)網(wǎng)絡(luò),Gemini 1.5 可以以超人的精度識(shí)別圖像(和視頻幀)中的物體、場(chǎng)景和人物。
成本問題一直是大模型開發(fā)的痛中之痛,為了解決這一痛點(diǎn),谷歌 DeepMind 首席執(zhí)行官 Demis Hassabis 宣布推出 Gemini 1.5 Flash 模型,該模型旨在兼顧快速和成本效益。
“Gemini 1.5 Flash 擅長摘要、聊天應(yīng)用程序、圖像和視頻字幕、從長文檔和表格中提取數(shù)據(jù)等,”Google DeepMind 首席執(zhí)行官 Demis Hassabis 此前在博客文章中寫道。 Hassabis 補(bǔ)充說,谷歌創(chuàng)建 Gemini 1.5 Flash 是因?yàn)殚_發(fā)人員需要一個(gè)比 Gemini 1.5 Pro 更輕、更便宜的模型。
Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間,是針對(duì)開發(fā)者的大模型。盡管比 Gemini Pro 輕,但它的功能同樣強(qiáng)大,谷歌表示這是通過“蒸餾”的方式來實(shí)現(xiàn)的,將 Gemini 1.5 Pro 中最重要的知識(shí)和技能轉(zhuǎn)移到較小的模型上。這意味著 Gemini 1.5 Flash 將獲得與 Pro 相同的多模式功能,以及其長上下文窗口(AI 模型一次可以攝取的數(shù)據(jù)量),100 萬個(gè) token。
最大的更新尚未到來——谷歌宣布今年晚些時(shí)候?qū)⒛P偷默F(xiàn)有上下文窗口增加一倍,達(dá)到 200 萬個(gè) token。這將使其能夠同時(shí)處理 2 小時(shí)的視頻、22 小時(shí)的音頻、超過 60,000 行代碼或超過 140 萬個(gè)單詞。

谷歌的 Josh Woodward 詳細(xì)介紹了 Gemini 1.5 Pro 和 Flash 的定價(jià)。Gemini 1.5 Flash 的價(jià)格定為每 100 萬個(gè) token 35 美分,這比 GPT-4o 的每 100 萬個(gè) token 5 美元的價(jià)格要便宜得多。

值得一提的是,此次大會(huì)谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升級(jí)后的 Gemini Advanced 可以處理“多個(gè)大型文檔,總計(jì)最多 1,500 頁,或匯總 100 封電子郵件”。支持 35 多種語言和 150 多個(gè)國家/地區(qū)。而其“即將”推出的功能是能夠“處理一個(gè)小時(shí)的視頻內(nèi)容或超過 30,000 行的代碼庫”。全球最強(qiáng)長文本能力可謂實(shí)至名歸。

該公司還正在開發(fā)名為 Project Astra 的通用 AI 代理。大會(huì)現(xiàn)場(chǎng),Demis Hassabis 展示了 Astra 模型,該模型通過智能手機(jī)攝像頭分析世界,并與用戶進(jìn)行對(duì)話。 Demis Hassabis 表示,他的團(tuán)隊(duì)“一直希望開發(fā)對(duì)日常生活有幫助的通用人工智能代理”。 Project Astra 是這方面進(jìn)展的結(jié)果。
Project Astra 類似一款以取景器作為主界面的應(yīng)用程序。谷歌在演講中展示了一個(gè)人拿著手機(jī),將攝像頭對(duì)準(zhǔn)辦公室的各個(gè)地方,并用語言與其交互:“當(dāng)你看到有東西發(fā)出聲音時(shí),請(qǐng)告訴我。”在這段視頻演示中,Gemini 能識(shí)別各種物體甚至代碼,并實(shí)時(shí)與人類進(jìn)行語音互動(dòng)。
在視頻中,Astra 的反應(yīng)很快。之所以能實(shí)現(xiàn)這一目標(biāo),是因?yàn)檫@些“Agent”“旨在通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時(shí)間線中,并緩存這些信息以進(jìn)行有效回憶,從而更快地處理信息。”
