展望未來,我們預(yù)計(jì)生成性AI的趨勢將集中在三個(gè)主要領(lǐng)域:快速而廣泛的技術(shù)進(jìn)步、比預(yù)期更快的數(shù)字化轉(zhuǎn)型,以及對人工智能的社會和全球影響的日益重視。具體來說,我們預(yù)期生成式AI有8個(gè)主要發(fā)展趨勢:

作者:張長旺,圖源:旺知識
1. 多模態(tài)增長

作者:張長旺,圖源:旺知識
多模態(tài)——即一個(gè)生成性AI工具被設(shè)計(jì)為接受多種格式的輸入并生成多種格式的輸出——開始成為消費(fèi)者的首要任務(wù),AI供應(yīng)商也在注意到這一點(diǎn)。
OpenAI是最早通過GPT-4向用戶提供多模態(tài)模型訪問的公司之一,谷歌的Gemini和Anthropic的Claude 3是緊隨其后的幾大模型之一。盡管如此,大多數(shù)AI公司尚未公開提供多模態(tài)模型;即使許多現(xiàn)在提供多模態(tài)模型的公司也對可能的輸入和輸出有重大限制。
在不久的將來,多模態(tài)生成性AI可能會變得不再是一個(gè)獨(dú)特的賣點(diǎn),而是消費(fèi)者對生成性AI模型的期望,至少在所有付費(fèi)的LLM訂閱中是這樣。
此外,預(yù)計(jì)多模態(tài)建模本身將變得更復(fù)雜、更準(zhǔn)確,以滿足消費(fèi)者對一體化工具的需求。這可能看起來像是提高圖像和非文本輸出的質(zhì)量,或者為視頻、文件附件(正如Claude已經(jīng)做到的)和互聯(lián)網(wǎng)搜索窗口小部件(正如Gemini已經(jīng)做到的)等增加更好的功能和特性。
ChatGPT目前允許用戶使用文本(包括代碼)、語音和圖像輸入和輸出,但ChatGPT中沒有內(nèi)置的視頻輸入或輸出功能。這種情況可能很快就會改變,因?yàn)镺penAI正在嘗試其新的文本到視頻生成工具Sora,并可能將其一些功能嵌入到ChatGPT中,就像他們對DALL-E所做的那樣。
