作者:宋嘉吉、金郁欣
AIGC(AI-Generated Content 人工智能生成內(nèi)容)代表新一輪范式轉(zhuǎn)移的開始。近期,硅谷的眾多一線 VC 們開始將目光瞄準(zhǔn) AI 初創(chuàng)公司,尤其是生成式 AI 藝術(shù)這一領(lǐng)域。今年有兩家獨角獸 Stability 和 Jasper 均獲得了超過一億美元的融資,估值突破十億美元。AIGC 賽道火爆不僅得益于技術(shù)進步、商業(yè)應(yīng)用廣泛和需求增長,還歸功于該賽道還處于早期。雖然大型科技公司捕獲了大量價值,初創(chuàng)企業(yè)仍有機會突破。
AIGC 將是 Web3 時代的生產(chǎn)力工具。當(dāng)我們邁入 Web3.0 時代,人工智能、關(guān)聯(lián)數(shù)據(jù)和語義網(wǎng)絡(luò)構(gòu)建,形成人與網(wǎng)絡(luò)的全新鏈接,內(nèi)容消費需求飛速增長。UGC\PGC 這樣的內(nèi)容生成方式將難以匹配擴張的需求。AIGC 將是新的元宇宙內(nèi)容生成解決方案。AIGC 的生成利用人工智能學(xué)習(xí)知識圖譜、自動生成,在內(nèi)容的創(chuàng)作為人類提供協(xié)助或是完全由 AI 產(chǎn)生內(nèi)容。不僅能幫助提高內(nèi)容生成的效率,還能提高內(nèi)容的多樣性。隨著 NLP(Natural Language Processing,自然語言處理)技術(shù)和擴散模型(Diffusion Model)的發(fā)展,AI 不再僅作為內(nèi)容創(chuàng)造的輔助工具,創(chuàng)造生成內(nèi)容成為了可能。由此,將來文字生成、圖片繪制、視頻剪輯、游戲內(nèi)容生成皆可由 AI 替代。
AIGC 技術(shù)主要涉及兩個方面:自然語言處理 NLP 和 AIGC 生成算法。自然語言處理是實現(xiàn)人與計算機之間如何通過自然語言進行交互的手段。AIGC 生成算法主流的有生成對抗網(wǎng)絡(luò) GAN 和擴散模型。擴散模型已經(jīng)擁有了成為下一代圖像生成模型的代表的潛力。它具有精度更高、可擴展性和并行性,無論是質(zhì)量還是效率均有所提升,其快速發(fā)展成為 AIGC 增長的拐點性因素。同時,在機器學(xué)習(xí)的過程中,需要通過大量的訓(xùn)練來實現(xiàn)更準(zhǔn)確的結(jié)果,目前以英偉達 A100 為主,對于底層算力需求將有飛速增長。
AIGC 在文字、圖像、音頻、游戲和代碼生成中商業(yè)模型漸顯。近期我們研究了國內(nèi)外數(shù)十家 AIGC 相關(guān)企業(yè),尤其在一些具備高重復(fù)性的任務(wù)、對于精度要求并不那么高的領(lǐng)域應(yīng)用已逐步成熟,并在探索商業(yè)模式中。目前圖片生產(chǎn)、文字生成較為常見,這類 AIGC 服務(wù)大多數(shù)時候會以提供 SaaS 服務(wù)的形式變現(xiàn)。
AIGC 未來發(fā)展核心:大模型、大數(shù)據(jù)與大算力。結(jié)合自然語言的大模型與數(shù)據(jù)集已成為 AIGC 發(fā)展的軟件基礎(chǔ),OpenAI 的 Clip 模型基于 4 億組高質(zhì)量的英文圖文對應(yīng)數(shù)據(jù)訓(xùn)練而成;算力即權(quán)力將在 AIGC 數(shù)字時代更加凸顯, Stable Diffusion 目前依賴于 4000 個英偉達 A100 的 GPU 集群,運營成本超 5000 萬美金。為了讓功能更加精確,未來還將更多地基于語種去開發(fā)垂直類的應(yīng)用,便于更有目的性地為特定功能進行訓(xùn)練。
AIGC 投資框架:軟硬件與數(shù)據(jù)集。生成算法、NLP 與算力決定 AIGC 能否運行,而高質(zhì)量的數(shù)據(jù)集決定了 AIGC 質(zhì)量與商業(yè)模式。
- 軟件層面主要包括自然語言處理技術(shù):谷歌、微軟、科大訊飛、拓爾思;
- AIGC 生成算法模型及數(shù)據(jù)集:英偉達、Meta、百度、藍色光標(biāo)、視覺中國、昆侖萬維;
- 算力層包括:瀾起科技、中興通訊、新易盛、天孚通信、寶信軟件、中際旭創(chuàng)等。
風(fēng)險提示:技術(shù)創(chuàng)新不及預(yù)期:AIGC 的技術(shù)發(fā)展不及預(yù)期。以及底層硬件技術(shù),如:超級計算機、算力的發(fā)展不及預(yù)期。政策監(jiān)管風(fēng)險:目前 AIGC 還處于相對早期,后續(xù)是否會出臺 AIGC 作品相關(guān)知識版權(quán)或其他法律監(jiān)管條款尚不明確。
1. 2022:AIGC 的崛起之年
近期,硅谷的眾多一線 VC 們開始將目光瞄準(zhǔn) AI 初創(chuàng)公司,尤其是生成式 AI 藝術(shù)這一領(lǐng)域。今年 9 月 23 日,紅杉美國官網(wǎng)發(fā)表了一篇名為《生成式 AI:一個創(chuàng)造性的新世界》的文章,認為 AIGC(AI-Generated Content 人工智能生成內(nèi)容)會代表新一輪范式轉(zhuǎn)移的開始。
2022 年 10 月,英國開源人工智能公司 Stability AI 宣布獲得 1.01 億美元融資,估值高達 10 億美元,躋身獨角獸行列,由 Coatue、Lightspeed Venture Partners 和 O’Shaughnessy Ventures LLC 參與投資。Stability AI 今年發(fā)布了 Stable Diffusion 的模型,主要用于根據(jù)用戶輸入的文字描述自動生成圖像。Stable Diffusion 的誕生讓 AI 繪畫這個領(lǐng)域愈發(fā)火爆。最近,巴比特正式對外宣布,全面擁抱 AIGC,開始規(guī)?;捎?AI 配圖,其中頭條圖片,全面由 AI 創(chuàng)作。包括但不限于巴比特網(wǎng)站和 APP,微信公眾號、百家號、網(wǎng)易號等自媒體平臺,以及微博等社交媒體賬號。
除了繪畫以外,文字、音頻、視頻均可通過 AI 來生成。
文字:以 Jasper 為例,以 AI 文字生成為主打產(chǎn)品,通過其文字生成功能,用戶可以生成 Instagram 標(biāo)題,編寫 TikTok 視頻腳本、廣告營銷文本、電子郵件內(nèi)容等工作。截止 2021 年,Japer 已擁有超過 70000 位客戶,并創(chuàng)造了 4000 萬美元的收入。
音頻:以 Podcast.ai 為例,作為一個由 AI 生成的博客,每周都會探討一個話題。在第一期節(jié)目中,其通過喬布斯的傳記和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,Play.ht 的語言模型大量訓(xùn)練,最終生成了一段假 Joe Rogan 采訪喬布斯的播客內(nèi)容。
視頻:目前的 AI 技術(shù)不僅可以生成圖片,也能夠生成序列幀,如:《幻覺東京》。經(jīng)過 160 小時,完成 3 萬多張獨立插畫,再進行手動微調(diào)。雖然目前還只是在原腳本和視頻的基礎(chǔ)上,通過 AI 逐幀完成圖片生成的,但看到了 AIGC 參與到視頻創(chuàng)作中的可能。而在諸多垂直類應(yīng)用中,如體育、財經(jīng)等,已經(jīng)可以通過文字直接生成相應(yīng)的短視頻,如果配上虛擬人則可以實現(xiàn)自動播報。相比于單一的虛擬人讀稿,基于 AIGC 生產(chǎn)的內(nèi)容在鏡頭轉(zhuǎn)換、表情動作結(jié)合方面更加逼真、自然。
隨著 NLP(Natural Language Processing,自然語言處理)技術(shù)和擴散模型(Diffusion Model)的發(fā)展,AI 創(chuàng)造生成內(nèi)容成為了可能。此前,內(nèi)容生成主要運用 GAN(Generative Adversarial Network,生成對抗網(wǎng)絡(luò))來實現(xiàn)的,GAN 不同于擴散模型依賴于超大規(guī)模語言模型,因此難以實現(xiàn)通過文字的描述,自主理解內(nèi)容并創(chuàng)造出圖像、視頻等。近年來,隨著擴散模型的成熟,生成方式更接近于人腦的聯(lián)想,AIGC 完成了內(nèi)容創(chuàng)造輔助工具到內(nèi)容創(chuàng)作主體的角色轉(zhuǎn)變。
2. AIGC 是什么?
AIGC 是通過人工智能技術(shù)自動生成內(nèi)容的生產(chǎn)方式。從 Web 1.0 的單向信息傳遞的「只讀」模式到 Web 2.0 的人與人通過網(wǎng)絡(luò)雙向溝通交流的「交互」模式,內(nèi)容的需求在不斷增加。為了滿足這一需求,同時也因為互聯(lián)網(wǎng)的發(fā)展,內(nèi)容的生成從單一的 PGC 演變到了現(xiàn)在的 UGC 并占據(jù)了主要市場。Youtube、Instagram、抖音、快手、B 站上有大量的內(nèi)容來自于 UGC 創(chuàng)作者。當(dāng)我們邁入 Web3.0 時代,人工智能、關(guān)聯(lián)數(shù)據(jù)和語義網(wǎng)絡(luò)構(gòu)建,形成人與機器網(wǎng)絡(luò)的全面鏈接,內(nèi)容消費需求飛速增長,UGC\PGC 這樣的內(nèi)容生成方式將難以匹配擴張的需求。
我們認為,AIGC 將是 Web3 時代全新的內(nèi)容生成工具,同樣,將對現(xiàn)有的短視頻、游戲及廣告行業(yè)帶來巨大的影響。AIGC 的生成利用人工智能學(xué)習(xí)知識圖譜、自動生成,在內(nèi)容的創(chuàng)作為人類提供協(xié)助或是完全由 AI 產(chǎn)生內(nèi)容。不僅能幫助提高內(nèi)容生成的效率,還能提高內(nèi)容的多樣性。
2.1AIGC 發(fā)展簡史
AIGC 的發(fā)展可以大致分為以下三個階段:
- 早期萌芽階段:20 世紀 50 年代—90 年代中期,受限于科技水平,AIGC 僅限于小范圍實驗
- 沉積積累階段:20 世紀 90 年代中期—21 世紀 10 年代中期,AIGC 從實驗向?qū)嵱棉D(zhuǎn)變,受限于算法,無法直接進行內(nèi)容生成
- 快速發(fā)展階段:21 世紀 10 年代中期—現(xiàn)在,深度學(xué)習(xí)算法不斷迭代,AI 生成內(nèi)容種類多樣豐富且效果逼真
近年來,AIGC 的發(fā)展迅速,從原來作為邊緣側(cè)服務(wù)于企業(yè)、機構(gòu)的角色變?yōu)榱爽F(xiàn)在 C 端零基礎(chǔ)用戶都可以使用的創(chuàng)作工具。開發(fā)側(cè)重點上,AIGC 也從原先用于翻譯、語音合成以及重復(fù)性工作轉(zhuǎn)變?yōu)榱烁⒅貞?yīng)用層面,用戶能夠便捷操作的方向。
2.2技術(shù)
隨著 NLP(Natural Language Processing,自然語言處理)技術(shù)和擴散模型(Diffusion Model)的發(fā)展,AI 不再僅作為內(nèi)容創(chuàng)造的輔助工具,創(chuàng)造生成內(nèi)容成為了可能。
自然語言處理技術(shù) NLP
自然語言處理是實現(xiàn)人與計算機之間如何通過自然語言進行交互的手段。融合了語言學(xué)、計算機學(xué)、數(shù)學(xué),使得計算機可以理解自然語言,提取信息并自動翻譯、分析和處理。在自然語言處理技術(shù)發(fā)展之前,人類只能通過一些固定模式的指令來與計算機進行溝通,這對于人工智能的發(fā)展是一個重大的突破。
自然語言處理最早可以追溯到 1950 年,圖靈發(fā)表論文「計算機器與智能」,提出「圖靈測試」的概念作為判斷智能的條件。這一測試包含了自動語意翻譯和自然語言生成。
自然語言處理技術(shù)可以分為兩個核心任務(wù):
自然語言理解 NLU:希望計算機能夠和人一樣,具備正常人的語言理解能力。過去,計算機只能處理結(jié)構(gòu)化的數(shù)據(jù),NLU 使得計算機能夠識別和提取語言中的意圖來實現(xiàn)對于自然語言的理解。由于自然語言的多樣性、歧義性、知識依賴性和上下文,計算機在理解上有很多難點,所以 NLU 至今還遠不如人類的表現(xiàn)。
自然語言理解跟整個人工智能的發(fā)展歷史類似,一共經(jīng)歷了 3 次迭代:基于規(guī)則的方法、基于統(tǒng)計的方法和基于深度學(xué)習(xí)的方法。
自然語言生成 NLG:將非語言格式的數(shù)據(jù)轉(zhuǎn)換成人類可以理解的語言格式,如文章、報告等。NLG 的發(fā)展經(jīng)歷了三個階段,從早期的簡單的數(shù)據(jù)合并到模板驅(qū)動模式再到現(xiàn)在的高級 NLG,使得計算機能夠像人類一樣理解意圖,考慮上下文,并將結(jié)果呈現(xiàn)在用戶可以輕松閱讀和理解的敘述中。自然語言生成可以分為以下六個步驟:內(nèi)容確定、文本結(jié)構(gòu)、句子聚合、語法化、參考表達式生成和語言實現(xiàn)。
NLP 主要被應(yīng)用在四個方面:
- 情感分析:互聯(lián)網(wǎng)上存在大量的信息,表達的內(nèi)容都是多種多樣的,但抒發(fā)的感情大致可以分為正面和負面的,可以被用來快速了解用戶的輿情情況。
- 聊天機器人:近年來,智能家居的發(fā)展和普及使得聊天機器人的價值擴大。
- 語音識別:微信中可以通過語音進行輸入或直接將語音轉(zhuǎn)化為文字,汽車導(dǎo)航可以直接說目的地,大大提升了便利性。
- 機器翻譯:機器翻譯的準(zhǔn)確率在近年大幅提高,youtube 和 netflix 甚至可以做到視頻機器翻譯。
商業(yè)上,NLP 主要被應(yīng)用在一下領(lǐng)域:
- 用于處理財務(wù)、醫(yī)療保健、零售、政府和其他部門手寫或機器建立檔案
- 文字處理工作,如:名稱實體辨識(NER)、分類、摘要和關(guān)聯(lián)擷取。這能將擷取、識別和分析文檔資訊的流程自動化。
- 語意搜尋和資訊擷取和知識圖表建立
- 跨零售、財務(wù)、旅游和其他產(chǎn)業(yè)客戶的交互 AI 系統(tǒng)等。
神經(jīng)網(wǎng)絡(luò),尤其是循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 是當(dāng)前 NLP 的主要方法的核心。其中,2017 年由 Google 開發(fā)的 Transformer 模型現(xiàn)已逐步取代長短期記憶(LSTM)等 RNN 模型成為了 NLP 問題的首選模型。Transformer 的并行化優(yōu)勢允許其在更大的數(shù)據(jù)集上進行訓(xùn)練。這也促成了 BERT、GPT 等預(yù)訓(xùn)練模型的發(fā)展。這些系統(tǒng)使用了維基百科、Common Crawl 等大型語料庫進行訓(xùn)練,并可以針對特定任務(wù)進行微調(diào)。
Transformer 模型是一種采用自注意力機制的深度學(xué)習(xí)模型,這一機制可以按輸入數(shù)據(jù)各部分重要性的不同而分配不同的權(quán)重。除了 NLP 以外,也被用于計算機視覺領(lǐng)域。與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)一樣,Transformer 模型旨在處理自然語言等順序輸入數(shù)據(jù),可應(yīng)用于翻譯、文本摘要等任務(wù)。而與 RNN 不同的是,Transformer 模型能夠一次性處理所有輸入數(shù)據(jù)。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入數(shù)據(jù)是自然語言,則 Transformer 不必像 RNN 一樣一次只處理一個單詞,這種架構(gòu)允許更多的并行計算,并以此減少訓(xùn)練時間。
AIGC 生成模型
近年來,AIGC 的快速發(fā)展歸功于生成算法領(lǐng)域的技術(shù)積累,其中包含了:生成對抗網(wǎng)絡(luò)(GAN)、變微分自動編碼器(VAE)、標(biāo)準(zhǔn)化流模型(NFs)、自回歸模型(AR)、能量模型和擴散模型(Diffusion Model)。可以看到,大模型、大數(shù)據(jù)、大算力是未來的發(fā)展趨勢。我們認為,算法模型的突破是近年來 AIGC 得以快速突破的催化劑,下面將展開介紹一下兩個非常常用的模型,分別是生成對抗網(wǎng)絡(luò)和擴散模型。
生成對抗網(wǎng)絡(luò) GAN(Generative Adversarial Networks)
2014 年,Ian J.Goodfellow 提出了 GAN,是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu),由一個生成網(wǎng)絡(luò)和一個判別網(wǎng)絡(luò)組成。生成網(wǎng)絡(luò)產(chǎn)生「假」數(shù)據(jù),并試圖欺騙判別網(wǎng)絡(luò);判別網(wǎng)絡(luò)對生成數(shù)據(jù)進行真?zhèn)舞b別,試圖正確識別所有「假」數(shù)據(jù)。在訓(xùn)練迭代的過程中,兩個網(wǎng)絡(luò)持續(xù)地進化和對抗,直到達到平衡狀態(tài),判別網(wǎng)絡(luò)無法再識別「假」數(shù)據(jù),訓(xùn)練結(jié)束。
GAN 被廣泛應(yīng)用于廣告、游戲、娛樂、媒體、制藥等行業(yè),可以用來創(chuàng)造虛構(gòu)的人物、場景,模擬人臉老化,圖像風(fēng)格變換,以及產(chǎn)生化學(xué)分子式等等。
其優(yōu)點在于:
- 能更好建模數(shù)據(jù)分布
- 無需利用馬爾科夫鏈反復(fù)采樣,無需在學(xué)習(xí)過程中進行推斷,沒有復(fù)雜的變分下界,避開近似計算棘手的概率的難題
缺點:
- 難訓(xùn)練,不穩(wěn)定。生成器和判別器之間需要很好的同步,但是在實際訓(xùn)練中很容易判別器收斂,生成器發(fā)散。兩者的訓(xùn)練需要精心的設(shè)計。
- 模式缺失 (Mode Collapse) 問題。GANs 的學(xué)習(xí)過程可能出現(xiàn)模式缺失,生成器開始退化,總是生成同樣的樣本點,無法繼續(xù)學(xué)習(xí)。
擴散模型 Diffusion Model
擴散模型是一種新型的生成模型,可生成各種高分辨率圖像。在 OpenAI,Nvidia 和 Google 設(shè)法訓(xùn)練大模型之后,它們已經(jīng)引起了很多關(guān)注?;跀U散模型的示例架構(gòu)包括 GLIDE,DALLE-2,Imagen 和完全開源的穩(wěn)定擴散。擴散模型已經(jīng)擁有了成為下一代圖像生成模型的代表的潛力。以 DALL-E 為例,能夠直接通過文本描述生成圖像,讓計算機也擁有了人的創(chuàng)造力。
擴散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什么近期 AIGC 擁有了開放性的創(chuàng)造力。本質(zhì)上,擴散模型的工作原理是通過連續(xù)添加高斯噪聲來破壞訓(xùn)練數(shù)據(jù),然后通過反轉(zhuǎn)這個噪聲過程來學(xué)習(xí)恢復(fù)數(shù)據(jù)。訓(xùn)練后,我們可以通過簡單地將隨機采樣的噪聲傳遞給學(xué)習(xí)的去噪過程來生成數(shù)據(jù)。
從下圖可以看到,擴散模型是一個潛在變量 (latentvariable) 模型,通過馬爾科夫鏈映射到潛在空間。馬爾可夫鏈?zhǔn)菭顟B(tài)空間中經(jīng)過從一個狀態(tài)到另一個狀態(tài)的轉(zhuǎn)換的隨機過程,下一狀態(tài)的概率分布只由當(dāng)前狀態(tài)決定。在這一過程中逐步添加高斯噪聲來獲得近似的后驗概率 q(? ! |?!”#),其中? # ……? ! 均是潛在變量,并且它們的維度與原圖?$ 一致。
從上圖中我們可以看到,圖片?$ 最終會變?yōu)榧兏咚乖肼暤膱D片?!。而訓(xùn)練擴散模型 的目標(biāo)則是反向這一過程,也就是訓(xùn)練圖中所示的轉(zhuǎn)移概率?%(?!”#|?!)。通過沿著這條線向后遍歷,我們可以生成新的數(shù)據(jù)。
相比于其他模型,擴散模型的優(yōu)勢在于生成的圖像質(zhì)量更高,且無需通過對抗性訓(xùn)練,這使得其訓(xùn)練的效率有所提升。同時,擴散模型還具有可擴展性和并行性。
擴散模型中添加的高斯噪聲是一種概率密度函數(shù)符合正態(tài)分布的函數(shù),當(dāng) AIGC 運用擴散模型來生成內(nèi)容的時候,是通過在一副純白的畫布 ( 隨機白噪聲 ) 上逐步去噪來生成最終的目標(biāo)畫作。即用戶給出的文本描述形容詞,來從一個模糊的概念逐步具象。我們可以簡化為多個正態(tài)分布函數(shù)的疊加,模型選擇其中重疊的區(qū)間輸出,這也是一個逐步縮小范圍的過程。這與人類的思維模式很類似。
簡言之,在 AI 訓(xùn)練階段,我們將數(shù)據(jù)集中上億組圖文對進行訓(xùn)練,提取特征值;生產(chǎn)過程中,通過添加文字描述,引入不同的特征值進行去噪,從而生產(chǎn)一副 AI 理解下的內(nèi)容作品。例如,在當(dāng)我們在腦海中想象一個畫面的時候,比如:一只柯基通過一個小號玩火焰。我們的思維模式也是先有一只柯基,再去想象小號和火焰,最后將這些元素疊加在柯基身上。
簡述完原理以后,我們可以通過目前非常先進的 AI 圖像生成應(yīng)用 DALL-E2 來舉例闡述具體的工作過程:
- 將文本提示輸入到一個經(jīng)過訓(xùn)練能夠?qū)⑻崾居成涞奖硎究臻g的文本編碼器中;
- 通過一個被稱為「先驗」(Prior)的模型,將文本編碼映射到圖像編碼 器中。這一圖像編碼器會捕獲文本編碼包含的信息和語義;
- 圖像編碼器隨機生成一個圖像,這一圖像是該語義信息的視覺表現(xiàn)。
這一個過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來自于 OpenAI 的 Clip 模型,其通過 4 億組文字 – 圖片對進行訓(xùn)練。當(dāng)然,其中的模型訓(xùn)練都是基于英文實現(xiàn),語言的區(qū)別又會給 AIGC 帶來另一重挑戰(zhàn)。
除了上述提到的自然語言處理技術(shù)和 AIGC 生成算法模型以外,超級計算機和算力這些硬件作為基礎(chǔ)設(shè)施也是不可或缺的。在機器學(xué)習(xí)的過程中,需要通過大量的訓(xùn)練來實現(xiàn)更準(zhǔn)確的結(jié)果,這樣的計算量普通的電腦是無法完成的,目前主要由英偉達 A100 構(gòu)建的計算集群完成,而國內(nèi)外的初創(chuàng)企業(yè)也會通過云實現(xiàn)。
2.3當(dāng)我們開始用 AIGC——商業(yè)模式的探索
AIGC 已被廣泛應(yīng)用在文字、圖像、音頻、游戲和代碼的生成當(dāng)中,一些較早創(chuàng)立的企業(yè)已經(jīng)實現(xiàn)了較好的商業(yè)化。尤其在一些具備高重復(fù)性的任務(wù)、對于精度要求并不那么高的領(lǐng)域應(yīng)用較為成熟。隨著 AIGC 技術(shù)的發(fā)展,其適用面將會逐漸擴大。這類 AIGC 服務(wù)的提供商大多數(shù)時候會以提供 SaaS 服務(wù)的形式變現(xiàn)。
文字創(chuàng)作
AIGC 生成文字目前主要被應(yīng)用于新聞的撰寫、給定格式的撰寫以及風(fēng)格改寫。其中,有一家成立還不滿兩年的獨角獸企業(yè) Jasper 在最新一輪的融資里獲得了 1.25 億美元資金,目前估值為 15 億美元。Jasper 成立于 2021 年,是一個 AI 內(nèi)容平臺,允許個人和團隊利用 AI 來創(chuàng)作內(nèi)容,多用于商業(yè)。用戶可以在借助 Jasper 生成具有豐富關(guān)鍵詞、搜索引擎優(yōu)化的原創(chuàng)博客,可以通過文字描述讓 Jasper 幫助完成文章的創(chuàng)作、創(chuàng)建廣告話術(shù)。通過 Jasper 用戶可以尋找創(chuàng)作思路、高效完成文案、突破語言壁壘,而不會存在抄襲的嫌疑。目前,Jasper 擁有 7 萬多名客戶,包括 Airbnb、Ibm 等企業(yè)。僅 2021 年一年便創(chuàng)造了 4000 萬美元的收入,今年預(yù)估收入為 9000 萬美元。
用戶可以通過輸入一段對于目標(biāo)文章的描述或者要求,系統(tǒng)會自動抓取數(shù)據(jù),根據(jù)我們描述的指令進行創(chuàng)作。作者本人進行如下實驗,輸入的描述為【寫一篇關(guān)于 AIGC 的文章,其中要包含 AIGC 的定義、發(fā)展史、應(yīng)用、現(xiàn)階段發(fā)展情況和對于未來發(fā)展趨勢的看法,同時,要包含細節(jié)和舉例】。同時,在風(fēng)格上我選擇了「專業(yè)性」。Jasper 很快就生成了一篇 AIGC 撰寫的 AIGC 文章(如下圖所示),可以看到這篇文章語義通順,按照我們給出的描述逐段闡述,并且包含了一些舉例,這個生成效果無疑會大幅度提升人類的寫作效率。
并且,在 Jasper 的網(wǎng)頁版 APP 上,還給出了數(shù)百種模板,可以根據(jù)需求更好的完成作品。
圖像創(chuàng)作
MidJourney 降低了藝術(shù)繪畫創(chuàng)作的門檻,用戶只需要通過輸入文字描述,計算機將會自動生成一張作品。其背后的邏輯在于計算機通過 NLP 識別語意并翻譯成計算機語言,結(jié)合后臺的數(shù)據(jù)集(這些數(shù)據(jù)集主要通過自有素材或機器人爬取公開版權(quán)的內(nèi)容獲得),創(chuàng)作出一副全新的作品。這樣產(chǎn)生的作品原則上屬于 AI 創(chuàng)作,因此,在新聞媒體等平臺被廣泛使用,不僅減少了成本,同時避免了潛在的版權(quán)糾紛風(fēng)險。除此以外,在抖音、微信等社交平臺上,已經(jīng)有一些數(shù)據(jù)集圖庫博主通過 AIGC 創(chuàng)造素材并結(jié)合自己的私域流量進行商業(yè)變現(xiàn)。
近期,OpenAI 已經(jīng)與全球最大的版權(quán)圖片供應(yīng)商之一的 Shutterstock 達成深度合作,Shutterstock 將開始出售利用 OpenAI 的 DALL-E 生成的圖片,并禁止銷售非 DALL-E 生成的圖片,完成深度獨家綁定。
AIGC 除了大家熟知的生成繪畫以外,還可以利用這一功能完成文字和圖片的互相轉(zhuǎn)換,這在寫專利時可以被用到。
視頻創(chuàng)作
除了繪畫以外,AIGC 也能夠被運用在視頻創(chuàng)作中。Google 推出了 AI 視頻生成模型 Phenaki 能夠根據(jù)文本內(nèi)容生成可變時長視頻的技術(shù),在公布的 DEMO 中,Phenaki 基于幾百個單詞組成一段前后邏輯連貫的視頻只需兩分鐘。相比原有的 Imagen 基礎(chǔ)上衍生的 Imagen Video 瞄準(zhǔn)短視頻,Phenaki 瞄準(zhǔn)的是長視頻。AIGC 視頻中的運用,讓我們看到了未來虛擬人也能夠作為演員在影視劇中扮演不同的角色以提高內(nèi)容產(chǎn)出的效率和多樣性。
音頻剪輯
AIGC 生成音頻早被應(yīng)用于我們的日常生活當(dāng)中。我們常用的手機導(dǎo)航,可以切換不同明星甚至于卡通人物的語音提示。這是通過提前請明星或卡通人物的配音朗讀完成一個語音庫,再通過反復(fù)的訓(xùn)練學(xué)習(xí)使得可以用指定的聲音說出任何話。我們自己也可以通過高德地圖錄制自己的語音導(dǎo)航包。而更深層次的應(yīng)用將會是虛擬人領(lǐng)域,AIGC 不僅可以生成虛擬人的聲音,并可以創(chuàng)造出說的內(nèi)容。虛擬人在未來有望和我們一樣表達自己的想法,靈魂逐步顯現(xiàn)。
游戲開發(fā)
AIGC 在游戲當(dāng)中的應(yīng)用可以分為兩方面,一方面是用于場景和故事的搭建。開放世界游戲越來越受歡迎,通過 AIGC 來創(chuàng)建場景和 NPC 都將會大幅度提升效率和降低成本。另一方面,玩家可以通過 AIGC 的平臺工具來創(chuàng)建自己的虛擬人,可以用于游戲中的打金等活動。有一家叫做 Delysium 的游戲已經(jīng)開始引入這一功能?;蛟S在未來的開放世界游戲中,不同的玩家將對應(yīng)不同的游戲劇情和副本,這無疑將是令人興奮的應(yīng)用。
代碼生成
GitHub Copilot 是一個 GitHub 和 OpenAI 合作產(chǎn)生的 AI 代碼生成工具,可根據(jù)命名或者正在編輯的代碼上下文為開發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來自 GitHub 上公開可用存儲庫的數(shù)十億行代碼的訓(xùn)練,支持大多數(shù)編程語言。
3. AIGC 的未來發(fā)展趨勢
AIGC 是 PGC、UGC 之后,全新的內(nèi)容生產(chǎn)方式。不僅能提升內(nèi)容生產(chǎn)的效率以滿足我們飛速增長的內(nèi)容需求,也能夠豐富內(nèi)容的多樣性。在 2022 年百度世界大會上,李彥宏提到了:「AIGC 將走過三個發(fā)展階段:第一個階段是『助手階段』,AIGC 用來輔助人類進行內(nèi)容生產(chǎn);第二個階段是『協(xié)作階段』,AIGC 以虛實并存的虛擬人形態(tài)出現(xiàn),形成人機共生的局面;第三個階段是『原創(chuàng)階段』,AIGC 將獨立完成內(nèi)容創(chuàng)作。未來十年,AIGC 將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成 AI 原創(chuàng)內(nèi)容。」
3.1 AIGC 面臨的挑戰(zhàn)
技術(shù)上來看,雖然當(dāng)前生成的圖片、文字已經(jīng)可以用以商業(yè)用途,但還存在一些問題使得無法滿足較高的質(zhì)量要求。我們可以發(fā)現(xiàn)在二次元或抽象的圖片生成中,AIGC 的表現(xiàn)較好。但對于比較具體和細節(jié)的內(nèi)容,生成的效果不盡如人意。
下圖是筆者通過 AIGC 生成的一副「美女與布偶貓」的圖片,從這一張圖片我們可以發(fā)現(xiàn)有兩個問題:
- 其中有兩幅圖片的貓咪眼睛很奇怪,在這些細節(jié)描繪上還無法和真人畫師媲美。
- 輸入的關(guān)鍵詞是「美女」與「布偶貓」,但是生成的「美女」均長著一張貓臉,從這里反映出 AIGC 繪畫會出現(xiàn)一些空間位置以及數(shù)量上的偏差。產(chǎn)生的原因主要還是來源于語義理解和處理上的問題。
與此同時,參考上文中的圖表 23,我們可以發(fā)現(xiàn)不同的應(yīng)用平臺,輸入幾乎一致信息點的文本,生成的圖片的質(zhì)量和內(nèi)容差距是巨大的。
那么造成以上的這些問題和差距的原因在哪里呢?我們依舊可以從 AIGC 的工作原理上來分析:
- 自然語義的理解在處理一些空間關(guān)系上還存在一定的誤差,這也是為什么在空間位置、數(shù)量上存在不精確的問題。
- 目前文本生成圖像時,需要用到文本編碼器將文字映射到圖像上。當(dāng)前主流的、訓(xùn)練完善的是來自與 OpenAI 的 Clip 模型,其函數(shù)是開源的,但訓(xùn)練的數(shù)據(jù)集是封閉的。AIGC 需要大量的良好畫質(zhì)的文本 – 圖片對才能訓(xùn)練到 Clip 這樣的程度。從 Clip 本身公開的信息來看,它使用了超 4 億個文本 – 圖片對來完成訓(xùn)練,這些都是基于英文的。那么存在以下幾個問題:1、億級別的高質(zhì)量的文本 – 圖片對在于其他的語言上獲得的難度大幅提高,這也是為什么目前大多除英語外的其他語言的 AIGC 都是需要在整個流程前增加一步翻譯。這一步不但涉及語義理解,還包含了文化、語言習(xí)慣等潛在的因素,很難被精確翻譯,對于翻譯模型的挑戰(zhàn)很大。2、Clip 的模式很難復(fù)刻,即使運用 Clip 開源的函數(shù),基于不同的數(shù)據(jù)庫訓(xùn)練出的結(jié)果不同。據(jù)我們了解,海外有團隊運用了 20 億的文本 – 圖片對才接近復(fù)刻了 Clip;
- 運用的 AIGC 生成算法不同也會導(dǎo)致產(chǎn)生的內(nèi)容的差距;
- 數(shù)據(jù)集的質(zhì)量、合規(guī)性、風(fēng)格偏向都會決定生成的內(nèi)容質(zhì)量。
以上,我們可以看到若要使得 AIGC 生成的內(nèi)容真正高效地被運用在商業(yè)層面,那么自然語言處理、翻譯模型、生成算法和數(shù)據(jù)集這些細分賽道都還有很大的進步空間。
3.2 未來的發(fā)展方向
在上文中,我們了解到從應(yīng)用軟件方面,自然語言處理、翻譯模型、生成算法和數(shù)據(jù)集這些細分賽道都還有很大的進步空間。更深入地來看,以上這些的發(fā)展需要依托于算力、數(shù)據(jù)的支持。所以未來的發(fā)展重點將更著力于大模型、大數(shù)據(jù)和大算力的方向去發(fā)展。同時,為了讓功能更加精確,將會更多地去開發(fā)一些垂直類的應(yīng)用,畢竟垂直類的應(yīng)用可以更有針對性地為特定功能進行訓(xùn)練,成本相對較低。
投資策略:AIGC 的軟硬件與數(shù)據(jù)集
從 PGC 到 UGC 再到 AIGC,AIGC 能讓人類突破內(nèi)容生產(chǎn)力枷鎖,高效率生成高質(zhì)量內(nèi)容,讓人類進入到真正的元宇宙之中。若要 AIGC 能夠滿足元宇宙的需求,獨立完成高質(zhì)量、高精度的內(nèi)容,AIGC 技術(shù)層面還需要一定的發(fā)展,我們可以分為軟硬件兩個維度看,軟件層面主要包括自然語言處理技術(shù)、AIGC 生成算法模型和數(shù)據(jù)集,硬件層面主要是算力、通信網(wǎng)絡(luò)。
從業(yè)務(wù)層面看,結(jié)合國內(nèi)外發(fā)展情況,目前在 AIGC 的知識產(chǎn)權(quán)歸屬方面尚有法律空缺,且創(chuàng)作倫理問題也未得到有效解決,因此無論是技術(shù)還是商業(yè)層面,高質(zhì)、干凈的數(shù)據(jù)集對于模型訓(xùn)練及內(nèi)容生成均有至關(guān)重要的影響。同時,隨著 AIGC 逐步落地,其算力需求將大增,未來相關(guān)企業(yè)除用云計算之外,或組建自有算力集群,考慮到英偉達 A100、H100 出口受限,相關(guān)國產(chǎn)算力芯片將有機會獲得增量市場。
從主題投資的角度看,區(qū)塊鏈、元宇宙、Web3 均描述了數(shù)字經(jīng)濟時代中宏大的應(yīng)用場景,而去年被資本市場關(guān)注的虛擬人、NFT 等只是其中的具體應(yīng)用之一。我們認為,AIGC 將是推動數(shù)字經(jīng)濟從 Web2 向 Web3 升級的重要生產(chǎn)力工具:一方面,其對現(xiàn)有的殺手級應(yīng)用——短視頻、游戲等具有顛覆式影響,或進一步擴大內(nèi)容量、提高成癮性,同時對社交和廣告提供新的工具;另一方面,Web3 開放、共建的價值觀下,UGC、AIGC 的內(nèi)容會更具吸引力,二次創(chuàng)作、開放想象的浪潮將來臨。目前 AIGC 已成為硅谷最新熱門方向,國內(nèi)一級市場、互聯(lián)網(wǎng)大廠等對 AIGC 應(yīng)用關(guān)注度也在快速提升中。
風(fēng)險提示
技術(shù)創(chuàng)新不及預(yù)期:AIGC 的技術(shù)發(fā)展不及預(yù)期。以及底層硬件技術(shù),如:超級計算機、算力的發(fā)展不及預(yù)期。
政策監(jiān)管風(fēng)險:目前 AIGC 還處于相對早期,后續(xù)是否會出臺 AIGC 作品相關(guān)知識版權(quán)或其他法律監(jiān)管條款尚不明確。
本文節(jié)選自國盛證券研究所已于 2022 年 11 月 13 日發(fā)布的報告《國盛區(qū)塊鏈 |AIGC__Web3 時代的生產(chǎn)力工具》,具體內(nèi)容請詳見相關(guān)報告。
2aF85ObxjDQWdHBDGQ9tcHr2kVU says:
nimabi says:
2Z19Ge3DgSgTf1c8FhaMOchYRbp says: