“小初,請以天宮為主題作首詩吧,?”
“天宮生殿開成,,萬花垂露照初。稠云不掩國志,,飛天當觸明霞,。”
“你能看懂這個視頻嗎,?”
“視頻中,火箭正在發(fā)射,?!?
“小初,圖片中航天員正在干什么,?”
“航天員正穿著航天服站在機械臂上遨游太空,。”
……
7月9日,,在2021世界人工智能大會(WAIC2021)上,,中國科學院自動化研究所所長徐波發(fā)布了自動化所研發(fā)的跨模態(tài)通用人工智能平臺——“紫東太初”?;凇白蠔|太初”平臺打造的虛擬人“小初”在大會現(xiàn)場賺足了眼球,。它不僅能讀懂圖片、看懂視頻,、中文續(xù)寫,、雙語翻譯,而且能吟詩作賦,,生動證明了通過圖片,、文字、語音三種模態(tài)的關聯(lián)與協(xié)同,,可以有效地提升機器的理解和生成能力,,讓AI接近人類想象力,。
“紫東太初”平臺是跨模態(tài)通用人工智能平臺,以多模態(tài)大模型為核心,,基于全棧國產(chǎn)化基礎軟硬件平臺,,可支撐全場景AI應用?!八^跨模態(tài)是指它可以理解語音,、文字和圖片等多種模態(tài)信息;所謂全棧國產(chǎn)化是指這個平臺的底層算力,、模型,、框架等都是自主研發(fā)的?!毙觳ń忉尩?。
多種模態(tài)預訓練模型被廣泛認為是從限定領域的弱人工智能邁向通用人工智能路徑的探索。依托面向超大規(guī)模的高效分布式訓練框架,,自動化所構建了具有業(yè)界領先性能的中文預訓練模型,、語音預訓練模型、視覺預訓練模型,,并開拓性地通過跨模態(tài)語義關聯(lián)實現(xiàn)了視覺,、文本、語音三種模態(tài)統(tǒng)一表示,,構建了三模態(tài)預訓練大模型,,賦予跨模態(tài)通用人工智能平臺多種核心能力。
徐波介紹,,“紫東太初”兼具跨模態(tài)理解和生成能力,。與單模態(tài)和圖片、文字兩種模態(tài)相比,,“紫東太初”采用一個大模型就可以靈活支撐圖片,、文字以及語音的全場景AI應用,具有了在無監(jiān)督情況下多任務聯(lián)合學習,、并快速遷移到不同領域數(shù)據(jù)的強大能力,。
“引入語音模態(tài)后的多模態(tài)預訓練模型,可實現(xiàn)共性圖片,、語音和文字的空間表征和利用,,并突破性地直接實現(xiàn)三模態(tài)的統(tǒng)一表示?!毙觳ㄕf,,特別值得強調的是,該平臺首次讓“以圖生音”和“以音生圖”成為現(xiàn)實,,對更廣泛,、更多樣的下游任務提供模型基礎支撐,,讓AI能夠在視頻配音、語音播報,、標題摘要,、海報創(chuàng)作等更多場景實現(xiàn)應用。
同時,,研發(fā)團隊還提出了弱關聯(lián)三模態(tài)數(shù)據(jù)的語義統(tǒng)一表達,,可同時支持三種或任兩種模態(tài)弱關聯(lián)數(shù)據(jù)進行預訓練,有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本,。
“‘紫東太初’跨模態(tài)通用人工智能平臺包括三大關鍵技術和六大核心能力,。”徐波說,,三大關鍵技術分別是多模態(tài)理解與生成多任務統(tǒng)一建模,、面向國產(chǎn)化軟硬件的高效訓練與部署、多模態(tài)預訓練模型架構設計與優(yōu)化,。六大核心能力則體現(xiàn)為多模態(tài)統(tǒng)一表示與語義關聯(lián),、跨模態(tài)內容轉化與生成、預訓練模型網(wǎng)絡架構設計,、標注受限自監(jiān)督模型學習,、模型適配與分布式訓練、模型輕量化與推理加速,。
徐波表示,,“大數(shù)據(jù)+大模型+多模態(tài)”將改變當前單一模型對應單一任務的人工智能研發(fā)范式,多模態(tài)大模型將成為不同領域的共性平臺技術,,是邁向通用人工智能路徑的探索,具有廣闊的應用前景,。
同時,,全棧國產(chǎn)化通用人工智能平臺的實踐將使人工智能研發(fā)的規(guī)則發(fā)生重大變革并逐漸形成壁壘,對我國實現(xiàn)AI領域科技創(chuàng)新,、占領核心技術高地具有重要的戰(zhàn)略意義,。
(編輯:映雪)
