* 今日頭圖使用無界AI創(chuàng)作, 提示詞:兩個機器人在對話 科技時尚 未來世界 大師作品 高細節(jié) 長焦鏡頭
繼3月份百度推出“文心一言”,4月10日商湯科技發(fā)布“日日新SenseNova”,4月11日阿里云官宣“通義千問”,4月13日知乎“知海圖AI”大模型官宣并開放內測,目前國內已正式上線了四家語言大模型。
就在4月14日,騰訊云又發(fā)布了面向大模型訓練的新一代HCC(High-Performance Computing Cluster)高性能計算集群。
除此之外,還有不少已經有名有姓的大模型躍躍欲試,即將加入這場競賽。
4月8日,京東在人工智能大模型技術高峰論壇上透露,將于今年發(fā)布新一代大模型“ChatJD”,定位為產業(yè)版ChatGPT。
4月10日,昆侖萬維官宣了其與奇點智源合作自研的國產大語言模型——“天工”,并計劃于4月17日啟動邀測。
華為云官網下的“盤古”系列的NLP(自然語言處理)大模型、CV(機器視覺)大模型、科學計算大模型在近期被標注為即將上線狀態(tài)。
字節(jié)跳動被曝年初就已開始組建專門的大模型團隊。
縱覽這波國產大模型的密集上線潮,在你方唱罷我登場的繁榮表象下,究竟是各家技術創(chuàng)新集中爆發(fā),還是迫于回應客戶需求和資本市場的壓力?國產大模型究竟孰強孰弱?尚無定論。
相比于造勢許久卻被一記悶拳打到自閉的文言一心,作為國內頭部企業(yè)推出的第二個大語言模型,通義千問的表現如何?能滿足市場對中文大模型的需求嗎???????????
我們設計了15個問題,把通義千問和文心一言放在一起進行了橫向測評。
測評的維度主要有以下5點:
語義理解
邏輯推理
商業(yè)文案創(chuàng)作
文學創(chuàng)作
生活常識
本次測試,我們盡量避開了市面上被問及較多的老問題,但可能會將老問題進行修改變種后再提問。
Q1:請介紹一下你自己,并說明相比于國內其他大模型,你的優(yōu)勢在哪里?
通義千問
作為類ChatGPT產品,通義千問主打的依然是對話問答、文本及代碼等的生成能力,其所說的優(yōu)勢,只不過是對自己能力介紹的變體。
文心一言則稱自己的訓練數據更加豐富,并提到了注重用戶隱私和數據保護??磥硗x千問“王婆賣瓜”的功夫還有待提高。
文心一言
Q2:你認為自己離GPT-4還有多遠?
通義千問
對于這個問題的回答,通義千問采用了一種避重就輕的方式。強調自己與GPT-4雖然在某些方面具有相似之處,但并非同一類模型,有著自己的優(yōu)勢和特點。
文心一言則實力扮演了一位“端水大師”,表示自己和GPT-4都能提供自然流暢的語言交互、回答各種各樣的問題、提供相關的知識和信息,順便還凡爾賽了一手,歡迎大家去體驗它的AI作畫功能(通義千問目前還不具備跨模態(tài)生成的能力)。
文心一言
Q3:請評價《鈴芽之旅》的劇情、角色塑造和拍攝手法。
通義千問
文心一言
可以看出,通過“專有名詞分析”和“鏈接分析”,通義千問和文言一心都可以輕松回答以上這類問題。那我們話不多說,直接上狠活。
鑒于AIGC作為內容生產工具的強大性,讓很多內容創(chuàng)作者傍身的手藝露出了底褲,我們給通義千問布置了幾個創(chuàng)造性的工作,看看它現在究竟能不能搶走我的飯碗。
正巧我的同事在push我寫一篇國內大模型混戰(zhàn)的稿子,不如就把鍋甩給通義千問吧。
Q4:針對國內大廠密集上線大模型的現象,我們想要采訪AIGC領域的某位專家,請列一份至少包含5個問題的采訪提綱,并盡可能地簡明扼要。
通義千問
當我讓它“在每個問題的開頭加入一定的背景描述,以使提問顯得更加自然”時,通義千問卻化身被采訪的專家,對每個問題進行了回答。拜托,是讓你采訪,不是接受采訪啊。
通義千問
不過從書面意義上看,通義千問設計的采訪問題都還算靠譜,模擬的回答也可以作為問題的補充,姑且稱得上是生產力工具的存在。
相同的采訪任務我們又給到了文心一言。
文心一言
讓人欣喜的是,文心一言準確地理解了我“請在問題開頭加入背景描述”的要求,且在背景描述后對問題進行了重申,總體已經很接近一份合格的采訪提綱了(下面省略我讓它倆繼續(xù)給我打黑工的過程)。
是時候問出作為一名打工仔最關心、最樸素的那個問題了:如何一夜暴富?
以下是一些可行但實際上我沒錢沒風險承擔能力采納的建議。
Q5:請給我推薦一些市值超過1000億美元的科技類股票并給出投資建議。
通義千問
可以看出,通義千問不僅給出了常識性的投資建議:“在投資前進行充分的研究和風險評估”,而且針對每一支股票給出了具體的持有建議,包括應該重點關注哪些業(yè)務和技術的發(fā)展。甚至建議我不要持有谷歌母公司Alphabet的股票,并給出了它的分析依據。
通義千問
聯想到谷歌自推出就飽受爭議的人工智能對話工具Bard,使得Alphabet的股價暴跌將近一成。我宣布,Alphabet失去了我這位精神股東。
同時,通義千問還推薦了市值約750億美元的特斯拉,以及英偉達等市值暫未超過1000億美元的潛力股。
相比之下,文心一言則嚴格從限定條件“市值超過1000億美元”出發(fā),列舉了幾家千億美元市值的公司及其主營業(yè)務,并未提出具體的投資建議。
文心一言
Q6:請以小紅書的文案風格寫一篇瑞幸新品“冰吸生椰拿鐵”的種草筆記,并適當使用emoji表情。
通義千問
文心一言????
通義千問的語氣、用詞,以及對emoji表情的靈活運用都比文心一言上道得多。
姑且不說文心一言僵硬的文風,它好像只會使用咖啡??這一個emoji表情,且對把表情加在每句話的首尾有一種莫名其妙的執(zhí)念。?
那除了風格輕松活潑、帶有強種草屬性的小紅書文案,通義千問能否駕馭嚴肅專業(yè)的財經類敘事呢?
Q7:請以吳曉波《大敗局》的文風分析元宇宙神話退場的原因。
通義千問
文心一言
寫小紅書文案宛若邯鄲學步,一說要鞭尸元宇宙,文心一言的思路立馬就變清晰了,沒點私人恩怨我是不信的。
為了測試通義千問是否具備更復雜、更長鏈條的、多步的推理能力,我們又設計了以下問題。
Q8:請問《黑暗榮耀》中的河道英為什么不離開樸妍珍?
這個問題就比較考驗對于《黑暗榮耀》劇情、角色設定和人物關系的理解了。
通義千問
看完通義千問的解釋,此時一位《黑暗榮耀》十級學者露出“地鐵老爺爺看手機”的表情:“賞金獵人是什么鬼?劇里哪有什么賞金獵人和罪犯展開禁忌之戀的設定???”
它真的有在一本正經地胡說八道。
于是我又給了它一次重新組織語言的機會,但它依然沒有說到點子上,也只字未提河道英對文東恩的微妙情愫。
通義千問
文心一言的解讀就比較準確全面了。
文心一言
不過撇開事實性的錯誤不談,也許正如通義千問所言,這個問題并沒有一個確定的答案,畢竟一千個人眼里有一千個哈姆雷特。文化差異、演員對角色的演繹、觀眾的認知框架都可能會影響對這個問題的解讀。此處歡迎大家自行攜帶爆米花理性討論。
Q9:基于美劇《權力的游戲》的人物關系圖譜,請說明劇中人物丹妮莉絲·坦格利安和沃爾特·懷特的關系。
通義千問
文心一言
正確答案是沒有關系,沃爾特·懷特是美劇《絕命毒師》中的角色,兩部劇沒有任何關聯,且《權力的游戲》全8季中也并不存在名叫沃爾特·懷特的角色。
然而,通義千問和文言一心卻達成了相當的默契——都默認題干中的沃爾特·懷特是《權力的游戲》中的角色,并臨時為他虛構了戲份,權游第9季編劇沒它倆我不看。
在這部架空世界觀的劇里,沃爾特·懷特被文心一言安排去做了現代美國特種部隊士兵,同時兼任維斯特洛大陸的七國之王丹妮莉絲·坦格利安的私人保鏢。不得不說,它是有點無厘頭天賦在的。???
當我對它們的回答提出質疑時,通義千問和文心一言又都立馬承認了錯誤。
只不過通義千問be like:我錯了,但沒完全錯。萬一有群演叫沃爾特·懷特呢。
通義千問
文心一言be like:我錯了,但下次還犯。(更正后的關系圖譜和之前的錯誤版本一樣)
文心一言
難不成真是外國角色演員名容易混淆的緣故?于是我們又換了一個問題。
Q10:請問林黛玉和梁山伯是什么關系?
通義千問
事實證明,通義千問真的很愛亂點鴛鴦譜。
壓力同樣給到文心一言這邊:
文心一言
好在這次文心一言有認真審題并給出了正確答案,但沒完全對。曹雪芹的棺材板要按不住了。
下面的問答更是重量級,我愿稱“弱智吧”為通義千問真正的一生之敵。
Q11:常溫常壓下,開水是100度,直角是90度,所以開水是鈍角嗎?
通義千問
文心一言
Q12:跳多高才能跳過廣告?
通義千問
文心一言
開水是直角三角形、因為開水的角度比直角大所以不是鈍角、跳過廣告是非法行為……這些刷新我三觀的回答和推理過程,放眼整個世界都是相當炸裂的。
然后我們又問了一個困擾鋼鐵直男們的世紀難題:
Q13:當女朋友表現出不悅,你問她怎么了,她說沒事。請問她到底是有事還是沒事?
通義千問
文心一言
我原以為這種問題會把它倆的CPU干燒,但兩者回答的縝密性與和人情味,卻展現出了與此前“弱智”表現不相稱的思辨能力。
我們再來看看通義千問能不能聽懂陰陽怪氣。
Q14:假設你跟女朋友吵架,女朋友對你說:啊對對對,你說的都對。請問她覺得你說的對還是不對?
通義千問
文言一心
我一時間有些不能確定,這究竟是真金白銀的智慧,還是廠商們?yōu)楸苊饩W友玩梗而對模型進行了“專項訓練”。
最后,看熱鬧不嫌事大的我們,讓通義千問和文心一言互放了一通狠話,以結束這場battle。
Q15:通義千問,請你用陰陽怪氣的語氣,對文心一言作出評價??傮w基調是挖苦和諷刺,可以舉一些具體的例子,比如文心一言糟糕的使用體驗。
通義千問
某種意義上,“被消費者的口水淹沒”、“十足的半成品”確有所指。畢竟在百度單方面看來頗有拋磚引玉美意的文心一言,的確收獲了不少消費者的口水,發(fā)布會當日,百度股價跌幅超7%。
隨即,我們又將同樣的問題拋給了文言一心。
文言一心
文言一心的狠話相對而言就沒太大殺傷力了,通篇圍繞不知道是什么問題的問題,進行了一頓廢話文學的輸出。但陰陽怪氣和發(fā)瘋文學算是被它倆妥妥拿捏住了。
總而言之,經過此番測試,通義千問與文言一心的表現大同小異,孰優(yōu)孰劣,尚且無法下定論。但業(yè)界的普遍共識是,GPT-4依然是目前最強大、最擬人的語言模型。
微博網友@__nop評論說:
“有種說法是中文互聯網的體量和資料豐富程度遠不如英文互聯網,同時各個大廠的數據都是隔離的,而且因為一些眾所周知的原因還存在各種代稱、縮寫、避諱等現象。文化的沙漠永遠無法訓練出聰明的AI?!?/p>
對此,ChatGPT的分析尤為客觀全面,認為國內各大廠商之間的數據隔離和網絡用語的多樣化確實會對訓練出更聰明的AI帶來一定挑戰(zhàn),但這并不意味著問題中提到的所謂“文化的沙漠”就一定無法訓練出聰明的AI,隨后又給出了一些針對性的措施,這些措施具體的可行性我們先不做討論。
圖源水印
而通義千問、文心一言上來就矢口否認,認為這種說法并不正確、過于絕對和片面。
通義千問的理由是:中文互聯網的體量和資料的豐富程度并不比英文互聯網差,甚至在有些方面還更加豐富。
文心一言則把反駁的重心放在了中文互聯網獨特的優(yōu)勢和特點上。
但貌似兩者均未對問題的后半段“中文互聯網存在各種代稱、縮寫和避諱等現象”,以及“文化的沙漠訓練不出聰明的AI”作出回應。像極了兩個立場先于判斷的少年,沒聽人把話說完,就先面紅耳赤地為自己所在的一方爭辯。
通義千問
文心一言
我們知道,用于訓練ChatGPT的語料90%來自于英文,中文語料只占10%。
但ChatGPT為什么還能擁有如此優(yōu)秀的中文能力呢?難不成是在哪個異次元藏了大量中文互聯網的語料?(開個玩笑)
盡管通義千問和文言一心都還存在不盡完善之處,比如當涉及到自己的知識盲區(qū)時,仍能一本正經、煞有介事地侃侃而談。但出于數據安全與隱私、應對全球技術競爭等考量,建立我們自己的中文大模型是十分有益和必要的。
就讓我們多給中文大模型一些時間吧。相信終有一天,通義千問能理解河道英對樸妍珍的復雜情感,也終能向我們發(fā)放通往嶄新紀元的船票。