理大研究發(fā)現(xiàn)感官及運(yùn)動(dòng)信息有助大語(yǔ)言模型表達(dá)復(fù)雜概念
點(diǎn)擊:1565
A+ A-
所屬頻道:新聞中心
香港 -Media OutReach Newswire- 2025年6月9日 - 沒(méi)有聞過(guò)花香、觸摸過(guò)花瓣,或在花園散步過(guò),有可能真正了解什么是「花」嗎?這個(gè)問(wèn)題引發(fā)了不少的哲學(xué)與認(rèn)知科學(xué)爭(zhēng)論;有認(rèn)知理論專家認(rèn)為,親身感受和體驗(yàn)是概念形成的關(guān)鍵,但目前飛速發(fā)展的大語(yǔ)言模型研究卻表明,僅憑語(yǔ)言便有可能建立對(duì)現(xiàn)實(shí)具有意義的真實(shí)表征。
由理大冼為堅(jiān)基金人文與科技講座教授、人文學(xué)院院長(zhǎng)兼理大杭州技術(shù)創(chuàng)新研究院副院長(zhǎng)李平教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì),透過(guò)分析大語(yǔ)言模型和人類在概念表征上的相似度,為語(yǔ)言能在多大程度上推動(dòng)復(fù)雜概念的形成和學(xué)習(xí)提出新見(jiàn)解。
由香港理工大學(xué)(理大)研究人員與合作者組成的團(tuán)隊(duì),透過(guò)分析大語(yǔ)言模型和人類在概念表征上的相似度,為語(yǔ)言能在多大程度上推動(dòng)復(fù)雜概念的形成和學(xué)習(xí)提出了新見(jiàn)解。研究并揭示「具身化訓(xùn)練」(grounding),即為大語(yǔ)言模型提供感官(如視覺(jué))及運(yùn)動(dòng)信息,讓模型能將抽象與具體概念聯(lián)系起來(lái),可以影響其對(duì)復(fù)雜概念的理解并生成接近人類的表征。此研究與俄亥俄州立大學(xué)、普林斯頓大學(xué)及紐約市立大學(xué)的研究人員合作進(jìn)行,成果最近于《Nature Human Behaviour》上發(fā)表。
理大冼為堅(jiān)基金人文與科技講座教授、人文學(xué)院院長(zhǎng)兼理大杭州技術(shù)創(chuàng)新研究院副院長(zhǎng)李平教授領(lǐng)導(dǎo)的研究團(tuán)隊(duì)選取大語(yǔ)言模型ChatGPT(GPT-3.5和GPT-4)和 Google LLMs(PaLM 和 Gemini)所生成的詞匯評(píng)分,并將其與公開(kāi)發(fā)表及經(jīng)過(guò)驗(yàn)證的《格拉斯哥詞匯范本》(Glasgow Norms)和《蘭卡斯特詞匯模板》(Lancaster Norms)數(shù)據(jù)集中近4,500個(gè)詞語(yǔ)的人類評(píng)分進(jìn)行比較。這些評(píng)分涵蓋了非感官運(yùn)動(dòng)領(lǐng)域,包括情感效價(jià)、具體性、可意象性等維度;感官領(lǐng)域,包括視覺(jué)、嗅覺(jué)、聽(tīng)覺(jué)等維度,以及運(yùn)動(dòng)領(lǐng)域,包括腿/腳、嘴巴/喉嚨等維度。
研究團(tuán)隊(duì)以人與人之間的配對(duì)結(jié)果作為基準(zhǔn),首先將個(gè)別人類和大語(yǔ)言模型生成的數(shù)據(jù)進(jìn)行比較,以探究人類與大語(yǔ)言模型的詞匯評(píng)分在上述領(lǐng)域各維度中的相似程度,從中找出大模型和人類在理解不同領(lǐng)域概念上的一致性,例如兩者是否都認(rèn)為某些概念相較其他概念更加具體。然而,這種分析或會(huì)忽略不同維度如何共同影響詞匯的整體表征。以 「pasta」(意大利面)和「 roses」(玫瑰)為例,兩者同樣在嗅覺(jué)維度擁有較高的評(píng)分,但實(shí)際上「pasta」與「roses」遠(yuǎn)遠(yuǎn)不及「pasta」與「noodles」(面)接近,因?yàn)楦拍钪g的相似度需要綜合考慮其外觀和味道。因此,團(tuán)隊(duì)再運(yùn)用了表征相似性分析(representational similarity analysis),將每個(gè)詞匯在各領(lǐng)域多個(gè)范疇的評(píng)分?jǐn)?shù)據(jù)整合成一個(gè)向量(vector),以進(jìn)行更全面的人類與模型比對(duì)。
研究結(jié)果表明大語(yǔ)言模型生成的詞匯表征與人類表征的相似度,在非感官運(yùn)動(dòng)領(lǐng)域最高,感官領(lǐng)域次之,而在運(yùn)動(dòng)領(lǐng)域表現(xiàn)最差。這凸顯了大語(yǔ)言模型在表征人類概念上的局限;模型雖然能夠有效掌握非感官運(yùn)動(dòng)領(lǐng)域的概念,但在理解涉及視覺(jué)外觀、味覺(jué)等感官概念,或需要肢體動(dòng)作體驗(yàn)的運(yùn)動(dòng)概念時(shí),表現(xiàn)明顯較為遜色。其中,動(dòng)作性概念較少被文字完整描述,且高度依賴具身經(jīng)驗(yàn),相對(duì)于色彩一類能從文本數(shù)據(jù)學(xué)習(xí)到的感官概念,對(duì)模型而言更具挑戰(zhàn)性。
根據(jù)研究結(jié)果,研究人員進(jìn)一步檢驗(yàn)具身化訓(xùn)練能否提升大語(yǔ)言模型的表現(xiàn)。他們比較了同時(shí)接受語(yǔ)言及視覺(jué)輸入訓(xùn)練的具身化模型(如GPT-4和Gemini),跟僅接受語(yǔ)言訓(xùn)練的模型(如GPT-3.5和PaLM)之間的差異,結(jié)果發(fā)現(xiàn)結(jié)合視覺(jué)輸入的模型生成的表征與人類表征相似度明顯更高。
李平教授表示:「純語(yǔ)言訓(xùn)練及語(yǔ)言+視覺(jué)輸入(如圖像及視頻等)訓(xùn)練的大語(yǔ)言模型,為研究感官及運(yùn)動(dòng)信息如何影響人類概念形成提供了獨(dú)特的機(jī)遇。我們的研究具體展現(xiàn)了多模態(tài)學(xué)習(xí)的潛在優(yōu)勢(shì),因?yàn)閷?shí)時(shí)整合多種模態(tài)的信息正是人類學(xué)習(xí)和表征的特點(diǎn),如大模型能吸取到這個(gè)特征,就可更趨近人類的認(rèn)知模式以及更如人類行為一樣高效率。」
值得注意的是,這項(xiàng)發(fā)現(xiàn)與以往提出人類表征遷移現(xiàn)象的研究結(jié)果吻合。人類透過(guò)視覺(jué)和觸覺(jué)的多模態(tài)經(jīng)驗(yàn)獲取對(duì)象形狀知識(shí),如當(dāng)我們觀看或觸摸對(duì)象時(shí),大腦中同一區(qū)域會(huì)被激活。研究人員指出,正如人類一樣,經(jīng)過(guò)多模態(tài)輸入訓(xùn)練的大語(yǔ)言模型在接收了多種信息后,或能在連續(xù)的高維度空間中進(jìn)行表征融合或遷移。李教授續(xù)解釋:「大語(yǔ)言模型嵌入空間所具有的平滑及連續(xù)特性或許能解釋為何我們觀察到源自單一模態(tài)的知識(shí)能夠擴(kuò)散至其他相關(guān)模態(tài)。此發(fā)現(xiàn)也可能揭示了先天失明人士與視力正常者之間為何會(huì)在某些領(lǐng)域上有相似表征。目前的大語(yǔ)言模型在這方面還有明顯不足?!?/span>
展望未來(lái),研究團(tuán)隊(duì)指出今后可以透過(guò)類人型機(jī)械人技術(shù)把大語(yǔ)言模型與多模態(tài)數(shù)據(jù)整合,使其能主動(dòng)解讀真實(shí)世界,并作出相應(yīng)行動(dòng)。李教授指:「相關(guān)技術(shù)發(fā)展或?qū)⒋呋笳Z(yǔ)言模型真正實(shí)現(xiàn)具身人工表征,從而更切實(shí)反映出人類認(rèn)知所具有的復(fù)雜性和豐富性,屆時(shí)人們將無(wú)法指出大模型對(duì)玫瑰花的表征與人類的表征有何分別。」
(審核編輯: 光光)
分享