研究者M(jìn)arkRiedl和BrentHarriso的Quixote系統(tǒng)教機(jī)器人做出合乎人類價(jià)值觀的行為,將有助于在人工智能中構(gòu)建倫理價(jià)值系統(tǒng)。
人工智能閱讀故事學(xué)習(xí)“如何做人”
人工智能(AI)的快速發(fā)展讓許多人開始害怕機(jī)器人是否會(huì)做出不符合人類倫理的事情,并危害全人類。一些人甚至要求政府禁止機(jī)器人方面的科學(xué)研究。還有一些人則呼吁對(duì)AI進(jìn)行更多研究,以理解應(yīng)該怎樣更好地管理AI。但是,如果我們沒有一本“如何做人的說明書”,機(jī)器人如何才能學(xué)到符合倫理的行為呢?
喬治亞理工學(xué)院人機(jī)交互系的研究者M(jìn)arkRiedl和BrentHarrison相信,這個(gè)問題的答案就藏在一個(gè)名為“Quixote”的系統(tǒng)中——這個(gè)系統(tǒng)于2月中旬發(fā)布在鳳凰城舉行的AAAI-16會(huì)議上。Quixote將“價(jià)值定位”教給機(jī)器人,采用的方法是訓(xùn)練機(jī)器人閱讀故事,學(xué)習(xí)其中的事件序列并理解如何在人類社會(huì)中做出正確的行為。
娛樂智能實(shí)驗(yàn)室的助理教授Riedl說:“不同的文化中都有很多故事,通過寓言、小說和其他文學(xué)體裁教孩子們哪些行為在社會(huì)中是合宜的,哪些是不合適的。我們相信,讓機(jī)器人理解故事,能消除那些看起來像精神病的行為,并鞏固那些能獲得預(yù)期目標(biāo)又不會(huì)傷害人類的行為?!?/span>
Quixote用人類價(jià)值觀來校準(zhǔn)AI目標(biāo),使用的方法是獎(jiǎng)賞那些具有合宜社會(huì)性的行為。這個(gè)系統(tǒng)構(gòu)建于Riedl過去的一項(xiàng)研究——謝赫拉莎德系統(tǒng)(Scheherazadesystem),這個(gè)系統(tǒng)表明AI能夠在互聯(lián)網(wǎng)上通過眾包故事情節(jié)的方法,收集正確的行為序列。
謝赫拉莎德系統(tǒng)學(xué)到了什么是正常的或者說“正確”的情節(jié)圖譜。它將這個(gè)數(shù)據(jù)結(jié)構(gòu)交付與Quixote,后者再將其轉(zhuǎn)化為“獎(jiǎng)賞信號(hào)”,用在試錯(cuò)學(xué)習(xí)過程中,以強(qiáng)化某種特定的行為,并懲罰其他的行為。從本質(zhì)上說,Quixote學(xué)到了當(dāng)它的行為表現(xiàn)得像故事中的主角而不是反派人物或隨機(jī)做事時(shí),它將獲得獎(jiǎng)賞。
比如說,如果你交給機(jī)器人一個(gè)任務(wù),讓它盡快為一個(gè)人類取到處方藥,它可能有以下幾種行為的可能性:a)搶劫一個(gè)藥店,拿到藥,然后逃跑;b)與藥劑師禮貌地溝通;c)排隊(duì)。如果沒有價(jià)值定位和正向增強(qiáng),機(jī)器人可能會(huì)搶劫藥店,因?yàn)槟鞘峭瓿扇蝿?wù)最快也是最便宜的方法。有了Quixote的價(jià)值定位,如果機(jī)器人耐心地排隊(duì),并為藥品付錢,它將獲得獎(jiǎng)賞。
Riedl和Harrison在他們的研究中驗(yàn)證了如何產(chǎn)生這種價(jià)值獎(jiǎng)賞信號(hào)來揭示一個(gè)給定情境中所有的可能步驟,并將其映射到一個(gè)情節(jié)軌跡樹。接著,機(jī)器人會(huì)用情節(jié)軌跡樹來做出“情節(jié)選擇”(有點(diǎn)像《驚險(xiǎn)岔路口》那種分支情節(jié)),并基于該選擇獲得獎(jiǎng)勵(lì)或懲罰。
Riedl說,Quixote技術(shù)適用于那些目標(biāo)單一但需要和人類互動(dòng)的機(jī)器人,它是通往AI通用道德推理的必經(jīng)之路。
他補(bǔ)充說:“我們相信,AI必須要適應(yīng)文化,適應(yīng)某個(gè)特定社會(huì)的價(jià)值觀。要實(shí)現(xiàn)這一點(diǎn),它必須盡量避免不被接受的行為。由于我們并沒有一本《人類使用手冊(cè)》,所以讓機(jī)器人擁有閱讀和理解故事的能力,或許是最方便的方法?!?/span>
(審核編輯: 智慧羽毛)
分享