FaceBook最新研究:我們訓練 AI機器人學習談判,沒想到它還能自己學會「耍詐」!

FaceBook最新研究:我們訓練 AI機器人學習談判,沒想到它還能自己學會「耍詐」!

(圖/shutterstock)

圖片來源:Shutterstock

 

作者 | Mike Lewis

 

你跟女朋友說:「今晚的球賽特別重要,

但是為了陪你我勉強放棄不看!」

實際上今晚比賽的球隊你根本不感興趣,

這樣做只是讓女朋友同意你

明天和哥們喝酒的談判「小伎倆」。

這個「使詐」的技能是不是很熟悉?

而這次,學會這個技能的

是Facebook的討價還價機器人

而且,這還是人家 AI自己獨立學會的技能。
 

繼續看下去...

 

(贊助商連結...)

 

Facebook發布最新研究

他們的AI機器人 自己學會談判

今日凌晨,Facebook發布最新研究,

稱他們訓練的機器人已經 get了談判技能。

而且,有些情況下,

機器人最初假裝對無價值項目感興趣,

只有通過放棄它才能「妥協​​」 

這是人們經常使用的有效談判策略。

這個行為並不是由研究人員編寫的,

而是由機器人發現的,

作為試圖實現目標的方法。

 

生活中,處處是談判

更是過去機器無法學會的技能

每天,從我們醒來的那一刻開始,

我們的生活就是不斷地與人談判:

從討論看什麼電視頻道,

到說服你的孩子吃蔬菜或試圖買菜時獲得更好的價格

所有這些都是共通的,

它們需要復雜的交流和推理技能,

這是計算機所沒有的屬性。

 

迄今為止,現有的chatbots(聊天機器人)上

的工作已經導致系統可以進行短暫的對話,

並執行簡單的任務,如預訂餐廳等。但是,與人們

進行有意義的對話的機器人還是很具有挑戰性的,

因為它需要機器人將其對話的理解

與其對世界的知識相結合,

然後產生一個新句子來幫助實現其目標。

 

 

 Facebook人工智能研究人員

介紹機器人新功能 - 談判能力

今天,Facebook人工智能研究(FAIR)的研究人員

已經開放源代碼,並發表論文,

介紹機器人具有的新功能 - 談判能力。

*https://github.com/facebookresearch/end-to-end-negotiator
 
類似於人們有不同的需求,遇到衝突,

然後談判達成一個商定的妥協,

研究人員已經表明,對於具有不同目標的對話機器人

(實現為端對端訓練的神經網絡)

在達成共同決定或結果的同時,

與其他機器人或人員可以進行從開始到結束的談判。

 

讓機器人完成多議題談判任務

嘗試讓它們 熟悉如何談判

FAIR研究人員研究了多議題談判任務。

對兩個機器人都顯示了相同的項目集合

(比如說兩本書,一個帽子,三個球),

並且被指示他們通過談判把這些物品分配給彼此。

每個機器人都提供自己的價值函數,

它表示對每個類型的項目關心多少

(比如對於機器人1,每個球值得3分)。在生活中,

兩個機器人都不知道其他機器人的價值函數,

必須從對話中推斷出

(如果你說你想要球,那你應該很重視球)。

 

FAIR研究人員創造了許多這樣的談判方案,

始終確保兩位機器人商不可能同時獲得最佳交易。

此外,如果談判進行不下去

(或者不經過10次對話之後的協議),

那這兩個人都只得0分。簡單地說,

談判是至關重要的,良好的談判導致更好的表現。

  

 

關鍵技術創新:對話部署

讓機器人在腦中 模擬出最佳情況

談判同時是語言和推理問題,

其中必須制定意圖,然後口頭實現。

這樣的對話包含合作和對抗的要素,要求機器人

了解和製定長期計劃並產生話語以實現其目標。

FAIR研究人員在構建這樣的長期規劃對話

機器方面的關鍵技術創新是一種稱為對話部署的概念
 
當聊天人可以建立對方(對話者)的心理模型,

提前思考或預測未來談話的方向時,

他們可以選擇避開沒意義的,

混亂的或令人沮喪的交流,從而走向成功的談判。
 
具體來說,FAIR已經開發了對話部署,

作為一種新技術,

其中機器通過將對話模型

推出到對話結束來模擬未來的對話,

從而可以選擇具有最大預期未來獎勵的話語

 

類似的想法

已被用於遊戲環境規劃中

但從未被應用於語言上,

因為語言可能的動作數量要高得多。為了提高效率

研究人員首先產生了一組較小的候選語言來表達

然後對於每個候選語言,

他們反覆模擬對話的完整未來,

以估計它們的成功程度。

該模型的預測精度足夠高,

使得該技術在以下幾個方面大大提高了談判策略:


談判更加努力:

新的機器人與人類進行了長時間的對話,

反過來也會很快接受交易,

這個模型會一直談判直到交易成功。
 

智能機動:

有些情況下,機器人最初假裝對無價值項目感興趣,

最後只有通過放棄它才能「妥協​​」

這是人們經常使用的有效談判策略。

這個行為並不是由研究人員編寫的,

而是由機器人發現的,作為試圖實現目標的方法。

 
創造語句:

雖然神經模型很容易從訓練數據中重複句子,

但這項工作表明,模型能夠在必要時進行泛化。

 

 

為機器人訓練一個方式

教它模仿人的行為來談判

為了訓練協商機器人和進行大規模的定量評估,

FAIR團隊協作收集了一系列人與人之間的談判記錄

這些人被展示了一組物品和每個物品的價值,

每兩個人要討論決定,要怎麼劃分這些物品。

然後研究人員訓練一個遞歸的神經網絡,

通過教它模仿人們的行為來進行談判。

在對話框中的任何點,

模型都試圖猜測人類在這種情況下會說什麼。
 
不同於先前針對目標對話框的工作,

這些模型被訓練成「端到端」,

完全是由人類所做的語言和決定所決定的,

這意味著這種方法

可以很容易地適應其他任務

 

為了超越簡單地模仿人們,

FAIR研究人員允許模型來實現談判的目標。

為了訓練模型實現其目標,

研究人員讓模型進行了數千次的自我談判,

並使用強化學習算法,

當它取得好的結果時給予獎勵。

為了防止算法開發自己的語言,

它也同時訓練模型產生人類語言。
為了評估談判機器人,

FAIR團隊測試他們在網上與人交談。

大多數以前的工作避免與真實的人對話

或在較不具挑戰性的領域工作,

因為學習模型要響應人們所說的各種語言非常困難

 

有趣的是,在實驗中大多數人

沒意識到是在與機器人交談!

有趣的是,在FAIR團隊的實驗中,

大多數人沒有意識到他們是在與機器人交談,

而不是與另一個人交談,這表明機器人

已經學會在這個領域用英語進行流利的對話。

FAIR團隊最好的談判機器人,

使用強化學習和對話的推出,

其性能已經可以和人類談判相媲美。

它取得了更好的交易的頻率,

等同於更糟的交易的頻率,

表明FAIR的機器人不僅可以說英語,

也可以聰明地決定想說什麼。

 

 

強化學習用於對話機器人

監督學習的目的是模仿人類用戶的行為,

但它並沒有明確地試圖實現機器人的目標。

FAIR團隊採用另一種方​​法,

嘗試預訓練再加監督學習,然後基於評估指標,

利用強化學習對模型進行微調。實際上,

他們使用監督學習來在語言和意義之間進行映射,

但是使用強化學習來幫助決定說什麼。

在強化學習過程中,一個機器人試圖從

與另一個機器的對話中改進其參數。

而另一個機器可能是一個人,

FAIR團隊使用一個固定的監督模型,訓練模仿人類

第二個模型是固定的,因為研究人員發現,

隨著機器開發自己的語言進行談判,

更新兩個機器模型的參數導致了模型不收斂。

在每一個對話結束時,根據最後達成的協議給予獎勵

然後,使用策略梯度,

這個獎勵通過輸出的每一個字被回傳網絡,

從而增加導致高回報的行動的概率。

一二三四五六七八九時一肉三四五幼雞八九時一生日

 

這一突破對於研究社區

和BOT開發商是重大的一步

可以創造聊天機器人推理,交流,洽談的能力,

對於建立個性化的數字助理至關重要。

與社區合作使我們有機會

分享我們的工作和我們要解決的挑戰,

並鼓勵有才華的人貢獻他們的想法和努力,

推動這個領域向前發展。

 

本文授權自:大數據文摘 原文於此

未經授權,請勿侵權

責任編輯:Luke

 

打破一成不變,就差這一步!

六個月學程式 脫離魯蛇人生!

想學程式、成為工程師卻怕沒基礎嗎?

來這裡全程免費,給你專業訓練

6 個月,你也能成為 專業軟體工程師!

名額有限>>點我報名!

詳細活動介紹>>點我查看!

有問題歡迎私訊粉專:從0開始學程式!

 

 

 

 

大數據文摘

撰文者大數據文摘

秉承「普及資料思維,傳播資料文化,助力產業發展」的企業文化,我們專注於資料領域的資訊、案例、技術,形成了「媒體+教育+人才服務」的良性生態,致力於打造精准資料科學社區。新媒體品牌《大資料文摘》2013年成立,目前已成為資料行業最有影響力的新媒體:聚集超過50萬的垂直領域訂閱者;2016年推出免費公開課,邀請業內大咖授業解惑,獲得斯坦福大學兩門深度學習課程的漢化授權,超3萬人受益。