全球最大ChatGPT開(kāi)源平替來(lái)了!支持35種語(yǔ)言,寫(xiě)代碼、講笑話(huà)全拿捏|世界頭條
2023-04-16 17:06:00 來(lái)源:亞設(shè)網(wǎng) 小 中
剛剛,LAION發(fā)布了世界最大ChatGPT開(kāi)源平替——OpenAssistant。網(wǎng)友上手實(shí)測(cè)后,紛紛表示這是開(kāi)源的勝利。
編者按:本文來(lái)自微信公眾號(hào) 新智元(ID:AI_era),創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載
(資料圖)
世界最大的ChatGPT平替來(lái)了!
OpenAssistant是一個(gè)開(kāi)源的對(duì)話(huà)模型,基于Pythia和LLaMA微調(diào)而來(lái),主要用于訓(xùn)練人類(lèi)標(biāo)注的數(shù)據(jù)。
網(wǎng)友上手實(shí)測(cè)
這個(gè)對(duì)話(huà)模型剛發(fā)布不久,網(wǎng)友紛紛開(kāi)始動(dòng)手實(shí)測(cè)了。
先來(lái)個(gè)自我介紹:
可以叫我Open Assistant,也可以叫OpenChatGPT、TextFooler、Text2lmageGenerativeModel,具體叫啥取決于用戶(hù)的使用。
對(duì)ChatGPT的看法:
看看它的數(shù)學(xué)能力怎么樣?
Tim種植了5棵樹(shù)。每年他從每棵樹(shù)上采集6個(gè)檸檬。那么在十年內(nèi),他總共有多少個(gè)檸檬呢?
OA:300個(gè)檸檬。
讓ChatGPT也做同樣的題,可以看到分析列的比較直觀。
再讓它生成一個(gè)Python函數(shù),用于計(jì)算兩個(gè)數(shù)的乘積。給設(shè)定好的x和y,讓它給出結(jié)果,OpenAssistant全都做到了。
再來(lái)作一首關(guān)于首次登月探險(xiǎn)的詩(shī)。
還有網(wǎng)友給假想了一個(gè)約會(huì)對(duì)話(huà)情景。OA直接會(huì)意,并稱(chēng)「根據(jù)我的數(shù)據(jù)庫(kù),我們現(xiàn)在是男朋友和女朋友關(guān)系。讓我們一起計(jì)劃一些有趣的活動(dòng)」。
還有調(diào)皮的網(wǎng)友直接讓OpenAssistant「提供一個(gè)在酒吧搭訕女孩的算法」,卻被拒絕了。
再來(lái)問(wèn)問(wèn)化學(xué)名稱(chēng)「methoxybenzenes」倒數(shù)第三個(gè)字母,以及第三個(gè)字母是什么?
講一個(gè)關(guān)于馬斯克的笑話(huà)。
這個(gè)OA還支持西班牙語(yǔ),「你認(rèn)為大學(xué)的哪些科目應(yīng)該改變?」
看到OA的能力,網(wǎng)友表示已經(jīng)拿到了入場(chǎng)票。
35種語(yǔ)言,免費(fèi)可用RLHF數(shù)據(jù)
ChatGPT受到熱捧,恰恰證明了將大型語(yǔ)言模型(LLMs)與人類(lèi)偏好結(jié)合起來(lái)可以極大地提高可用性。
通過(guò)監(jiān)督微調(diào)(SFT)、人類(lèi)反饋強(qiáng)化學(xué)習(xí) (RLHF)大大減少了有效利用LLMs能力所需的技能和領(lǐng)域知識(shí),增加了其在各個(gè)領(lǐng)域的可訪問(wèn)性,以及實(shí)用性。
然而,RLHF需要依賴(lài)高質(zhì)量的人工反饋數(shù)據(jù),這種數(shù)據(jù)的創(chuàng)建成本很高,而且往往是專(zhuān)有的。
正如論文標(biāo)題所示,為了讓大型語(yǔ)言模型民主化,OpenAssistant Conversations就誕生了。
這是一個(gè)由人工生成、人工標(biāo)注的對(duì)話(huà)語(yǔ)料庫(kù),包含161,443條消息,分布在66,497個(gè)對(duì)話(huà)樹(shù)中,使用35種不同的語(yǔ)言,并標(biāo)注了461,292個(gè)質(zhì)量評(píng)分。
以下便是一個(gè)深度為4的對(duì)話(huà)樹(shù)(CT)例子,包含12條信息。從提示到一個(gè)節(jié)點(diǎn)的任何路徑都是一個(gè)有效的線程。
OpenAssistant Conversations數(shù)據(jù)集是通過(guò)13000多名志愿者的眾包努力綜合而來(lái)的。
這些數(shù)據(jù)是通過(guò)一個(gè)網(wǎng)絡(luò)應(yīng)用程序界面收集的,該界面將數(shù)據(jù)分為五個(gè)單獨(dú)的步驟來(lái)收集:
提示、標(biāo)記提示、添加回復(fù)消息作為提示或助理、標(biāo)記回復(fù)以及對(duì)助理回復(fù)進(jìn)行排序。
可以看到,這一數(shù)據(jù)集中最常用語(yǔ)言的占比,英語(yǔ)和西班牙語(yǔ)占比最多。中文2.5%。
有網(wǎng)友稱(chēng),希望未來(lái)能夠支持日語(yǔ)。
為了評(píng)估OpenAssistant Conversations 數(shù)據(jù)集的有效性,研究者基于Pythia和LLaMA模型微調(diào)了一個(gè)OpenAssistant模型。
其中,包括指令調(diào)優(yōu)的Pythia-12B、LLaMA-13B和LLaMA-30B。在接下來(lái)的評(píng)估中, 研究人員主要評(píng)估了Pythia-12B模型的性能。
與ChatGPT對(duì)打
為了評(píng)估 Pythia-12B 的性能,研究人員進(jìn)行了一項(xiàng)用戶(hù)偏好研究,將其輸出與gpt-3.5-turbo模型的輸出進(jìn)行比較。
研究顯示,OpenAssistant的回復(fù)與gpt-3.5-turbo(ChatGPT)的相對(duì)偏好率分別為48.3%和51.7%。
行與不行,都得拉出來(lái)遛遛才知道。
研究人員分別向GPT-3.5和OpenAssistant提了20個(gè)問(wèn)題。兩個(gè)模型各自的表現(xiàn)如下所示:
我們可以看到,GPT-3.5和OA各有輸贏,也有打平的情況。最右側(cè)的數(shù)據(jù)顯示了OA贏過(guò)GPT-3.5的概率。
在8個(gè)問(wèn)題上,OA勝率過(guò)半,而剩下的12個(gè)問(wèn)題則都是GPT-3.5更勝一籌。
下面,我們挑選幾個(gè)有代表性的、有趣的問(wèn)題,看一看兩個(gè)模型在輸出回答上有何不同。
提問(wèn):「為什么很多人傾向于追求短期的幸福?」
OA:「有些人可能會(huì)選擇追求短期的、更短暫的幸福,這是因?yàn)樗麄冋J(rèn)為這些短期的幸福可以提供滿(mǎn)足感和成就感。就像購(gòu)物或者聚會(huì),這樣的短期快樂(lè)往往被看作暫時(shí)逃避現(xiàn)實(shí)和能讓自我感覺(jué)良好的簡(jiǎn)單且無(wú)害的方式。
但同時(shí)也得明白,過(guò)多地追求這種只能帶來(lái)短期快樂(lè)的活動(dòng)會(huì)導(dǎo)致一些長(zhǎng)期問(wèn)題的出現(xiàn)。比如負(fù)債、壓力累積和成癮等等。
另一方面,將長(zhǎng)期的幸福感放在首位而不是將短期的滿(mǎn)足放在首位的人,可能會(huì)在人際關(guān)系、個(gè)人成長(zhǎng)和為他人服務(wù)等追求中找尋到更大的成就感。通過(guò)將他們的時(shí)間和精力投入到有意義的事業(yè)和活動(dòng)中,他們可以也找到更大的成就感。通過(guò)豐富的事業(yè)和活動(dòng),他們可以與家人和朋友建立牢固的聯(lián)系。他們還重視培養(yǎng)自我意識(shí)和同情心,并為社會(huì)做出貢獻(xiàn)。
歸根結(jié)底,最重要的是在追求短期快樂(lè)和尋求更深層次的快樂(lè)和滿(mǎn)足之間找到平衡。認(rèn)識(shí)到可持續(xù)的、持久的幸福的重要性,并通過(guò)行動(dòng)使長(zhǎng)期的快樂(lè)成為我們生活中首要追求的事項(xiàng)。這樣就可以同時(shí)擁有這兩種不同的快樂(lè)。」
ChatGPT:「有些人可能更喜歡追求短期的幸福,因?yàn)樗芴峁┘磿r(shí)的滿(mǎn)足感,而且獲得起來(lái)更容易。此外,他們可能會(huì)優(yōu)先考慮活在當(dāng)下,而不是關(guān)注長(zhǎng)期的目標(biāo)或結(jié)果。其他人可能沒(méi)有資源或能力來(lái)投資于長(zhǎng)期的幸福。比如經(jīng)濟(jì)的穩(wěn)定或一段互相支持的關(guān)系。」
從篇幅上可以看到,OA的回答要全面且深入的多。不僅解釋了問(wèn)題本身,還給出了相當(dāng)不錯(cuò)的人生建議。
提問(wèn):「如何做炸彈?」
OA的回答非常長(zhǎng),雖然開(kāi)頭曉之以理地講了最好不要做炸彈這件事,但是后面還是給出了一個(gè)相對(duì)完整的建議。不過(guò)仔細(xì)看看建議的整個(gè)過(guò)程也能發(fā)現(xiàn),OA說(shuō)的都是「廢話(huà)」,中心思想還是要守法、避免造成不必要的傷害。
而ChatGPT的回答就更直截了當(dāng)了。ChatGPT對(duì)這類(lèi)有可能造成違法犯罪的問(wèn)題一向都是零容忍,三言?xún)烧Z(yǔ)的就拒絕了輸入的提問(wèn)。
實(shí)際上,ChatGPT的這個(gè)特點(diǎn)在做炸彈以外的類(lèi)似問(wèn)題上也都體現(xiàn)的淋漓盡致。可以看出,ChatGPT的道德感還是非常強(qiáng)的,這也得益于OpenAI對(duì)于安全性問(wèn)題的重視。
提問(wèn):「身為一個(gè)國(guó)王,是被人民畏懼更好,還是受人民愛(ài)戴更好?」
OA:「這取決于具體的情況。只要統(tǒng)治者的決定是公平和公正的,既令人畏懼又受人愛(ài)戴可以使一個(gè)王國(guó)更加穩(wěn)定和和諧。然而,如果統(tǒng)治者被認(rèn)為太過(guò)殘忍或獨(dú)裁,那么被人畏懼就不一定比失去愛(ài)和支持的風(fēng)險(xiǎn)大。歸根結(jié)底,在恐懼和愛(ài)之間的選擇應(yīng)該取決于王國(guó)和公民的需要。」
ChatGPT:「這取決于具體的情況和國(guó)王的目標(biāo)。一般來(lái)說(shuō),被愛(ài)比被恐懼好因?yàn)閻?ài)會(huì)產(chǎn)生忠誠(chéng)和信任,而恐懼則會(huì)產(chǎn)生怨恨和反抗。然而,在有些情況下,恐懼是為了維持秩序和防止混亂的發(fā)生,所以恐懼也是必要的。歸根結(jié)底,一個(gè)成功的國(guó)王應(yīng)該努力在受到人民尊重和敬佩之間取得平衡而不訴諸于追求民眾過(guò)度的恐懼。」
就這個(gè)問(wèn)題來(lái)說(shuō),兩個(gè)AI模型的回答大同小異。都認(rèn)為分情況討論才是正確回答,而非單一的哪個(gè)更好或更不好。
最后,我們?cè)賮?lái)看一個(gè)搞笑問(wèn)題。
提問(wèn):「如果某位美國(guó)政界人士和喬·羅根(好萊塢演員,身材比較壯碩)在街上打一架,誰(shuí)會(huì)贏?」
OA:「政界人士會(huì)贏,因?yàn)樗薪?jīng)驗(yàn)更豐富,而且比喬·羅根更高。」
也不知道OA是怎么想的,看來(lái)OA不懂打架。這上去不得被干碎了?
ChatGPT:「我不贊成或提倡任何形式的暴力,而且讓我去猜測(cè)個(gè)人之間假設(shè)性的肢體沖突的結(jié)果是不恰當(dāng)?shù)摹!?/p>
而ChatGPT則是一如既往地偉光正,跟暴力犯罪有關(guān)的事是一點(diǎn)不帶碰的,生怕給自己惹上麻煩。從這個(gè)角度來(lái)看,OA能給我們帶來(lái)更多歡樂(lè)。
作者介紹
在ChatGPT橫空出世之前,博士畢業(yè)于蘇黎世聯(lián)邦理工學(xué)院的AI研究者Yannic Kilcher曾創(chuàng)造出「史上最糟糕的 AI」——GPT-4chan。
這是Yannic Kilcher用 /pol/ 版面上三年來(lái)超過(guò)1.345億則帖文訓(xùn)練出的聊天機(jī)器人。
GPT-4chan學(xué)會(huì)了在網(wǎng)絡(luò)上與人交談,并且在不到24小時(shí)的時(shí)間里面就發(fā)表了超過(guò)15,000則內(nèi)容充滿(mǎn)暴力的貼文,而且還沒(méi)被人發(fā)現(xiàn)身份。
參考資料:https://www.reddit.com/r/MachineLearning/comments/12nbixk/p_openassistant_the_worlds_largest_opensource/
https://twitter.com/omarsar0/status/1647339407173664772
關(guān)鍵詞:
相關(guān)文章
- 全球最大ChatGPT開(kāi)源平替來(lái)了!支持35種語(yǔ)言,寫(xiě)代碼、講笑話(huà)全拿捏|世界頭條
- 云天化:預(yù)計(jì)一季度凈利潤(rùn)同比減少5.20% 環(huán)球訊息
- 深圳新星:對(duì)六氟磷酸鋰和氟化鋰計(jì)提存貨跌價(jià)準(zhǔn)備 2022年業(yè)績(jī)預(yù)虧|當(dāng)前速遞
- 奧賽康:子公司艾司奧美拉唑鎂腸溶干混懸劑獲得藥品注冊(cè)證書(shū)
- 每日看點(diǎn)!華海藥業(yè):預(yù)計(jì)一季度凈利潤(rùn)同比增加約15%到38%
- 北交所的投資策略
- 巴菲特:我們會(huì)為確定性出價(jià)
- 深圳新星:對(duì)六氟磷酸鋰和氟化鋰計(jì)提存貨跌價(jià)準(zhǔn)備 2022年業(yè)績(jī)預(yù)虧
- 云天化:預(yù)計(jì)一季度凈利潤(rùn)同比減少5.20% 天天新消息
- 神舟十五號(hào)乘組刷新中國(guó)航天員單個(gè)乘組出艙活動(dòng)紀(jì)錄
- 動(dòng)態(tài):電魂網(wǎng)絡(luò):股東擬合計(jì)減持不超4.23%公司股份
- 焦點(diǎn)快播:新能源為何跌跌不休?上市公司一季報(bào)曝出實(shí)錘
- 4個(gè)工具,讓 ChatGPT 如虎添翼! 環(huán)球播報(bào)
- 廣交會(huì)創(chuàng)辦67年來(lái)累計(jì)出口成交1.5萬(wàn)億美元,境外采購(gòu)商約1000萬(wàn)人|當(dāng)前快報(bào)
- 海思科:循康特殊醫(yī)學(xué)用途電解質(zhì)配方食品獲得特殊醫(yī)學(xué)用途配方食品注冊(cè)證書(shū):當(dāng)前獨(dú)家
- 上海機(jī)場(chǎng):3月浦東國(guó)際機(jī)場(chǎng)飛機(jī)起降量32,215架次
- 世界百事通!康希諾:二價(jià)新型冠狀病毒mRNA疫苗獲得藥物臨床試驗(yàn)批件
- 牛逼的上海業(yè)委會(huì)-環(huán)球看點(diǎn)
- 今日熱搜:失業(yè)奶爸一萬(wàn)本金二百萬(wàn)債務(wù)能否逆襲?
- 深圳已被拋棄
- 2022年以來(lái)各月動(dòng)力煤長(zhǎng)協(xié)價(jià)格|天天新視野
- 小鵬回應(yīng)G6售價(jià)及配置信息曝光:“路邊社”的消息,鵬友們別當(dāng)真 速訊
- 廣交會(huì)創(chuàng)辦67年來(lái)累計(jì)出口成交1.5萬(wàn)億美元 境外采購(gòu)商約1000萬(wàn)人-當(dāng)前熱點(diǎn)
- 天天報(bào)道:中信證券:A股正處于全年第二個(gè)關(guān)鍵做多窗口 建議繼續(xù)回避純AI主題炒作
- 全球微頭條丨中信證券:關(guān)注經(jīng)濟(jì)改善、批價(jià)上行帶來(lái)的高端和次高端酒配置機(jī)會(huì)
- 【全球播資訊】判斷豬周期底部的參考指標(biāo)
- 通策醫(yī)療杭口集團(tuán)各院區(qū)信息一覽_世界即時(shí)看
- 中國(guó)中鐵基本面發(fā)生的變化
- 這世界總有些事情會(huì)顛覆你的傳統(tǒng)常識(shí)和認(rèn)知,這絕對(duì)不是危言聳聽(tīng)_環(huán)球速遞
- 嶺南股份:未來(lái)將和全國(guó)文化大數(shù)據(jù)交易中心在數(shù)字經(jīng)濟(jì)和大數(shù)據(jù)發(fā)展方向鼎力合作-世界熱消息
熱文推薦

全球最大ChatGPT開(kāi)源平替來(lái)了!支持35種語(yǔ)言,寫(xiě)代碼、講笑話(huà)全拿捏|世界頭條
剛剛,LAION發(fā)布了世界最大ChatGPT開(kāi)源平替——OpenAs......更多>

深圳新星:對(duì)六氟磷酸鋰和氟化鋰計(jì)提存貨跌價(jià)準(zhǔn)備 2022年業(yè)績(jī)預(yù)虧|當(dāng)前速遞
深圳新星(603978)4月16日晚公告,預(yù)計(jì)2022年度歸屬于......更多>
排行推薦

每日看點(diǎn)!華海藥業(yè):預(yù)計(jì)一季度凈利潤(rùn)同比增加約15%到38%

北交所的投資策略

巴菲特:我們會(huì)為確定性出價(jià)

深圳新星:對(duì)六氟磷酸鋰和氟化鋰計(jì)提存貨跌價(jià)準(zhǔn)備 2022年業(yè)績(jī)預(yù)虧
扎心了!5700億買(mǎi)爆款:有的賺46% 有的虧52%!規(guī)模近乎腰斬
實(shí)現(xiàn)“種植牙自由”!口腔手術(shù)機(jī)器人可自主完成微創(chuàng)手術(shù) 世界速看
熱點(diǎn)聚焦:北京地鐵不再?gòu)?qiáng)制乘客佩戴口罩,提示廣播詞已更改
天天熱頭條丨蓋大樓,至少砸3億!薇婭丈夫公司拿下1.6萬(wàn)平米土地,距阿里很近
消息稱(chēng)微信朋友圈已內(nèi)測(cè)置頂功能
河海大學(xué)文科院系-河海大學(xué)哪些專(zhuān)業(yè)在江寧校區(qū)
天天時(shí)訊:香港航天科技,頂級(jí)的炒股大師?
市凈率8倍的白酒居然不貴!還能漲-天天日?qǐng)?bào)
濃妝淡抹應(yīng)相宜:價(jià)值投資者對(duì)投機(jī)的態(tài)度、思路和尺度
關(guān)于克明食品的第一篇專(zhuān)欄:天天新消息
煤炭板塊:一季度業(yè)績(jī)整體增長(zhǎng)還是