(資料圖片)
免費(fèi)的ChatGPT用的是很爽,但這種閉源的語(yǔ)言模型最大的缺點(diǎn)就是不開源,外界根本無(wú)法了解背后的訓(xùn)練數(shù)據(jù)以及是否會(huì)泄露用戶隱私等問(wèn)題,也引發(fā)了后續(xù)工業(yè)界、學(xué)術(shù)界聯(lián)合開源了LLaMA等一系列羊駝模型。
最近Nature世界觀欄目刊登了一篇文章,紐約大學(xué)政治與數(shù)據(jù)科學(xué)教授ArthurSpirling呼吁大家更多地使用開源模型,實(shí)驗(yàn)結(jié)果可復(fù)現(xiàn),也符合學(xué)術(shù)倫理。
重點(diǎn)是,萬(wàn)一哪天OpenAI不爽了,關(guān)閉了語(yǔ)言模型接口,或是靠封閉壟斷漲價(jià)的話,那用戶只能無(wú)奈地說(shuō)一句,「終究是學(xué)術(shù)敗給了資本」。
文章作者ArthurSpirling將于今年7月加入普林斯頓大學(xué)教授政治學(xué),主要研究方向是政治方法論和立法行為,具體為文本數(shù)據(jù)(text-as-data)、自然語(yǔ)言處理、貝葉斯統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、項(xiàng)目反應(yīng)理論和廣義線性模型在政治科學(xué)中的應(yīng)用。
研究人員應(yīng)該避免商用模型的誘惑,共同開發(fā)透明的大型語(yǔ)言模型,以確??芍貜?fù)性。擁抱開源,拒絕壟斷
似乎每天都有一個(gè)全新的大型語(yǔ)言模型(LLM)推出,其創(chuàng)建者和學(xué)術(shù)界相關(guān)人士每次都會(huì)對(duì)新模型如何與人類進(jìn)行流暢交流的能力慷慨陳詞,比如可以幫用戶改代碼,寫推薦信,給文章寫摘要等等。
作為一名正在使用并教授如何使用這些模型的政治和數(shù)據(jù)科學(xué)家,我認(rèn)為學(xué)者們應(yīng)該保持警惕,因?yàn)槟壳白钍艽蟊娮放醯恼Z(yǔ)言模型仍然是私有且封閉的,即由公司運(yùn)營(yíng),他們不會(huì)披露基本模型的具體信息,只會(huì)獨(dú)立地檢查或驗(yàn)證模型的能力,所以研究人員和公眾并不知道模型的訓(xùn)練使用了哪些文件。
急于將語(yǔ)言模型納入自己的研究流程可能會(huì)出問(wèn)題,可能會(huì)威脅到來(lái)之不易的「研究倫理」和「結(jié)果復(fù)現(xiàn)性」方面的相關(guān)進(jìn)展。
廣告
X 關(guān)閉
廣告
X 關(guān)閉