阿裡版GPT「通義千問」邀請測試遭「拷問」

2023年04月08日財經
【新唐人北京時間2023年04月09日訊】阿裡巴巴集團旗下的阿裡雲推出類似ChatGPT語言模型的「通義千問」日前正式啟動邀請測試。有參與測試者分別對通義千問、百度文心一言和ChatGPT提出同樣的問題,以觀察其回答的異同情況,當中有的問題被測試者戲稱為「靈魂拷問」。
據IT之家報導,阿裡雲4月7日已正式官宣大模型「通義千問」開啟企業邀請測試,並放出了測試官網。阿裡雲官方網站發布的通告稱,2023阿裡雲峰會將於4月11日在北京召開,屆時阿裡巴巴董事局主席兼 CEO張勇、阿裡雲智能首席技術官周靖人、阿裡雲智能全球商業總裁蔡英華等負責人將出席主論壇,並將在當天正式推出「阿裡大模型」,後續公司還將於4月18日推出行業應用類模型。
阿裡方面把「通義千問」這款語言模型形容為可以幫助用戶提高創造力和創新能力的「效率助手」和「點子生成機」,號稱其具備相當於ChatGPT 2.5 的水平。
從「通義千問」測試版的開始界面中可看到,這款語言模型為人機對話設置了4個選項,分別是:寫封郵件、撰寫短文、電影腳本和職場助理。
阿裡版GPT「通義千問」邀請測試遭「拷問」
(網頁截圖)
獲得「通義千問」內測邀請碼的IT網站DoNews逐一對這四大選項進行測試後,發文披露了測試過程中的一些問答情況。
據披露,在測試「寫郵件」功能時發現,「通義千問」寫出來的請病假的郵件中規中矩,其語言表述很符合中國人的思維和表達方式。ChatGPT寫出來的請假條則帶有個性化的傾向。
例如:在郵件中,這兩款語言模型都表達了如果公司確有需要,在休假期間自己也願意儘力協助公司完成一些工作的想法。但「通義千問」在這部分是強調「我會儘最大努力在我的請假期間處理我的工作,並確保任何任務都能順利完成」,甚至還補充強調說「我非常重視我的工作」;而ChatGPT則是簡短明了地寫道「如果在我離開期間有什麼需要我做的事情,請不要猶豫聯繫我」。
阿裡版GPT「通義千問」邀請測試遭「拷問」
(網頁截圖)
阿裡版GPT「通義千問」邀請測試遭「拷問」
(網頁截圖)
在職場助理選項中,當測試者提問「作為科技記者,我該如何報導人工智能的最新進展」時,「通義千問」是羅列出數條建議,直接告訴提問者具體去做些什麼;而ChatGPT卻是選擇建議提問者從那些方面去進行學習,以提高自己完成這項工作的能力。從中可以看出兩者存在較明顯的思維差異。
除了上述的四大功能外,「通義千問」還設計了「百寶箱」功能,裡面有效率、生活和娛樂等9個不同選項。在對這部分功能的測試中,測試者發現這款應用提供的菜譜比較實用,但在有關小學生作文題目的測試中,機器人給出的答案卻有些「讓人摸不著頭腦」。
阿裡版GPT「通義千問」邀請測試遭「拷問」
(網頁截圖)
還有一個常見的選項,就是續寫(然後呢)。測試者嘗試讓它續寫了《了不起的蓋茨比》的經典開頭。測試者給出的評價是:「通義千問對原文的理解比較勉強,續寫更是差強人意,文學性還有待進步。」
DoNews還在對「通義千問」的娛樂類選項進行測試時提了一個比較「刁鑽」要求:誇讚馬雲的長相。
結果機器人作出了如下描述:「馬雲的長相簡直就是傳說中的『完美』!他的臉型像一隻飽經風霜的鷹,稜角分明、目光犀利······」
在最後,測試者詢問「通義千問」對其它大規模語言模型有何了解。它給出的答案中提到了BERT 和 GPT,同時還沒忘記標榜自己具有「更優秀的性能」和「更豐富的應用場景」。
(責任編輯:何雅婷)