![]() 夕小瑤科技說(shuō) 分享 隨著(zhù)大語(yǔ)言模型不斷調優(yōu),大模型擁有了更優(yōu)越的理解人類(lèi)話(huà)語(yǔ)、指令并且生成類(lèi)似人類(lèi)語(yǔ)言文本的能力。機器和人類(lèi)終歸不同,如何最快速地判斷機器是否能正確理解人類(lèi)的知識和語(yǔ)言,成為我們共同關(guān)注的問(wèn)題。 由此,甲骨易AI研究院推出了中文大語(yǔ)言模型成熟度評測——LucyEval,能夠通過(guò)對模型各方面能力的客觀(guān)測試,找到模型的不足,幫助設計者和工程師更加精準地調整、訓練模型,助力大模型不斷邁向更智能的未來(lái)。
Lucy的每一個(gè)字母背后都代表了不同的意義,包含著(zhù)甲骨易AI研究院設計LucyEval時(shí)所考量的維度和堅持的理念。
"Lucy" 包含以下含義: Linguistic Fundamentals (基礎理解能力) :描述模型對基礎語(yǔ)法、詞匯和句子結構的理解程度。 Cognitive Reasoning (推理能力):評價(jià)模型是否能從給定的信息中進(jìn)行邏輯推斷或解決復雜問(wèn)題。 Yield of Specialized Outputs (特殊生成能力):測試模型在生成特定類(lèi)型或風(fēng)格的文本(例如詩(shī)歌、代碼或專(zhuān)業(yè)文章)時(shí)的效能。 目前,LucyEval已發(fā)布如下兩項測試集。 大規模多任務(wù)中文理解能力測試 Massive Multitask Chinese Understanding2023年4月25日,針對中文大模型理解能力測試缺失且推出高質(zhì)量中文評測數據集迫在眉睫這一現狀,甲骨易AI研究院率先發(fā)布(首發(fā))了一套大規模多任務(wù)中文大模型理解能力測試。 中文大模型多學(xué)科生成能力自動(dòng)化評測基準 Chinese Generation Evaluation 目前領(lǐng)域內的評測大多都只針對模型的中文理解能力,通過(guò)選擇題由模型直接生成答案,或者提取模型對各個(gè)答案選項的輸出概率。從評測大模型的生成能力的角度,這些評測基準就存在很大的局限性。 在率先發(fā)布國內首個(gè)中文大模型理解能力測試后,甲骨易AI研究院于8月9日正式發(fā)布一套自動(dòng)測評中文大模型多學(xué)科生成能力的評測基準。 基準包含11000道題目,涵蓋科技工程、人文與社會(huì )科學(xué)、數學(xué)計算、醫師資格考試、司法考試、注冊會(huì )計師考試等科目下的55個(gè)子科目。題型分為名詞解釋、簡(jiǎn)答題和計算題三種類(lèi)型。同時(shí),甲骨易AI研究院還設計了一套復合打分方式Gscore,使評分過(guò)程更加合理、科學(xué)。 甲骨易AI研究院使用本評測基準對以下模型進(jìn)行了zero-shot測試,包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。
本次受測中文大語(yǔ)言模型 從所有模型在六大類(lèi)科目的平均分來(lái)看,GPT-4取得最高分41.12,比最低分32.28高出8.84分。
本次受測中文大語(yǔ)言模型平均得分 受測模型在其他學(xué)科的表現詳見(jiàn)評測地址:
未來(lái),甲骨易AI研究院將矢志不移地為提升中文大語(yǔ)言模型能力為目標,持續研究適應其發(fā)展的測試集,期待與同樣關(guān)注大語(yǔ)言模型發(fā)展的業(yè)界同仁攜手共建。
|