甲骨易AI研究院推出中文大語(yǔ)言模型評測集合-LucyEval，讓智能有跡可循！

發(fā)布時(shí)間：2023-8-31 10:47 發(fā)布者：科技新思路

夕小瑤科技說(shuō) 分享
Lucy，是距今320萬(wàn)年最早的人類(lèi)祖先，也是被輸入某種“物質(zhì)”后大腦開(kāi)發(fā)到100%的超智能人類(lèi)，能感知宇宙萬(wàn)物，擁有人類(lèi)所有知識。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。

隨著(zhù)大語(yǔ)言模型不斷調優(yōu)，大模型擁有了更優(yōu)越的理解人類(lèi)話(huà)語(yǔ)、指令并且生成類(lèi)似人類(lèi)語(yǔ)言文本的能力。機器和人類(lèi)終歸不同，如何最快速地判斷機器是否能正確理解人類(lèi)的知識和語(yǔ)言，成為我們共同關(guān)注的問(wèn)題。

由此，甲骨易AI研究院推出了中文大語(yǔ)言模型成熟度評測——LucyEval，能夠通過(guò)對模型各方面能力的客觀(guān)測試，找到模型的不足，幫助設計者和工程師更加精準地調整、訓練模型，助力大模型不斷邁向更智能的未來(lái)。

Lucy的每一個(gè)字母背后都代表了不同的意義，包含著(zhù)甲骨易AI研究院設計LucyEval時(shí)所考量的維度和堅持的理念。

L - Linguistic Fundamentals: 基礎理解能力
U - Utilization of Knowledge: 知識運用能力
C - Cognitive Reasoning: 推理能力
Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含義：

Linguistic Fundamentals (基礎理解能力) ：描述模型對基礎語(yǔ)法、詞匯和句子結構的理解程度。
Utilization of Knowledge (知識運用能力)：衡量模型在回答問(wèn)題或生成文本時(shí)如何運用其內嵌的知識。

Cognitive Reasoning (推理能力)：評價(jià)模型是否能從給定的信息中進(jìn)行邏輯推斷或解決復雜問(wèn)題。

Yield of Specialized Outputs (特殊生成能力）：測試模型在生成特定類(lèi)型或風(fēng)格的文本（例如詩(shī)歌、代碼或專(zhuān)業(yè)文章）時(shí)的效能。

目前，LucyEval已發(fā)布如下兩項測試集。

大規模多任務(wù)中文理解能力測試 Massive Multitask Chinese Understanding

2023年4月25日，針對中文大模型理解能力測試缺失且推出高質(zhì)量中文評測數據集迫在眉睫這一現狀，甲骨易AI研究院率先發(fā)布（首發(fā)）了一套大規模多任務(wù)中文大模型理解能力測試。
測試所包含的題目來(lái)自醫療、法律、心理學(xué)和教育四個(gè)科目的11900個(gè)問(wèn)題，包含單項選擇和多項選擇題，目的旨在使測試過(guò)程中模型更接近人類(lèi)考試的方式，覆蓋學(xué)科面廣，專(zhuān)業(yè)知識難度高，適合用來(lái)評估大模型的綜合理解能力。

論文鏈接：
https://arxiv.org/abs/2304.12986

中文大模型多學(xué)科生成能力自動(dòng)化評測基準 Chinese Generation Evaluation

目前領(lǐng)域內的評測大多都只針對模型的中文理解能力，通過(guò)選擇題由模型直接生成答案，或者提取模型對各個(gè)答案選項的輸出概率。從評測大模型的生成能力的角度，這些評測基準就存在很大的局限性。

在率先發(fā)布國內首個(gè)中文大模型理解能力測試后，甲骨易AI研究院于8月9日正式發(fā)布一套自動(dòng)測評中文大模型多學(xué)科生成能力的評測基準。

基準包含11000道題目，涵蓋科技工程、人文與社會(huì )科學(xué)、數學(xué)計算、醫師資格考試、司法考試、注冊會(huì )計師考試等科目下的55個(gè)子科目。題型分為名詞解釋、簡(jiǎn)答題和計算題三種類(lèi)型。同時(shí)，甲骨易AI研究院還設計了一套復合打分方式Gscore，使評分過(guò)程更加合理、科學(xué)。

甲骨易AI研究院使用本評測基準對以下模型進(jìn)行了zero-shot測試，包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。

本次受測中文大語(yǔ)言模型

從所有模型在六大類(lèi)科目的平均分來(lái)看，GPT-4取得最高分41.12，比最低分32.28高出8.84分。

本次受測中文大語(yǔ)言模型平均得分

受測模型在其他學(xué)科的表現詳見(jiàn)評測地址：

http://lucyeval.besteasy.com/

未來(lái)，甲骨易AI研究院將矢志不移地為提升中文大語(yǔ)言模型能力為目標，持續研究適應其發(fā)展的測試集，期待與同樣關(guān)注大語(yǔ)言模型發(fā)展的業(yè)界同仁攜手共建。

論文鏈接：
https://arxiv.org/abs/2308.04823

更多AI相關(guān)資訊，請關(guān)注微信公眾號：甲骨易

本文地址：http://selenalain.com/thread-837952-1-1.html 【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問(wèn)題，我們將根據著(zhù)作權人的要求，第一時(shí)間更正或刪除。

網(wǎng)友評論

貿澤電子有獎問(wèn)答視頻，答對領(lǐng)10元微信紅包

廠(chǎng)商推薦

關(guān)于我們 - 服務(wù)條款 - 使用指南 - 站點(diǎn)地圖 - 友情鏈接 - 聯(lián)系我們
電子工程網(wǎng) © 版權所有京ICP備16069177號 | 京公網(wǎng)安備11010502021702

快速回復 返回頂部 返回列表

午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页