大模型技術(shù)的發(fā)展和應用,預示著(zhù)更加智能化、個(gè)性化未來(lái)的到來(lái)。在7月4日至7日召開(kāi)的2024世界人工智能大會(huì )上,來(lái)自來(lái)自華南理工大學(xué)、上海交通大學(xué)、清華大學(xué)、復旦大學(xué)、上海人工智能實(shí)驗室、合合信息等高校、研究機構及企業(yè)的專(zhuān)家代表就大模型技術(shù)在圖像領(lǐng)域的發(fā)展、應用進(jìn)行了深入研討。其中,“百模大戰”現象背后的中國大模型發(fā)展前景與堵點(diǎn)成為各界關(guān)注的焦點(diǎn)。 根據人工智能研究人員小組Epoch研究估計,機器學(xué)習數據集可能會(huì )在2026年前耗盡所有“高質(zhì)量語(yǔ)言數據”。 如何幫助大模型在信息的海洋中快速找準航向,在數據的荒漠中找到高質(zhì)量的“水源”?合合信息在本次大會(huì )上展示了大模型“加速器”解決方案。 如果將大模型比喻為正在疾馳的科技列車(chē),語(yǔ)料便是珍貴的“燃料”。對于中國的大模型企業(yè)而言,語(yǔ)料短缺問(wèn)題很?chē)谰。而高質(zhì)量語(yǔ)料數據往往存在于書(shū)籍、論文、研報、企業(yè)文檔等文檔之中。 以法律專(zhuān)業(yè)為例,高質(zhì)量語(yǔ)料數據往往存在于涉及復雜法律案例與細致法律條文的文檔中。以“離婚案件”為例,經(jīng)典判決書(shū)詳細記錄了離婚雙方的訴求、證據及法院的裁決理由,包含豐富的法律邏輯與情感分析素材;專(zhuān)注于離婚法、家庭法領(lǐng)域的學(xué)術(shù)論文,深入探討離婚制度的歷史演變、司法實(shí)踐中的爭議點(diǎn)及解決策略等;法院等權威機構發(fā)布的關(guān)于離婚案件的司法解釋、指導意見(jiàn)等語(yǔ)言準確、邏輯嚴密的文件,則是法律高質(zhì)量語(yǔ)料的重要組成部分。這些資料往往具有復雜的面結構,制約了大模型的訓練語(yǔ)料處理及大模型文檔問(wèn)答的應用能力。 在大模型訓練的上游階段,合合信息“加速器”中的文檔解析引擎將助力大模型突破在書(shū)籍、論文、研報等文檔中的版面解析障礙,從源頭為模型訓練與應用輸送純凈的“燃料”,助力大模型跑得更快;“加速器”還加載了行業(yè)領(lǐng)先的acge文本向量化模型,助力大模型解決“已讀亂回”的“幻覺(jué)”問(wèn)題,讓大模型在正確的航線(xiàn)上行駛得更遠。 合合信息的文檔解析引擎具備強大的“動(dòng)能”,最快1.5秒可解析百頁(yè)長(cháng)文檔中的文本、表格、圖像等非結構化數據,也是當前市面上同類(lèi)文檔解析引擎中處理速度最快的產(chǎn)品之一;同時(shí),引擎還具備優(yōu)秀的文檔“理解力”,可智能還原文檔閱讀順序,加速了模型在預訓練、開(kāi)發(fā)、使用落地等多方面的流程。 合合信息大模型“加速器”還打通了針對圖表類(lèi)素材的識別、內容理解的障礙,能夠實(shí)現對圖表內容的深度“洞察”,完成對研報、論文等文檔中的柱狀圖、折線(xiàn)圖、餅圖、雷達圖等十余種常見(jiàn)圖表進(jìn)行“還原”,巧妙轉化大模型能夠理解的markdown格式,使數據和圖表的價(jià)值潛能充分釋放。 值得一提的是,合合信息大模型“加速器”具備高準確性和穩定性,大幅提升了模型的理解力,并通過(guò)其強大的多語(yǔ)言識別、多類(lèi)型支持能力,為多個(gè)行業(yè)提供了高效、準確、實(shí)用的文檔解析服務(wù)。 合合信息智能創(chuàng )新事業(yè)部總經(jīng)理唐琪提到,目前,大模型“加速器”已被多家大模型廠(chǎng)商應用于金融、醫學(xué)、財經(jīng)、媒體等多領(lǐng)域的文檔的解析中,助力大模型更順利地接軌“專(zhuān)業(yè)課”。未來(lái),大模型加速器將陪伴更多行業(yè)級知識庫的建立,讓大模型的服務(wù)潤澤社會(huì )各個(gè)角落,實(shí)現“智能觸手可及”。 |