·大部分大模型“考生”語文、英語科目表現良好,但在數學方面還有待加強。閱卷老師點評,在語文科目上,對于語言中的一些“潛臺詞”,大模型尚無法完全理解。在數學科目上,大模型的主觀題回答相對凌亂,且過程具有迷惑性。
6月19日,首個大模型高考全卷評測結果公布。2024年全國高考結束后,大模型開源開放評測體系——司南評測體系(OpenCompass)選取了6個開源模型包括GPT-4o,針對高考全國新課標I卷“語數外”三門課程展開全卷能力測試。
評測結果顯示,阿里巴巴開源的Qwen2系列MoE對話模型(Qwen2-72B)、GPT-4o及書生·浦語2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,在語、數、英三門課程中得分均超過70分。大部分模型“考生”語文、英語科目表現良好,但在數學方面還有很大的提升空間。其中,書生·浦語2.0文曲星(InternLM2-20B-WQX)取得了數學單科的最高分,超越包括GPT-4o在內的所有模型。
司南評測體系OpenCompass是由上海人工智能實驗室在去年7月的世界人工智能大會上推出,目前升級為OpenCompass2.0,構造了一套中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等方面。
大模型語言能力表現良好,但數學有待提高
司南評測體系團隊選取了GPT-4o及在2024年高考前開源的6個模型參與本次“大模型高考”評測。評測采用全國新課標I卷,參與評測的所有開源模型,開源時間均早于高考,確保評測 “閉卷”性。同時,成績由具有高考評卷經驗的教師人工評判,更加接近真實閱卷標準。
評測模型包括:法國AI創業公司Mistral于2024年4月17日開源的對話模型(Mixtral 8x22B)、零一萬物公司于2024年5月12日開源的Yi-1.5系列最大的模型(Yi-1.5-34B)、智譜AI于2024年6月4日推出的最新一代預訓練模型GLM-4系列的開源版本(GLM-4-9B)、上海人工智能實驗室于2024年6月4日開源的書生·浦語2.0系列文曲星大語言模型(InternLM2-20B-WQX)、阿里巴巴于2024年6月6日開源的Qwen2系列MoE對話模型(Qwen2-57B)、阿里巴巴于2024年6月6日開源的72B稠密模型(Qwen2-72B)。
上述模型的高考“語數外”三科成績結果如下表所示:
測評的大模型語數外得分情況 來源:上海市人工智能實驗室
總分前三名阿里巴巴開源的Qwen2系列MoE對話模型(Qwen2-72B)、GPT-4o及書生·浦語2.0文曲星(InternLM2-20B-WQX)對應得分率分別為72.1%、70.5%和70.4%。大部分模型在“語言”本質上的表現良好,語文平均得分為67分,英語更是達到了81分。
而數學則是所有大模型的短板,平均得分率僅為36%。得益于研究團隊在數學推理上的投入,書生·浦語2.0文曲星(InternLM2-20B-WQX)取得了75分的最高分,超過所有受測模型。然而仍未達到及格水平,這表明大模型的數學能力存在較大提升空間。
閱卷老師點評:大模型數學主觀題回答凌亂
參與評測的所有開源模型,權重均在2024年6月7日高考題目公布前開源,避免了“數據污染”和“刷題”風險,與真實高考嚴格的“閉卷考試”一致,不存在“作弊”可能。
為貼近高考評卷模式,聯合團隊邀請多位具有閱卷經驗的高中教師對模型主觀題答案評分,每份考卷至少由3位教師分別打分。本次在完成所有大模型答卷的評卷工作后,研究人員同時邀請了各科教師對大模型表現進行了整體分析,為模型能力提升策略提供參考。
閱卷教師認為,在語文科目上,模型的現代文閱讀理解能力普遍較強,但是不同模型的文言文閱讀理解能力差距較大。大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法。多數模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”,大模型尚無法完全理解。
在數學科目上,閱卷教師表示,大模型的主觀題回答相對凌亂,而且過程具有迷惑性,甚至出現了過程錯誤但得到正確答案的情況。此外,大模型的公式記憶能力較強,但無法在解題過程中靈活引用。
相較于語文和數學,閱卷教師認為,在英語科目上大模型整體表現良好,但部分模型由于不適應題型,在七選五、完形填空題等題型得分率較低。大模型英語作文普遍存在因超出字數限制而扣分的情況,而人類考生多因為字數不夠扣分。
聯合團隊認為,如同高考閱卷也存在細微差異,由于主觀題類型的引入,本次評測也無法做到絕對的公平。
司南評測體系OpenCompass于2023年7月由上海人工智能實驗室在世界人工智能大會上推出,目前升級為OpenCompass2.0,構造了一套中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等方面。