學(xué)而思聯(lián)合谷歌等發(fā)起全球大模型數(shù)學(xué)解題競賽，120支隊伍同場競技

2024-03-01

2024年2月26日~27日，由智慧教育國家新一代人工智能開放創(chuàng)新平臺、好未來（學(xué)而思）、谷歌、普林斯頓大學(xué)、暨南大學(xué)等全球領(lǐng)先科技公司、科研機構(gòu)發(fā)起的2024AAAI大會智慧教育研討會在加拿大溫哥華召開。本次研討會為期兩天，以搭建創(chuàng)新與責(zé)任橋梁為主題，旨在探討人工智能尤其是生成式人工智能在教育應(yīng)用中的創(chuàng)新與責(zé)任倫理。

會議期間，AAAI2024 全球大模型數(shù)學(xué)解題競賽正式發(fā)布比賽結(jié)果。這是全球首個圍繞大模型數(shù)學(xué)能力的比賽，吸引了來自全球多個國家、地區(qū)的120多支隊伍參加。歷經(jīng)4個多月的激烈競爭，CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數(shù)學(xué)解題推理等8支隊伍最終勝出，贏得比賽。

聚焦生成式人工智能，深度探討創(chuàng)新與責(zé)任

過去一年中，最熱門的話題莫過于以大語言模型為代表的生成式人工智能。隨著全球大模型熱的流行，有關(guān)其創(chuàng)新應(yīng)用與責(zé)任倫理等問題成為了關(guān)注的重點。為此，來自智慧教育國家新一代人工智能開放創(chuàng)新平臺、好未來、谷歌、普林斯頓大學(xué)、暨南大學(xué)等全球領(lǐng)先科技公司和科研機構(gòu)的專家學(xué)者、技術(shù)研究人員在AAAI2024期間發(fā)起“人工智能為教育”研討會。

在為期兩天的會議中，與會者帶著各自的思考，通過論文、現(xiàn)場演講、海報、全球數(shù)學(xué)推理競賽等形式展示并聽取來自不同群體的專家學(xué)者、技術(shù)研究人員的見解，深度探討生成式人工智能的對教育的影響，未來與挑戰(zhàn)。

針對大模型技術(shù)在教育領(lǐng)域的影響，有專家表示，教育者應(yīng)該積極擁抱大模型而非抵制他們，禁止學(xué)生在完成作業(yè)時使用大模型就像20年前禁止互聯(lián)網(wǎng)的應(yīng)用一樣徒勞。教育者應(yīng)該重新設(shè)計作業(yè)，而非把精力花在發(fā)現(xiàn)作弊人員身上。更有專家表示，大模型的出現(xiàn)讓人們看到了教育的未來——每個學(xué)生都有一個與之相匹配的家教，他們更懂得孩子的需求，也知道如何讓孩子更為投入。針對大模型在教育中的幻覺、評估等難題，有專家表示，他們提出了一種自動的、基于迭代精化的測試用例生成方法，即使用LLM和symphony中的代碼編譯器，并在Code Workout數(shù)據(jù)集上對此方法進行測試，結(jié)果顯示該方法可以生成準(zhǔn)確度量學(xué)生知識水平的測試用例。

與之同時，與會人員還深度分享并討論了教育場景中，負(fù)責(zé)任的人工智能應(yīng)該具備哪些標(biāo)準(zhǔn)，應(yīng)該設(shè)置哪些倫理要求。包括，在重要的教育決策場景如招生、預(yù)警系統(tǒng)、評分中，負(fù)責(zé)任的人工智能需要盡可能保證公平性、問責(zé)性、可解釋性和透明性；負(fù)責(zé)任的人工智能在教育中的方法論貢獻和影響，包括但不限于生成模型、預(yù)測模型、因果推斷、強化學(xué)習(xí)和數(shù)據(jù)收集等。此外，有參會人員提出，隨著AI尤其是生成式AI在教育中的影響越來越大，需要通過法規(guī)、流程等確保教育公平。

全球大模型數(shù)學(xué)解題競賽落下帷幕，120支隊伍同場競技

為了提高大語言模型的數(shù)學(xué)和科學(xué)推理能力，中國領(lǐng)軍科技公司好未來（學(xué)而思）、聯(lián)合谷歌、暨南大學(xué)等多家知名科技企業(yè)及高校的專家學(xué)者，依托智慧教育國家新一代人工智能開放創(chuàng)新平臺，于2023年10月啟動AAAI2024 全球大模型數(shù)學(xué)解題競賽。

會議期間，主辦方還正式對外發(fā)布AAAI2024 全球大模型數(shù)學(xué)解題競賽正式發(fā)布比賽結(jié)果。這是全球首個圍繞大模型數(shù)學(xué)能力的比賽，要求參賽者用大模型對給定的數(shù)學(xué)題目，生成推理步驟與答案，吸引了來自全球多個國家、地區(qū)的120多支隊伍參加。歷經(jīng)4個多月的激烈競爭，CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數(shù)學(xué)解題推理等8支隊伍最終勝出，贏得比賽。

比賽分為兩個階段，第一階段為公榜階段，主辦方事先隨機在給定的數(shù)據(jù)集中選出30%的數(shù)據(jù)，供參賽者進行大模型調(diào)試。第二階段則為私榜階段，參賽者需使用第一階段調(diào)優(yōu)過的大模型來解答數(shù)據(jù)集中剩余的70%題目。主辦方通過對比參賽者的模型輸出答案與正確答案之間的準(zhǔn)確率，來為參賽者進行排名。第二階段的成績將會作為比賽的最終成績。

為了更好地探究各類大模型在不同語言上的數(shù)學(xué)能力，主辦方將比賽設(shè)置中英文兩個賽道。由好未來（學(xué)而思）提供比賽所用的中英文數(shù)據(jù)集——TAL-SAQ7K-CN、TAL-SAQ6K-EN，囊括了國內(nèi)外多個中小學(xué)數(shù)學(xué)競賽真題?？紤]到可能會使用第三方大模型進行推理，會在一定程度上對比賽成績產(chǎn)生影響。為了確保公平，主辦方將不同賽道的結(jié)果按照是否調(diào)用第三方大模型進行分類，并根據(jù)最終的分?jǐn)?shù)評選出各個不同類別的前三名。最終，在120多支參賽隊伍中，CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數(shù)學(xué)解題推理8支隊伍最終勝出。其中CPDP-ICST、cogbase、MathEducators三支隊伍同時是中文、英文賽道前三。

（中文賽道調(diào)用第三方大模型比賽結(jié)果）

（中文賽道未調(diào)用第三方大模型比賽結(jié)果）

（英文賽道調(diào)用第三方大模型比賽結(jié)果）

（英文賽道未調(diào)用第三方大模型比賽結(jié)果）

一直以來，數(shù)學(xué)都被視為人工智能的試金石。目前，大語言模型在應(yīng)對數(shù)學(xué)推理方面問題時仍然有很多挑戰(zhàn)。智慧教育國家新一代人工智能開放創(chuàng)新平臺相關(guān)負(fù)責(zé)人表示，教育作為大模型最先落地應(yīng)用場景之一，當(dāng)大模型數(shù)學(xué)能力得到突破時，將能夠帶來長久性甚至革命性的變革，能夠讓更多的人享有更多優(yōu)質(zhì)教育資源，真正實現(xiàn)大規(guī)模個性化教育。此次支持發(fā)起全球大模型數(shù)學(xué)解題能力競賽，希望能夠借助平臺的力量，積極推動科技創(chuàng)新，讓更多的人可以享受到科技進步的紅利。

智慧教育國家新一代人工智能開放創(chuàng)新平臺于2019年經(jīng)國家科技部批準(zhǔn)設(shè)立，由北京世紀(jì)好未來教育科技有限公司負(fù)責(zé)承建。平臺立足教育行業(yè)，覆蓋全國，從技術(shù)、解決方案和產(chǎn)業(yè)化服務(wù)三個方面，為教育教學(xué)單位、教育科技企業(yè)、教育從業(yè)者、人工智能研發(fā)人員等提供全場景、全過程、全周期的服務(wù)支持，促進教育產(chǎn)業(yè)智能化升級，構(gòu)建“共生”“互生”“創(chuàng)生”的智慧教育多元化新生態(tài)。

原文出自:http://news.ikanchai.com/2024/0229/577866.shtml

上一篇：用AI教會孩子獨立思考？學(xué)而思“隨時問”已經(jīng)邁出關(guān)鍵一步

下一篇：響應(yīng)國家科技人才培養(yǎng)號召，學(xué)而思素養(yǎng)助力青少年核心素養(yǎng)發(fā)展

undertaleのエロ动漫_yw139.ccm免费观看网站_巨胸爆乳露双奶头无遮挡_小尤奈无码视频

新聞中心

News center

學(xué)而思聯(lián)合谷歌等發(fā)起全球大模型數(shù)學(xué)解題競賽，120支隊伍同場競技