南京2022年11月4日 /美通社/ -- 近日,由江蘇省人工智能學(xué)會、上海數(shù)字大腦研究院及南棲仙策共同發(fā)起的強化學(xué)習(xí)創(chuàng)新創(chuàng)意大賽結(jié)果出爐。
賽事回顧
強化學(xué)習(xí)創(chuàng)新創(chuàng)意大賽,旨在激發(fā)強化學(xué)習(xí)技術(shù)的應(yīng)用創(chuàng)新,不設(shè)具體賽題。鼓勵選手了解強化學(xué)習(xí)的機制原理、掌握強化學(xué)習(xí)的任務(wù)建模、發(fā)掘強化學(xué)習(xí)落地場景、展現(xiàn)強化學(xué)習(xí)的創(chuàng)新應(yīng)用價值。
大賽自6月17日開賽以來吸引國內(nèi)外高等院校、科研單位、企業(yè)單位負責(zé)人等數(shù)百人參與其中。
大賽經(jīng)初賽、復(fù)賽兩輪,4個月的激烈角逐之后,最終經(jīng)由學(xué)術(shù)專家和產(chǎn)業(yè)專家共同評選出12支獲獎隊伍。其中4支隊伍分別斬獲"最佳項目獎"、"最佳實踐獎"、"最佳創(chuàng)意獎"、"最佳社會價值獎";8支隊伍獲得"優(yōu)秀項目獎"。
獲獎選手 Talk Time
最佳項目獎:止于至善隊
"基于強化學(xué)習(xí),實現(xiàn)分布式能源系統(tǒng)的智能決策未來是可行的。"
"目前國內(nèi)外的分布式能源管理平臺,雖然在數(shù)據(jù)感知層大量使用了人工智能技術(shù),但在決策層還是基于傳統(tǒng)的優(yōu)化算法。這些算法受限于計算精度和實時性不能兼得,而且很難處理新能源帶來的波動性和隨機性問題。而強化學(xué)習(xí)可以處理這些問題。"
隊長侯勝任來自荷蘭代爾夫特理工大學(xué),吳明賀、顏子恒來自東南大學(xué)。為應(yīng)對全球氣候變暖和能源危機,這支隊伍將強化學(xué)習(xí)應(yīng)用于新能源沖擊下的能源管理系統(tǒng),實現(xiàn)分布式能源系統(tǒng)的智能決策,使能源系統(tǒng)運行在高效、經(jīng)濟、安全、可靠的運行區(qū)間。在滿足用戶需求的前提下,大幅度降低公司系統(tǒng)運行成本,為客戶創(chuàng)造更多的收益。
最佳創(chuàng)意獎:Brain Control隊
"我一直認為強化學(xué)習(xí)方法會為生命科學(xué)領(lǐng)域里的一些問題帶來突破。"
"本次獲獎項目是我們團隊將強化學(xué)習(xí)方法應(yīng)用大腦疾病治療的一次嘗試,目的是為了更好地幫助醫(yī)生和病人選擇更合適的治療策略,這不僅可以為病人帶來更優(yōu)的治療效果,更可以釋放大量的醫(yī)療資源。"
這是來自復(fù)旦大學(xué)的兩位博士生,李巖和權(quán)昭宇,他們將強化學(xué)習(xí)應(yīng)用于自動化腦深部電刺激的參數(shù)調(diào)節(jié)。也就是通過強化學(xué)習(xí)自動尋找個性化的最優(yōu)刺激參數(shù),產(chǎn)生最優(yōu)的疾病治療方案。
這項技術(shù)在未來將有機會在面向帕金森、癱瘓、癲癇和抑郁癥等的疾病治療中發(fā)揮巨大作用。減輕病人的痛苦,減少醫(yī)生的工作量。
最佳社會價值獎:Traffic Go隊
"作為交通從業(yè)者,我非常渴望能夠攻堅克難,打造適用于我國的先進城市交通優(yōu)化控制與緩堵平臺。"
這是來自同濟大學(xué)的博士后王一喆,他對被稱為"交通工程領(lǐng)域王冠上的明珠"的世界性難題:交通控制和緩解擁堵 發(fā)起挑戰(zhàn)。
基于強化學(xué)習(xí)的交通控制算法及機制,他通過構(gòu)建可復(fù)用性強,自動化程度高的關(guān)鍵特征提取程序;搭建層次分明,易于查詢的數(shù)據(jù)結(jié)構(gòu),即使面對隨機性強,波動性大且呈非線性變化的復(fù)雜城市道路交通狀況,也可以獲得更高的可測性和可控制性。
最佳實踐獎:穿梭在銀河的火箭隊
"希望能幫助更多人縮減決策時間,讓人們將時間用在有更有價值的地方。"
"通過本次比賽,我們更加堅信了強化學(xué)習(xí)在決策領(lǐng)域巨大的潛力,希望能將學(xué)到的知識應(yīng)用于實踐,同時幫助大家理解機器決策過程中每一步的含義,也就是為什么這樣做,能夠帶來更高的收益。"
這支隊伍的陳濤,史晨佳和任智軍老師來自于上海商學(xué)院,他們聚焦個體投資者和機構(gòu),提供完整高效可行的投資交易策略。他們的項目對中國的A股市場的環(huán)境和數(shù)據(jù)進行建模,將深度強化學(xué)習(xí)應(yīng)用到金融領(lǐng)域,使用智能體模擬交易員,在A股市場中進行選股和擇時交易,讓決策更優(yōu)越、更簡單。
在項目進行到中后期,為了節(jié)省算力和時間,他們在REVIVE仙啟平臺進行了多智能體模型的訓(xùn)練。"不得不說,「仙啟」的表現(xiàn)真的遠超團隊預(yù)期,只需要少量的代碼便可以進行實操,這也極大的彌補了團隊在多智能體模型上編碼能力不足的缺陷,早點使用該平臺也許項目進度會快很多。"
該項目在"東方財富杯"全國大學(xué)生金融挑戰(zhàn)賽 進行了落地驗證,以總收益20.93%戰(zhàn)勝了全國98%的選手。為他們高興!
在實際場景中的落地
南棲向參賽選手們提供了REVIVE [仙啟](https://revive.cn/)在實際場景中的落地。
南棲向參賽選手們提供了REVIVE「仙啟」幫助選手還原現(xiàn)實場景,構(gòu)建無限接近真實的虛擬環(huán)境,在這個環(huán)境中進行策略驗證和對比,獲得最終可遷移到實際應(yīng)用中的最佳策略。)幫助選手還原現(xiàn)實場景,構(gòu)建無限接近真實的虛擬環(huán)境,在這個環(huán)境中進行策略驗證和對比,獲得最終可遷移到實際應(yīng)用中的最佳策略。
此外,感謝張偉楠、安波、張哲先、俞揚等教授和老師,抽出寶貴時間,為選手們提供了一對一的指導(dǎo)和講座。
為了讓更多對強化學(xué)習(xí)應(yīng)用感興趣的人從本次大賽中獲益,主辦方在南棲仙策B站官方賬號上公開了部分講座內(nèi)容,點擊講座觀看講座視頻。
大賽還涌現(xiàn)出了一批精彩的應(yīng)用場景和項目,讓我們一起來看看獲獎名單。
誠如張偉楠老師在講座中所言,強化學(xué)習(xí)所對標(biāo)的決策智能擁有非常廣闊的市場,因為在任何一個行業(yè),一旦有決策優(yōu)化的需求,就有可能使用到強化學(xué)習(xí)技術(shù)。
讓我們共同期待,在未來,更多的人能夠借助強化學(xué)習(xí)的力量改變世界。