機(jī)器之心報(bào)道
參與:張倩
歷時(shí)兩個(gè)多月,本周一,香港中文大學(xué)信息工程系助理教授周博磊的中文強(qiáng)化學(xué)習(xí)課程終于完結(jié)了。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-1.jpg (229.33 KB, 下載次數(shù): 52)
下載附件
2024-10-27 11:20 上傳
作為全國(guó)知名的學(xué)習(xí)網(wǎng)站,我們經(jīng)常可以在 B 站上看到國(guó)內(nèi)外名師的講課視頻。但這些視頻一般都是「搬運(yùn)工」們從油管等渠道搬上來的。
那有沒有哪位大佬親自下場(chǎng)當(dāng) up 主呢?香港中文大學(xué)的周博磊老師就是其中一位。
周博磊老師博士畢業(yè)于麻省理工學(xué)院,現(xiàn)任香港中文大學(xué)信息工程系助理教授,研究方向主要為機(jī)器感知和決策,重點(diǎn)是通過學(xué)習(xí)可解釋、結(jié)構(gòu)化的表征,使機(jī)器能夠在復(fù)雜的環(huán)境中感知、推理和行動(dòng)。
今年 3 月份,受疫情影響,宅在家上課的周老師做出了一個(gè)決定:把自己每周的《強(qiáng)化學(xué)習(xí)綱要》課程用中文講一遍,并上傳到 B 站。這一消息吸引了上萬人圍觀。這可能也是全網(wǎng)第一個(gè)中文強(qiáng)化學(xué)習(xí)課程。
在過去的兩個(gè)多月里,周老師基本保持著每周一更的頻率,為大家錄制了 10 節(jié)課程,共 16 個(gè)視頻。主題包括:
概括與基礎(chǔ)
馬爾科夫決策過程
無模型的價(jià)值函數(shù)估計(jì)和控制
價(jià)值函數(shù)的近似
策略優(yōu)化基礎(chǔ)
策略優(yōu)化進(jìn)階
基于環(huán)境模型的 RL 方法
模仿學(xué)習(xí)
RL 分布式系統(tǒng)
完結(jié)篇
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-2.jpg (327.13 KB, 下載次數(shù): 45)
下載附件
2024-10-27 11:20 上傳
該課程使用的編程語言是 Python,深度學(xué)習(xí)框架則是 TensorFlow 和 PyTorch(PyTorch 為主)。
在開課之初,周老師曾提醒大家,該課程主要面向大三、大四或研一的學(xué)生。參加課程的學(xué)生需要具備相關(guān)背景知識(shí),包括線性代數(shù)、概率論、機(jī)器學(xué)習(xí)(數(shù)據(jù)挖掘、模式識(shí)別、深度學(xué)習(xí))等。此外,由于該課程有不少實(shí)踐內(nèi)容,所以參加課程的同學(xué)最好有一些編程經(jīng)驗(yàn),會(huì)用 Python、PyTorch。
課是有一定難度的,從播放量的變化趨勢(shì)也可略知一二。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-3.jpg (57.35 KB, 下載次數(shù): 46)
下載附件
2024-10-27 11:20 上傳
但即便如此,還是有同學(xué)堅(jiān)持到了最后,并表示受益匪淺:
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-4.jpg (125.55 KB, 下載次數(shù): 60)
下載附件
2024-10-27 11:20 上傳
還有同學(xué)表示,上完課感覺自己變聰明了:
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-5.jpg (18.39 KB, 下載次數(shù): 43)
下載附件
2024-10-27 11:20 上傳
除了課程視頻之外,周老師還在 GitHub 上更新了課程的全部代碼,而且每節(jié)課后都留有作業(yè)。
課程地址:https://space.bilibili.com/511221970
GitHub 鏈接:https://github.com/zhoubolei/introRL
下面讓我們來看一下每節(jié)課的具體內(nèi)容。
9 小時(shí) 10 堂課,周老師帶你走近強(qiáng)化學(xué)習(xí)
第一節(jié)課分上下兩節(jié),總共 44 分鐘,主要介紹了課程綱要、強(qiáng)化學(xué)習(xí)基本概念、序列決策入門、強(qiáng)化學(xué)習(xí)編程實(shí)踐等內(nèi)容。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-6.jpg (124 KB, 下載次數(shù): 40)
下載附件
2024-10-27 11:20 上傳
在第二節(jié)課上,周老師用 1 個(gè)小時(shí)的時(shí)間介紹了馬爾科夫決策過程(MDP),包括 1)馬爾科夫鏈(馬爾科夫決策過程的簡(jiǎn)化版本)、馬爾科夫獎(jiǎng)勵(lì)過程;2)馬爾科夫決策過程的策略估計(jì),即當(dāng)給定一個(gè)決策過程之后,如何計(jì)算它的價(jià)值函數(shù);3)馬爾科夫決策過程的控制,包括策略迭代和價(jià)值迭代兩種算法。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-7.jpg (96.09 KB, 下載次數(shù): 51)
下載附件
2024-10-27 11:20 上傳
然而,在現(xiàn)實(shí)生活中,很多情況下無法獲取準(zhǔn)確的 MDP 模型,因此只能借助無模型的方法解決問題,這也是周老師在第三課中講解的主要內(nèi)容,包括無模型的價(jià)值函數(shù)估計(jì)和控制。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-8.jpg (26.55 KB, 下載次數(shù): 36)
下載附件
2024-10-27 11:20 上傳
第四課的主題是價(jià)值函數(shù)的近似,包括價(jià)值函數(shù)近似的基本原理、利用價(jià)值函數(shù)近似進(jìn)行預(yù)測(cè)和控制、DQN 在雅達(dá)利游戲中的應(yīng)用等。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-9.jpg (153.55 KB, 下載次數(shù): 57)
下載附件
2024-10-27 11:20 上傳
第五課是關(guān)于策略優(yōu)化的基礎(chǔ)知識(shí),包括基于策略的強(qiáng)化學(xué)習(xí)、蒙特卡羅策略梯度算法、如何減小策略梯度中的方差、Actor-Critic 算法等。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-10.jpg (94.41 KB, 下載次數(shù): 50)
下載附件
2024-10-27 11:20 上傳
前五堂課的內(nèi)容都非常豐富,全部消化已非常不易,但其實(shí)這還沒到最難的部分。最難的一課是第六課。
第六課依然是講策略優(yōu)化,不過難度上了一個(gè)臺(tái)階。在這堂課中,周老師主要介紹了策略梯度算法的不同變種以及近五年來最新的策略優(yōu)化過程。其中,后者可以分為兩條主線,涵蓋強(qiáng)化學(xué)習(xí)中最有名的六種算法:
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-11.jpg (21.05 KB, 下載次數(shù): 58)
下載附件
2024-10-27 11:20 上傳
由于課程只有 1 個(gè)半小時(shí)的時(shí)間,因此每個(gè)部分不可能講得非常詳細(xì),學(xué)到這課的同學(xué)還需要自己去啃其中涉及的一些論文。
第七課的內(nèi)容是基于模型的強(qiáng)化學(xué)習(xí)算法,包括概要、基于模型的價(jià)值函數(shù)優(yōu)化、基于模型的策略函數(shù)優(yōu)化、基于模型的算法在機(jī)器人中的應(yīng)用等內(nèi)容。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-12.jpg (149.54 KB, 下載次數(shù): 55)
下載附件
2024-10-27 11:20 上傳
第八課的內(nèi)容是模仿學(xué)習(xí),包括 1)概要;2)模仿學(xué)習(xí)的兩種常見算法——行為克隆和 DAGGER;3)逆強(qiáng)化學(xué)習(xí)和基于生成對(duì)抗訓(xùn)練的模仿學(xué)習(xí);4)如何改進(jìn)模型學(xué)習(xí)的模型;5)如何結(jié)合模型學(xué)習(xí)與強(qiáng)化學(xué)習(xí)以及 6)模仿學(xué)習(xí)在計(jì)算機(jī)視覺等任務(wù)中的應(yīng)用。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-13.jpg (99.04 KB, 下載次數(shù): 57)
下載附件
2024-10-27 11:20 上傳
第九課是強(qiáng)化學(xué)習(xí)系統(tǒng)的分布式設(shè)計(jì),具體內(nèi)容包括分布式機(jī)器學(xué)習(xí)的特點(diǎn)、分布式系統(tǒng)到強(qiáng)化學(xué)習(xí)系統(tǒng)的演變以及 AlphaGo、OpenAI Five、AlphaStar 等知名強(qiáng)化學(xué)習(xí) AI 背后的系統(tǒng)設(shè)計(jì)。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-14.jpg (175.38 KB, 下載次數(shù): 43)
下載附件
2024-10-27 11:20 上傳
最后一節(jié)課是復(fù)習(xí)課,把前面九節(jié)課的內(nèi)容進(jìn)行了梳理。
除此之外,周老師還推薦了一些強(qiáng)化學(xué)習(xí)方面的閱讀材料,包括 OpenAI 的深度強(qiáng)化學(xué)習(xí)教程 Spinning-Up 和 John Schulman 的《Nuts and Bolts of Deep RL experimentation》課程。前者總結(jié)了現(xiàn)有的主流強(qiáng)化學(xué)習(xí)算法,既有代碼也有講解;后者是 John Schulman 的強(qiáng)化學(xué)習(xí)研究歷程與經(jīng)驗(yàn)。這些可以和本課程的推薦教材——Sutton 和 Barton 合作撰寫的《強(qiáng)化學(xué)習(xí)》一起閱讀。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-15.jpg (134.85 KB, 下載次數(shù): 41)
下載附件
2024-10-27 11:20 上傳
至此,《強(qiáng)化學(xué)習(xí)綱要》課程告一段落。不過,周老師表示,他可能會(huì)在暑假錄一些「番外」,聊一聊自己感興趣的生成建模、無監(jiān)督表征學(xué)習(xí)等內(nèi)容。此外,關(guān)于機(jī)器感知與決策的內(nèi)容也在籌劃,有望在暑假與大家見面。
B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)-16.jpg (120.56 KB, 下載次數(shù): 38)
下載附件
2024-10-27 11:20 上傳
|
|