欧美深夜视频_国产精品99视频_国产精品网站一区_亚洲最大av网

B站教學(xué),全中文課程:港中文周博磊強(qiáng)化學(xué)習(xí)課程完結(jié)

2024-10-27 11:02| 發(fā)布者: 心懷正義| 查看: 719| 評(píng)論: 6

機(jī)器之心報(bào)道

參與:張倩

歷時(shí)兩個(gè)多月,本周一,香港中文大學(xué)信息工程系助理教授周博磊的中文強(qiáng)化學(xué)習(xí)課程終于完結(jié)了。



作為全國(guó)知名的學(xué)習(xí)網(wǎng)站,我們經(jīng)常可以在 B 站上看到國(guó)內(nèi)外名師的講課視頻。但這些視頻一般都是「搬運(yùn)工」們從油管等渠道搬上來的。

那有沒有哪位大佬親自下場(chǎng)當(dāng) up 主呢?香港中文大學(xué)的周博磊老師就是其中一位。

周博磊老師博士畢業(yè)于麻省理工學(xué)院,現(xiàn)任香港中文大學(xué)信息工程系助理教授,研究方向主要為機(jī)器感知和決策,重點(diǎn)是通過學(xué)習(xí)可解釋、結(jié)構(gòu)化的表征,使機(jī)器能夠在復(fù)雜的環(huán)境中感知、推理和行動(dòng)。

今年 3 月份,受疫情影響,宅在家上課的周老師做出了一個(gè)決定:把自己每周的《強(qiáng)化學(xué)習(xí)綱要》課程用中文講一遍,并上傳到 B 站。這一消息吸引了上萬人圍觀。這可能也是全網(wǎng)第一個(gè)中文強(qiáng)化學(xué)習(xí)課程。

在過去的兩個(gè)多月里,周老師基本保持著每周一更的頻率,為大家錄制了 10 節(jié)課程,共 16 個(gè)視頻。主題包括:

概括與基礎(chǔ)

馬爾科夫決策過程

無模型的價(jià)值函數(shù)估計(jì)和控制

價(jià)值函數(shù)的近似

策略優(yōu)化基礎(chǔ)

策略優(yōu)化進(jìn)階

基于環(huán)境模型的 RL 方法

模仿學(xué)習(xí)

RL 分布式系統(tǒng)

完結(jié)篇



該課程使用的編程語言是 Python,深度學(xué)習(xí)框架則是 TensorFlow 和 PyTorch(PyTorch 為主)。

在開課之初,周老師曾提醒大家,該課程主要面向大三、大四或研一的學(xué)生。參加課程的學(xué)生需要具備相關(guān)背景知識(shí),包括線性代數(shù)、概率論、機(jī)器學(xué)習(xí)(數(shù)據(jù)挖掘、模式識(shí)別、深度學(xué)習(xí))等。此外,由于該課程有不少實(shí)踐內(nèi)容,所以參加課程的同學(xué)最好有一些編程經(jīng)驗(yàn),會(huì)用 Python、PyTorch。

課是有一定難度的,從播放量的變化趨勢(shì)也可略知一二。



但即便如此,還是有同學(xué)堅(jiān)持到了最后,并表示受益匪淺:



還有同學(xué)表示,上完課感覺自己變聰明了:



除了課程視頻之外,周老師還在 GitHub 上更新了課程的全部代碼,而且每節(jié)課后都留有作業(yè)。

課程地址:https://space.bilibili.com/511221970

GitHub 鏈接:https://github.com/zhoubolei/introRL

下面讓我們來看一下每節(jié)課的具體內(nèi)容。

9 小時(shí) 10 堂課,周老師帶你走近強(qiáng)化學(xué)習(xí)

第一節(jié)課分上下兩節(jié),總共 44 分鐘,主要介紹了課程綱要、強(qiáng)化學(xué)習(xí)基本概念、序列決策入門、強(qiáng)化學(xué)習(xí)編程實(shí)踐等內(nèi)容。



在第二節(jié)課上,周老師用 1 個(gè)小時(shí)的時(shí)間介紹了馬爾科夫決策過程(MDP),包括 1)馬爾科夫鏈(馬爾科夫決策過程的簡(jiǎn)化版本)、馬爾科夫獎(jiǎng)勵(lì)過程;2)馬爾科夫決策過程的策略估計(jì),即當(dāng)給定一個(gè)決策過程之后,如何計(jì)算它的價(jià)值函數(shù);3)馬爾科夫決策過程的控制,包括策略迭代和價(jià)值迭代兩種算法。



然而,在現(xiàn)實(shí)生活中,很多情況下無法獲取準(zhǔn)確的 MDP 模型,因此只能借助無模型的方法解決問題,這也是周老師在第三課中講解的主要內(nèi)容,包括無模型的價(jià)值函數(shù)估計(jì)和控制。



第四課的主題是價(jià)值函數(shù)的近似,包括價(jià)值函數(shù)近似的基本原理、利用價(jià)值函數(shù)近似進(jìn)行預(yù)測(cè)和控制、DQN 在雅達(dá)利游戲中的應(yīng)用等。



第五課是關(guān)于策略優(yōu)化的基礎(chǔ)知識(shí),包括基于策略的強(qiáng)化學(xué)習(xí)、蒙特卡羅策略梯度算法、如何減小策略梯度中的方差、Actor-Critic 算法等。



前五堂課的內(nèi)容都非常豐富,全部消化已非常不易,但其實(shí)這還沒到最難的部分。最難的一課是第六課。

第六課依然是講策略優(yōu)化,不過難度上了一個(gè)臺(tái)階。在這堂課中,周老師主要介紹了策略梯度算法的不同變種以及近五年來最新的策略優(yōu)化過程。其中,后者可以分為兩條主線,涵蓋強(qiáng)化學(xué)習(xí)中最有名的六種算法:



由于課程只有 1 個(gè)半小時(shí)的時(shí)間,因此每個(gè)部分不可能講得非常詳細(xì),學(xué)到這課的同學(xué)還需要自己去啃其中涉及的一些論文。

第七課的內(nèi)容是基于模型的強(qiáng)化學(xué)習(xí)算法,包括概要、基于模型的價(jià)值函數(shù)優(yōu)化、基于模型的策略函數(shù)優(yōu)化、基于模型的算法在機(jī)器人中的應(yīng)用等內(nèi)容。



第八課的內(nèi)容是模仿學(xué)習(xí),包括 1)概要;2)模仿學(xué)習(xí)的兩種常見算法——行為克隆和 DAGGER;3)逆強(qiáng)化學(xué)習(xí)和基于生成對(duì)抗訓(xùn)練的模仿學(xué)習(xí);4)如何改進(jìn)模型學(xué)習(xí)的模型;5)如何結(jié)合模型學(xué)習(xí)與強(qiáng)化學(xué)習(xí)以及 6)模仿學(xué)習(xí)在計(jì)算機(jī)視覺等任務(wù)中的應(yīng)用。



第九課是強(qiáng)化學(xué)習(xí)系統(tǒng)的分布式設(shè)計(jì),具體內(nèi)容包括分布式機(jī)器學(xué)習(xí)的特點(diǎn)、分布式系統(tǒng)到強(qiáng)化學(xué)習(xí)系統(tǒng)的演變以及 AlphaGo、OpenAI Five、AlphaStar 等知名強(qiáng)化學(xué)習(xí) AI 背后的系統(tǒng)設(shè)計(jì)。



最后一節(jié)課是復(fù)習(xí)課,把前面九節(jié)課的內(nèi)容進(jìn)行了梳理。

除此之外,周老師還推薦了一些強(qiáng)化學(xué)習(xí)方面的閱讀材料,包括 OpenAI 的深度強(qiáng)化學(xué)習(xí)教程 Spinning-Up 和 John Schulman 的《Nuts and Bolts of Deep RL experimentation》課程。前者總結(jié)了現(xiàn)有的主流強(qiáng)化學(xué)習(xí)算法,既有代碼也有講解;后者是 John Schulman 的強(qiáng)化學(xué)習(xí)研究歷程與經(jīng)驗(yàn)。這些可以和本課程的推薦教材——Sutton 和 Barton 合作撰寫的《強(qiáng)化學(xué)習(xí)》一起閱讀。



至此,《強(qiáng)化學(xué)習(xí)綱要》課程告一段落。不過,周老師表示,他可能會(huì)在暑假錄一些「番外」,聊一聊自己感興趣的生成建模、無監(jiān)督表征學(xué)習(xí)等內(nèi)容。此外,關(guān)于機(jī)器感知與決策的內(nèi)容也在籌劃,有望在暑假與大家見面。

分享到:

本版積分規(guī)則

交流熱線
17501437970 周一至周日:09:00 - 21:00

創(chuàng)贏網(wǎng)-致力于幫助普通人在創(chuàng)業(yè)之路上披荊斬棘、走向成功的專業(yè)網(wǎng)站,匯聚創(chuàng)新智慧與成功機(jī)遇的網(wǎng)絡(luò)天地,是創(chuàng)業(yè)者開啟贏之征程的首選之地。

Powered by Discuz! X3.5 © 2023-2050 CHUANYING Team.

QQ|Archiver|手機(jī)版|小黑屋|創(chuàng)贏網(wǎng) ( 湘ICP備17022177號(hào)-3 )

GMT+8, 2025-10-30 03:27 , Processed in 0.349172 second(s), 30 queries .

快速回復(fù) 返回頂部 返回列表
欧美深夜视频_国产精品99视频_国产精品网站一区_亚洲最大av网
亚洲国产精品ⅴa在线观看| 久久久精品黄色| 2020日本不卡一区二区视频| 美女视频一区二区三区| 欧美成人免费网站| 成人性生交大合| 亚洲欧洲99久久| 欧美巨大另类极品videosbest | 一区二区三区免费| 欧美一区二区三区四区在线观看| 麻豆精品视频在线| 久久97超碰色| 欧美激情一区二区三区全黄 | 久久久一区二区三区| 91女厕偷拍女厕偷拍高清| 奇米四色…亚洲| 中文成人综合网| 91麻豆精品国产自产在线 | 日韩高清不卡一区二区| 国产偷v国产偷v亚洲高清| 欧美视频一区二区三区| 国产91丝袜在线18| 日韩高清在线观看| 成人欧美一区二区三区| 精品国产一区二区精华| 欧美日韩高清在线| 99国产一区二区三精品乱码| 国产综合久久久久久久久久久久| 亚洲一区二区av电影| 国产色产综合色产在线视频| 在线播放91灌醉迷j高跟美女| 91在线porny国产在线看| 韩国成人精品a∨在线观看| 香蕉成人啪国产精品视频综合网| 乱中年女人伦av一区二区| 成人欧美一区二区三区白人| 欧美一区二区三区男人的天堂| 色综合天天综合网国产成人综合天| 久久精品国产精品青草| 亚洲成av人片一区二区| 亚洲欧美一区二区三区孕妇| 久久精品水蜜桃av综合天堂| 日韩欧美亚洲另类制服综合在线| 欧美亚洲日本一区| 日本精品一级二级| 91久久久免费一区二区| 91麻豆精品在线观看| 国产91精品在线观看| 国产精品一区久久久久| 国产精品18久久久久久vr| 精品一区二区三区欧美| 另类小说图片综合网| 麻豆精品视频在线| 麻豆精品视频在线| 国内精品写真在线观看 | 精品亚洲欧美一区| 久久电影国产免费久久电影 | 91精品福利视频| 欧美综合久久久| caoporm超碰国产精品| 国产欧美综合在线观看第十页| 7777精品伊人久久久大香线蕉经典版下载 | 国产精品久久看| 国产精品女上位| 国产精品欧美经典| 中文字幕日韩一区二区| 亚洲主播在线观看| 午夜精品视频在线观看| 青青青伊人色综合久久| 男男成人高潮片免费网站| 久久精品国产一区二区| 国产精品自产自拍| av中文字幕不卡| 色8久久精品久久久久久蜜| 欧美日韩一区在线| 精品三级av在线| 国产精品女主播av| 亚洲va天堂va国产va久| 精品一区二区三区欧美| 91色综合久久久久婷婷| 91精品国产手机| 久久久久久亚洲综合影院红桃| 中文字幕制服丝袜成人av| 色婷婷国产精品| 欧美精选在线播放| 欧美高清在线视频| 亚洲成人免费在线观看| 狠狠色狠狠色合久久伊人| av成人免费在线观看| 7878成人国产在线观看| 中文字幕乱码一区二区免费| 亚洲第一狼人社区| 国产成人一区二区精品非洲| 一本一道久久a久久精品| 欧美一二三四区在线| 亚洲欧美另类小说视频| 国产乱人伦精品一区二区在线观看| 色综合色综合色综合色综合色综合| 宅男噜噜噜66一区二区66| 国产精品国模大尺度视频| 久久精品国产精品亚洲精品| 欧美在线综合视频| 中文字幕第一区| 奇米色一区二区三区四区| 一本大道av一区二区在线播放| 欧美精品一区男女天堂| 天天免费综合色| 日本精品裸体写真集在线观看 | 精品99久久久久久| 婷婷综合五月天| 在线观看日韩毛片| 精品一二三四区| 成人久久久精品乱码一区二区三区| 亚洲综合一区二区三区| 亚洲欧洲性图库| 日韩专区中文字幕一区二区| 亚洲成人av资源| 亚洲香肠在线观看| 91一区一区三区| 欧美一区二区黄| 中文字幕一区二区5566日韩| 91福利视频网站| 成人毛片老司机大片| av电影天堂一区二区在线| 91视频国产资源| 91福利国产成人精品照片| 欧美大度的电影原声| 国产精品国产自产拍在线| 国产成人av电影免费在线观看| 99re6这里只有精品视频在线观看| 蓝色福利精品导航| 久久99精品久久久久| 亚洲国产精华液网站w| 国产精品超碰97尤物18| 国产精品女主播在线观看| 久久综合色鬼综合色| 欧美精品三级日韩久久| 欧美色图12p| 色婷婷av一区二区三区大白胸| 国产精品资源在线| 久久国产精品露脸对白| 一级中文字幕一区二区| 高清不卡在线观看| 国产欧美日韩三区| 国产麻豆精品一区二区| 久久精品视频网| 懂色中文一区二区在线播放| 久久久激情视频| 成人精品gif动图一区| 亚洲男人的天堂网| 欧美日韩在线观看一区二区 | av电影一区二区| 尤物在线观看一区| 欧美美女激情18p| 久久精品国产免费看久久精品| 国产亚洲成年网址在线观看| 91原创在线视频| 麻豆91精品视频| 综合电影一区二区三区 | 精品国产百合女同互慰| 国产成人丝袜美腿| 亚洲免费av网站| 欧美一区二区啪啪| 成人夜色视频网站在线观看| 亚洲线精品一区二区三区八戒| 日韩欧美国产三级电影视频| 91精品国产综合久久福利| 国产盗摄一区二区三区| 亚洲国产综合人成综合网站| 精品欧美乱码久久久久久| 99视频精品在线| 久久精品国产一区二区| 亚洲黄色在线视频| 欧美精品一区二区三区视频| 在线观看亚洲a| 国产成人啪免费观看软件| 青青草国产成人av片免费| 中文字幕一区二区5566日韩| 日韩欧美高清在线| 欧美日韩综合在线免费观看| 国产福利91精品一区二区三区| 亚洲国产日韩在线一区模特| 国产精品久久国产精麻豆99网站| 日韩一卡二卡三卡国产欧美| 日本韩国一区二区| 成人国产视频在线观看| 久久99国产精品成人| 日韩精品乱码免费| 亚洲精品久久嫩草网站秘色| 国产精品毛片久久久久久| 精品日韩一区二区三区免费视频| 91极品美女在线| 一本到不卡精品视频在线观看| 丰满亚洲少妇av| 国产一区二区三区黄视频| 麻豆久久久久久| 看电影不卡的网站| 日本成人在线网站| 日本vs亚洲vs韩国一区三区二区 | 日韩av中文字幕一区二区 |