清华电子工程与应用 课大于天——记清华大学电机工程与应用电子技术系教授于歆杰

小编 2025-04-09 电子技术 23 0

课大于天——记清华大学电机工程与应用电子技术系教授于歆杰

大力弘扬教育家精神 躬耕教坛 强国有我

从教23年,他荣誉等身。而一切荣誉的起点,来自他对“课大于天”这一信念的坚持

与学生在一起,是他给自己定下的规矩:力争每学期与每位学生一对一谈一次话;每周跟同学们集体跑一次步;每学期跟同学们一起集体出游一次……

他说,一个教师,最核心的工作就是培养人,在培养人上投入再多的时间和精力都是正确的

2月27日上午,清华大学“电路原理”春季学期第一节课准时开课,该校电机工程与应用电子技术系教授、系党委书记于歆杰走上讲台。他没有急着讲知识,而是先给学生立下了这门课的“规矩”:不拖堂,迟到一定会被批评,抄作业被发现记0分,期中期末决不调分。

“只要教,教的就是教师的人生观。”于歆杰说,“立规矩”本质上是给学生树立规则意识。在他看来,教师对待教学、课程和课堂的态度既是潜移默化的课程思政,也是课程思政建设中最难的部分,教师首先要立“己德”,其次才有可能立“生德”。

“我们每一位大学教师,都要主动作为,要成为‘先生’,更要努力做难而正确的事,争取成为‘大先生’。”于歆杰说。他认为,“先生”是披荆斩棘、架桥修路的人,“大先生”则是为学生指引方向的人。

课大于天:建设一门学生喜欢的课

2013年牵头开设清华大学首门慕课“电路原理”,吸引来自158个国家和地区的超过37万名学生观看;基于“电路原理”课程探索“以学生为中心的教与学”教学模式,获国家级教学成果奖二等奖;面对突发的疫情,担任清华大学在线教学指导专家组组长,确保2020年春季学期清华大学全部课程如期线上开学……

从教23年,于歆杰荣誉等身。而一切荣誉的起点,来自他对“课大于天”这一信念的坚持。无论是对课程思政、慕课、翻转课堂的探索与实践,还是做“教学的学术”,持续创新的动力来自他乐教爱生的教师底色。

翻开于歆杰的“教学档案袋”,里面详细记录了“电路原理”课程自2002年开课以来的授课情况,其中9次学生评教排名全校前5%,学生评价中最多的词汇是“硬核”“收获满满”……

作为清华电机系最基础、最核心的专业课程之一,“电路原理”通篇是枯燥的公式、名词和推导过程。怎样在枯燥的专业课中实现立德树人?

在于歆杰看来,立德树人的核心是教师对课程是否足够敬畏,是否能坚持“课大于天”的原则。开课20多年来,于歆杰从未因出差、开会或身体原因调整过一次课堂讲授,始终以“最高权重”保证课程教学。

于歆杰和团队对课程进行了顶层设计:在内容层面,着力讲好中国故事、先哲故事、反面故事和人生故事。比如,在讲到交流电系统时,于歆杰会讲到清华大学电机系团队研发的电压稳定控制器在美国的应用;讲电路处理信号子功能时,则会介绍华为研发5G以及美国对华为的打压。

“在枯燥的知识点之外讲一讲故事,孩子们不仅爱听,而且点燃了科研报国的热情。”于歆杰说。

在激发创新潜能时,于歆杰对课程进行了改造,搭建起教学“脚手架”,将“句号”变成了“问号”,将结论变成了探索。例如,在讲一端口网络时,通过由浅入深的问题设置,指引学生一步步推导出1883年法国工程师戴维南提出的“戴维南定理”。

“过去我们上课常常直接告诉学生们知识是什么、要怎么用。现在我们把课件变成了发明家视角,让学生自己推导出定理,习惯去创新。”于歆杰说。

“课上,于老师非常严谨,课堂掌控力很强;课下,于老师热爱体育锻炼,经常和我们一起爬山、摄影。”苏凌君是未央书院2021级学生,大一上过于歆杰的课后,始终与于歆杰保持着联系。苏凌君很喜欢书院提倡的从游文化——“大鱼带着小鱼游”,在他看来,于歆杰就是这条大鱼,而自己就是跟在大鱼身边自由探索的小鱼。

做教学的学术:探索以学生为中心的创新

“78人的答题,答对76人,还有2个或许是故意为之。”“这题全对,看来大家掌握得不错。”“这题错了10个人,这10位同学课后可以再看看回放。”……

在一节45分钟的“电路原理”课上,于歆杰设计了5道计算题、2个线上抢答,平均每5—10分钟让学生做一个小测验,并亮出统计结果。学生也可以实时抢答、探讨,甚至发弹幕吐槽。

“借助‘雨课堂’教学工具,一方面教师可以实时了解学生的知识掌握情况,另一方面也让学生有所比较,从而有学习的紧张感。”于歆杰说,这就是以学生为中心的教学。

一代人有一代人的特质,于歆杰在教学过程中发现,“95后”“00后”学生的综合素质高、思维活跃,主动获取信息的能力和意愿显著增强;伴随移动互联网成长的特质也使传统课堂面临挑战:一方面是抬头率下降,另一方面是相同难度的考试,学生成绩下降了。

于歆杰不禁思考:在数字化资源和慕课普及的时代,什么才是课堂最核心的价值?“学生躺在被窝里,名师排着队上课”,滔滔不绝的教师和低头沉默的课堂,学习成效还有多少?课堂如果要变,该是什么形态?

“教师一定要做教学的学术。”秉持着这样的理念,2013年,于歆杰牵头开设了清华大学首门慕课“电路原理”,并探索“以学生为中心的教与学”全新教学模式。

什么叫“以学生为中心”?清华的名师名课能否在南京大学、贵州理工大学、青海大学同步落地?在一场跨越四省四校的教学试验中,于歆杰总结出了3个层面:一是以学生的学习成效为中心,二是以学生的学习需求为中心,三是以学生的学习能力为中心。

于歆杰解释,第一个层面,即无论课堂讲授、动手实践还是翻转课堂,教学手段多样的目标在于提升学生的学习成效。第二个层面,提供更灵活的教学模式,如对于主动探索的学生,提供具有挑战性的完全翻转课堂;对于基础较差的学生,提供小班习题研讨。第三个层面,即借助数字化资源、先进算法,为学生的学习能力画像,提供个性化的学习建议。

“最终3个版本的‘电路原理’慕课在试验校都取得了很好的落地效果。”于歆杰说,这场探索所凝聚的相关成果,也荣获国家教学成果二等奖、北京市教学成果一等奖和清华大学教学成果特等奖。

2020年春季学期,面对突发的新冠疫情,为保障“如期开课”,于歆杰临危受命担任清华大学在线教学指导专家组组长,对全校教师进行在线教学培训,最终清华大学春季学期所有课程都以在线教学方式圆满完成。

“真学者一定会用学术的视角来审视他的教学,会发现真问题,寻找现有方案,作出突破,并与别人分享。”于歆杰坚信。

为师之乐:与学生一起在泥塘里跋涉

2019年秋季开学,于歆杰作为教师代表在新生开学典礼上发言,一句名言让他出了圈:遭遇失败,是因为你在追求进步;屡次遭遇失败,是因为你一直在追求进步。

这不仅是于歆杰对学生的寄语,也是他给自己的激励。他曾3次面临申请教授晋升失败的困境。谈起那段时光,于歆杰称“这不是倦怠,这是自我怀疑和否定”。

这条路是对的吗?经过长时间的思索和自己的志趣,于歆杰作出了选择:一名教师,最核心的工作就是培养人,在培养人上投入再多的时间和精力都是正确的。

于歆杰继续保持着育人的初心。

与学生在一起,是于歆杰给自己定下的规矩:力争每学期与每名学生“一对一”谈一次话;每周跟学生们集体跑一次步;每学期跟学生们集体出游一次;尽量参加每一次班会……在于歆杰看来,教育的核心是与学生在一起,只有在一起才能知道学生的所思所想,只有在一起才能发挥教师的言传身教,只有在一起才能使师生共同成长。

吴锦鹏是2020年入职电机系的年轻教师,他不仅是2006级电机系本科生,也是于歆杰领导的“电路原理”教学团队的成员。

“本科的时候上于老师的‘电路原理’课,只觉得条理清晰、内容扎实。等到自己作为教师讲这门课,才发现真是台上10分钟,台下10年功。”吴锦鹏说,为了帮助自己站稳讲台,上课第一年,他的每一节课于歆杰都会从头听到尾,课后帮助自己从内容到授课方式一点一点地抠细节;凝聚了20多年心血和功力的“教学档案袋”也全部向自己开放,供参考对比。

担任博导10余年来,于歆杰所带博士生不多,但成才率很高,有4人次获国际会议最佳论文奖,2人被评为北京市优秀博士毕业生,2人论文被评为清华大学优秀博士论文。

“选人的要义,在于挖掘出真正有学术志趣的人,而不在考试分数高低。”于歆杰说,面试学生时,于歆杰喜欢揪着一个问题问到学生答不出为止,而平时小组讨论时,他也更欣赏能问倒自己的学生,“科研的过程常常会失败,而育人的乐趣就在于和学生一起在泥塘里跋涉,最终达到成功的彼岸”。(本报记者 董鲁皖龙)

清华、北大等发布Self-Play强化学习最新综述

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者来自于清华大学电子工程系,北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

自博弈(self-play)指的是智能体通过与自身副本或历史版本进行博弈而进行演化的方法,近年来在强化学习领域受到广泛重视。这篇综述首先梳理了自博弈的基本背景,包括多智能体强化学习框架和博弈论的基础知识。随后,提出了一个统一的自博弈算法框架,并在此框架下对现有的自博弈算法进行了分类和对比。此外,通过展示自博弈在多种场景下的应用,架起了理论与实践之间的桥梁。文章最后总结了自博弈面临的开放性挑战,并探讨了未来研究方向。

论文题目:A Survey on Self-play Methods in Reinforcement Learning

研究机构:清华大学电子工程系、北京大学人工智能研究院、第四范式、腾讯、清华-伯克利深圳学院论文链接:https://arxiv.org/abs/2408.01072

引言

强化学习(Reinforcement Learning,RL)是机器学习中的一个重要范式,旨在通过与环境的交互不断优化策略。基本问题建模是基于马尔可夫决策过程(Markov decision process,MDP),智能体通过观察状态、根据策略执行动作、接收相应的奖励并转换到下一个状态。最终目标是找到能最大化期望累计奖励的最优策略。

自博弈(self-play)通过与自身副本或过去版本进行交互,从而实现更加稳定的策略学习过程。自博弈在围棋、国际象棋、扑克以及游戏等领域都取得了一系列的成功应用。在这些场景中,通过自博弈训练得到了超越人类专家的策略。尽管自博弈应用广泛,但它也伴随着一些局限性,例如可能收敛到次优策略以及显著的计算资源需求等。

本综述组织架构如下:首先,背景部分介绍了强化学习框架和基础的博弈论概念。其次,在算法部分提出了一个统一的框架,并根据该框架将现有的自博弈算法分为四类,进行系统的比较和分析。在之后的应用部分中,展示自博弈具体如何应用到具体的复杂博弈场景。最后,进一步讨论了自博弈中的开放问题和未来的研究方向,并进行总结。

背景

该部分分别介绍了强化学习框架以及博弈论基本知识。强化学习框架我们考虑最一般的形式:部分可观察的马尔可夫博弈(partially observable Markov game, POMGs),即多智能体场景,且其中每个智能体无法完全获取环境的全部状态。

博弈论基础知识介绍了博弈具体类型,包括(非)完美信息博弈和(非)完全信息博弈、标准型博弈和扩展型博弈、传递性博弈和非传递性博弈、阶段博弈和重复博弈、团队博弈等。同样也介绍了博弈论框架重要概念包括最佳回应(Best responce, BR)和纳什均衡 (Nash equilibrium, NE)等。

复杂的博弈场景分析通常采用更高层次的抽象,即元博弈(meta-game)。元博弈关注的不再是单独的动作,而是更高层的复杂策略。在这种高层次抽象下,复杂博弈场景可以看作是特殊的标准型博弈,策略集合由复杂策略组成。元策略(meta-strategies)是对策略集合中的复杂策略进行概率分配的混合策略。

在该部分最后,我们介绍了多种常用的自博弈评估指标,包括 Nash convergence(NASHCONV)、Elo、Glicko、Whole-History Rating(WHR) 和 TrueSkill。

算法

我们定义了一个统一的自博弈框架,并将自博弈算法分为四大类:传统自博弈算法、PSRO 系列算法、基于持续训练的系列算法和后悔最小化系列算法。

算法框架

首先,该框架(算法1)的输入定义如下:

类型一:传统自博弈算法

传统自博弈算法从单一策略开始,逐步扩展策略池,包括Vanilla self-play(训练时每次对手都选择最新生成的策略),Fictitious self-play(训练时每次对手都在现有训练完的策略中均匀采样),δ-uniform self-play(训练时每次对手都在现有训练完的最近的百分之δ策略中均匀采样),Prioritized Fictitious Self-play(根据优先级函数计算当前训练完的策略的优先级,训练时每次对手都根据这个优先级进行采样),Independent RL(训练时双方策略都会改变,对手策略不再固定)。

类型二:PSRO 系列算法

类似于传统自博弈算法,Policy-Space Response Oracle(PSRO)系列算法同样从单一策略开始,通过计算 ORACLE 逐步扩展策略池,这些新加入的策略是对当前元策略的近似 BR 。PSRO 系列与传统自博弈算法的主要区别在于,PSRO 系列采用了更复杂的MSS,旨在处理更复杂的任务。例如,α-PSRO 使用了基于 α-rank 的 MSS 来应对多玩家的复杂博弈。

类型三:持续训练系列算法

PSRO 系列算法中存在的两个主要挑战:首先,由于训练成本大,通常在每次迭代中截断近似BR计算,会将训练不充分的策略添加到策略池;其次,在每次迭代中会重复学习基本技能,导致效率较低。为了解决这些挑战,基于持续训练系列的算法提倡反复训练所有策略。与前面提到的两类最大区别是,持续训练系列算法同时训练整个策略池策略。这类算法采用多个训练周期,并在每个训练周期内依次训练策略池所有策略,而不再是通过逐步扩展策略池进行训练。

类型四:后悔最小化系列算法

另一类自博弈算法是基于后悔最小化的算法。基于后悔最小化的算法与其他类别的主要区别在于,它们优先考虑累积的长期收益,而不仅仅关注单次回合的表现。这种方法可以训练得到更具攻击性和适应性的策略,避免随着时间的推移被对手利用。这些算法要求玩家在多轮中推测并适应对手的策略。这种情况通常在重复博弈中观察到,而不是单回合游戏中。例如,在德州扑克或狼人游戏中,玩家必须使用欺骗、隐瞒和虚张声势的策略,以争取整体胜利,而不仅仅是赢得一局。

各类型算法比较与总结图

应用

在本节中,我们通过将三类经典场景来介绍自博弈的经典应用:棋类游戏,通常涉及完全信息;牌类游戏(包括麻将),通常涉及不完全信息;以及电子游戏,具有实时动作而非简单回合制游戏。

场景一:棋类游戏

棋类游戏领域,绝大多数是完全信息游戏,曾因引入两项关键技术而发生革命性变化:位置评估和蒙特卡罗树搜索。这两项技术在象棋、西洋跳棋、黑白棋、西洋双陆棋等棋盘游戏方面展现了超越人类的效果。相比之下,当这些技术应用于围棋时,由于围棋棋盘布局种类远超于上述提到的棋类游戏,因此仅能达到业余水平的表现。直到 DeepMind 推出了 AlphaGo 系列而发生了革命性的变化,AlphaGo 系列算法利用自博弈的强大功能显著提升了性能,为围棋领域设立了新的基准。

除了围棋,还有一种难度较高的棋类游戏是“军棋”(Stratego)。与大多数完全信息的棋类游戏不同,“军棋”是一个两人参与的不完全信息棋盘游戏。游戏分为两个阶段:部署阶段,玩家秘密安排他们的单位,为战略深度奠定基础;以及游戏阶段,目标是推断对手的布局并夺取他们的旗帜。DeepNash 采用基于进化的自博弈算法 R-NaD 达到了世界第三的人类水平。

场景二:牌类游戏

德州扑克(Texas Hold’em)是一种欧美流行的扑克游戏,适合 2 到 10 名玩家,当玩家数量增加,游戏变得更加复杂。此外,有三种下注形式:无限注、固定注和底池限注。每种形式在具有不同的游戏复杂度。在牌类游戏中,游戏抽象对于简化游戏复杂程度至关重要,可以将游戏的庞大状态空间减少到更容易处理的数量。Cepheus 采用后悔最小化系列算法 CFR+ 解决了最容易的双人有限注德州扑克。对于更复杂的双人无限注德州扑克,DeepStack 和 Libratus 采用子博弈重新计算的方式来实时做出决策,击败职业德州扑克选手。Pluribus 在 Libratus 基础上更进一步解决了六人无限注德州扑克。

斗地主需要同时考虑农民之间的合作和农民地主之间的竞争。斗地主同样是不完全信息博弈,这为游戏增加了不确定性和策略深度。DeltaDou 是基于 AlphaZero 开发的首个实现专家级斗地主表现的算法。之后的 DouZero 通过选择采样方法而非树搜索方法来降低训练成本,采用自博弈获取训练数据。

麻将同样基于不完全信息做出决策,此外,麻将的牌数更多,获胜牌型也更为复杂,对 AI 更具挑战性。Suphx 通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA 和腾讯设计的 LuckyJ 同样也在在线平台上达到了人类专家水平。

场景三:电子游戏

与传统棋类游戏和牌类游戏不同,电子游戏通常具有实时操作、更长的动作序列以及更广泛的动作空间和观察空间。在星际争霸(StarCraft)中,玩家需要收集资源、建设基地并组建军队,通过精心的计划和战术执行,使对方玩家失去所有建筑物,来取得胜利。AlphaStar 使用监督学习、端到端的强化学习和分层自博弈训练策略,在星际争霸II的 1v1 模式比赛中击败了职业玩家。

MOBA游戏要求两支玩家队伍各自操控他们独特的英雄,互相竞争以摧毁对方的基地。每个英雄都有独特的技能,并在队伍中扮演特定的角色,也无法观测全部地图。OpenAI Five 在简化版本的 Dota 2 中击败了世界冠军队,其训练过程使用混合类型自博弈,有 80% 的概率进行 Naive self-play,20% 的概率使用 Prioritized self-play。腾讯同样采用自博弈训练在王者荣耀游戏 1v1 和 5v5 模式中都击败了职业选手。

Google Research Football(GRF)是一个开源的足球模拟器,输入是高层次的动作,需要考虑队友之间的合作和两个队伍之间的竞争,且每队有 11 人。TiKick 通过 WeKick 的自博弈数据进行模仿学习,再利用分布式离线强化学习开发了一个多智能体AI。TiZero将课程学习与自博弈结合,无需专家数据,达到了比TiKick更高的TrueSkill评分。

各场景类型比较与总结图

讨论

自博弈方法因其独特的迭代学习过程和适应复杂环境的能力而表现出卓越的性能,然而,仍有不少方向值得进一步研究。

虽然许多算法在博弈论理论基础上提出,但在将这些算法应用于复杂的现实场景时,往往存在理论与现实应用的差距。例如,尽管 AlphaGo、AlphaStar 和 OpenAI Five 在实证上取得了成功,但它们的有效性缺乏正式的博弈论证明。

随着团队数量和团队内玩家数量的增加,自博弈方法的可扩展性面临显著挑战。例如,在 OpenAI Five 中,英雄池的大小被限制在仅17个英雄。根本上是由于自博弈方法在计算和存储两个方面训练效率有限:由于自博弈的迭代特性,智能体反复与自身或过去的版本对战,因而计算效率较低;自博弈需要维护一个策略池,因而对存储资源需求较高。

凭借卓越的能力和广泛的泛化性,大型语言模型(LLM)被认为是实现人类水平智能的潜在基础。为了减少对人工标注数据的依赖,自博弈方法被利用到微调LLM来增强LLM的推理性能。自博弈方法还在构建具有强大战略能力的基于 LLM 的代理方面做出了贡献,在”外交“游戏中达到了人类水平的表现。尽管近期取得了一些进展,将自博弈应用于 LLM 仍处于探索阶段。

自我博弈面另一个挑战是其在现实具身场景中无法直接应用。其迭代特性需要大量的试验和错误,很难直接在真实环境中完成。因此,通常只能在仿真器中进行自博弈训练,再将自博弈有效部署到现实具身场景中,关键问题仍在于克服 Sim2Real 差距。

相关问答

清华大学 电子 信息 工程 这个专业吗 - 懂得

清华大学有研究生,电子信息工程专业。电子信息工程考研清华大学考试科目:物理电子学与光电子学、电路与系统、通信与信息系统、信号与信息处理等方...

清华 大学 电子 信息 工程 课程?

清华大学的电子信息工程本科专业的核心课程有:电路理论系列课程、计算机技术系列课程、信息理论与编码、信号与系统、数字信号处理、信息安全导论、电磁场理论...

清华大学 电子 信息 工程 这个专业吗 - 周六小姐 的回答 - 懂得

清华大学有研究生,电子信息工程专业。电子信息工程考研清华大学考试科目:物理电子学与光电子学、电路与系统、通信与信息系统、信号与信息处理等方...

清华 大学的 电子工程 系怎么样?

好。清华大学的电子工程系太优秀了,清华大学的电子工程系在世界上也是非常有名气的,多年以来,从清华大学电子工程系走出,多名优秀的大学生现在都已经成为世...

清华 大学 电子工程 系毕业生就业去向?

研究生主要毕业去向为签约就业,主要就业行业为电子信息行业、军工单位,以及高校科研院所等。其中包含国家机关(中央网信办、中共四川省委组织部、中共山东省委...

清华 大学 电子工程 系怎么样?

中国第一,也是清华的王牌专业之一。清华大学电子工程系位于罗姆楼,总建筑面积32553平方米。它的前身是1932年设立的电机工程系的电讯组,于1952年秋建系,始称...

电子与 通信 工程 就业前景及薪酬?

就业前景不错,薪酬待遇高,面向新的世纪,电子与通信工程专业将会迎来其发展的广阔天地。随着通信技术应用的日趋广泛,上至太空,下至海底,无不活跃着这一专业...

清华 大学机械 电子工程 系怎么样?

机械电子工程系清华大学不错的。清华大学在机械方面不如它传统专业,例如,工商管理系专业,国际贸易专业,国际金融学,国际政法学专业,国际经济学专业,会计学...

清华大学 有哪些科系

[回答]清华大学科系有:工程物理系、化学工程系、天文系、建筑学院、土木水利学院、环境学院、机械工程学院、航天航空学院、电机工程与应用电子技术系、信...

清华 大学的自动化系,精仪系, 电子工程 哪个好啊?

最累的?你要是指肉体上的话果断是建筑系,12点睡觉根本是奢侈,熬夜到3点家常便饭,通宵也是大有人在,精神上的话,精仪电子可能做题比较多一点,建筑因为要接...