Human level control through deep reinforcement learning
学术界是不是这样玩:咔咔咔JCP发个10篇,然后大佬们算法小改,就是一堆sci。这些课题组简直就是sci收割的机器。一年干个几十篇。
然而这些发出来的算法,工业界死活用不上去
工业界就不太一样,工业界的大佬干点啥,直接用到了工业上。文章懒得写。直接干就完了!
google的deepmind团队在2013年提出了深度Q网络,是一种强化学习的算法,用来打游戏。
有意思的是啥呢,这帮技术宅用了一段时间之后,随便发了一片arxiv,连sci都不是。没想到实在太火了。2年后直接干了个Nature。距今被引32000次。
然而人家说啥,你看看,人家说:
> 我们这个目前收敛了,但没有任何的理论证明
这帮工业界的人也是真流弊。发明一个技术,直接实战。搞完了水一篇不需要审稿的arxiv,sci都懒得写。反观学术界这面还在琢磨怎么跟审稿人PK一下,让文章接受
另外也挺有意思。机器学习这面就是一顿嗷嗷的拟合。能不能拟合成功,人家也不知道,反正是拟合出来了。没有任何理论证明。
CFD那面你看SIMPLE、PISO这种迭代算法都是严格从数学上推导出来的。
一个是训练,一个是收敛。机器学习有时候训练不出来,CFD有时候收敛不下去。也是两个好朋友了算是。。