强化学习是一类特殊的机器学习,通过与所在环境的自主交互来学习决策策略,使得策略收到的长期累积奖赏最大.最近,在围棋和电子游戏等领域,强化学习被成功用于取得人类水平的操作能力,受到了广泛关注.本文将对强化学习...
近年来,强化学习得到了机器学习研究人员的广泛关注。基于值表的强化学习算法在小规模状态空间的强化学习问题上,不仅得到了优异的实验效果验证,而且获得了完美的收敛性证明。 然而,在实际应用中,强化学习算法通常...
推荐系统根据用户的偏好为用户推荐个性化的信息、产品和服务等,能够帮助用户有效解决信息过载问题。基于内容的协同过滤算法缺少合适的度量指标用来计算项目之间的相似度。提出一种基于耦合对象相似度的项目推荐算法...
传统机器学习方法认为不同的学习任务彼此无关,但事实上不同的学习任务常常相互关联.迁移学习试图利用任务之间的联系,利用过去的学习经验加速对于新任务的学习.机器学习各分支都已展开了对迁移学习的研究.本文综述了...
为了提高人民生活质量,政府部门不断加强水质管理,然而人工分类方法无法满足实时处理的需求,传统机器学习方法的分类准确率又不够高。集成学习使用多种学习算法来获得比单一学习算法更好的预测性能。首先,对集成学习进...
陈兴国 徐修颖... 《计算机科学与探索》 2020年03期 期刊
关键词: 水质分类 / Boosting / 基于协方差自适应调整的进化策略算法(CMAES) / 集成学习
下载(194)| 被引(0)
在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种一般化的斜投影算子.基于此推导出两种残差...
Rings游戏开发在《Java语言程序设计A》课程中的应用研究 CNKI文献
传统的语言程序设计课程的教学方式都以教师按部就班的课堂讲授和练习为主。对大一新生来说难以理解和消化,从而产生对语言类程序设计课程的抵触情绪。通过在《Java语言程序设计A》课程中引入Rings游戏开发,不仅激发学...
一种结合Tile Coding的平均奖赏强化学习算法 CNKI文献
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和...
王巍巍 陈兴国... 《模式识别与人工智能》 2008年04期 期刊
关键词: 强化学习 / 马尔可夫决策过程(MDP) / R-学习 / G-学习
下载(211)| 被引(0)