全  文

不  限

  • 不  限
  • 1915年
  • 1949年
  • 1979年

不  限

  • 不  限
  • 1979年
  • 1949年
  • 1915年
  • 全  文
  • 主  题
  • 篇  名
  • 关键词
  • 作  者
  • 作者单位
  • 摘  要
  • 参考文献
  • 基  金
  • 文献来源
  • 发表时间
  • 中图分类号

全  文

不  限

  • 不  限
  • 1915年
  • 1949年
  • 1979年

不  限

  • 不  限
  • 1979年
  • 1949年
  • 1915年
  • 全  文
  • 主  题
  • 篇  名
  • 关键词
  • 作  者
  • 作者单位
  • 摘  要
  • 参考文献
  • 基  金
  • 文献来源
  • 发表时间
  • 中图分类号
设置
  • 关闭历史记录
  • 打开历史纪录
  • 清除历史记录
发文数量
被引数量
学者研究热点:
    引用
    筛选:
    文献类型 文献类型
    学科分类 学科分类
    发表年度 发表年度
    基金 基金
    研究层次 研究层次
    排序:
    显示:
    CNKI为你找到相关结果

    强化学习及其在电脑围棋中的应用  CNKI文献

    强化学习是一类特殊的机器学习,通过与所在环境的自主交互来学习决策策略,使得策略收到的长期累积奖赏最大.最近,在围棋和电子游戏等领域,强化学习被成功用于取得人类水平的操作能力,受到了广泛关注.本文将对强化学习...

    陈兴国 俞扬 《自动化学报》 2016年05期 期刊

    关键词: 强化学习 / 函数近似 / 核方法 / 神经网络

    下载(1632)| 被引(35)

    基于值函数估计的强化学习算法研究  CNKI文献

    近年来,强化学习得到了机器学习研究人员的广泛关注。基于值表的强化学习算法在小规模状态空间的强化学习问题上,不仅得到了优异的实验效果验证,而且获得了完美的收敛性证明。 然而,在实际应用中,强化学习算法通常...

    陈兴国 导师:高阳 南京大学 2013-11-01 博士论文

    关键词: 强化学习 / 函数估计 / 核方法 / 分段线性基

    下载(2268)| 被引(17)

    一种基于耦合对象相似度的项目推荐算法  CNKI文献

    推荐系统根据用户的偏好为用户推荐个性化的信息、产品和服务等,能够帮助用户有效解决信息过载问题。基于内容的协同过滤算法缺少合适的度量指标用来计算项目之间的相似度。提出一种基于耦合对象相似度的项目推荐算法...

    余永红 陈兴国... 《计算机科学》 2014年02期 期刊

    关键词: 基于内容的推荐系统 / 耦合对象相似度 / 协同过滤

    下载(322)| 被引(21)

    强化学习中的迁移:方法和进展  CNKI文献

    传统机器学习方法认为不同的学习任务彼此无关,但事实上不同的学习任务常常相互关联.迁移学习试图利用任务之间的联系,利用过去的学习经验加速对于新任务的学习.机器学习各分支都已展开了对迁移学习的研究.本文综述了...

    王皓 高阳... 《电子学报》 2008年S1期 期刊

    关键词: 迁移学习 / 强化学习 / 知识 / 行为

    下载(1652)| 被引(51)

    基于CMAES集成学习方法的地表水质分类  CNKI文献

    为了提高人民生活质量,政府部门不断加强水质管理,然而人工分类方法无法满足实时处理的需求,传统机器学习方法的分类准确率又不够高。集成学习使用多种学习算法来获得比单一学习算法更好的预测性能。首先,对集成学习进...

    陈兴国 徐修颖... 《计算机科学与探索》 2020年03期 期刊

    基于一般化斜投影的异策略时序差分学习算法  CNKI文献

    在强化学习的值函数线性估计问题中,时序差分不动点解和贝尔曼残差的方法都是对真实值函数的斜投影,然而这两种解经证明都不是最优解.通过对两种投影进行加权平均,提出了一种一般化的斜投影算子.基于此推导出两种残差...

    吴毓双 陈筱语... 《南京大学学报(自然科学)》 2017年06期 期刊

    关键词: 强化学习 / 线性函数估计 / 斜投影 / 异策略

    下载(69)| 被引(1)

    Rings游戏开发在《Java语言程序设计A》课程中的应用研究  CNKI文献

    传统的语言程序设计课程的教学方式都以教师按部就班的课堂讲授和练习为主。对大一新生来说难以理解和消化,从而产生对语言类程序设计课程的抵触情绪。通过在《Java语言程序设计A》课程中引入Rings游戏开发,不仅激发学...

    陈兴国 《现代计算机(专业版)》 2017年12期 期刊

    关键词: 游戏开发 / 程序设计 / 人工智能

    下载(77)| 被引(2)

    一种结合Tile Coding的平均奖赏强化学习算法  CNKI文献

    平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和...

    王巍巍 陈兴国... 《模式识别与人工智能》 2008年04期 期刊

    关键词: 强化学习 / 马尔可夫决策过程(MDP) / R-学习 / G-学习

    下载(211)| 被引(0)

    学术研究指数分析(近十年)详情>>

    • 发文趋势

    获得支持基金

      同机构合作作者

      其他机构合作作者

      主要合作者关系图

      时间的形状