孤立点预处理和Single-Pass聚类结合的微博话题检测方法 CNKI文献
针对如何快速发现微博中的热点话题,提出了一种具有更高准确率的中文微博话题检测方案。首先,优化了微博文本的特征选择,经过分析获得的这些博文特征有助于不同词性对话题表达的重要性;其次,在此基础上,提出了通过计算...
为研究基于向量空间模型以及基于潜在语义分析的微博搜索排序算法,以新浪微博为例,通过建立实验系统,利用新浪微博公共开放平台提供的API获取实验数据。研究利用向量空间模型以及潜在语义分析方法,构建"索引词-博...
由于目前水军的高伪装性,经典的水军识别算法变得不再有效。与真实用户相同,水军用户之间也会形成一定的网络结构,提出了一种基于网络关系的方法来发现水军集团,首先以一个典型的水军账号作为种子,逐层扩展粉丝关系,优...
研究一种发现水帖的分类算法.该方法利用SimHash方法将发帖重复当成类似网页去重的问题处理,发帖内容的重复度和其他特征,如发帖的密集型、帐号名称的相似性,所使用的客户端等特征将用于水帖与正常发帖的分类.该文利用...
本文的主要研究是在国家863高技术项目——面向CIMS的数据仓库及数据挖掘研究(863-511-946-01)、渔情分析专家系统(818-07-03),以及国家自然科学基金项目——多策略数据库知识发现研究(69803010)支持下完成的。 ...
基于半监督概念聚类技术,提出一种改进的领域本体图中文文本分类算法。根据领域本体图结构模型,创建中文文本分类的本体学习框架,利用HowNet字典实现术语提取并建立中文术语-术语关系映射。依据术语间的权重连接关系,...
针对海洋渔业遥感信息与资源评估服务系统中中心渔场预报的问题 ,提出了一种多策略的基于CBR的趋势预测方法 ,通过不同的相似性度量方法 ,复用完全相似或者条件相似的历史序列 ,利用领域专家规则对预报结果进一步修正...
深入讨论了基于向量空间模型以及基于潜在语义分析的微博搜索排序算法,以新浪微博为例,通过建立实验系统,利用新浪微博公共开放平台提供的API获取实验数据,通过一个实验样例阐述向量空间模型和潜在语义分析的处理过程...
相似性的计算是 CBR和 k- NN等 L azy L earning研究中十分关键的问题 .研究了降低相似性计算代价的方法 ,并以 k- NN为例 ,介绍了基于部分特征的相似性算法和基于投影的相似性算法 ,它们能够通过减少计算距离过程中所...
叶施仁 游湘涛... 《计算机研究与发展》 2000年10期 期刊
关键词: 相似性 / 数据约简 / 近邻算法 / LazyLearning
下载(274)| 被引(17)
在液固流态化换热器的结构基础上,提出了一种较合理的能可靠地循环流化的结构,并给出了两个成功的工业应用实例。
1.机器学习的发展机器学习是研究获取新知识、新技巧,重组已经出现的知识的计算方法,是人工智能中的基本问题,其理论基础涉及人工智能、统计学、脑知模型、适应性控制理论、心理学模型、进化模型(如遗传算法)。机器学...
为高效提取不同卷积层窗口的文本局部语义特征,提出一种深度卷积神经网络(CNN)模型。通过堆叠多个卷积层,提取不同窗口的局部语义特征。基于全局最大池化层构建分类模块,对每个窗口的局部语义特征计算情感类别得分,综...
情感多分类标注对文本信息的敏感性远高于二分类问题。为了有效利用语义依赖距离和语义多层次进行情感多分类,提出一种多窗口多池化层的卷积神经网络模型。首先使用多窗口的卷积层提取上下文局部语义,然后通过多池化层...
基于fcmpCNN模型的网络文本情感多分类标注 CNKI文献
针对网络文本情感分析,提出了一种基于全卷积—多池化单元的卷积神经网络模型,实现情感多分类标注。无须手动指定多种上下文窗口大小和尽量保留文本的多层次语义,模型通过堆叠多级全卷积—多池化单元,提取出文本特征向...
微博特有的移动终端轻博客发布与交互模式,使其迅速成为使用范围最大、影响力最大的社交媒体。新浪中文微博现有超过3亿用户,发展最为迅速,中文微博和其他微博相比具有独特性,一些大"V"博主的影响力堪比电台...
微博由于字数的限制,当用户需要发较多内容时通常以附图的形式给出,识别包含文本内容贴图的长微博能够为微博研究提供更多有用的数据。在支持向量机(SVM)的基础上结合粒子群算法(PSO)提出了一种识别长微博贴图的PSO-S...
微博意见领袖影响力评价指标体系研究——基于媒介影响力视... CNKI文献
基于媒介影响力形成的接触、接受、保持和提升4个环节,构建了以广度因子、深度因子、强度因子和效度因子为主要维度的微博意见领袖影响力评价指标体系。运用层次分析法,在专家群体决策的基础上赋予了各评价指标的权重...
基于Lex-PageRank的微博摘要优化方法 CNKI文献
当前,由于全民自媒体兴起而引发了巨大的舆情危机,如何高效快速地从海量的碎片化信息中发现热点并抽取实用信息成为一项重大的挑战。在此背景下,提出一种基于Lex-PageRank的微博摘要优化方法,在该方案中,以聚类结果作...
朱明峰 叶施仁... 《计算机科学》 2016年09期 期刊
关键词: 微博 / 时间特性 / 权重属性 / Lex-PageRank算法
下载(121)| 被引(3)
介绍了一种多策略通用数据采掘工具 MSMiner的设计与实现 .MSMiner建立在数据仓库之上 ,采用面向对象的方法描述关于数据源、采掘算法、采掘步骤和用户的元数据 .该系统集成决策树、关联规则、传统统计分析、聚类分析...