结合改进主动学习的SVD-CNN弹幕文本分类算法 CNKI文献
为解决传统卷积神经网络(CNN)模型使用池化层进行文本特征降维会损失较多文本语义信息的问题,提出一种基于奇异值分解(SVD)算法的卷积神经网络模型(SVD-CNN)。首先,采用改进的基于密度中心点采样的主动学习算法(DBC-A...
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略...
针对朴素贝叶斯(NB)算法因条件独立性的理想式假设引起分类性能降低的问题,提出一种改进的粒子群优化-朴素贝叶斯(PSO-NB)算法。在文本预处理时,引入权重因子、类内和类间离散因子进行属性约简,基于NB加权模型,将条件...
针对传统的卷积神经网络算法在训练集与测试集分布不同时分类精度较低且标注成本较高的问题,提出结合迁移学习模型的卷积神经网络算法。使用主成分分析算法对源域数据进行无监督降维,同时结合自编码机算法对目标数据集...
针对检测社交网络中的异常用户,提出了一种基于用户基本特征的异常用户检测方法。利用GirvanNewman社区发现算法将用户分为孤立点用户和社区用户两种,结合粗糙集理论,计算用户的基本特征权重,根据特征权重计算有意义的...
传统的个性化推荐算法普遍存在数据稀疏性问题,影响了推荐的准确度。Slope One算法具有简单、高效等特点,但该算法只是根据用户—项目评分矩阵进行数据分析,对所有用户采用一致性的权重进行计算,忽视了用户对项目类型...
针对传统朴素贝叶斯算法属性独立性假设降低分类效果的问题,提出一种融合语义特征的加权朴素贝叶斯算法。在特征提取时引入Google距离衡量词语间语义相关性对节点权值进行重新计算;利用改进的NGD-TextRank算法提取数据...
邱宁佳 贺金彪... 《计算机工程与设计》 2020年09期 期刊
关键词: Google距离 / TextRank / Hellinger距离 / 权值优化
下载(262)| 被引(0)
为了解决传统神经网络由于上下文语序变化而导致的情感歧义问题,提出一种多通道语义合成卷积神经网络(SFCNN)。使用改进的情感倾向注意力机制对词向量进行情感加权操作;将情感倾向词向量进行多通道语义合成,生成带有文...
结合虚拟节点技术和均分存储区域技术,提出了嵌套循环式数据一致性哈希优化分布式集群存储的多副本放置策略.按照此优化策略,能够有序选择数据副本机架,确定数据节点存储位置,保证数据存储的均衡性分布,可以针对集群的...
邱宁佳 胡小娟... 《信息与控制》 2016年06期 期刊
关键词: 集群存储 / Hadoop分布式文件系统 / 一致性哈希 / 存储副本优化
下载(167)| 被引(13)
提出一种改进的PSO-SVM算法。首先在文本预处理时,针对互信息方法存在的低频特征词倚重,忽略了高频特征词的不足之处,引入了权重因子、类内和类间离散因子进行属性约简;然后基于支持向量机分类模型,以不同核函数相结合...
针对空间密度聚类算法(DBSCAN)经验化求解参数导致聚类效果差和执行效率低下的问题,提出了一种基于遗传算法和Map Reduce并行计算编程框架的自适应DBSCAN算法。通过遗传算法迭代优化合理规划密集区间阈值min Pts、扫描...
针对朴素贝叶斯分类算法对文本分类性能不高的问题,提出一种基于改进信息增益的ACO-WNB分类算法。首先,根据特征词在数据集中的词频分布情况加入调节因子,对特征词的贡献/干扰作用进行增强/抑制的调节,选择具有强区分...
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 CNKI文献
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA...
黄春雨 胡迪... 《长春理工大学学报(自然科学版)》 2020年01期 期刊
关键词: 主题模型 / 词嵌入 / 文本表示 / Huffman-LDA
下载(104)| 被引(1)
在对非平衡通信文本使用随机下采样来提高分类器性能时,为了解决随机下采样样本发生有偏估计的问题,提出基于否定选择密度聚类的下采样算法(NSDC-DS)。利用否定选择算法的自体异常检测机制改善传统聚类,将样本中心点和...
邱宁佳 沈卓睿... 《计算机工程与应用》 2020年17期 期刊
关键词: 非平衡数据 / 垃圾文本识别 / 否定选择密度聚类 / 基于否定选择密度聚类的下采样算法(NSDC-DS)
下载(201)| 被引(0)
一种结合改进CHI和RFFS的特征选择算法研究 CNKI文献
针对传统CHI算法忽略特征词的词频易导致重要特征词被漏选的问题,结合特征选择时Filter类算法速度快、Wrapper类算法准确率高的特点,提出一种将改进CHI(TDF-CHI)算法与随机森林特征选择(RFFS)相结合的特征选择算法。先...
邱宁佳 周稳... 《计算机工程与应用》 2018年21期 期刊
关键词: 特征选择 / TDF-CHI / 随机森林特征选择(RFFS) / 文本分类
下载(209)| 被引(2)
针对传统度量相似性方法中忽略项目多属性类别差异的问题,提出一种改进项目多属性类别划分的推荐算法。首先构建项目—用户隶属矩阵挖掘用户间的隶属关系,并创建相似邻居FP-Tree以提取最近邻居集;然后分析用户间共同项...
提出目标重构的半监督混合聚类算法SSABC。使用人工蜂群算法结合有标记数据研究半监督聚类的准确率提高问题,利用设定参数衡量有无标记数据的权重,依此重新构造目标函数找出数据聚类中心;使用APL-SSHC算法完成半监督混...
传统协同过滤推荐算法存在时序性过低以及用户过多时数据稀疏相似用户计算复杂度高等问题。为此,提出融合最小哈希签名(MHS)与时序模型预测(AIM-RT)的谱聚类优化推荐算法。首先使用MHS与Levenshtein距离测度对用户—项...
本文结合Adadelta算法学习率自适应调整和Adam算法避免了训练后期频繁抖动的特点,提出了Adamdelta算法,解决了传统FTRL-Proximal在线学习算法学习率随着训练次数增加逐渐消失的问题。使用一阶和二阶矩估计进行偏差修正...
K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间...