短文本语言计算的关键技术研究 CNKI文献
伴随着信息时代的到来,我国互联网事业和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据爆炸性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数...
龚才春
导师:白硕
中国科学院研究生院(计算技术研究所)
2008-04-01
博士论文
中文短文本流的快速编码识别算法 CNKI文献
提出了一种面向中文短文本流的快速编码识别算法——CodeFinder。CodeFinder 构造一个编码识别专用词典,并对每个词语关联一个编码可信度。扫描待识别文本并计算文本在各种可能编码形式下的编码可信度,即可确定文本的...
龚才春
张华平...
中国计算技术与语言问题研究——第七届中文信息处理国际会议...
2007-10-01
国际会议
大规模语料的频繁模式快速发现算法 CNKI文献
已有基于内存的频繁模式发现算法需要的物理内存是语料规模的几倍甚至几十倍,本文提出一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频...
龚才春
贺敏...
全国网络与信息安全技术研讨会论文集(上册)
2007-07-01
中国会议
基于局部性原理的有意义串提取方法 CNKI文献
本文提出基于局部性原理的有意义串提取算法。本文发现有意义串遵循空间局部性原理和时间局部性原理,并用LE值量化字符串的局部性。在此基础上,利用LE值和其他统计量共同提取有意义串。实验证明局部性原理能够提高查找...
黄玉兰
龚才春...
第四届全国信息检索与内容安全学术会议论文集(上)
2008-11-01
中国会议
基于多重索引模型的大规模词典近似匹配算法 CNKI文献
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法。本文提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建...
龚才春
黄玉兰...
第三届全国信息检索与内容安全学术会议论文集
2007-11-01
中国会议
Kad网络节点共享资源探测分析 CNKI文献
Kad网络中存在数百万的共享资源,而其中有相当一部分可被评定为敏感资源。首先用我们的Kad网络采集器:Rainbow对节点拥有的文件资源进行探测;然后对节点资源和敏感资源进行相关统计分析。我们发现:1)只有3.09%的节点拥...
刘祥涛
龚才春...
第五届全国信息检索学术会议论文集
2009-11-14
中国会议
基于伪相关反馈模型的领域词典生成算法 CNKI文献
本文提出了一种基于伪相关反馈模型的领域访词典自动生成算泫。将领域词典生成过程视为领域术语的检索过程:对于绘定的领域语料 C,对于发现的有意思 S,如果 S 是 C 的领域术语, 则称 S 与 C 相关。假设初始检索出来的...
黄玉兰
龚才春...
第三届全国信息检索与内容安全学术会议论文集
2007-11-01
中国会议