随着Internet的飞速发展,我们被包围在信息的汪洋大海之中。准确、有效地从信息海 洋中提取有用的信息,正是信息提取任务要解决的问题。信息提取(Information Extraction,简 称IE)是指从大量的文本...
本文介绍了2003年“863中文与接口技术”汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择与产生、测试指标以及测试结果,并对参评系统的切分和标注错误进行了总结。文...
该文通过考察事件词在文本篇章结构中的分布方式,指出突发事件新闻报道文本中包含主线信息链和副线信息链。主线信息链中包含了文本的事件信息,是事件信息提取重点考虑的文本内容部分;副线信息链则由文本结构中的&quo...
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分...
以《中国语言生活状况报告》(2005-2009卷)所反映的国家语言资源监测与研究中心对5个年度的媒体用字用语调查情况为依据,对媒体词语调查的技术支持进行了分析,历时地比较了5个年度媒体词语的使用情况,包括年度词语的出...
杨尔弘 《北华大学学报(社会科学版)》 2011年04期 期刊
关键词: 中国语言生活状况报告 / 动态流通语料库 / 词语
下载(322)| 被引(5)
由于自然语言语序的灵活性 ,使得自然语言知识的自动获取很困难。本文基于粗糙集理论的属性值约简方法 ,结合基于记忆的学习 (MemoryBasedLearning ,简称MBL) ,提出了一种汉语多义动词义项知识的获取方法 ,用该方法获...
基于大规模语料库进行语言监测是近年来国家语言资源监测与研究中心实施的一个项目,其目的是对语言使用的实际状况进行记录、调查,调查的内容包括年度字词语的使用情况、年度流行语、新词语等。本文介绍了支持这些调查...
先生离开已经一月有余,他的音容常常浮现在我的脑海里。先生上课,总是精神饱满,清晰风趣侃侃而谈。从大量语言事实及量化数据,剖析词汇系统的运动规律;讨论流通度模拟大众语感;论证语言研究的共时与历时辨证观;阐述语...
关键词: 普师
下载(60)| 被引(0)
汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言...
根据《中华人民共和国高等教育法》和原国家教育委员会颁布的《普通高等学校教育评估暂行规定》的精神,2003年,国内有42所大学参加了教育部的本科教学水平评估,山西大学是其中之一,评估结果为优秀。高等学校作为一...
关键词: 专业评估 / 本科教学工作 / 本科教学评估 / 中华人民共和国高等教育法
下载(139)| 被引(5)
语言监测是一项以语言学和应用语言学以及相关理论为指导、信息处理技术为主要手段、田野调查为基本方法的多学科学者参与的大规模的社会性语言工程。作为语言工程的中国语言监测研究已经走过了十年的历程。语言监测主...
提高突发事件应对的关键在于快速地收集和提取相关新闻报道中的有用信息,共指消解是信息提取研究的重要子任务。该文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,综合对比了语义类特征、语义角色特征,...
本文对"和、与、同、跟"的用法分布进行共时和历时考察。考察发现,"和"作连词使用占绝对优势,"与"作介词、作连词使用在频次上的差异不明显;"同"有多种用法,以作介词使用为主...
共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词...
词语的语义相似度是词语间语义相似紧密的一种数量化表示。提出一种词语的语义相似度计算方法 ,利用上下文词语同现向量来描述词语的语义知识 ,在此基础上 ,使用 min/ max的方法计算词语之间的语义相似度。实验结果表...
本文对2002~2008年发布的13次主流媒体流行语的产生原因、词长信息、特点、变化趋势、分类等基本信息进行了相关研究,并从多种角度探讨了流行语的语言特性,对流行语进行倾向性分析,旨在更好地进行流行语的跟踪研究工作...
《中国语言生活状况报告(2005)》对现代汉字和汉语词汇使用现状的反映,是迄今为止语料量最大,词种数最多,发布单位最为权威的调查数据。这是一份反映了新闻语言真实面貌的言语词性质的词表。语文词是社会流通词语总汇...
信息的暴涨给文本处理带来了更多的挑战。话题检测能够把大量的信息以话题为单位有效地组织起来,然而最终用户有可能并不需要涉及某一话题的所有文本,而是仅仅关心该话题的具体内容。在我们根据相关文本智能表达话题内...
动词是对外汉语教学的重要组成部分,本文利用大规模语料库,重点考察了词语在历时文本中的分布特征,并综合考虑频次信息、统计时段、领域信息等多方面的因素,建立了可反映动词历时变化的汉语常用词语统计词表。本研究表...