专利名称:词语提取方法及装置专利类型:发明专利发明人:贾江涛,顾翀
申请号:CN201210218450.9申请日:20120628公开号:CN103514213A公开日:20140115
摘要:本发明公开了一种词语抽取方法,属于信息检索领域。所述方法包括:获取至少一个目标文档和与所述目标文档对应的文档信息,所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种;处理所述目标文档获得候选词语;根据文档信息计算每个候选词语的词频TF和反向文档频率IDF;根据词频TF和反向文档频率IDF的乘积对候选词语排序,并根据排序结果提取词语。本发明通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF,解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题;根据文档信息选取的具体类型,可以达到提取到的词语在领域上更加相关、地域上更加相关或时间上更加相关的效果。
申请人:华为技术有限公司
地址:518129 广东省深圳市龙岗区坂田华为总部办公楼
国籍:CN
代理机构:北京三高永信知识产权代理有限责任公司
代理人:黄厚刚
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容