专利名称:一种特征词向量获得方法、文本分类方法及装置专利类型:发明专利
发明人:姚海鹏,刘冲,张培颖,章扬,王露瑶,殷志强申请号:CN201710263961.5申请日:20170421公开号:CN107092679A公开日:20170825
摘要:本发明实施例提供了一种特征词向量获得方法、文本分类方法及装置,所述特征词向量获得方法包括:获得特征词集合;计算所述特征词集合中各特征词间的相似度,并根据所述相似度对所述特征词集合中的各特征词进行划分,获得多个近义词集合;针对每一近义词集合,根据该近义词集合中特征词针对目标文本的第一权重,计算该近义词集合针对所述目标文本的目标权重;将所述目标权重与第二权重进行组合,得到所述目标文本的特征词向量,其中,所述第二权重为:未被划分至各近义词集合的特征词针对所述目标文本的权重。通过使用实施本实施例所获得的特征词向量,可以提高训练器训练效率。
申请人:北京邮电大学
地址:100876 北京市海淀区西土城路10号
国籍:CN
代理机构:北京柏杉松知识产权代理事务所(普通合伙)
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容