《計算機應用研究》|Application Research of Computers

基于多語義因子分層聚類的文本特征提取方法

Text feature extraction based on hierarchical clustering with multiple semantic factors

免費全文下載 (已被下載 次)  
獲取PDF全文
作者 王靖,柳青,張德海,趙華,楊云
機構 云南大學 軟件學院;云南大學 信息學院
統計 摘要被查看 次,已被下載
摘要 針對同類文本中提取的關鍵詞形式多樣,且在相似性與相關性上具有模糊關系,提出一種對詞語進行分層聚類的文本特征提取方法。該方法在考慮文本間相同詞貢獻文本相似度的前提下,結合詞語相似性與相關性作為語義距離,并根據該語義距離的不同,引入分層聚類并賦予不同聚類權值的方法,最終得到以詞和簇共同作為特征單元的帶有聚類權值的向量空間模型。引入了word2vec訓練詞向量得到文本相似度,并根據skip-gram + Huffman softmax模型的算法特點,運用點互信息公式準確獲取詞語間的相關度。通過文本的分類實驗表明,所提出的方法較目前常用的僅使用相似度單層聚類后再統計的方法,能更有效地提高文本特征提取的準確性。
關鍵詞 語義;文本特征;分層聚類;詞向量
基金項目 國家自然科學基金項目(61562093,61263043)
本文URL http://www.ziusle.tw/article/02-2020-10-008.html
收稿日期
修回日期
頁碼 -
中圖分類號 TP181
文獻標志碼
中超外援名额