技術總結
本發明實施例公開了一種最優主題數計算方法及裝置,基于主題數對應的兩兩主題間的第一相似度、主題數對應的兩兩詞語間的第二相似度以及主題數,計算主題數對應的用于衡量主題數的優劣的平衡相似度;將平衡相似度滿足預設條件時的主題數確定為最優主題數。從而可以基于如下原則獲取最優主題數:主題數盡可能多,以保證最大程度的語義覆蓋,但是卻不能過多;各個主題盡可能表達獨立含義,盡量不存在語義交叉;相同含義的詞語越少越好,以保證用最少的詞語來表示盡可能多的語義。
技術研發人員:趙耕弘;張霞;趙立軍;崔朝輝
受保護的技術使用者:東軟集團股份有限公司
文檔號碼:201611265195
技術研發日:2016.12.30
技術公布日:2017.06.09