Learning Concept Hierarchies through Probabilistic Topic Modeling

这个主要是通过无监督从文本中提出一些concept的东西,我感觉很妙

------------------------------------------------------------

过程就不细说了,首先是通过LDA提取出一些主题,还有一些词在这个主题下的概率 就是传统LDA的那一套

blob.png

然后我们可以对词语进行排序,当然是通过他们的TF-ITF,这个T是topic的意思,也就是把原来的document换成了topic,因为这里是为了要对topic进行建模。


然后有了这些指标  我们再进行下一步 就是提取一些关键的词

This step is followed by a sentence extraction pro- cess in which all the sentences which contain the topic words which have high tf-itf weight are extracted.

也就是找出那些含有这些高频tf-itf的词语

最后,通过一个pos工具 找出那些 Noun + Noun, Noun +Adjective and (Adjective / Noun) + Noun,也就是相连的词语,注意这些词语是从那些包含主题词的句子中抽的,不一定是主题词,只不过是有这种语法形式。

blob.png

这样就完成了概念抽取的过程


然后是概念分类,这里用了一个结构化的方法,就是看一个概念和另一个概念出现的频次的比例


blob.png

blob.pngblob.png

blob.png


留下您的评论

回复列表:

By王炳宁 on Nov. 30, 2016 | 类别 NLP

关于本站