這種處理方式簡(jiǎn)單粗暴,沒(méi)有考慮詞與詞之間的關(guān)系。我們改進(jìn)一下這個(gè)方法,除了考慮單個(gè)詞之外,還考慮corpus中成對(duì)出現(xiàn)的詞(類似NLP里n-gram的 bi-gram,具體請(qǐng)自行Google),代碼如下
vectorizer2 = CountVectorizer(ngram_range=(1, 2))
temp2 = vectorizer2.fit_transform(corpus)
print vectorizer2.get_feature_names()
print temp2.toarray()
運(yùn)行結(jié)果:
