vectorizer1 = CountVectorizer(min_df=1)
temp1 = vectorizer1.fit_transform(corpus)
print vectorizer1.get_feature_names()
print temp1.toarray() # temp1是sparse類型, 轉(zhuǎn)換成ndarray方便查看
運行結(jié)果:

第一行是corpus中所有詞,下面的ndarray每行代表該詞在該樣本中出現(xiàn)次數(shù),比如第2行第6列的