例如:經(jīng)由高頻k-項目組{A,B}所產(chǎn)生的規(guī)則,若其可信度大于等于最小可信度,則稱{A,B}為關聯(lián)規(guī)則。
就“啤酒+尿布”這個案例而言,使用關聯(lián)規(guī)則挖掘技術,對交易資料庫中的記錄進行資料挖掘,首先必須要設定最小支持度與最小可信度兩個門檻值,在此假設最小支持度min-support=5% 且最小可信度min-confidence=65%。因此符合需求的關聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘所找到的關聯(lián)規(guī)則 {尿布,啤酒}滿足下列條件,將可接受{尿布,啤酒} 的關聯(lián)規(guī)則。用公式可以描述為:
Support(尿布,啤酒)≥5% and Confidence(尿布,啤酒)≥65%。
其中,Support(尿布,啤酒)≥5%于此應用范例中的意義為:在所有的交易記錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項商品被同時購買的交易行為。Confidence(尿布,啤酒)≥65%于此應用范例中的意義為:在所有包含尿布的交易記錄資料中,至少有65%的交易會同時購買啤酒。
因此,今后若有某消費者出現(xiàn)購買尿布的行為,我們將可推薦該消費者同時購買啤酒。這個商品推薦的行為則是根據(jù){尿布,啤酒}關聯(lián)規(guī)則而定,因為就過去的交易記錄而言,支持了“大部分購買尿布的交易,會同時購買啤酒”的消費行為。
從上面的介紹還可以看出,關聯(lián)規(guī)則挖掘通常比較適用于記錄中的指標取離散值的情況。
如果原始數(shù)據(jù)庫中的指標值是取連續(xù)的數(shù)據(jù),則在關聯(lián)規(guī)則挖掘之前應該進行適當?shù)臄?shù)據(jù)離散化(實際上就是將某個區(qū)間的值對應于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關聯(lián)規(guī)則的挖掘結果。
下一期將介紹一個運用關聯(lián)規(guī)則的案例來解釋關聯(lián)算法的實際應用。
by:通策信息首席運營官 譚磊
(原載于《天下網(wǎng)商·經(jīng)理人》八月刊)
更多詳細信息,請您微信關注“計算網(wǎng)”公眾號: