Tuesday, March 8, 2016

Apriori



C set: candidate set
L set: large-item set
C set->L set
frequent set=L set


Python程序思路:
L2->C3
union的所有组合: ABC, ACBE, ACE, BCE
首先个数要为3个,所以ACBE去掉只剩下三组就是C3



















但是据权威参考资料,C3直接是BCE, 因为C3中的任两两元素都应为large(L2里面), 所以ABC, ACE直接不能进入C3
















































如果计算关联规则:
Python 程序思路:
所有L set包括其support数值存于dict中如A 0.5, B 0.75....BCE 0.5
然后对每一个frequent item=L set做如下:
frequent item的support值/该frequent item所有子集(不包括自己)如BCE就是B,C,E,BC,BE,CE,BCE,如果该子集的除法满足Min confidence,
规则为该子集=>frequent item-该子集。如
P(BCE/B) or count(BCE)/count(B)=0.5/0.75=0.67>0.6(min confidence). 就有B=>CE
P(BCE/C)=0.5/0.75 就有C=>BE


原理:(网球拍例子)确定了frequent set(BCE)之后,这就是确定了support也就是confidence置信度(条件概率)中的分子部分
P([BCE]/P(X))=0.6(min confidence)



http://blog.csdn.net/fufengrui/article/details/16342425

https://www.zhihu.com/question/22590018

http://blog.csdn.net/wyc09/article/details/16860923

No comments:

Post a Comment