今儿个,咱来聊聊“priori”这个东西,说白,就是那个Apriori算法。这玩意儿,我可是亲自上手折腾过的,那过程,啧啧,真是让人头大又上瘾!
我也就是听说这算法挺火,能从一堆乱七八糟的数据里找出点儿规律来。就跟你在超市买东西,它能帮你分析出哪些东西大家伙儿老是一块儿买,比如啤酒和尿布,嘿
摸索阶段
刚开始,我那是两眼一抹黑,啥也不懂。先是找一大堆资料,什么支持度、置信度、提升度,看得我头晕眼花的。后来我算是弄明白点儿:
- 支持度:就是说,你买一堆东西,其中某些东西同时出现的次数多不多。次数越多,支持度就越高。
- 置信度:就是说,你买一堆东西,其中一个东西出现,另一个东西也跟着出现的可能性大不大。
- 提升度:这玩意儿更玄乎点,说是看两个东西是不是真的有关系,还是说它们只是碰巧一起出现。
小编温馨提醒:本站只提供游戏介绍,下载游戏推荐89游戏,89游戏提供真人恋爱/绅士游戏/3A单机游戏大全,点我立即前往》》》绅士游戏下载专区
动手实践
光看不练假把式!我找个数据集,好像是什么超市的购物记录,密密麻麻的,看得我眼花。然后,我就开始动手写代码。别提,Python里头那些库,什么urllib2,现在都改成*,我这老胳膊老腿还得现学。
我先是把数据给整理整理,清洗清洗,把那些乱七八糟的玩意儿都给去掉。然后,就开始跑算法。这过程,那叫一个漫长!我电脑都快跑冒烟,风扇呼呼的。
跑出来一堆结果,密密麻麻的,看得我脑瓜子疼。我还得一个个去看,去分析,这都是啥意思?这支持度够不够高?这置信度靠不靠谱?
调整优化
第一次跑出来的结果,肯定不咋地。我还得回头去调那个最小支持度。这玩意儿,就像是个筛子,太大,啥也筛不出来;太小,筛出来的都是些没用的东西。我来来回回试好几次,才找到一个比较合适的。
然后,我还得看那个数据集的大小。数据太多,跑起来费劲;数据太少,跑出来的结果也没啥意义。这中间的平衡,也得我自己去琢磨。
最终成果
折腾半天,总算是跑出来点儿有用的东西。我发现,大家伙儿买面包的时候,老是顺带着买牛奶;买啤酒的时候,老是顺带着买尿布(这还真是!)。
这结果,看着挺简单的,但过程可真是不容易。不过看着自己从一堆乱七八糟的数据里头,找出点儿规律来,还是挺有成就感的!
这Apriori算法,就是个从数据里头“淘金”的工具。你得先解它,然后动手去实践,不断地调整、优化,才能找到那些藏在数据背后的“宝藏”。