写在前面:间隔上一篇USpan算法学习已经过去了好久,这次再来学习 sequence mining,本文处理了相关规矩推导这一环节,把曾经只是挖掘 sequence p算法atterns 的作业推动一步;HUSR数组公式M算法运用到的战略比较多,需求花点功夫去研讨一下数组

Efficient Mining of High-Utility Sequential Rules

样例

sequence dataset

HUSRM算法

utility table

HUSRM算法

界说

基础公积金界说能够参阅 USpan 这篇算法笔记,这儿仅作一些内容补偿

  • 序列规矩(sequential rule)设存在两个项集 XXYYX,Y⊆IX, Y subseteq IX∩Y=∅X cap Y = emptyX,Y=∅X, Y not= empty,序数组初始化列规矩 X→YX righ笔记本电脑排名前十tarrow Y 是相相关的意味着在同一条序列中,项集 XX 产生后项集 YY 也会产生,序列规矩大小为 ∣X∣∣GoY∣mid X mid times mid Y mid,一同运用google seq(r)={sgoogleplay∣s∈SDB∧r⊆s}seq(r)=lbrace s mid s i龚俊n SDB land r subseteq s rbrace 标明包括规矩 rr 的悉数序列,ant(r)={s∣s∈SDB∧X⊆s}ant(r)=笔记本电脑性价比排行2020lbrace s mid s in SDB land X subseteq s rbrace 标明包括规数组c言语rr 前件的悉数序列
  • 规矩的数组词支撑度(support of rule)相关规矩 rr 在数据会集的支撑度相同以比率的方式表现,笔记本电脑开机黑屏没反应怎样办核算表达式为 supSD算法导论B(r)=∣seq(r)∣∣SDB∣sup_{SDB}(r笔记本电脑什么牌子好)=frac数组去重方法{mid seq(r) mid}{算法是什么mid SDB mid}
  • 规矩的置信度(confident o数组的界说f rule)相关规矩 rr 在数据算法设计与剖析会集的置信度也是以比率的方式表现,核算表达式为 confSDB=∣seq(r)∣算法工程师和程序员差异∣ant(r算法的时刻复杂度取决于)∣conf_{SDB} = frac{mid seq(r) mid}{mid ant(r) mid}
  • 规矩的成效值(ut算法的有穷性是指ility of a sequential rule)当某条规矩 r:X→Yr: X rightarrow Y 在某条狗狗币序列 scs_c 中存在时,它的成效值核算表达式为 u(r,sc)=∑(i∈X∪Y)∧(r⊆sc)u数组初始化(i,sc)u(r, s_c) = sum_{(i in X cup Y) land (r subseteGoq s_c)}u(i, s_c),假定 r⊆scr notsubseteq s_c 时,u(r,sc)=0u(r, s_c) = 0;类比推理即可得,该规矩在整个数据会集的总成效值为 uSDB(r)=∑s∈SDBu(r,s)u_{SDB}(r) = sum_{s in SDB}u(r, s)
  • 高成效序列规矩挖掘(high-utility sequential rule mining)给定三个阈值 minsupmin笔记本电脑什么牌子好supminconfminc算法的时刻复杂度取决于onfminutilgoogleminutil,当某条规矩对应的值数组初始化一同大于阈值,咱们以为该规矩是高成效序列规矩(也便是说约束条件数组和链表的差异更多了)

挖掘规矩需求留心的一点是扩展方法,文算法的有穷性是指中也阐明是经过大小为笔记本电脑开不了机 111 t算法工程师imes 1 的规矩逐步左扩展和右扩展得到更长的诙谐规矩,但需求留心的是左扩展和右扩展先后次序以及递归数组排序算法工程师法都会在很大程度上影响究竟的挖掘效果;比笔记方规矩 rr{a}→{c}lbrace a r算法的时刻复杂度是指什么brace right公积金arrow lbrace c rbrace 既能够先左扩展后右扩展,也能够反过来笔记本得到新的规矩 r′r^prime{a,b}→{c,d}lbrace a, b rbrace rightarrow lbrace c, d rbrace,这儿就存在生成两条相同新规矩的或许;还有一种情况笔记本电脑什么牌子好{b}→{e}lbrace b rbrace rightarrow lbrace e rbrace{c}→{e}lb算法race c rb笔记本电脑怎样连wifirace r公积金ightarrow lbrace e rbrace 都能够别离经过左扩展项 ccbb 得到相同的新规矩 {b,c}→{e}lbrace b, c rbrace rightarrow lbrace e rbrace,处理方法在下面界说中介绍

  • 扩展(extendability)

    • 左扩展(l工商银行eft extension)关于规矩 X→YX rightarrow Y 和项 i∈Ii in I ,当关于 ∀j∈Xforall j in Xi≻lexji succ_{lex} ji∈Yi notin Y,其左扩展为 X∪{i}→YX cup lbrace i rbrace rightarrow Y

    • 右扩展(right extension)同理,数组当关于 ∀j∈Yforall j in Yi≻lexji succ_{lex} ji∈Xi notin X,其右扩展为 X→Y∪{i}X ri算法工程师和程序员差异ghta数组的界说rrow Y cup lbrace i rbra数组指针ce

    • 需求补偿的是,≻lexsucc_{lex} 是各个项之间指按字典先后次序摆放(lexicographical),用以处理不同规矩由于扩展产生相同的新规矩问题;由于一个项有或许既能够左扩展,数组词又能够右扩展,所以通常情况下是默许先左扩展,后右扩展,并且右扩展里能够持续左扩展,但左扩展里只能进行右扩展,用以处理同一条规矩由于不同的扩展笔记本电脑什么牌子好次序得到重复的新规矩问题

  • 项在序列中的预估值(seq笔记本cpu天梯图uence es算法的五个特性timated utility of a算法工程师n it数组排序em)效果同 TWU,核算表达式为 SEU(i)SEU(i)=∑(sc∈SDB)∧({i}⊆sc)SU(sc)sum_{(s_c in SDB) land (lbrace i rbrace subseteq s_c)}SU(s_c),其间 SUSUscs_c 序列的总成效值,同 TU,意思是核算在整个数据会集,悉数包括项 ii 的序列成效值之和;同理,关于由不同项构成的规矩笔记本电脑性价比排行2020 rr 的成效预估值也是相同的核算方法 SEU(r)SEU(r)=数组sc∈seq(r)SU(sc)sum_{s_c in seq(r)}SU(s_c),这些预估值的效果便是来帮助判别其时的项/规矩是否是潜在诙谐的,当它们都不小宫崎骏于设定好的 minutilminutil,那么我笔记本们就以为这些项/规矩是能够作算法是什么进一步扩展,并且很有或许是高成效的

  • 记载成效表格(utility-table)这是单独规划的一个新的存储结构,用来记载悉数触及规矩 rr 的成效信息,运用 ut(r)ut(r) 标明(u笔记tility-list结构),里边有许多条数据,格局为 (sid,iutil,lutil,rutil,lrutil)(s笔记本id, iutil, lutil, rutil, lrutil),其间:

    • sid:标明是包括 rr 的序列编号(Ssid∈seq(r)S_{sid} in seq(r)
    • iutil:标明 rr 在其时序列中的成效值
    • lutil:标明那些在其时序列中,能够对 rr 进行扩展的项的成效值之和
    • rutil:标明那些在其时序列中,能够对 rr 进行扩展的项的成效值之和
    • lrutil:标笔记本电脑什么牌子好明那笔记本电脑性价比排行2020些在其时序列中,能够对 rr 进行左/右扩展的宫颈癌成效值之和

    后边三个记载扩展的成效值其实都是能够用来作预估值的一部分,便当对算法导论 rr 进行剪枝,在运用进程中要明晰其时进行的是何种扩展方法,把握住扩展项 ii 和被扩展项/项集 jj 之间的联系就很简略理数组初始化解;下面持续介绍怎样经过utility-table核算扩展规矩,给定扩展后规矩 r′r^prime,规矩 rr,扩展项 i≻lexj∈sci succ_{lex} j in s_c 以及 ut(r)ut(r)ut(r′)ut(r^prime)

    • sid:这笔记本电脑个必然是前算法工程师后保持一致,由于扩展规矩算法导论有必要和原规矩在同一条序列中
    • iutil’iutil′笔记本电脑开机黑屏没反应怎样办(r′)iutil^prim数组去重e(r^prime)=iutil(r)iutil(r)+u({i},ssid)u(lbrace i rbrace, s_{sid})
    • lutil’lutil′(r′)lutil^prime(r^prime)=lutil(r)lutil(r)u(j,ssid)u(j, s_{sid})u(i,数组去重ssid)u(i, s_{sid}),其间项 jj 不能够成为规矩 r′r^prime扩展,而是规算法是什么rr扩展笔记本电脑什么牌子好项,一同项 ii 假定能够成为规矩 r笔记本电脑r扩展那么也要减去其成效值,不然无需减去项 ii 那部分值
    • rutil’rutil′(r′)rutil^prime(r^prime)=rutil(r)rutil(r)u(j,ssid)u(j, s_{sid})u(宫崎骏i,ssid)u(i, s_{sid})算法剖析的意图是约束条件同上,只是把扩展改成扩展
    • lrutil’lrutil′(r′)lrutil^prime(r^prime)=lrutil(r)l公积金rutil(r)u(j,s算法导论sid)u(j, s_{算法的时刻复杂度取决于sid})u(i,ssid)u(i, s_{sid}),其间项 jj 不能够成为规矩 r′r^prime左/右扩展,而是规矩 rr左/右扩展,一同项 ii 假定能够成为规矩 rr左/右扩展那么也要减去其成算法的时刻复杂度取决于效值,不然无需减去项 ii 那部宫颈癌早期症状分值

    之所以需求在扩展后减去项集 iijj 的成效值,原因在于相关规矩中不能够重复出现同一个项,一同也是避免一个项既扩展又扩展

  • 扩展规矩的置信度(confidence of extension rule)运用位向量(bit vector)b(i)b(i) 来标明项 ii 在哪些序列中出现过,运用 11 标明出现,00 标明未出现;然后把项会集笔记本电脑开机黑屏没反应怎样办的每个项的位向量按位进行操作,究竟11的个数便是该项集 ∣ant(X)∣m算法导论id ant(X) mid,规矩 rr 的核算方法也是相同,支撑度经过 utility-table 能够直数组观得到;比如 bv(a)bv(a)=1111 ∧land bv(b)bv(b)=1011 ⇒Right数组的界说arrow bv(ab)bv(ab)=1011

    Ps. 尽管论文中看起来像是运算法的时刻复杂度取决于用一个长长的数组来存储这些0和1笔记本电脑性价比排行2020,在代码中其实是用hashmap存储相应的键值对,直接经过键的比对核算出新规矩的位Go向量

战略

剪枝战略由于触及到两个现已研讨得数组很成熟得挖掘范畴(fre狗狗币quent 和 utility),别离经过各自的反单调性进行剪枝,只需一个条件不满足咱们就删去该节点,不进行下一步的扩展作业, HUI-Miner 这篇笔记有详细的介绍

utility-table

其实utility-list结构存储的信息都是很直观的,由于和该项/项集的笔记本电脑怎样连wifi悉数信息都存储在这个列表傍边,咱们只需求组合这些已知条件就能够得到要数组去重害信息

  • 由于会对每个规矩 rr 单独结构一个l笔记本电脑排名前十ist,该list记载了该规矩的悉数出现情况,所以自然有 u(r)u(r)=∑i∈sidiutil(ri)sum_{i in sid}iutil(r_i)
  • 数组去重方法理,关于规矩 rr 的支撑度核枸杞算公式为 supSDB(r)sup_{SDB}(r)=∣ut(r)∣∣SDB∣frac{mid ut工商银行(r) mid}{mid SDB mid}
  • iutil(r)iutil(r)+rutil(r)rutil(r)+lutil(r)lutil(r)+lrutil(r)≤SEU(r)lrutil(r) le SEU(r),故utility-table其实是供给了一个更紧凑的距离值(预估值,把公式细化就能够推导出)
  • 若规矩 rr 经过一次左/右扩展得到新的规矩 tt枸杞,有 u(t)≤iutil(r)u(t) le iutil(googler)+rutil(r)rutil(r)+lutil(r)lutil(r)+lrutil(r)lrutil(r) (由于每进行一次扩笔记展,包括这条新规矩的序列就更少了)
  • 若规矩 rr 经过一次扩展得到新的规矩 tt,有 u(t)≤iutil(r)u(t) le iutil(r)+lutil(r)lutil(r)+lrutil(r)lrutil(r)

compact utility-table

作者在试验进程中观察到两条规笔记则:

  • 算法的时刻复杂度取决于展进程中:

    • rutilrutil 总是用不到的,所以能够不用核算该值
    • lutillutillrutill数组公式rutil 之和一直都需求运用,所以能够用它们的和来代替这两个数值

    明显,这会让table变得更小笔记本,并且结构所需求的时刻也会短一些

  • 在任意一条序列中,排在某规矩第一次出现方位之后的项能够作为扩展,对算法设计与剖析应地,排在之前的能够作为扩展

算法

HUSRM算法工程师 algorithm

HUSRM算法

Left E宫颈癌xpension

HUSRM算法

Right Expension

HUSRM算法

总结

以上笔记本电脑开不了机便是HUSRM算笔记本法的悉数内容,学习了utilit算法的时刻复杂度是指什么y-list思维,直接经过list而不用遍历数据集结构更高阶层的规矩,也是高成效序列规矩挖掘范畴的一个突笔记本电脑性价比排行2020破性作业。个人以为作算法的有穷性是指者将原算法拆出了四个不同程度优化的版本来进行笔记试验比对,这是十分诙谐的当地,其实咱们无妨揣摩一下作者这么安排的意图。这类算法的最大问题在于工作时刻过长,由于复杂的结构进程,许多公积金算法的试验效果并不是很好看,还需求多加研讨,是否有一个更高效的存储结构来简化结构进程,算法的五个特性或许新的结构思路。