写在前面：间隔上一篇USpan算法学习已经过去了好久，这次再来学习 sequence mining，本文处理了相关规矩推导这一环节，把曾经只是挖掘 sequence p算法atterns 的作业推动一步；HUSR数组公式M算法运用到的战略比较多，需求花点功夫去研讨一下数组

Efficient Mining of High-Utility Sequential Rules

样例

sequence dataset

utility table

界说

基础公积金界说能够参阅 USpan 这篇算法笔记，这儿仅作一些内容补偿

序列规矩（sequential rule）设存在两个项集 $X$ 和 $Y$ 有 $X, Y \subseteq I$ ， $X \cap Y = \emptyset$ 和 $X, Y \neq = \emptyset$ ，序数组初始化列规矩 $X \to Y$ 是相相关的意味着在同一条序列中，项集 $X$ 产生后项集 $Y$ 也会产生，序列规矩大小为 $∣ X ∣ ∣ 笔记本电脑开机黑屏没反应怎样办 Y ∣$ ，一同运用google $s e q (r) = {s ∣ s \in S D B \land r \subseteq s}$ 标明包括规矩 $r$ 的悉数序列， $a n t (算法是什么 r) = {s ∣ s \in S D B \land X \subseteq s}$ 标明包括规数组c言语则 $r$ 前件的悉数序列
规矩的数组词支撑度（support of rule）相关规矩 $r$ 在数据会集的支撑度相同以比率的方式表现，笔记本电脑开机黑屏没反应怎样办核算表达式为 $supSD算法导论B(r)=∣seq(r)∣∣SDB∣sup_{SDB}(r笔记本电脑什么牌子好)=frac数组去重方法{mid seq(r) mid}{算法是什么mid SDB mid}$
规矩的置信度（confident o数组的界说f rule）相关规矩 $r$ 在数据算法设计与剖析会集的置信度也是以比率的方式表现，核算表达式为 $confSDB=∣seq(r)∣算法工程师和程序员差异∣ant(r算法的时刻复杂度取决于)∣conf_{SDB} = frac{mid seq(r) mid}{mid ant(r) mid}$
规矩的成效值（ut算法的有穷性是指ility of a sequential rule）当某条规矩 $r : X \to Y$ 在某条狗狗币序列 $s_c$ 中存在时，它的成效值核算表达式为 $s_c) = sum_{(i in X cup Y) land (r subseteGoq s_c)}u(i, s_c)$ ，假定 $s_c$ 时， $u(r, s_c) = 0$ ；类比推理即可得，该规矩在整个数据会集的总成效值为 $uSDB(r)=∑s∈SDBu(r,s)u_{SDB}(r) = sum_{s in SDB}u(r, s)$
高成效序列规矩挖掘（high-utility sequential rule mining）给定三个阈值 $m i n s u p$ ， $m i n 龚俊 c o n f$ 和 $m i n u t i l$ ，当某条规矩对应的值数组初始化一同大于阈值，咱们以为该规矩是高成效序列规矩（也便是说约束条件数组和链表的差异更多了）

挖掘规矩需求留心的一点是扩展方法，文算法的有穷性是指中也阐明是经过大小为笔记本电脑开不了机 $1 Go 1$ 的规矩逐步左扩展和右扩展得到更长的诙谐规矩，但需求留心的是左扩展和右扩展先后次序以及递归数组排序办算法工程师法都会在很大程度上影响究竟的挖掘效果；比笔记方规矩 $r$ ： ${a} \to {c}$ 既能够先左扩展后右扩展，也能够反过来笔记本得到新的规矩 $r′r^prime$ ： ${a, b} \to {c Go, d}$ ，这儿就存在生成两条相同新规矩的或许；还有一种情况笔记本电脑什么牌子好是 ${b} \to {e}$ 和 ${c} \to {e}$ 都能够别离经过左扩展项 $c$ 和 $b$ 得到相同的新规矩 ${b, c} \to {e}$ ，处理方法在下面界说中介绍

扩展（extendability）
- 左扩展（l工商银行eft extension）关于规矩 $X \to Y$ 和项 $i \in I$ ，当关于 $\forall j \in X$ 有 $succ_{lex} j$ 且 $i \neq \in Y$ ，其左扩展为 $X \cup {i} \to Y$
- 右扩展（right extension）同理，数组当关于 $\forall j \in Y$ 有 $succ_{lex} j$ 且 $i \neq \in X$ ，其右扩展为 $X \to Y \cup {i}$
- 需求补偿的是， $≻lexsucc_{lex}$ 是各个项之间指按字典先后次序摆放（lexicographical），用以处理不同规矩由于扩展产生相同的新规矩问题；由于一个项有或许既能够左扩展，数组词又能够右扩展，所以通常情况下是默许先左扩展，后右扩展，并且右扩展里能够持续左扩展，但左扩展里只能进行右扩展，用以处理同一条规矩由于不同的扩展笔记本电脑什么牌子好次序得到重复的新规矩问题
项在序列中的预估值（seq笔记本cpu天梯图uence es算法的五个特性timated utility of a算法工程师n it数组排序em）效果同 TWU，核算表达式为 $S E U (i)$ = $∑(sc∈SDB)∧({i}⊆sc)SU(sc)sum_{(s_c in SDB) land (lbrace i rbrace subseteq s_c)}SU(s_c)$ ，其间 $S U$ 是 $s_c$ 序列的总成效值，同 TU，意思是核算在整个数据会集，悉数包括项 $i$ 的序列成效值之和；同理，关于由不同项构成的规矩笔记本电脑性价比排行2020 $r$ 的成效预估值也是相同的核算方法 $S E U (r)$ = $∑数组sc∈seq(r)SU(sc)sum_{s_c in seq(r)}SU(s_c)$ ，这些预估值的效果便是来帮助判别其时的项/规矩是否是潜在诙谐的，当它们都不小宫崎骏于设定好的 $m i n u t i l$ ，那么我笔记本们就以为这些项/规矩是能够作算法是什么进一步扩展，并且很有或许是高成效的
记载成效表格（utility-table）这是单独规划的一个新的存储结构，用来记载悉数触及规矩 $r$ 的成效信息，运用 $u t (r)$ 标明（u笔记tility-list结构），里边有许多条数据，格局为 $(s i d, i u t i l, l u t i l, r u t i l, l r u t i l)$ ，其间：
- sid：标明是包括 $r$ 的序列编号（ $Ssid∈seq(r)S_{sid} in seq(r)$ ）
- iutil：标明 $r$ 在其时序列中的成效值
- lutil：标明那些在其时序列中，能够对 $r$ 进行左扩展的项的成效值之和
- rutil：标明那些在其时序列中，能够对 $r$ 进行右扩展的项的成效值之和
- lrutil：标笔记本电脑什么牌子好明那笔记本电脑性价比排行2020些在其时序列中，能够对 $r$ 进行左/右扩展的宫颈癌成效值之和
后边三个记载扩展的成效值其实都是能够用来作预估值的一部分，便当对算法导论 $r$ 进行剪枝，在运用进程中要明晰其时进行的是何种扩展方法，把握住扩展项 $i$ 和被扩展项/项集 $j$ 之间的联系就很简略理数组初始化解；下面持续介绍怎样经过utility-table核算扩展规矩，给定扩展后规矩 $r′r^prime$ ，规矩 $r$ ，扩展项 $succ_{lex} j in s_c$ 以及 $u t (r)$ 和 $ut(r′)ut(r^prime)$ ：
- sid：这笔记本电脑个必然是前算法工程师后保持一致，由于扩展规矩算法导论有必要和原规矩在同一条序列中
- iutil’： $iutil′笔记本电脑开机黑屏没反应怎样办(r′)iutil^prim数组去重e(r^prime)$ = $i u t i l (r)$ + $s_{sid})$
- lutil’： $lutil′(r′)lutil^prime(r^prime)$ = $l u t i l (r)$ – $u(j, s_{sid})$ – $s_{sid})$ ，其间项 $j$ 不能够成为规矩 $r′r^prime$ 的左扩展，而是规算法是什么则 $r$ 的左扩展笔记本电脑什么牌子好项，一同项 $i$ 假定能够成为规矩 $r$ 的左扩展那么也要减去其成效值，不然无需减去项 $i$ 那部分值
- rutil’： $rutil′(r′)rutil^prime(r^prime)$ = $r 数组的界说 u t i l (r)$ – $u(j, s_{sid})$ – $s_{sid})$ ，算法剖析的意图是约束条件同上，只是把左扩展改成右扩展
- lrutil’： $lrutil′(r′)lrutil^prime(r^prime)$ = $l r u 算法 t i l (r)$ – $s_{算法的时刻复杂度取决于sid})$ – $u(i, s_{sid})$ ，其间项 $j$ 不能够成为规矩 $r′r^prime$ 的左/右扩展，而是规矩 $r$ 的左/右扩展，一同项 $i$ 假定能够成为规矩 $r$ 的左/右扩展那么也要减去其成算法的时刻复杂度取决于效值，不然无需减去项 $i$ 那部宫颈癌早期症状分值
之所以需求在扩展后减去项集 $i$ 和 $j$ 的成效值，原因在于相关规矩中不能够重复出现同一个项，一同也是避免一个项既右扩展又左扩展
扩展规矩的置信度（confidence of extension rule）运用位向量（bit vector） $b (i)$ 来标明项 $i$ 在哪些序列中出现过，运用 $1$ 标明出现， $0$ 标明未出现；然后把项会集笔记本电脑开机黑屏没反应怎样办的每个项的位向量按位进行与操作，究竟 $1$ 的个数便是该项集 $∣ a n t (X) ∣$ ，规矩 $r$ 的核算方法也是相同，支撑度经过 utility-table 能够直数组观得到；比如 $b v (a)$ =1111 $\land$ $b v (b)$ =1011 $\Rightarrow$ $b v (数组排序 a b)$ =1011

Ps. 尽管论文中看起来像是运算法的时刻复杂度取决于用一个长长的数组来存储这些0和1笔记本电脑性价比排行2020，在代码中其实是用hashmap存储相应的键值对，直接经过键的比对核算出新规矩的位Go向量

战略

剪枝战略由于触及到两个现已研讨得数组很成熟得挖掘范畴（fre狗狗币quent 和 utility），别离经过各自的反单调性进行剪枝，只需一个条件不满足咱们就删去该节点，不进行下一步的扩展作业， HUI-Miner 这篇笔记有详细的介绍

utility-table

其实utility-list结构存储的信息都是很直观的，由于和该项/项集的笔记本电脑怎样连wifi悉数信息都存储在这个列表傍边，咱们只需求组合这些已知条件就能够得到要数组去重害信息

由于会对每个规矩 $r$ 单独结构一个l笔记本电脑排名前十ist，该list记载了该规矩的悉数出现情况，所以自然有 $u (r)$ = $∑i∈sidiutil(ri)sum_{i in sid}iutil(r_i)$
同数组去重方法理，关于规矩 $r$ 的支撑度核枸杞算公式为 $sup_{SDB}(r)$ = $∣ut(r)∣∣SDB∣frac{mid ut工商银行(r) mid}{mid SDB mid}$
$i u t i l (r)$ + $r u t i l (r)$ + $l u t i l (r)$ + $l r u t i l (r) \leq S E 笔记本电脑开不了机 U (r 数组词)$ ，故utility-table其实是供给了一个更紧凑的距离值（预估值，把公式细化就能够推导出）
若规矩 $r$ 经过一次左/右扩展得到新的规矩 $t$ ，有 $u (t) \leq i u t i l (r)$ + $r u t 数组词 i l (r)$ + $l u t i l (r)$ + $l r u t i l (r)$ （由于每进行一次扩笔记展，包括这条新规矩的序列就更少了）
若规矩 $r 笔记本电脑开不了机$ 经过一次左扩展得到新的规矩 $t$ ，有 $u (t) \leq i u t i l (r)$ + $l u t i l (r)$ + $l r u t i l (r)$

compact utility-table

作者在试验进程中观察到两条规笔记则：

在左扩算法的时刻复杂度取决于展进程中：
- $r u t i l$ 总是用不到的，所以能够不用核算该值
- $l u t 笔记本cpu天梯图 i l$ 和 $l r u t i l$ 之和一直都需求运用，所以能够用它们的和来代替这两个数值
明显，这会让table变得更小笔记本，并且结构所需求的时刻也会短一些
在任意一条序列中，排在某规矩第一次出现方位之后的项能够作为右扩展，对算法设计与剖析应地，排在之前的能够作为左扩展

算法

HUSRM算法工程师 algorithm

Left E宫颈癌xpension

Right Expension

总结

以上笔记本电脑开不了机便是HUSRM算笔记本法的悉数内容，学习了utilit算法的时刻复杂度是指什么y-list思维，直接经过list而不用遍历数据集结构更高阶层的规矩，也是高成效序列规矩挖掘范畴的一个突笔记本电脑性价比排行2020破性作业。个人以为作算法的有穷性是指者将原算法拆出了四个不同程度优化的版本来进行笔记试验比对，这是十分诙谐的当地，其实咱们无妨揣摩一下作者这么安排的意图。这类算法的最大问题在于工作时刻过长，由于复杂的结构进程，许多公积金算法的试验效果并不是很好看，还需求多加研讨，是否有一个更高效的存储结构来简化结构进程，算法的五个特性或许新的结构思路。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

HUSRM算法

Efficient Mining of High-Utility Sequential Rules

样例

界说

战略

算法

总结

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

HUSRM算法

Efficient Mining of High-Utility Sequential Rules

样例

界说

战略

算法

总结

评论(0)

提示：请文明发言 取消回复

近期文章

近期评论

提示：请文明发言取消回复