导读

在数据驱动时代，不管是在产品功用迭代仍是战略决议计划时都需求数据的支撑。那么，当咱们预备上线一个新功用或许战略时，怎么评价新老版别优劣，即数据的可量化就成了问题。这个时分就需求引进 A/B Test 了。

一、A/B Test 是什么？

A/B Test 的概念来源于生物医学的双盲测验，双盲测验中患者被随机分成两组，在不知情的状况下分别给予安慰剂和测验用药，经过一段时刻的试验后再来比较这两组患者的体现是否具有明显的差异，然后决议测验用药是否有效。

在互联网职业中，在产品正式迭代发版之前，将 Web 或 App 界面或流程以同一个意图拟定两个或多个计划，在同一时刻维度，将流量对应分成若干个组，在保证每组用户特征相同（相似）的前提下，展现给用户不同的规划计划，收集各组的用户体会数据和事务数据，最后分析评价出最好版别，科学的进行决议计划。

二、AB 体系规划与完成

2.1 体系介绍

转转 AB Test 体系的中心功用首要包括五个部分：

试验办理：试验装备、上下线等操作。
方针办理：分事务线创立与办理数据方针，数据方针分为「事情方针」和「复合方针」。
白名单办理：各种分流标识的白名单创立与办理。
数据陈述：总试验用户数、流量概览、重视方针图表和试验定论数据。
分流服务：供事务方调用获取试验分组成果的 RPC 服务。

2.2 体系架构

2.3 体系完成

2.3.1 试验办理

试验列表：是所有试验的调集，整个试验列表分为三个区域「挑选/查询区域」、「新建试验」、「列表区域」。

新建试验：要求填三个部分信息根底信息、试验装备信息、试验战略装备，状况默许为测验中。
- 试验根本信息
- 试验装备信息
- 试验战略装备

2.3.2 方针办理

方针分为「事情方针」和「复合方针」两种类型。事情方针经过埋点事情装备计算，复合方针经过根底的事情方针进行四则运算生成。

2.3.3 白名单办理

白名单功用供给统一的白名单创立与办理，用于试验装备时给相关试验组添加白名单，作用与分流服务，便利事务试验开发测验时经过装备白名单直接进入相应的试验组。

2.3.4 数据陈述

试验陈述是针对单个试验，装备的中心方针以及相关方针一个计算性的数据陈述说明。

根本信息
- 试验ID：该试验的试验ID。
- 试验称号：该试验的试验称号。
- 开始时刻：该试验正式上线的时刻。
- 运转天数：该试验从上线至今/完毕前的运转天数。
- 操作记载：记载这个试验的操作变化记载，包括流量分配、中心方针修正、试验暂停/上线等。
- 检查装备：检查这个试验的装备信息。

中心数据
- 全体-总试验用户数：试验上线至今/完毕前共参加试验的用户数，依照分流标识进行计算。
- 分组-总试验用户数：各个分组试验上线至今/完毕前共参加试验的用户数，依照分流标识进行计算。
- 总试验用户占比：「分组-总试验用户数」 / 「全体 – 总试验用户数」* 100%。
- 流量分配：创立试验时，流量的分配份额。
- 中心方针值：创立试验时，装备的「中心方针」对应的数值，这儿会依据【方针办理】中装备的数值方法与小数位数进行显示。
- 计算学校验：用于描绘试验组方针相比于对照组的提高规模。随着参加试验的样本量逐渐添加，数据方针动摇趋于稳定，置信区间会逐渐收窄。一般来说，置信区间挑选 95%。
- 计算成效：计算成效用于描绘经过试验能检测出试验成果真实牢靠的概率；一般用于衡量试验不明显时，是否需求持续扩大样本持续试验。一般当差异不明显时，计算成效小于 80%，需求持续做试验，当差异不明显是，计算成效大于 80%，说明根本对照组与试验组没有差异。
- 试验定论：试验定论依据「中心方针」与「计算成效」得出试验定论。

流量概览

首要意图衡量流量分配是否均匀，方针为「新进组用户数」：当天第一次参加试验的用户数。

重视方针（包括中心方针）
- 试验UV：同「分组-总试验用户数」，各个分组试验上线至今/完毕前共参加试验的用户数，依照分流标识进行计算。
- 方针称号：所选的方针对应的称号。
- 差异绝对值：该分组对应对照组在该方针上的差异的值，举例：如对照组订单数为 50，试验组为 100，这儿的差异绝对值为 100 – 50 = 50。
- 差异相对值：该分组对应对照组在该方针上的差异的百分比，举例：如对照组订单数为 50，试验组为 100，这儿的差异绝对值为（100 – 50）/ 50 = 100%。
- 置信区间：中心方针经过试验装备的置信水平计算计算。

2.3.5 分流服务

分流逻辑

分流服务实时同步已上线运转的试验装备，事务调用方经过试验ID+分流标识获取试验的分组成果，详细完成逻辑如下:

if (白名单判别) {
    return "白名单组";
}
if (试验下线判别) {
    return "决议计划组";
}
if (进组不出组) {
    if (缓存成果判别) {
        return "缓存成果组";
    }
}
// 分桶分组，用试验id + 分流标识进行hash取模100得到桶号，同一用户在不同试验中的桶号不完全相同，保证试验之间的独立性
int bucketNum = BucketNumUtil.getBucketNum(testId + "_" +tokenId);
// 依据桶号获取对应的试验组
String groupName = getGroupName(test, bucketNum);
if (进组不出组) {
    redisCache.set(testId, tokenId, groupName, exAt);
}
return groupName;

分流计划

结合转转事务的特色，运用了无层计划。所谓无层，就是每个试验都是独自一层，运用试验 id 作为种子将 1-100 的桶号进行洗牌打乱，详细完成方法如下：

// 生成1-100的桶号，并运用testId作为种子洗牌打乱(相同的种子洗牌成果相同，然后保证同一ABTest的桶号List不变，且可依据testId猜测，不同试验的桶号分布的随机性，保证试验之间的独立性)
List<Integer> list = Stream.iterate(1, item -> item + 1).limit(100).collect(Collectors.toList());
Random rnd = new Random(testId);
Collections.shuffle(list, rnd);
// 依据组流量份额将桶号分配到各组
for (int i = 0; i < groups.size(); i++) {
    // TODO 依照流量占比分配相同数量的桶号
}

如此一来保证了每个试验都独自占有所有流量，能够取任意组的流量进行试验，可是又引进了新的问题，无层会导致同一个用户命中多个试验，即便这些试验是互斥的。

为了处理试验需求互斥的需求，后期将引进互斥试验组的概念，将互斥试验放在同一个组中，同享所有流量。详细完成逻辑如下：

新分流逻辑

if (白名单判别) {
    return "白名单组";
}
if (试验下线判别) {
    return "决议计划组";
}
int groupBucketNum = BucketNumUtil.getBucketNum(groupId + "_" +tokenId);
if (!互斥组流量判别(groupInfo, groupBucketNum)) {
    // 不在互斥组流量中试验时，回来对照组
    return "对照组";
}
if (进组不出组) {
    if (缓存成果判别) {
        return "缓存成果组";
    }
}
// 分桶分组，用试验id + 分流标识进行hash取模100得到桶号，同一用户在不同试验中的桶号不完全相同，保证试验之间的独立性
int bucketNum = BucketNumUtil.getBucketNum(testId + "_" +tokenId);
// 依据桶号获取对应的试验组
String groupName = getGroupName(testInfo, bucketNum);
if (进组不出组) {
    redisCache.set(testId, tokenId, groupName, exAt);
}
return groupName;

新分流计划

// 互斥组内流量分配
List<Integer> groupBucketNumList = Stream.iterate(1, item -> item + 1).limit(100).collect(Collectors.toList());
Random rnd = new Random(groupId);
Collections.shuffle(groupBucketNumList, rnd);
// 依据互斥组流量份额将桶号分配到各试验
for (int i = 0; i < groups.size(); i++) {
    // TODO 依照流量占比分配相同数量的桶号
}
// 试验内部试验组桶号生成分配逻辑不变
List<Integer> testBucketNumList = Stream.iterate(1, item -> item + 1).limit(100).collect(Collectors.toList());
Random rnd = new Random(testId);
Collections.shuffle(testBucketNumList, rnd);
// 依据组流量份额将桶号分配到各组
for (int i = 0; i < groups.size(); i++) {
    // TODO 依照流量占比分配相同数量的桶号
}

三、A/B Test 实施攻略

试验的每个流程与节点都至关重要，拒绝为做试验而做试验，用心用科学来做试验，全体试验实施流程图如下图。

3.1 试验规划

3.1.1 试验规划初衷

关于互联网产品而言，每次上线新版别都尤为慎重，为了衡量与判别「新上线的版别」/「现有版别」哪个版别的战略更优，经过现实的数据结合计算学原理进行科学、合理的进行决议计划。

试验的规划是试验最重要的一环，试验规划的好坏决议了终究试验的成功与否。

3.1.2 试验规划模板

3.1.3 试验规划的结构

全体试验的规划分为四个部分：

试验根本信息

事务线归属，可分为「B2C」、「C2B」、「C2C」，依据详细事务进行挑选即可。（为什么要区分事务线？不同事务线进行方针阻隔，提高试验人员更好更快进行方针挑选，底层数据处理效率与方针也更高效，数据呼应更快。）
试验称号，试验详细的称号。
试验编号，在详细「AB Test 渠道」在创立试验后即可获得，唯一标识了一个试验。
试验方针，在试验规划的初期，上线新版别的意图是什么，希望您能用「中心方针」的提高程度来衡量；如：新版别「优化下单流程」，中心方针「订单转化率」希望提高 0.8%。

试验装备信息

试验类型，现在包括了「编程试验」，「战略试验」。
预期上线时刻，预期的试验上线的时刻。
预期上线天数，依据试验受众集体的样本数量，简略估测上线的时长，单位天。业界的试验时长一般是 2-3 周，最短时长建议不要少于 7 天。由于不同日期活跃的用户集体可能不相同，所以最好要覆盖一个周期，如 7 天、14 天、21 天。那试验时长是不是越长越好呢，也不是的，试验时刻过长会把各版别的差异拉平了，不同时期用户对不同战略的反响不相同，一般不超过 30 天。
试验方针，通常可被计算学查验的方针分为以下三类：人均类方针、次均类方针、转化率类方针。
- 中心方针（人均类方针、次均类方针、转化率类方针）：试验方针直接相关，且决议试验成果的关键方针。
- 相关方针：该试验需求重视的其他方针，用于辅佐试验成果的解读。
- 护栏方针：实际上是相关方针比较特别的一种，通常是能反映用户体会受到损伤的方针，常常拥有“一票否决权”，帮助咱们平衡试验决议计划。
- 注意：
  - 关于少部分比较重要的相关方针/护栏方针来说，他们是有“一票否决权”的，他们也需求符合可被计算学查验的要求（判别这些数值差异到底是出自偶然，仍是有确凿的断定把握）。
  - 关于中心方针，有必要是能够直接关联到试验中的变量，否则无法推测验验全体的差异性（即试验有差异性，可是经过数据无法观测出来）。
用户分流标识，现在分为 token/deviceId 与 uid，用于埋点上报和数据计算的区分。
受众集体，与用户画像进行打通，针对圈定用户人群的部分用户展开精准试验。

试验战略规划

试验分组，默许依照字母次序来， A/B/C/D/E…
版别描绘，各个版别的描绘性文字，描绘清晰各个版别的状况。
流量分配，最多分配 100% 流量，最细粒度为 1%。

试验定论

决议计划分组，终究试验下线的决议计划分组。
计算数据，各个版别之前的中心数据（中心方针_均值，置信区间，计算成效）。
试验定论描绘，全体试验成果描绘。

3.2 试验埋点上报标准

“试验ID”：试验的id标识，用于试验数据计算。

“试验分组”：试验分组成果，用于试验版别展现的标识。

“分流用户类型” ：用于试验分流的标识类型，便于精准计算 UV 类方针数据。

埋点上报格式举例：

{
    "埋点事情名":"ab",
    "埋点内容":{
        "试验页面":"XXXX",
        "试验id":"XXXX",
        "试验分组":"XXXC",
        "分流用户类型":"XXXX"
    }
}

3.3 试验决议计划攻略

3.3.1 试验决议计划流程

当咱们的试验在线上现已运转了一段时刻之后，咱们需求衡量试验全体的作用，全体试验决议计划的流程如下图。

试验陈述：包括了全体试验总用户在每个试验组的流量分配状况以及「中心方针」、「相关方针」的计算学查验成果，依据试验组的中心方针相关于对照组的中心方针变化率状况、置信区间及计算成效来评价试验作用。

「中心方针」的提高/下降决议了全体试验的作用，一般咱们用置信区间和计算成效来全体判别试验的成果。

注意：关于少部分比较重要的相关方针/护栏方针来说，他们是有“一票否决权”的，需求进行全体评价，平衡试验决议计划。

3.3.2 置信区间&计算成效计算

什么是置信区间？

置信区间是一种常用的区间估量方法，所谓置信区间就是分别以计算量的置信上限和置信下限为上下界构成的区间。关于一组给定的样本数据，其平均值为，标准偏差为，则其全体数据的平均值的 100(1 – )% 置信区间为 ( – /2, + / 2) ，其中为非置信水平在正态分布内的覆盖面积， / 2 即为对应的标准分数。

为什么要计算置信区间？

在「A/B测验」的场景下，首要经过某个方针或留存的试验版别均值变化值以及置信区间来判别，在当前方针或用户留存上，试验版别是否比对照版别体现得更好。

置信水平，也称置信水平、置信系数、计算明显性，指试验组与对照组之间存在真正性能差异的概率，试验组和对照组之间衡量方针（即装备的方针）的差异不是由于随机而引起的概率。置信度使咱们能够理解成果什么时分是正确的，关于大多数企业而言，一般来说，置信度高于 95％ 都能够理解为试验成果是正确的。因而，默许状况下，「A/B测验」将置信区间参数值设置为 95％。

置信水平	Z值
99%	2.58
95%	1.96
90%	1.645
80%	1.28

假如置信区间上下限均为正值，则标明试验成果为正向明显。
假如置信区间上下限均为负值，则标明试验成果为负向明显。
假如置信区间一正一负，则标明试验成果差异不明显。

计算逻辑

均值类

举例：试验中心方针是「人均支付金额」，需求计算 2022-06-01~2022-06-10；区间内「试验组」相对「对照组」置信区间规模，数据如下所示：

对照组：参加试验用户 239 个，累积支付金额 121392 元。

试验组：参加试验用户 640 个，累积支付金额 504795 元。

比率类

例如：某个区间内

3.4 试验到期下线

试验到期下线分为两种状况：未到期决议计划下线、到期主动下线。

未到期决议计划下线，中心方针的计算成效现已很明显，能够直接分出试验各组的作用，则能够直接以优胜组进行决议计划下线，全量决议计划组，后期事务代码逻辑进行下线，落地试验成果。
到期主动下线，当试验设定的试验周期已完毕，试验各组的中心方针的计算成效不明显，则主动以对照组下线，全量对照组，后期事务代码逻辑进行下线，落地试验成果。

四、未来规划与展望

试验类型多样化。供给更多、更丰富的试验类型，依据事务场景挑选最合适的试验类型，更科学有效的进行试验。
数据陈述丰富化。现在只有单方针维度的看数图表，留存分析、漏斗分析和归因分析将是后期的功用迭代点。
数据与监控告警实时化。现在的数据是离线数仓 T + 1 清洗打宽，有待提高数据的实时性，能快速发现问题，调整试验计划。

五、总结

本文首要分享了：

A/B Test 是什么？
AB 体系规划与完成
A/B Test 实施攻略
未来规划与展望

从了解 AB、怎么开发 AB 渠道、怎么实施 AB 试验和未来的规划迭代四个方面介绍了 A/B Test 在转转的落地与使用。在互联网产品玲琅满目下，怎么吸引新用户，留住老用户以及试错成本越来越高的场景下，怎么经过 A/B Test 小流量、多计划，快速迭代、决议计划、优化产品变得越来越重要。AB 渠道的建设还有很长的路要走。

未来转转会针对痛点与缺乏进行持续优化，输出更多的技术实践给大家，一起前进成长。

关于作者

王志远，转转数据智能部高档数据研制工程师，首要负责公司大数据相关根底渠道建设，埋点标准规划和实时数据开发。

“保持一颗学习的心，才不会落后被淘汰。”

转转研制中心及业界小伙伴们的技术学习沟通渠道，定期分享一线的实战经验及业界前沿的技术话题。

重视公众号「转转技术」（综合性）、「大转转FE」（专心于FE）、「转转QA」（专心于QA），更多干货实践，欢迎沟通分享~`

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

转转AB平台的设计与实现