亚马逊最有价值的新功能——Amazon A/B Test主图拆分测试（8000字深度长文）

这是劳伦斯杨杨的第3篇原创

先说结论：主图的好坏直接会影响我们产品的关键词排名在解释原因之前我先引入一个概念：坑产
这是一个国内电商中的概念，意思是指某个坑位的产出，坑位就是咱们卖家常说的关键词排位，例如你在Bluetooth Earbuds这个词下面自然排名排第一，假设在这个位置每天能带来1W美金的销售额，此时你在这个“坑位每天的产出”就是1W美金。

坑产越高说明你对流量变现的效率越高，在总流量不变的条件下，平台就能通过你赚取更多的佣金，此时你的自然排位就越不容易被别人超过，除非其他竞品的坑产比你更高。如下图：

坑产该如何计算呢？

坑产GMV=订单数*客单价
已知顾客常见的购物路径是：曝光——点击——加购——下单购物的每个环节之间都会有流量损失，所以环节之间的衔接部分就会很重要这些衔接部分（流量转化到下个阶段）考核指标分别是点击率、加购率和加购转化率，换成公式表达就是：订单=曝光*点击率*加购率*加购转化率

针对客户不加购直接购买的情况下，加购率*架构转化率可以直接替换成转化率，再结合坑产GMV的公式，最终就变成了：

我们可以先粗略的认为在关键词搜索结果页面，谁的坑产GMV越大，它在这个关键词下的自然排名就越靠前，由此我们可以得出以下结论：

影响曝光的是关键词排名，如果其他因素指标没问题的话，好的产品会进入“关键词排名提高——曝光增大——坑产GMV增加——关键词排名进一步提高”的良性循环，直到你前面挡着一个比你各方面指标更优的产品；

我们常说的转化率越高，自然排名越高，这个逻辑是没问题的，但转化率只是关键词排名众多影响因素的其中一个因素；

点击率很重要，它会直接影响有多少流量进入你的详情页面，否则转化率再高，产品也会陷入到无米下锅的尴尬境地；

客单价的影响也不容小觑，某些类目下高低客单产品共存时，高客单在推排名方面会有些优势，有时卖一个产品等于低客单卖10个，虽说高客单价的转化也会低一些，只要不是标品类目，转化率总不至于比别人低10倍吧。同样的，如果两个产品每日出单相同，其中高客单的产品由于能带来更多的GMV，其在BSR排名和关键词排名下都会更靠前一些。

Tips：假设两个产品的坑产GMV完全相同，但是客单价一个高一个低，亚马逊会让谁的排名在前面呢？

转化率高的产品排名更靠前，因为转化率高说明满足了更多人的需求，照顾到了更多人的购物体验，这样更符合亚马逊以客户为中心的价值观。由于此时坑产GMV相同，高客单价产品一定是转化低的，所以高转化的低客单产品排名会更靠前。例如下图：

C产品和B产品坑产相同，但由于C产品产生了更多的单量，满足了更多客户的需求，所以排名会更靠前
总结：关键词排名的本质≈流量（曝光），排名越高，位置越显眼，流量自然就多，通过坑产GMV的高低去分配关键词排位，本质上就是在卖流量，这和CPC广告其实是一样的性质，区别只不过CPC收的是广告费，关键词排名收的是佣金，既然亚马逊是收钱办事，自然就是谁给的钱多，好处就给谁啦。

关于坑产相关内容就说到这，回到一开始的结论：主图的好坏直接会影响我们产品的关键词排名。因为它会直接影响产品的点击率（CTR），我们再回顾下以前文章中提到的，CTR的影响因素有哪些：

主图
标题
价格
Review
FBA
折扣力度
Deals标志
配送时间
BS或AC标

除了主图和标题外其他因素基本上任何一个卖家都会很关注，但是主图和标题由于以往没有一个很好的的衡量机制，导致很多卖家在这两个地方会陷入自嗨，又或者干脆直接就是模仿那些卖得最好的竞品。在亚马逊没有推出A/B Test功能以前，卖家通常是根据CPC广告的点击率来大致衡量主图质量是否过关。
那问题来了，通过广告CTR来衡量主图质量是否合理呢？

02—广告CTR低是否代表主图质量不行？

太多人问过我，用广告CTR衡量主图质量这个方式是否可行？我的答案是：既可行，又不可行。
可行是因为在没有科学准确的衡量方式前，通过广告CTR来粗略评估主图质量是一个简单快速的方式，虽然这个结果有时会存在误差；

不可行的原因恰恰就是因为这种测试方式还不够科学准确，A/B Test的核心逻辑就是控制变量法（不懂的去百度），我们在设计A/B Test计划时候，都是遵循这个原则，但是由于种种客观原因受限，实验过程中多少会存在干扰因素，导致实验结果的准确性降低。

我们先来看看以往的广告测主图是如何进行的。从我入行到现在大致经历过这么几种方案：
广告测主图方案1——SB广告测主图老版的SB广告（之前还叫作Headline头条广告）是可以选择在Logo图片的位置放自定义图片，包括产品图和场景图。

实验步骤为：

选择两张要进行对比测试的产品主图分别放在两个新开SB广告中，
选择一个流量比较大的关键词
用精准匹配
保持竞价相同
投放相同的一段时间
保证两组广告的曝光都大于4000

对比两组广告的CTR，谁的更大就选该组的图片作产品主图。
底层逻辑：控制单一变量，除图片外，其他因素尽可能保持一致。
注意要素：

两组广告必须都是新开的，防止因为其中一组广告存在历史积累权重影响实验结果；
选择大流量词是为了尽快积累足够多数据，防止测试花费太长时间；
选精准匹配是为了确保流量来源一致的，因为不同的关键词往往代表的是不同需求，对产品图片的好恶也会存在差异；
竞价相同倒不是因为担心广告展示的位置不同，（记得那时头条广告还只展示在搜索结果头部位置）单纯是为了确保两组广告初始条件一致；
投放时间段一致是为了确保排除掉极端情况的出现（例如旺季和淡季广告的效果也会有差异性）
曝光大于4000是我人为设置的一个节点，防止数据样本过少，导致结果出现偶然性，虽然数据越多结果肯定越准确，但还要考虑测试的成本，综合下来，我认为4000的曝光量已足以完成实验；

实验缺陷：1. 时间：虽然我们已尽可能的确保除了要测试的变量（主图）外其他因素尽可能保持不变，但有个因素我们却无法控制，那就是时间，由于客户的购物习惯等因素，一周内每天的广告的表现多少存在都会存在差异，一天之中的时间更是如此，大半夜展示的广告和大白天展示的广告表现也会不同，而我们无法保证两组广告总是会同时展示，这就会出现拿不同时间段的数据进行对比而导致的结果偏差；

2. 数据量：

即使我们设置了相同的竞价，相同的预算，但有时就是会出现一个广告组数据贼多，另一个却一直跑不出什么数据的情况，到了实验规定的截至日期之后（由于实验会产生时间和金钱成本，所以要人为规定截止日期，尽可能速战速决），两个组积累的数据量差异可能会非常大，理论上来说，数据样本积累的越多，得出的结果越接近真实情况，反之数据越少结果的偶然性就越大，但拿两种不同量级的数据进行对比是非常不合理的；对此补救的办法是，曝光先达到4000的广告组暂停，没到4000的组继续开着直到两组广告曝光量差不多，然后进行比较，但这又会引起另一个变量：时间的变化，唉，真是按下葫芦起了瓢；

3. 位置：

SB广告后面又新增了搜索结果底部以及产品详情页的展示位，这些位置由于可见性不同导致点击率也会有差异，而且SB广告的数据呈现还没有像现在的SP广告这样将不同位置的数据分开，这就导致得到的数据是由不同位置汇聚而来的一锅大杂烩，你拿Top位置广告的点击率和Bottom位置的广告去比较，自然也是不合理的；

实验总结：

时间和数据量的因素我们还可以通过拉长实验时间，增加实验数据量的方式来尽可能避免极端情况，但是展示位置不同是一个硬伤，SB广告测主图的方式也因此被我淘汰。

广告测主图方案2——SP广告Top位测主图

方案2存在的问题和方案一差不多，只不过由于数据展示位置比较清晰，少了展示位置这一干扰因素，实验步骤为：

选择一个流量比较大的关键词
用精准匹配
设置较低竞价，确保三个位置都不会有展示
大幅提高Top位置溢价比例，确保广告只展示在Top位置
先用第一张图投放，积累充足的数据后换第二张图
保证换图前后的广告的曝光都大于4000后，对比数据

存在缺陷：这个方案避免了广告位置不同带来的点击率差异，但是由于是对比同一个Listing换图前后的数据，同样存在投放时间不一致的问题。
实验总结：虽说选择一个相对平和的时间段测试（避开大促等重要营销节点），结果的差异可能没那么大，但总归有些不圆满，但结合时间成本来看，是一个勉强可以接受的方案。那有没有更好的方案呢？
广告测主图方案3——SP广告Top位测主图Plus为了解决方案2中投放时间不一致的缺陷，我们将实验对象从一个Listing拆分为两个Listing，同时进行测试。

实验步骤：

先确保FBA到货，然后创建2个新的FBM链接
新创的链接，主图分别用需要测试的图片，标题、价格等因素要保持一致
新链接详情页的5点、产品描述等要做出区别，防止系统认为是重复链接而被Merge
分别创建广告，具体方法同方案2
对比两组广告数据，测试过程中如果FBM链接有出单，用FBA库存给客户发货
测试结束后关闭测试链接

实验缺陷：感觉没啥缺陷实验总结：

新创的链接由于是不同ASIN，属于竞争关系，不会出现一个广告展示而另一个广告不展示的情况，避开了广告算法问题
解决了由于广告投放时间不同带来的误差
解决了由于广告展示位置不同带来的误差

综上，这是一个各方面都比较完善的方案。
Tips: 针对个性化非标品测试的注意事项有卖家朋友可能会说，你这只拿大词测试，但是大词针对的需求很宽泛，不同需求的人群都可能会搜大词，但是他们对主图的喜好是存在差异的，所以测试结果肯定存在差异；

针对这种情况，我们可以打个补丁：先明确产品的定位再选择合适的词，比如我们的产品是一个针对女性的手机壳，款式比较花哨一些，那我们就可以选择IPhone 12 Case for women这种词，这样，测试结果就比直接用iphone 12 Case这个词更准确了一些。

除了以上三个方案外，还有一些其他的途径，例如通过站内Post（帖子）测主图、通过Facebook广告测主图等方式，具体方案都是遵循“控制单一变量”这一原则，就不展开细说了，就简单的提一下我对这两种方式的顾虑：

Post测主图：可能存在展示位置不同带来的误差，而且Post的互动（Engagement）和广告点击（Clicks）还不是一回事，是否可以进行横向对比，这个还不好说；Facebook广告测主图：客户在社媒平台和电商平台的行为偏好是否存在差异性，实在很难讲，毕竟目的不同，一个是娱乐，一个地方是购物，所以行为也有可能会出现偏差。以上就是常见广告测试主图的方案，当然，直到亚马逊更新了主图拆分测试（A/B Test）这一功能。

03—主图拆分测试（A/B Test）功能解读

亚马逊的“管理实验”只针对品牌注册卖家，其中包含“主图测试”、“标题测试”、“A+测试”三个功能可选。鉴于今天的主题，所以只会涉及主图测试。为什么主图测试很重要，这个在第一部分已经讲过了，亚马逊现在提供这样的工具也从侧面证明了主图真的很重要。

“试验期间，查看您的 ASIN 商品描述的买家会被随机分为两组。在整个试验中，一组访问者可以看到商品描述的版本 A，另一组可以看到版本 B。

这意味着试验【不会】随时间轮换显示商品描述。相反，这两个版本的商品描述始终会在试验期间显示，但会显示给不同的买家群。试验组的买家可以在任何可用的位置看到您的商品描述。例如，试验商品名称将显示在搜索结果中、ASIN 的商品详情页面以及购物车/结算中。（请注意：试验【不会】影响搜索排名。）”

解决了之前用广告测主图，通过对比换主图前后的数据产生的投放时间不一致的问题；

亚马逊对Listing关键词的抓取，对ASIN的收录等等，都是按照原始版本来的，我们的实验组不会对亚马逊的SEO产生任何影响，所以你就放心大胆的测吧。

ASIN 资格：如果 ASIN 属于您的品牌，且最近几周内获得了足够多的浏览量，方符合试验要求。我们只允许您对高浏览量 ASIN 进行试验，以增加您在试验结束时胜出的可能性。根据分类，高浏览量 ASIN 每周可能收到几十个或更多的订单。产品不能是刚上架还没有任何销售数据的新品，按照说明，至少要销售了几周，且每周至少得有个几十个订单才行；但“几周”到底是多少周？“几十单”到底是多少单？这个用词就很灵性，我看了一些论坛里的卖家留言，三四十单都没有出测试推荐，所以咱们尽可能往大了估，时间按一个月算，单量按照每周100单算（算下来每天不到15单），一般新品上架一个月后，只要价格不是特别贵，评分不是特别差，应该还是比较容易做到的。

确保您用于试验的商品描述不同于当前的商品描述：如果商品描述太相似，则不太可能影响买家的行为，难以确定哪个版本更优。A/B两组的改动之处需要有明显不同，特别适合想对Listing进行大改的卖家。
让您的试验持续进行：即使前期结果喜人，但也可能具有误导性。如果您根据这些前期结果提前结束实验，则很有可能高估试验影响，甚至选择错误版本。

我在多篇文章中都提到过：“数据分析一个很重要的前提，就是得有足够多的数据，以避免数据量过少而带来的偶然性”，就是这个道理。在试验结束前，请勿太频繁地查看结果：试验结束前未确定的结果可能具有误导性。

这就跟广告一样，我历来主张除非有充足的理由外，广告尽量避免频繁的调整，有时刚调整完才过了一天，数据还没跑出什么结果来，看到飙升的ACoS后很多卖家就已经沉不住气了，这种情况很容易出现负向优化。

某个版本的商品描述可能更好。例如，如果结果显示版本 A 更好的可能性为 75%，则意味着在我们计算出的可能影响中，发布版本 A 有 75% 的几率会提高销量/销售额。试验期间效果较差的商品描述实际上仍有可能随着时间的推移变得效果更好一些。预测值是仅基于试验结果的估算值，不考虑其他因素，此值仅供参考，不能保证未来的销售绩效。

数据越大，实验结果就越接近真实情况，但是这个结果不代表100%就是真实情况，总会有一些乱七八糟情况出现，所以亚马逊只能给出一个预估值。这个Listing现在表现不好不代表未来一定差，举个例子，我们有个工具类产品，详情页整体上是按照圣诞礼物的风格设计，平日表现一般，但是到了圣诞节的时候转化高得惊人，就是这个意思。所以做测试尽量避开大型活动和节假日等因素。

试验结束后可能得到了无定性结果，或者结果显示某个版本的商品描述比另一个版本的商品描述的置信度高出很小的值。不过，这些结果仍然很有价值。以下是导致试验得出无定性结果的一些原因：

您对商品描述所做的更改幅度太小，无法显著改变买家行为
浏览量不够高，不足以确定置信水平较高的获胜商品描述
您测试的两个版本的商品描述在推动销量方面拥有相似的效果
大多数买家在做出购买决定时并不关心您对商品描述做的更改

有时候实验无法得出哪个版本更好，但这个“无结果”本身都是很就是一个很有价值的结果，因为它可能说明了以下问题：

两个版本差异还没有明显到影响客户行为的问题，所以用哪个版本都行；
数据量太小，不足以得出准确的结论，所以广告烧起来吧；
两个版本的改动之处都在宣传相同的卖点，只不过是换着花样说，有可能都（不）能打动客户；
改动的这个点其实是客户不关心的卖点，就是我们常说的自嗨点，白白浪费一个卖点的展示位，换个其他卖点再来试试。

试验基于个人买家账户。在试验期间，每个看到您的商品描述的买家账户都被视为试验的一部分。买家会随机分配到某个版本的商品描述，只要在试验期间识别到该买家，系统就会为其显示同一项商品描述，不受设备类型或其他因素的影响。样本量不包括无法识别买家的页面的访问量。我们可能会从样本中自动删除某些类型的数据（如统计异常值），以提高结果的准确性。

我们使用贝叶斯分析方法来分析试验结果。这意味着我们会根据模型和实际试验结果构建一个概率分布模式。我们会报告后验概率分布的平均效应值（就商品数量变化而言）以及 95% 置信区间（也称为“可信区间”），并在试验期间根据从开始以来收集的所有试验数据每周更新。获胜处理的置信度是指几率分布中会对商品销售产生积极影响的结果所占的百分比。

简而言之，亚马逊采用的是科学的办法进行试验的，所以不用担心结果准不准确的问题。
以上就是我对官方说明的解读，一家之言可能存在误差，欢迎留言讨论。关于实验具体怎么设置我就不说啦，流程比较简单，按照说明一步步走，基本上是傻瓜式操作，接下来讲讲该如何在实际运营中应用这个功能吧。

04—主图测试实操方案

由于后台的主图A/B Test有一些限制条件（充足的销售时间，浏览量和历史订单量等）所以针对新品而言不能直接上，那在做测试前我们还得卖不是？所以我建议对于新品的主图，结合多种办法，分阶段进行测试。

第一阶段根据头部卖家的图片风格，再结合自己产品的特点，设计出几版主图，然后用实验方案3（FBM链接测主图）得出一个初步的结果，选择CTR指标更优的产品，先作为新品的主图。

首版图片风格尽量贴近头部产品，而不是自己异想天开拿出一些自嗨的图片，有时我看着一些打在Top广告位的产品首图真是一言难尽，其实真的不要求图片做的多么惊为天人，只要求你保持下限就好，但是很多卖家连下限的水平都达不到，这个问题其实很简单，先承认自己不是最牛逼的人，没有最牛逼的审美，然后向头部卖家“致敬”就好，有那么难吗？

第二阶段推了一段时间（预计是3-4周），出了测试推荐后，此时再把你在第一阶段中数据差异不太大的图片，又或者是你认为很棒的图片创意拿来做A/B测试，再根据最后的结果决定要不要更换主图。
测试时间可以设定为4-10周，但我个人会选择10周的测试时间，因为这是一个长久受益的事情，所以我会牺牲掉时间成本，去追求更准确的数据结果。什么样的数据才是最准确的呢，自然是时间越长，数据量更大的结果会更准确一些。

第三阶段第二阶段结束后，主图基本上就已经确定了，但是市场是瞬息万变的，总会有更强的竞品和更好的主图创意出现，当我们发现一些新品卖的很好，而且它的主图确实看起来不错的时候，我们就可以再仿照它的主图样式再做一版新的主图重复第二阶段的样式，确保我们的主图点击率始终是更有竞争力的。
上面就是我分享的实操方法，大家可以结合实际情况，选择取用。

之前亚马逊公布了截至6月30日的2021年第二季度财报。报告显示，亚马逊第二季度净销售额为1131亿美元，较上年同期的889亿美元增长27%，不计入汇率变动的影响为同比增长24%；净利润77.78亿美元，同比增长48%，但这两项数据均低于此前分析师预期的1152亿美元和78亿美元。随后亚马逊股价受到重创，其股价大跌了近7%。

亚马逊的销售增长低于预期导致股价暴跌7个点，当然这里面除了平台业务外，还有AWS等业务，但归根结底一句话，亚马逊会想尽办法让自己的业务不断增长以维持股价；单纯从平台业务角度来看，增长是一个永不过时的主题，再结合亚马逊新推出的各种功能（A/B Test，站外引流返佣等），不知道各位发现什么端倪没有？

没错，亚马逊的平台业务想要继续获得增长，那就得从两个角度入手，一个是给平台引入更多的流量，这也就是为什么亚马逊会推出Amazon Attribution返佣计划，让卖家一起帮着往平台引流；另一个角度就是提高站内已有流量的利用效率，所以推出了A/B Test这个功能，帮助卖家提高产品的CTR和CVR，以让客户更快的找到自己想要的产品，防止客户流失。所有的一切都串起来了。

既然你都看到这里了，那就分享个彩蛋吧：今年Q4亚马逊有可能全面更新A10新算法，在新算法中，产品的CTR、CVR，站内关联流量出单，站外引流出单等因素对关键词排名的权重将会更大。

总结：

1. 通过观察亚马逊后台A/B测试功能的更新，我们可以预见到以后亚马逊将会越来越重视产品的CTR和CVR，以提高整个平台的流量利用效率；

2. 对我们卖家来说，利用好站内的拆分测试工具，选择点击率更高的图片素材，能有效地提高坑产，最终帮我们的产品取得更高的关键词排名。
以上，祝大家变得更强。
知乎：劳伦斯杨杨知无不言：劳伦斯杨杨

出海指南

扫一扫打开手机网站

微信扫一扫关注我们

亚马逊最有价值的新功能——Amazon A/B Test主图拆分测试（8000字深度长文）

目录

坑产该如何计算呢？

02—广告CTR低是否代表主图质量不行？

03—主图拆分测试（A/B Test）功能解读

04—主图测试实操方案

作者: 劳伦斯杨杨

发表回复取消回复

目录

坑产该如何计算呢？

02—广告CTR低是否代表主图质量不行？

03—主图拆分测试（A/B Test）功能解读

04—主图测试实操方案

作者: 劳伦斯杨杨

4个问题让你彻底解决对感谢卡/礼品券的担忧

随笔：踮起脚享受美好，然后努力让自己配得上！

为您推荐

发表回复 取消回复

发表回复取消回复