数据驱动的
互联网营销和运营

【实战101】手把手教你寻找并排除虚假异常流量!

本文长度为1823字,预估阅读时间5分钟引言:本文结合了作者丰富的互联网数据分析实战经验,深度剖析了如何运用GA来发现,分析并排除虚假和异常流量。

作者 | 孙维

编辑 | CiCi

我们为什么关注流量的变化?因为我们需要数据来指导和评判工作。但如果流量中混入了虚假/异常的成分,就可能导致我们做出错误的决策而蒙受损失。所以今天我要和大家分享一下如何用GA寻找异常流量,并且将其排除。这个过程大致可以分为三步:
       

发现异常流量

对于比较“低级”的异常流量,最容易在两个维度上被发现:

  • 小时分布

正常的流量在全天的分布大致如此:
       

而异常流量往往与之差异明显:
       

这些在凌晨依然活跃的流量非常可疑,此时我们可以调出第二指标的曲线,看看跳出率、会话时长和每次会话浏览页数。
       

常见的虚假流量每次会话只访问一个网页,也就是说跳出率是100%,会话时长是0,浏览页数是1,因此它们会明显影响整体粘性数据。

  • 直接来源流量

多数情况下的异常流量都是没有来源信息的,在GA里的来源/媒介是:(direct) / (none),所以如果我们发现无来源的流量有明显上涨,那就需要注意了。

同样的,我们也要看一下跳出率、会话时长和每次会话浏览页数,如果所有的都明显变差,那我们就更有把握认为这是异常流量。
            

发现可疑流量后,除了看粘性指标以外,也可以使用高级细分进行交叉验证。也就是用发现问题的那个维度进行条件细分,再到另一个维度中去查看数据。例如我们先细分出直接来源流量,再看它的小时分布,就更能断定其中有问题。

  • 其他异常流量

     

除了以上两种最简单的情况之外,有时异常流量并不那么明显。例如我们见过来源是 baidu / organic 的奇怪流量,它们只访问特定的三个页面,并且只在中午12点以后访问。这样的流量是怎么被发现的呢?
       

首先我们在“受众群体-技术-网络-主机名”中看到某个域名的会话数明显上涨,然后到“行为-网站内容-所有页面-内容分组”中,查看到底是哪类页面访问量上升了(注意,内容分组需要额外设置才会有),找到之后再看这类页面之下是哪些具体页面在上涨,最后再用高级细分聚焦这几个页面,于是发现了以上的问题。


                  

经过多方查证之后我们基本认定,这是某个厂商在试图提升自己网站在百度的自然搜索排名。但如果只在搜索结果中点击该厂商自己的网站,太容易被认定为作弊,所以他们就连带着点击搜索结果中的其他网站,包括我们的页面,于是我们就看到了上面那一幕。

总结一下,如果发现流量明显上涨,首先可以看小时和直接来源流量这两个维度有没有异常。其次可以在各个维度中寻找,有没有粘性指标明显变差的个别项目。找到以后,接下来的步骤就是分析异常流量。

分析异常流量

仅仅发现异常流量还不够,我们需要找到它们的特征才能将其精准排除。例如我们发现直接来源流量明显上涨,但并不能把所有直接来源都排除掉,毕竟其中还有很多真实流量。要想精准排除,首先要将异常流量“提纯”——我们先用高级细分聚焦直接来源流量,看看能在哪些维度上发现特征:


       

建立高级细分后,我们到各个报告中浏览一下,果然发现了异常状况:


  
       

明明是移动版的网站,为什么突然增加了这么多Windows操作系统的访问量?而且几乎全是新用户,显然有问题。

              

我们再调出次级维度,看看浏览器UA的信息。结果这下更不得了,Windows居然用上了iPhone浏览器,这流量的异常算是证实了。(这里需要解释一下:这个“浏览器UA”是我们在GA中配置的自定义维度1,然后需要在统计代码中加入:

'dimension1':navigator.userAgent

才可以生效。浏览器UA是寻找虚假流量的利器,建议大家都配置一下)

排除异常流量

当我们找到了异常流量的特征,后续的事情就简单了:建一个高级细分,将Windows系统并且浏览器UA中包含iPhone的会话排除掉,这些异常流量就消失了。

              

以上是“发现-分析-排除”异常流量的一个案例,可以看到其中最重要的步骤其实是第二步——只有在某些维度上能够精准筛选出异常流量,才能在不影响正常流量的情况下将其排除。以下是我最近遇到的另一个异常流量,它的特征是浏览器UA开头结尾都带有双引号(正常情况不该有):

              

在这种情况下,除了用高级细分排除异常之外,还有一个更好的解决方案:在前端统计代码中直接加入判断,如果发现以双引号开头和结尾的浏览器UA数据,就不执行统计代码,于是这些异常流量就被从根源上排除了,根本不会进入数据系统之中。

另外对于GA的用户,在用于做分析的主视图中一定要把下面这个选项选中,能排除掉大部分爬虫流量:


       

最后还有一种常见情况,例如运营论坛的同事做了一个“签到抽大奖”的活动,就可能导致大量低粘度的用户突然访问,看起来似乎也是异常,所以作为分析师要经常和产品/运营部门沟通,避免做无用功。

最后我想说的是,发现和排除异常流量是一场持久战,没有永远的赢家和输家,我们能做的就是和同事一起不断发现和总结,提升识别和排除异常流量的能力。

关于作者

孙维,卡车之家数据资产中心总监,互联网从业15年,数据分析从业6年老兵。Google Analytics资深使用者,「数据分析日常」公众号博主

ICDO翻译志愿者招募

【号外】iCDO志愿者少量职能开放招募机会!

关于iCDOinternet Chief Data Officer (iCDO),中文全称互联网数据官,中国专业化的学习型媒体平台,专注数据驱动的互联网营销和运营。

订阅号-每日尝鲜服务号- 每月精选

未经允许不得转载:DigiMaxDigiMax » 【实战101】手把手教你寻找并排除虚假异常流量!
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址