不是没有工具,只不过这些工具不过是数据统计工具罢了,它们并不真正理解社交和内容背后的人的意思表示,可用于“计数”,但离真正的“分析”远矣。
唯有读懂“人语”方有真正的社交和内容分析,这在过去不过是“设想”与“概念”,今天则到了真正可能有突破性进化之时。
一、理解自然语言
我以为这个情况很快就会改变,但令人失望的,这个不完美的方法,却在很多年以后依然不得不被使用。
不过这个情况悄然发生了改变。
近几年自然语言处理(NLP)的一些发展已经能相当程度上提升机器理解语言的效率,从而基本上能从“源头”解决内容和社交分析的最根本性问题。
一方面,得益于构建知识图谱,机器理解语境的状况比过去要更好。例如,“我喂给我的狗们一些馒头,但它们不爱吃。”以及“我喂给我的狗们一些馒头,因为它们快过期了。”机器应该如何理解这两个“它们”分别指的是谁呢?
如果没有知识图谱,机器完全无法分辨两种语境下“它们”究竟是馒头还是狗,现在则可以在知识图谱的帮助下进行分辨(狗才能吃,物品才会过期)。
除了知识图谱,另一个新的方法——预训练的语言模型也大大提升了NLP的效果。预训练的语言模型于2015年被提出,但直到近年才被证明在大量不同类型的任务中能起到非常有效的作用。语言模型嵌入可以作为目标模型中的特征,或者根据具体任务进行调整,从而能让机器在数据量十分有限的情况下有效学习。
能够正确解读自然语言,是social和内容数据监测与分析的一个重大突破,这意味着严肃的社交与内容分析成为现实。
二、构建知识图谱
第二个问题则必须知识图谱来解决。比如,有两个不同的消费者抱怨在宝宝食用了这个奶粉之后,有不适的表现,一个“眼睛分泌物增加”,另一个“便便干结”。这两个表现都被消费者认为是“上火”的症状,但在分析的时候,如果没有知识图谱,机器就不会把二者归类在同一个类别之下。内容与知识的关联是知识图谱最大的价值,其本质,是让机器能够像人一样“联想”。
某种程度上,自然语言处理只是让机器“认字”,而知识图谱才能帮助机器实现理解。真正的社交和内容分析,必须有知识图谱作为基础。
知识图谱的概念提出已经有很多年,目前知识图谱的三个核心信息抽取——属性抽取、实体抽取、关系抽取——算法都已经比较成熟,而且各行业已经积累了相当的语言语义的分类和结构化数据,进一步加强了知识图谱构建的效率和准确性。另外,知识图谱内的信息不是一成不变的,而需要随时间推移更新。知识图谱内的知识更新过去一直比较麻烦,现在技术上也有一定的突破,尤其是在目前知识融合和验证上,以及人工构建规则的经验积累也比过去要更好。可以认为,今天在汉语领域构建知识图谱的能力已经有相当的提高。
“互联网分析在中国”与AdMaster的高级研发总监Stanford关于这一领域有所沟通,Stanford向我们展示了AdMaster在该领域的大量投入与进步:AdMaster在多个场景的应用方面构建了知识图谱。自2015年起,AdMaster在整个行业最早着手推进了社交数据的标签化、规则化、AI化,以实现社交及洞察分析的实时化、自动化及智能化;同时专门组建了知识工程、深度学习、信息检索实验室。在数据清洗、知识抽取、知识融合均投入了大量的工作,所以应用能力也相当成熟,而在分行业构建知识库上,通过Scopa系统的全系档案和超级研判模块,也能够实现对行业知识库“与时俱进”的升级,即知识库的研究、推理及快速更新迭代。
三、不仅能“听”还要能“看”
目前常用的方法,是利用图像识别,将图片或者视频中的各类元素识别出来,转化为带有权重的标签,并基于知识图谱识别其更准确的含义或者关联。
3年前,这一工作还很困难,识别准确性、速度都不够理想,今天则有突飞猛进的发展,并早已应用在社交和内容分析中。
四、智能之外的技术也在迅速革新
AdMaster的Stanford告诉“互联网分析在中国”,即使是利用爬虫,也能实现小时级。并且数据已经是机器精细处理之后的。
速度的突破至关重要,过去几年我的亲身体验,在处理IWOM(互联网舆情)数据时,基本上都是以“天”甚至“数天”为限才能输出机器初步处理的数据。现在则可以立等可见,是一个非常大的进步。
而且专门立项开发还很重,并且调整优化的灵活度还很差。但是社交和内容却是千变万化,常变常新的。
专门开发其实也不太容易保证质量,非标准化的解决方案,无从比较质量。
不仅如此,过去大部分的社交与内容的监测分析服务,都像模糊科学,你说它是科学吧,它给出的结论其实很相当定型化甚至比较模糊;你说它毫无价值吧,它又确实能够给出一点数据和见解。
但这一领域从来没有一个真正严谨且普适的数据产品,完全不像用户行为分析、DMP或是企业BI那么快速的发展并形成行业公认的标准。
这与社交和内容本身在这几年极为迅速的爆发形成鲜明的错位。
这样的情况肯定不会持续太久。
但社交与内容的监测与分析要走向成熟,必须从“模糊”的定制化,走向既要严谨的以BI的形态呈现,又可灵活定制的解决方案。
BI并非新鲜事物,但它强调的数据的既严谨又具可读性的展示、数据报告的可拓展和可下钻能力、可自配置的定制化分析能力、专用分析工具以及与业务场景相契合的模板都是传统社交与内容监测分析服务所缺乏的。
而可定制性,则决定了社交和内容分析工具的灵活性——即产品与功能可以高度定制,同时代码完全无需定制,部署速度和针对性可兼得。
如同手工的作坊必然被规范严格的大机器生产所替代,Social BI(社会化BI)或是Content BI(内容BI)也肯定会淘汰传统的舆情分析模式。
当然,企业客户对于系统定制化的需求依然是现实存在的,如何平衡好定制化需求和系统开发成本是解决问题的关键。例如,AdMaster解决这个问题的思路是将企业的定制化需求分为三个层级:表现层、逻辑层、数据层,在每个层次上既有标准化的通用方案可选,又有灵活的定制能力支持企业的不同需求。
五、突破与正被突破的应用
这个故事的背后,需要知识图谱的帮忙,除了直接捕获“动力强大”这样的语言,消费者所讨论的“涡轮增压”、“推背感”、“轻松超车”等,其实都被归为“动力”话题之下。过去,这一工作需要人工阅读和分类来完成,今天的social BI已经能够很好的直接读懂消费者语言背后的含义。
这个案例并非孤立,企业所认为的品牌消费者感知,与消费者真正的感受常常存在非常显著的差异,这使企业对消费者真正在意的重点常常出现错误的理解或忽略。
例如,AdMaster的Social BI提供的一个例子,消费者对于汽车“智能化”的理解与企业自己的理解就有显著不同。企业方以为消费者对“智能化”的理解集中于“自动驾驶”,但对消费者真正的内容与社交分析之后,我们可以看到,“辅助驾驶”而非“自动驾驶”,才是消费者心目中对“智能化”所真正在意的。
找到“微观KOL”无法靠人工,必须依赖于利用人工智能的社交关系图谱,以及内容分析,找到那些真正的“话题终结者”与意见领袖。
这一功能,今天已经能够产品化的提供给企业寻找影响力中心人群所用了。例如,下图所示的由AdMaster抓取的基于微博中用户的连接情况,实际上包含了两个数据关系:第一,所有的用户都是对“香水”这一主题感兴趣的用户;第二,用户间相互关联关系提供了谁在这个主题内更具有影响力。图中图标较大的,即是这个“香水”社群中更核心的KOL。