运用AI演算法「数据图」,下一个关键数位优势

 

当你在网购平台浏览商品,在Google搜寻任何疑惑事项的解答,打开Netflix或Spotify想看支影片或听点音乐来消磨时间时,是否想过:为何这些演算法可以这么精准地知道我的喜好?甚至在我想到之前,就提供最合我心的推荐?因为这些演算法的背后,都有一个最新的「数位优势」⋯⋯

20220530-1_1200X675

插画/亚腾.马攸许金(Artem Matyushkin)

在亚马逊(Amazon)每分钟销售的4,000种产品中,大约有50%是透过其个人化的推荐引擎展示给顾客。当你造访亚马逊网站时,网站的演算法会预测在那个当下你想要什么,然后根据这项预测,从大约3.53亿件商品中挑选出一些产品的组合,为你安排那些产品推荐。推动产生这些结果的,是亚马逊不断演变发展的「购买图」(purchase graph)演算系统,也就是以数位方式呈现出现实世界中存在的「实体事物」(entity),其中储存了有关这些实体的资讯(例如顾客、产品、购买情形、活动和地点等),以及它们之间的关系与相互影响的关系。亚马逊的购买图,会把消费者的购买历程,和网站上的浏览数据、Prime Video上的观赏数据、Amazon Music上的聆听数据,和Alexa支援装置的使用数据,全都连结起来。该公司的演算法使用「协同过滤」(collaborative filtering)技术,也就是整合多个因素,例如多样性(推荐项目有多么不同)、偶然性(有多么出乎意料之外),和新奇度(有多么新颖)等因素,以产生出全世界最复杂精细的某些建议。亚马逊拥有丰富的数据和领先业界的个人化技术,因而能在目前占有美国电子商务市场的40%;最接近的竞争对手沃尔玛(Walmart),市场占有率只有7%。

Google为了与亚马逊竞争,于2021年4月公布自家的「购物图」(Shopping Graph),这个由人工智慧(AI)强化的模型,可以在用户搜寻时提供产品推荐。每天有超过10亿人在Google上研究各项产品,购物图将他们连结到整个网路上超过240亿项商品,分别由数百万个商家提供。「购物图」建立在Google无与伦比的「知识图谱」(Knowledge Graph)功能上;知识图谱掌握了在其庞大网路中的各种实体,以及各个实体之间的关系,包括来自多个来源的结构性和非结构性数据,这些来源包括Android系统、语音和图像搜寻、Chrome浏览器扩充程式、Google Assistant、Gmail、照片、地图、YouTube、Google Cloud和Google Pay等。Google的购物图系统,让170万个商家得以使用简单但彼此关联的工具,在整个Google上展示相关商品,有了这套系统,Google已经准备好迎接亚马逊的挑战。

像亚马逊和Google的这种「数据图」(datagraph),仰赖产品的使用数据(也就是顾客在使用平台或产品时的行为数据),来掌握公司与其顾客之间的连结、关系和相互关系。数据图概念的灵感,来自「社会网络」(social network)和「图论」(graph theory;编按:数学的分支,使用由点与线构成的图形,来呈现事物之间的关系,以供研究);其中「社交图」(social graph)的定义,是呈现出个体之间的相互连结,其中的节点代表个人,而这些个人之间的关系(也就是与朋友、同事、主管等个人之间的关系),则以连结线来呈现。这个概念源自社会心理学家史坦利.米尔格伦(Stanley Milgram)的研究,过去二十年来,这个概念提供一个有用的观点,可用来分析组织、产业、市场和社会的结构和内部互动情况。脸书(Facebook)在2007年推出脸书平台时,普及了数位社交图的应用,这项工具让开发人员得以设计一些应用程式,以整合进入脸书网站的资讯流和各种关系之间的连结。

领先的科技公司正在使用数据图,以提供个人化的顾客推荐、更新产品、优化广告等等。最成功的例子,包括亚马逊的购买图、Google的搜寻图、脸书的社交图、Netflix的电影图、Spotify的音乐图、Airbnb的旅行图、优步(Uber)的移动图,以及LinkedIn的专业图,这些都充分利用了持续收集到的顾客互动数据,搭配专属的演算法,因而得以在创造产品和用户体验等各方面,都超越竞争对手。

本文讨论企业如何向数据图领导公司的最佳实务取经,以获得新的竞争优势。

20220530-2

数据网路效应

要了解数据图,我们首先需要了解「数据网路效应」(data network effect);用户在使用产品或服务时产生的数据,会对其他用户更有价值,在这种情况下就会发生数据网路效应。这种效应与直接网路效应不同,后者是指服务的价值会随着更多用户加入而成长,例如脸书或LinkedIn的情况;数据网路效应并不需要透过增加用户数量,来提高这个网路的价值。相反地,既有用户持续参与,会产生更广泛和更深入的产品使用数据,这让演算法能够产生持续改善的结果。例如,Google每年2兆次搜寻当中的每一次,都有助于公司扩充其知识图谱,改善其搜寻引擎,进而为用户产出愈来愈好的搜寻结果。相较之下,如果用户不再使用这个平台,平台就会变得陈旧,而且效用降低。

数据图不是静态的,并非反映某个时刻当下的情况资讯。数据图是动态的,反映出数据科学家所谓的「动态数据」(data in motion)。这也是不可能以人工方式绘制数据图的部分原因。在任何特定时刻,全球消费者与某家公司产品互动的数百万个单位的数据,都需要由科技来即时收集和诠释。

数据图的三大成功要素

数据图领导人会蒐集顾客行为数据,快速整合他们从中学到的事物,以改善本身产品和服务的每个层面。他们不断改进自己分类和标记产品数据的方法,并发掘各实体之间的关系,好让演算法能将商品更好地分类,以便提供个人化的推荐。他们持续更新自身的演算法,以便根据最新和最相关的数据来提供个人化的推荐,这有助于改善和延长顾客的互动交流。接下来,我们来检视成功运用数据图的公司有哪些关键行为。

1、他们大规模学习,且行动迅速。

数据图掌握了个人如何生活、工作、娱乐、学习、聆听、社交、观看、交易、旅游、消费,以及进行其他与商业相关的任何活动。进行数位化,让公司有可能大规模、广泛而迅速地观察所有这些领域里的顾客数据,并进行编码。例如,脸书的社交图会时时刻刻分析28亿人及其社交活动的数据:他们在做什么?他们加了哪些人当好友?哪些人不再是好友?他们要去哪里旅游?他们谈论哪些品牌?他们正在看什么电影?他们正在听什么音乐等等。

数据图掌握了人们如何工作、娱乐、学习、社交、交易、旅游,以及进行其他与商业相关的任何活动。

LinkedIn的专业图,即时掌握了在五千多万家公司工作、曾就读于九万多所学校的7.74亿专业人士,对职缺资讯的回应,以及他们如何更新现况和实况短片。此外,LinkedIn的专业图也能把成员连结到其他的实体,例如他们拥有的技能,以便为用户提供针对他们的广告、学习建议、新闻提要等等。LinkedIn目前是微软(Microsoft)的子公司,也是微软数据生态系统的一部分,这让它得以创造更生动鲜活的数据图。

在传统公司里,顾客数据是储存在不同部门的资料库中,成为各自独立的纪录。若要获得数位优势,公司必须将数据整理成为互动图,可以由演算法来分析,以提供见解,并为每位顾客提供个人化的价值。

2、他们使用数据图来丰富产品线。

数据图领导人,会使用一套涵盖各种类别的概念,例如购物、旅游或搜寻等概念,以机器可读的图像格式,来组织整理他们的知识和专业技能。以Airbnb的旅游图为例。图中描述了超过700万间房屋的清单,标记的方式呈现出各种实体(城市、地标、活动等)、特性(例如顾客评论和营业时间),以及它们之间的各种关系,以产出不断改善的建议,建议的内容不仅包括出租房屋的类型,也包括晚餐的最佳地点或游览景点的最佳时间。这种扩大产品范围的能力,让Airbnb能够为顾客提供优于传统旅馆的服务,传统旅馆的数据储存在各部门独立的系统中(比如订房数据储存在预订系统中,餐厅推荐数据储存在礼宾服务系统中,水疗中心的数据储存在按摩服务预约系统中)。同样地,Netflix持续改善75,000种细项类型的电影和电视节目的呈现和分类方式(就像Spotify对音乐和podcast的类似做法)。

Google已经能打造威力远更为强大的服务。它的知识图谱呈现字词和概念之间关系的方式,能协助其演算法理解上下文。这让Google能回复口头询问,例如:「嘿,Google,预订两张下周三去罗马竞技场的门票,用Google Pay付款。」基础知识是以「图」的形式来呈现,所以演算法可以理解用户在问什么;演算法知道「罗马竞技场」是罗马的一个景点,下周三是5月25日,「预订」的意思是购买门票,而「付款」牵涉到使用储存的信用卡(而非这些字词的其他意义)。每一次的查询和每一次的顾客互动,都会让知识图谱有所改善,以反映出意义改变时的新关系。

设想某位攀登过美国亚当斯山(Mount Adams)的登山爱好者,接下来想要攀登日本富士山。她在搜索查询时可能会问:「相较于亚当斯山,攀登富士山应该做哪些不同的准备?」以目前的情况来说,需要搜寻好几次才能获得答案,但Google正在开发一种新模型,具有更复杂的知识链接(能够顺畅地进行多种语言的翻译),以便更有效地回答这类查询。

若要与数位领导企业竞争,你应自问:我们产品的相关知识,是否大多是以各自独立的数据集存在,还是我们正在开发机器可读的图表,以辨识出我们顾客的偏好模式?

20220530-3

3、他们赢得顾客的关键时刻。

2001年,Netflix的45.6万名用户,只选择了系统2%的推荐。到了2020年,这个比率已经提高到80%,而Netflix拥有超过2亿名订户。 Netflix使用其电影图来赢得「关键时刻」:在90秒到2分钟内,观众会决定,是要留在Netflix上看影片,还是去其他地方。Netflix透过演算法来客制化和更新主画面,持续为每位订户提供针对个人所需的推荐。到2015年,Netflix每年防止了超过10亿美元的取消订阅,这要归功于其个人化的推荐引擎。

为了赢得关键时刻,脸书以近乎即时的方式,对30亿名用户进行A/B实验,为每位用户提供个人化的首页更新。脸书在显示贴文之前,会检视一组可能的贴文,并将其缩减到大约500种可能性,这是根据那名用户过去的行为模式来挑选,他可能会去看的大约500种贴文。然后,脸书专属的神经网路(neural network)对那些贴文进行评分和排序,接着以各种不同的媒体类型,例如文字、照片、声音和穿插广告的影片,来安排这些贴文。

脸书的数位内容库可以即时将资讯提供给全球的顾客(这方面会受到各国法律的限制),优步则不同,优步之所以能够满足顾客的交通需求,其基础在于,在明确的时间和确切的地点,是否有车辆可用。优步的关键时刻,是顾客愿意等待司机的5分钟。这家共乘公司追踪智慧型手机有开启其应用程式的司机和乘客(之前优步在用户并未使用应用程式时也进行追踪,经顾客强烈反对后,2017年被迫改变这项引发争议的政策),使用这些数据来分析可能的需求模式。然后,它提供诱因给在选定地点提供服务的司机。该公司不断优化安排路线的演算法,以便在关键时刻赢得顾客。

尽管许多公司都宣称以顾客为中心,但很少有公司像这些领导企业那样使用数据图和演算法。请自问:我们是否使用AI支援的演算法,为顾客提供持续改善的产品,以确保他们与我们的产品互动,而不是离开我们?

20220530-4

着手进行的五大步骤

企业若是希望维持与数据图领导业者竞争的能力,必须了解的第一件事情,就是成功的策略不只仰赖拥有大量资讯;关键在于即时蒐集相关的产品使用数据,以达成数据网路效应并建立优势。企业若是观察到顾客与其产品的更多互动,就能累积更丰富的数据;当企业向更多元的顾客群销售更多产品时,便会累积更多不同种类的数据,可协助它们让自家的商品进一步差异化。

企业若是没有使用数据图,或尚未成功使用数据图,必须采取下列步骤迎头赶上:

1、拟定数据图策略。

首先,让具备产业知识的高阶主管与数据科学家搭配合作,把你公司的数据图予以概念化,检视其未来的发展轨迹,并勾勒出合理可行的商业影响。许多欠缺亚马逊或Netflix那种庞大资源的公司,已经这样做了。例如,Stitch Fix是个人化的时尚服务平台,2010年由一名商学院学生所创办,现在该公司的市值已高达16亿美元,主要归功于其「时尚图」。

线上学习平台Coursera,展现新的市场进入者可以使用数据图来颠覆市场。传统大学提供「一体适用」的课程和证书;相较之下,Coursera在教育领域的运作就像是Netflix或亚马逊。它透过可累积的模组,提供个人化的线上体验,这些模组可以在不同的时段、地点、难度和价格点来消费使用。它使用自家专属的「技能图」,以传统大学无法达成的方式,来客制化终身学习服务。

请自问,你的数据可以如何为你的业务提供独特的优势?你可能拥有专属的「数据钩子」(data hook),让你在顾客使用产品时,观察到他人无法获得的详细资讯。你的优势可能来自卓越的数据范围(你数据的深度和丰富度),以及能否取得合作伙伴的互补数据。你可能拥有更快的数据速度(动态数据,相较于竞争对手需要批次处理的片段式数据)。考虑如何透过收购〔例如微软收购LinkedIn 和动视(Activision)〕,或组成联盟(例如Google与Shopify的合作),来提升规模、范围和速度。

2、开发专属的演算法。

独立执行不同类型的分析,已经不足以成事。数据图领导企业会在一个整体架构下,使用专属的演算法,进行描述分析(「发生了什么事?」)、诊断分析(「为什么会发生?」)、预测分析(「可能会发生什么事?」),以及规范分析(「应该发生什么事?」)。你可以逐渐调整改变你的数据图基础设施,从设计用来分析静态数据(批次处理、独立分析)的传统架构,转变为分析即时的动态数据。

务必要把你的演算法,与你所在产业的其他演算法(以及相同类型的演算法)进行比较。例如,如果你的成功指标,是顾客依据你的推荐而采取行动的程度,那么你推荐引擎的绩效,相较于Netflix、Spotify和亚马逊等领导业者的表现如何?

3、产生信任感。

做为顾客数据的保管人,是一项重大责任。大多数顾客把电脑、演算法和机器学习视为复杂的「黑盒子」,而且许多人认为,自己的数据正在被使用(甚至滥用)来让数位公司变得富有和强大。你使用演算法的方式,必须能让人产生信任感,而且必须付出努力,以赢得蒐集和分析数据的权利。请使用消费者能够理解的语言,来说明你在做什么。

企业使用演算法的方式必须能让人们产生信任感,而且必须付出努力,以赢得蒐集和分析数据的权利。

当消费者觉得自己的数据被滥用时,信任便会受到侵蚀。脸书已经成为这种困境的典型代表。最近,脸书数据科学团队的一位吹哨人直接指控,该公司利用其数据和演算法来增加煽动性内容,以提高脸书网站的互动量,即使该公司进行的专属内部研究指出,这么做会伤害用户和社会。脸书执行长马克.祖克伯(Mark Zuckerberg)否认这些说法:「说我们为了获利,刻意推送让人们愤怒的内容,这样的论点非常不合逻辑,」他说:「我们从广告赚钱,广告商一直告诉我们,他们不希望自家广告旁边出现有害或令人愤怒的内容。」祖克伯能否修复这些损害,取决于脸书未来如何使用其演算法和个人数据,以及它与用户的沟通是否透明。

每家公司都必须不只在演算法的技术层面投入资源,还必须以消费者能够理解和觉得安心的方式,说明自家公司在做什么。顾客愈来愈期望了解数位产品如何运作,以及AI支援的服务是如何提供的,而且各国也要求各家企业依据当地法规,调整其数据营运。例如,在有严格隐私法规的德国,阿里巴巴需要的数据策略,与它在中国使用的不同。而且它必须以能促进信任的方式,和这两国的消费者沟通。

4、更新组织。

商业领导人必须分配必要的资源,以升级数据图所需的技术基础设施。他们必须招募的人才,是在数据科学和商业方面都兼具广度和深度的人才。他们必须建立的数据组织,要能成为把企业所有部门都连结在一起的结缔组织,体认到现代组织必须同时兼顾相互竞争的两大派别:认为数据和演算法具备最优异的力量,能够解决问题的派别,以及不认同这种看法的派别。这种紧张关系定义了现代组织的运作文化:一个好例子就是,Netflix执行长里德.哈斯廷斯(Reed Hastings)如何平衡矽谷的分析拉力和好莱坞的创意拉力。

5、从你的数据图获利。

如果建构数据图是用来支持和塑造策略,数据图就能揭露价值不仅在于如何设计和制造产品,也在于产品如何为顾客解决特定的问题。数据图提供的见解,能协助你选择最合适的获利机制,并拟定从数据进展到商业成果的清晰路径。你可以透过基于数据网路效应所做出的可信建议,来保护你目前的营收和获利,就如同Netflix使用即时数据来改善顾客保留率一样。

你还可以使用你的数据图来制定思虑更周详的方法,透过追求新的价值领域来扩大你的营收和获利流,如同苹果公司(Apple)在进入信用卡、电视和健康照护领域时所做的那样。而且,你可以在竞争对手已经善用数据图的市场里进行反击,就如同迪士尼(Disney)以Disney+成功进入影音串流市场的竞争那样。

重塑优势

大家都看过麦当劳(McDonald’s)店门口「销售超过X十亿个汉堡」的宣传标语,而且多年来看到这个数字持续上升。不过,追踪每年销售了多少个汉堡已经是过时的做法。数据图的领导企业不太关心这些绝对数字。相反地,他们会问:我们是否有每位消费者在哪里购买汉堡的数据?在什么时间买?他会搭配什么饮料?他在购买汉堡之前或之后会做什么?我们的顾客是哪些人?他们的年龄、收入、地点、偏好、生活方式等等又如何?我们要如何满足他们更多的需求,好让他们在我们这里,比在其他商家消费更多?并确信他们的钱花得有价值,而且会持续回来光顾?

数据图将会重塑各个产业的竞争态势,而且比大多数人预期得更快。现在正是时候,每家公司都不再能够仅使用数据来改善营运效率,而应体认到数据图的竞争优势。资深领导人必须投资以升级他们的数据架构,以便即时全面了解,消费者如何与他们的产品和服务互动。有了这种架构之后,领导人便能开发出独特的方法,来解决顾客的问题。

文章来源:《哈佛商业评论》