用户画像建设过程简析
文章对用户画像的建立过程进行了较为详细的分析,希望通过此文,你能够对用户画像有一个系统的认识。
用户画像介绍
早期的用户画像是通过对用户多方面信息的调研和了解,将多种信息分类聚合,产出几个有典型特征和气质的虚拟用户。用户画像用于辅助产品设计,评价需求是否有价值,别让产品偏离核心用户的需求;市场营销方面,可以用于方案制定,推广渠道选择,同时对运营人员也有一定的指导意义。此种的用户画像粒度比较粗,用虚拟的用户画像代表真实的用户。用户画像会用如下的文档描述。

随着互联网的不断发展,积累的用户信息、行为记录越来越丰富,同时大数据处理和分析技术也已成熟,可以计算出每一个用户的特征。特征使用从人口基本属性、社会属性、生活习惯、消费行为等信息抽象出来的一个个具体的标签表示,标签是某一用户特征的符号化表示。为每个用户计算用户画像,这样更加贴近真实的世界,每个人都是独一无二,不能随随便便被其他人代表,用户画像精准到人。用户画像用标签集合来表示,例如:
吴某,男,32岁,河南人,北京工作,银行业,投资顾问,年收入50万,已婚,两套房,有孩子,喜欢社交,不爱运动,喝白酒,消费力强等。
基础信息可以通过用户的注册信息获得,但像是否有孩子、喜欢社交、喝白酒、消费能力等级等,用户不会告诉我们,需要建立数据模型才能计算出来。当然,用户标签的体系是需要根据业务领域去设计的,比如银行和电商用户标签体系就会不同。
基于大数据用户画像的用途
-
应用最广泛当属个性化推荐,电商网站为准妈妈推荐婴儿用品,为摄影爱好者推荐镜头。个性化推荐中,计算出用户标签是其中一环,需要有协同过滤等推荐算法实现物品的推荐。
-
精准广告可以根据年龄、区域、人群、天气、游戏爱好、内容偏好、购物行为、搜索行为等定向选择进行投放,例如腾讯的广点通,支持用户在微信、QQ精准投放。
-
精细运营,例如向目标用户发送促销活动短信,避免全量投放完成的浪费。可以针对某次活动的拉新用户进行分析,评估活动效果,看是否和预期相符。
-
辅佐产品设计,把用户进行分群,依据不同用户群特性就行产品设计和测试验证。
其它应用场景
-
查看某次市场推广的用户画像,事后分析是否和预期一致,判断推广渠道和产品目标用户群的匹配度。
-
查看不同地域的用户画像,不容内容频道的用户画像。
-
个性化Push,例如新闻客户端根据用户的阅读习惯进行个性化的新闻推荐。
步骤

更进一步,以时尚杂志全媒体为业务原型,把抽象的文字描述实例化,从战略目的分析、如何建立用户画像体系、怎么对标签进行分类分层级三个不同角度来说说用户画像建立的过程。梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭建都会依赖于标签体系。


可以获取到的数据分两类,一类是业务系统数据,一类是用户访问网站、APP产生的行为数据。

不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。

战略理清楚后,首先要画出描述用户画像的框架,建立用户画像体系框架的目的是进一步明确用户画像的用途、把标签限定在合理的范围内。具体要结合战略目标、数据情况、应用场景来规划标签系统,选取和战略目标一致的标签维度,把标签按照应用场景进行分门别类。同时注意聚焦和收敛,不要把没用标签装进来,以降低系统的复杂性,避免无用信息干扰分析过程。

用户画像体系和标签分类从两个不同角度来梳理标签,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧。
把标签分成不同的层级和类别:
-
一是方便管理数千个标签,让散乱的标签体系化;
-
二是维度并不孤立,标签之间互有关联;
-
三可以为标签建模提供标签子集,例如计算美妆总体偏好度,主要使用美妆分类的标签集合。
梳理某类别的子分类时,尽可能的遵循MECE原则(相互独立、完全穷尽),尤其是一些有关用户分类的,要能覆盖所有用户,但又不交叉。比如:用户活跃度的划分为核心用户、活跃用户、新用户、老用户、流失用户,用户消费能力分为超强、强、中、弱,这样按照给定的规则每个用户都有分到不同的组里。

标签还可以按照处理过程、标签获取的方式进行划分,分为事实标签、模型标签、预测标签。不同类别的处理方式不一样。
-
事实标签:直接从原始数据中提取,例如性别、年龄、住址、上网时段等等
-
模型标签:需要建立模型进行计算,例如美妆总体偏好度
-
预测标签:通过预测算法挖掘,例如试用了某产品后是否想买正品
但是有些事实标签,如果用户没有填写的话,就需要建立模型来预测。例如数据库中的年龄字段为空,建立依据用户行为来建立特征工程,然后做预测。
用户画像最终的结果是一张大宽表,一行为一个用户的用户画像,存储了用户对应的每个标签值。建模就是为每个标签制定合理的计算公式。

(请点击查看大图)
基础模型
基础数据一般有用户数据、内容实体数据、用户行为数据三类,需要根据用户行为构建相应的数据模型产出标签和权重。每一次的用户行为,可以详细描述为:什么用户,在什么时间,什么地点,发生了什么事。
-
什么用户:即用户识别,其目的是为了区分用户。用户识别的方式包括Cookie,注册ID,微信,微博,QQ,手机号等。
-
什么时间:在用户行为中,普遍认为近期发生的行为更能反映用户当下的特征,因此过往行为将表现为在标签权重上的衰减。
-
什么地点:即用户的接触点,,包含了两个潜在信息:网址和内容。内容决定标签,网址决定权重。用户在天猫浏览了iPhone6的信息和在苹果官网浏览也将存在权重的差异,因此,网址的内容反映了标签信息,网址本身则表征了标签的权重。本案例中的业务以阅读型为主,把网址权重都简化为1。
-
做了什么:用户的行为类型,例如访问、收藏、试用、分享、搜索等,同样反映的是标签的权重。
从上述建模方法中,我们可以简单勾画出一个用户行为的标签权重公式:
标签权重=时间衰减(何时)x网址权重(何地)x行为权重(做什么)
如果是访问行为,可以再增加访问时长的权重,10S以内权重为1,10S-30S为2,30S以上为3
最后把用户一段时间内同一个标签的权重进行累加,就获得到用户此标签的值。
根据行为的成本大小来判断标签的权重,成本越高越是真爱。例如访问页面是成本最小的,同时赋予标签的权重值就较低收藏能代表用户的喜好,权重较高。
此外这里我们假设同一个页面所附属标签和页面内容的相关度都是一样的,例如一篇文章《女人懂西装是一件很性感的事 你的他穿对了吗》附带了男装、高级定制、时尚、潮流、西装 5个不同标签,其实内容和标签的相关度会有差异,可以通过编辑人工或者机器学习的方式为标签赋予不同的相关度,这样最终得出的标签权重可信度更高。
以上只是基础模型,适用于内容标签、产品分类、产品标签、品牌标签。美妆总体偏好度、用户活跃度、用户价值等标签仍需要单独建立模型。潜在需求的挖掘适用回归预测等算法模型。

内容偏好度(美妆、服饰)模型
用某分类下所有标签的累加值来度量用户对内容的总体偏好度,例如:用户A的美妆偏好度为其所有美妆类标签值的加和。如果服饰总体偏好度大于美妆偏好度,说明用户访问的服饰内容较多,在本站内更偏向看服饰内容。
活跃度模型
活跃度可以根据用户来访、互动情况、核心功能使用频率等综合确定。例如:
-
核心用户:每周有访问、近一个月互动次数达到30次以上
-
活跃用户:每周有访问、互动次数10次以上
-
一般用户:每月有访问
-
流失用户:3月以上未访问
用户价值模型
消费领域最广泛应用的是RFM模型。
-
R是Recency,最近一次消费;R5最高,最近一周有消费,最近两周,最近一个月,最近两月,最近半年;
-
F是Frequency,消费频率; 最近6个月消费次数,例如:五次以上为 F5,依次类推;
-
M是Monetary,消费金额;
计算结果为:543,代表R5F4M3级别对用户,根据产品类型的不同,可以调整R、F、M的定义。
借鉴RFM模型的思想,我们可以把用户行为也拆解为三个维度来衡量:最近访问时间、访问频次 、互动次数;(只是一种想法,未经实践检验)
-
R替换成最近访问时间,R5最高,最近一周访问、最近两周、最近一个月、最近两个月、最近三个月;
-
F替换成访问频次(UV),F5最高,30次以上为F5,依次类推;
-
M替换成互动次数,R5最高,60次以上为R5,依次类推;
最后简单说下需要预测的标签模型,预测更多是推荐系统要做的事情,类似潜在需求的标签需要用到机器学习算法,根据用户标签权重、收藏了产品A、产品C、产品D的用户,挖掘还喜欢哪些产品和内容。比较常见的有贝叶斯、回归算法。
以好奇心日报为业务原型,探讨下数据模型建设过程。
数据模型是数据平台的基石,是平台搭建过程中最最基础、也是最最重要的环节,为后续数据清洗(ETL)、开发数据报表等工作保驾护航。数据建模做的好,后面工作也会更容易,模型做的不到位,一些报表做起来耗时耗力又吃资源,甚至无法实现。
数据建模一般要经历主题和主题域分析、概念模型、维度设计、指标整理、逻辑模型、物理模型。
好奇心是内容型产品,有NEWS、LABS两个频道,有不同新闻分类和独立的栏目,商业模式以在线广告为主。
为什么选好奇心日报?一方面它确实是目前鱼龙混杂的内容产业中的一股清流,新媒体的一个标杆,以好奇心驱动坚持做有品质的内容、筛选最有价值信息、全球最新动态; 更主要的是它的产品线全面,有APP、PC网站、移动网站、订阅号、小程序,同时也运营着今日头条、网易、微博等各大媒体公号,且成绩有目共睹。产品线全面、业务规模适中,作为业务原型讨论数据建模最合适不过了。
案例说明
了解数据仓库的,都知道数据仓库是面向主题,也就是其中的数据是按主题进行组织的。
首先从分析主题入手,主题是在较高层次上对业务数据进行梳理、归类,一个主题基本对应一个宏观的分析面。
主题域是确定主题中包括的数据分析范围及边界,确定了主题及主题域,数据平台对外输出能力也基本确定了。
好奇心业务来说可以分为内容生产运营、营销、用户、广告收入四个方面;再对主题进一步细化出子主题,例如广告主题可以拆除订单分析、营收分析、广告位分析、品牌主分析、业绩分析,子主题也就是主题的边界。

下面我们分别展开说说四个主题的内容:
用户分析
分基本信息、行为分析、商业兴趣三个子主题。
-
基本信息就是常见的人口属性,包括性别、年龄、地域、职业、职务、月收入等;
-
行为分析包括用户触点(用户访问好奇心的入口,是App,还是订阅号,还是同时使用多个)、习惯时段、访问轨迹、评论、参与投票等互动行为;
-
商业兴趣是指用户对那些新闻分类、栏目、或者内容主题的喜好程度,可以用于指导内容生产和个性化推荐。
内容运营
可以分为流量分析、内容分析、作者分析、第三方平台分析。
-
流量分析就是常规的网站、App的各频道、栏目的PV、UV、日活数等等指标,同时还要按媒介来源细化到Organic、Syndication、Socail等不同维度和维层;
-
内容分析可以从单篇文章、单个分类进行分析。例如获取某一篇文章在不同平台的阅读量、点赞数、互动数,也可以分析某篇热点文章从发布、预热、引爆、衰退的过程;
-
作者分析是从生产者角度进行汇总分析,作者的文章产量、文章阅读数、互动数、用户喜好程度等等分析,如果每个编辑记者都制定了KPI就可以很快捷的知道KPI达成情况。
-
第三方平台分析是指分析分发到订阅号、小程序、今日头条号、网易号上的阅读、互动、分析、回流情况。
营销推广
分为推广分析、渠道分析、活动分析。
-
推广分析是指付费广告推广,汇总投放目标、曝光展示、点击、下载激活,进行推广效果评估,获客成本分析;
-
渠道分析是从渠道角度分析用户留存、活跃、互动,以评估渠道质量,渠道和推广还是有区别的,例如在今日头条这个媒体渠道,会做多次推广。
-
活动分析一般是市场、运营组织的用户参与的营销活动分析、接触人数、参与人数、转化人数等等。
广告收入
分为营收分析、广告订单分析、广告位分析、品牌主分析。
从总收入、订单、单个广告位、品牌主、销售经理、销售大区不同维度分析收入贡献,挖掘销售潜力,降低广告库存,提高售卖率和广告单价。
模型建立
概念模型
是主题的基础上,识别出主题中的对象,以及建立对象之间的关系,列出对象的较核心的属性。
例如我们为好奇心日报提炼出产品(App、PC网站、小程序等)、用户、用户行为、文章、编辑等对象,并描述了对象之间的关系以及表述对象的核心属性。

逻辑模型
是将概念模型具象化,为对象增加必要的属性。
下图是使用一款在线工具ProcessOn画的部分逻辑模型,还可以使用更专业的建模工具ERWin和PowerDesigner。

物理模型
是把上述逻辑模型的内容,在具体的物理介质上实现出来,确定字段类型、取值范围、采用MySQL、Oracle等建立数据库表,这里就不详细展开介绍。
最后对业务涉及的维度和度量进行梳理,维度越丰富,粒度越细,做数据分析时就可以挖地越深入。
正如数据仓库权威专家Kimball所说:数据仓库的能力直接与维度属性的质量和深度成正比。比如时间维度可以分为季度、月、周、日四个层次,但周和日还可以还可以细化出周天、日时段两个子维度,汇总一段时间内的周一到周日的启动次数(日然运营,排除推广干扰),可以看出用户从周一到周日的使用规律,同时还可以组合地域,看某一地方用户周一到周日的使用规律,日时间段同理。当然粒度越细,对数据收集和处理的要求越高。
维度建模
维度建模有专门的方法论,需要根据业务规模、最终需求设计合理的维度模型。
下面是根据业务梳理的维度和度量指标,大家可以尝试组合下,是否能够满足日常运营的需要,如果觉得不够可以考虑下怎么扩展。
维度
用户
-
基本信息:性别、年龄、职业、职务、月收入、教育、婚姻状况、子女数、地域
-
兴趣标签,标签可分大类、小类
时间
-
月、周、日、时
-
日时段
-
周天
地域
-
省
-
一级、二级、三级城市
-
北上广深
流量来源
Syndication
-
Toutiao、网易、一点等
Organic
-
Search、Referral、Direct
Socail
-
Weixin、Weibo、QQ
营销渠道
应用分发渠道
-
应用市场(AppStore、应用宝、华为市场等)、官方网站
广告推广
-
媒体品牌:腾讯、百度、网易……
广告位名称
广告位类型
-
广告位平台:PC、移动
投放创意
Socail
-
Weixin、Weibo、QQ
-
SM
-
Newsletter
活动
-
Campain List
产品及版本
-
iOS、Android、小程序、PC、Mobile、微信订阅号、头条号、网易号、微博头条
-
4.1、4.2
设备
-
操作系统、设备品牌、服务提供商、联网方式、屏幕分辨率
业务
-
内容分类:频道(News 、Labs)、新闻分类、栏目
-
作者、编辑
广告
-
广告平台:移动平台、PC平台
-
广告位名称(App焦点图、App信息流、PC)
-
广告位类型(移动开屏、移动原生、移动banner、移动插屏、PC顶通、PC焦点图)
-
创意形式(640×100单图、240×180多图、640×360视频、14字文字链)
-
订单
-
广告主
-
广告主所属行业
指标体系
用户指标
-
新增注册数、活跃用户数、流失用户数、登录用户数、分发平台粉丝数
流量指标
-
累计下载量、新增下载量、激活量、日活数、启动次数、屏幕浏览量、使用时长、留存率、计划推送数、推送达到数、推送到达率、推送唤醒数、推送唤醒率
行为指标
-
阅读数、点赞数、分享数、评论数、订阅数、参与投票数、发布我说、点击广告、推送点击、推送打开率
广告指标
-
曝光量、点击量、点击率、销售额、订单数、订单单价、库存量
模型指标
-
用户构成(用户地域、年龄段)、商业兴趣
单纯理解算法还算容易,但是到实际工作中就往往理不清头绪,特征变量从哪来,又怎么选,模型的输出结果是什么,如何评价模型好坏,有了模型如何应用,模型上线之后还要做什么等等一系列问题。今天我们就以常用的逻辑回归为例,结合实际场景说说如何应用结果问题的过程。对于数据产品经理、数据建模师、数据挖掘工程师、数据分析师来说,都必须了解全部流程。
算法描述
逻辑回归(Logistic Regression)是应用非常广泛的一种分类机器学习算法,算法简单且高效、预测速度快,而且容易学习和理解。进一步说,逻辑回归是一个二分类算法,主要解决离散的两元分类【是、否】预测的问题。听得最多的线性回归是解决连续型变量预测的问题,例如已知近年的销售数据预测下季度的销售额。
对于多个分类问题,y不在[0, 1]中取值,而是有K个分类。多非类有两种情况,一是K个类别不是互斥的,比如用户会购买哪些品类,就可以为每个品类分别训练一个二元分类器。 如果K个类别是互斥的,即y=1时不能取其它值,比如预测用户的年龄段,这种情况可以利用Softmax Regression算法,是对LR的改进。
下面这张图非常清晰的描述了算法的原理,n个自变量(X1,X2,…Xn)会影响分类结果, Beta系数代表是每个变量对分类的影响程度,需要通过训练数据集做最大似然估计(所有样本的预测值和真实值一致性的概率最大)得出,Beta值越大说明该变量对结果的影响越显著,然后再用Logit函数做变型,把数值转化成[0, 1]值。


逻辑回归是有监督学习算法,首先利用训练数据集多次迭代估算出Beta参数,然后把测试数据带入下面的公式(sigmoid函数),就可以求出每个测试记录的预测值,把预测值和实际的真实进行比较,计算模型的准确率、AUC值来评价该模型能是否达到应用要求。

为什么能得到【0,1】之间的概率呢,主要是sigmoid函数的功劳,如果把上面的sigmoid函数用图像画出来就能直观看出来了 。从如下的函数图上可以看出,函数y=g(z)在z=0的时候取值为1/2,而随着z逐渐变小,函数值趋于0,z逐渐变大的同时函数值逐渐趋于1,而这正是一个概率的范围。

作为产品经理必须要理解算法原理、来龙去脉、应用场景,知道如何准备数据,基本够用了,推倒算法的过程还是交给数学专业的搞吧,下面我们通过实际例子,看看如何使用算法。
算法实例
案例描述
预测用户对18个大品类的购买偏好【1,0】,品类偏好不是互斥的,即可以同时喜欢多个,所以使用LR构建18个分类模型预测用户对每个品类的购买偏好即可。
分析变量
找到可能影响分类结果的因素,例如:品类浏览频次、品类购买频次、购买总金额、平均购买间隔天数、近一次购买时间、近一次浏览时间、总停留时间、家庭人口数量、地理位置。然后数据仓库中汇总计算出这些指标(这部分属于数据工程师的工作,从原始数据中抽取、汇总计算,例如数据仓库有用户购买的多条记录,但没有平均购买间隔天数这个指标),最后一列是实际的分类结果,构建成一个含有很多相关变量的大宽表作为算法的训练数据集和测试数据集,如下图所示。实际应用中为了模型更加精准需要组织更细节的变量,比如近1/2/3/7天的点击、收藏、浏览次数,以及用户这些行为和该品类全部用户行为的比例关系等等。

特征选择
特征选择是从属性集合中选择那些重要的,与分析任务相关的子集的过程。选择变量不在多,关键就行。 特征选择方法有逐步增加法(先选择一个最优的,然后逐个添加)、逐步递减法(所有属性做为候选,逐个删除)、递归特征删除法。这里使用递归删除法,通过逻辑回归算法本身就是计算特征变量的系数,系数大小也就代表了该变量的重要程度。 递归删除法是用全量特征跑出一个LR模型,根据线性模型的系数(上面说过了系数越大说明变量和分类相关性越大),删掉5-10%的弱特征,观察准确率/AUC的变化,逐步进行, 直至准确率/AUC出现大的下滑停止,这时保留下来的特征系数就是模型的输出。
模型检验
模型检验主要采用准确率和AUC两个指标。计算两个指标都需要理解几个概念,所谓的真正例就是真实类别为【是】且预测类别也为【是】,假负例(预测类别为【否】但实际为【是】)、假正例(预测类别为【真】但实际为【否】)、真负例(预测类别为【否】且实际也为【否】)。准确率是指测试集中被正确分类的比例,例如100个测试记录,有82(48 + 34)个被正确分类,即真正例和真负例的和,正确率就是82%,算法的准确率一般要高于80%,不然没法实际应用。

AUC(Area under the Curve of ROC)比较麻烦需要先画ROC曲线,AUC就是ROC曲线下方面积所占的比例,越大越好。ROC曲线X轴是假正例(FP)的累计比例,Y轴是真正例(TP)的累计比例,那么自然是,FP rate小时TP rate越大模型越好。

模型输出
模型输出,模型构建完成后输出的结果就是保留的特征变量以及其对应的系数。
模型应用
模型应用,有ID为1000的用户,他对应的特征变量为(31, 6, 138, 29, 3, 26, 38, 4),判断其是否会购买洗护这个品类。方法就是把参数带回下面的公式中,计算分类概率是0还是1,如果是1就说明用户近期会购买该品类。

迭代优化
迭代优化,模型上线后会根据运营不断的去优化,提高转化率,比如再扩充平均购买金额,最大购买金额等等字段构建新的模型,然后做A/B测试,如果的准确率和转化率都高于旧的模型则正式上线。
至此,我们就完成的逻辑回归的实际应用。

开发、沉淀、进步–大数据与人工智能的时代,需要我们一道共同学习和探索,让科技为这个世界增添绚丽色彩。

欢迎关注:微信公众号BigdataAndAI