本文共 5001 字,大约阅读时间需要 16 分钟。
DSP:DSP是一个系统,也是一种在线广告平台。它服务于广告主,帮助广告主在互联网或者移动互联网上进行广告投放,DSP可以使广告主更简单便捷地遵循统一的竞价和反馈方式,对位于多家广告交易平台的在线广告,以合理的价格实时购买高质量的广告库存。
Ad Exchange:Ad Exchange即互联网广告交易平台,它联系着DSP(买方平台)和SSP(卖方平台),通过接入SSP汇集大量媒体流量,从而收集处理属于广告目标客户的数据,Ad Exchange是实现精准营销的交易场所。 SSP:SSP(Suply Side Platform),供应方平台,即媒体方平台,也就是消费者看到广告的媒介。 DMP:数据管理平台能够帮助所有涉及广告库存购买和出售的各方管理其数据、更方便地使用第三方数据、增强他们对所有这些数据的理解、传回数据或将定制数据传入某一平台,以进行更好地定位。- 第一方数据:需求方即广告主自有用户数据,包括网站/APP监测数据、 CRM(Custom Relation Management)数据、电商交易数据等。
- 第二方数据:需求方服务提供者在广告投放过程中积累的业务数据,如DSP平台业务中积累的受众浏览广告、点击广告等相关数据。 - 第三方数据:非直接合作方拥有的数据,如运营商数据等其中用户画像是基础,即通过对用户信息的标签化,完美的抽象出一个用户的信息全貌,并为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息提供足够的数据基础。顾名思义,用户画像的焦点工作就是为用户打标签,而一个标签通常是认为规定的高度提炼的特征标识,例如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体画像了。
- 能快速查询、反馈和快速呈现结果
- 能帮助客户更快进入到市场周期中 - 能促成企业用户和合作伙伴之间的合作 - 能深入的预测分析并作出反应 - 能带来各方面的竞争优势 - 能降低信息获取及人力成本- 模拟从文件中读取数据,使用spark将数据清洗之后分装到dataframe,并且压缩之后,输出成parquet形式的文件。
- 读取parquet文件,使用sparksql将其根据需求进行etl,并且输出到MySQL中(报表) - 读取parquet文件,通过userid,根据每一个用户,打相应的标签,最终放入hbase序号 属性名称 描述
1 Sessionid:String 会话标识2 Advertisers:Int 广告主id3 Adorderid:Int 广告id4 Adcreativeid:Int 广告创意id(>=200000:dsp)5 Adplatformproviderid:Int 广告平台商id(>=100000:rtb)6 Sdkversion:String Sdk版本7 Adplatformkey:String 平台商key8 Putinmodeltype:Int 根据广告主的投放模式,1:显示量投放,2:点击量投放9 Requesmode:Int 数据请求方式(1:请求,2:展示,3:点击)10 Adprice:Double 广告价格11 Adpprice:Double 平台商价格12 Requestdate:String 请求时间格式为:yyyy-m-dd hh:mm:ss13 Ip:String 设备用户的真实ip地址14 Appid:String 应用IP15 Appname:String 应用名称16 Uuid:String 设备唯一标识17 Device:String 设备型号,如:htc,iphone18 Client:Int 设备类型(如:1:Android,2:IOS,3:wp)19 Osversion:String 设备操作系统版本20 Density:String 设备屏幕密度21 Pw:Int 设备屏幕宽度22 Ph:Int 设备屏幕高度23 Long:string 设备所在经度24 Lat:String 设备所在维度25 Provincename:String 设备所在省份名称26 Cityname:String 设备所在城市名称27 Ispid:Int 运营商id28 Ispname:String 运营商名称29 Networkmannerid:Int 联网方式id30 Networkmannername:String 联网方式名称31 Iseffective:Int 有效标识(有效指可以正常计费的)(0:无效,1:有效)32 Isbilling:Int 是否收费(0:未收费,1:收费)33 Adspacestype:Int 广告位类型(1:banner2:插屏3:全屏)34 Adspacetypename:String 广告位类型名称(banner横幅,插屏,全屏)35 Devicetype:Int 设备类型(1:手机:2:平板)36 Processnode:Int 流程节点(1:请求量ktp2:有效请求3:广告请求)37 Apptype:Int 应用类型id38 District:String 设备所在县的名称39 Paymode:Int 针对平台商的支付模式1:展示量投放(CPM)2:点击(cpc)40 Isbid:Int 是否rtp(1参与竞价 0不参与竞价)41 Bidprice:Double Rtp竞价价格42 Winprice:Double Rtp竞价成功价格43 Iswin:Int 是否竞价成功44 Cur:String Values:umd|rmb等45 Rate:Double 汇率46 Cnywinprice:Double Rtp竞价成功转换成人民币的价格47 Imei:String Imei48 Imac:string Mac49 Idfa:String Idfa50 Openudid:String Openudid51 Androidid:String Androidid52 Rtbprovice:String Rtb省53 Rtbcity:String Rtb市54 Rtbdistrict:String Rtb区55 Rtbstreet:String Rtb街道56 Storeurl:String App的市场下载地址57 Realip:String 真实ip58 Isqualityapp:Int 优选标识59 Bidfloor:Double 低价60 Aw:Int 广告位的宽61 Ah:Int 广告位的高62 Imeimd5:String Imei_md563 Macmd5:String Mac_md564 Idfamd5:String Idfa_md565 Openudidmd5:String Openudid_md566 Androididmd5:String Androidid_md567 Imeisha1:String Imei_sha168 Macsha1:String Mac_sha169 Idfasha1:String Idfa_sha170 Openudidsha1:String Openudid_sha171 Androididsha1:String Androidid_sha172 Uuidunknow:String Uuid_unknow tanx密文73 Decuuidunknow:String 解密的tanx明文74 Userid:String 平台用户id75 Reqdate:String 日期76 Reqhour:String 小时77 Iptype:Int 表示ip类型78 Initbidprice:Double 初始出价79 Adpayment:Double 转换后的广告消费80 Agentrate:Double 代理商利润率81 Lomarkrate:Double 代理利润率82 Adxrate:Double 媒介利润率83 Title:String 标题84 Keywords:String 关键字85 Tagid:String 广告位标识(当视频流量时值为视频得ID号)86 Callbackdate:String 回调时间,格式为YYYY/mm/dd hh:mm:ss87 Channeid:String 频道ID88 Megratype:Int 媒体类型1:长尾媒体2:视频媒体3:独立媒体,默认:1地域分布:
终端设备:操作系统媒体分析:渠道报表:标签一:广告位类型(标签格式:LC03->1或者LC16->1)xx为数字,小于10 补0
标签二:APP名称(标签格式:APPxxxx->1)xxxx为APP的名称,使用缓存文件appname_dict进行名称转换标签三:渠道(标签格式:CNxxxx->1)xxxx为渠道ID标签四:设备:操作系统|联网方式|运营商设备操作系统1 Android D00010012 IOS D00010023 Winphone D00010034 其他 D0001004设备联网方式WIFI D00020014G D00020023G D00020032G D0002004设备运营商方案移动 D0003001联通 D0003002电信 D0003003OPERATOROTHER D0003004标签五:关键词(标签格式:Kxxx->1)xxx为关键字。关键词个数不能少于3个字符,且不能超过8个字符;关键字中如包含”|”,则分割成数组,转化成多个关键字标签
标签六:地域标签(省标签格式:ZPxxx->1,地市标签格式:ZCxxx->1)xxx为省或市名称标签七:6)上下文标签:将数据打上上述6类标签,并根据【用户ID】进行当前文件的合并,数据保存格式为:userid K×××志:3 D00030002:1........由于这里的代码比较多而且复杂,我就放置在自己的博客资源中,提供下载!
指标表:项目代码:转载于:https://blog.51cto.com/14048416/2340045