上一期内容,我们我们已经对数据有了一个更深入的了解,没看的小伙伴请戳(一文读懂数据标注(一):数据来源)。此次我将给大家详细说说数据采集。
什么是数据采集
在了解数据采集前,我们先对数据采集做一个简单分类。
按数据采集方式,分为线下与线上收集。
1.线下
线下采集,顾名思义就是采用问卷、实地调研等方式获取需要的数据集。
线下数据采集时需注意的5个要点:
(1)明确研究主题与目的
问卷调查的本质或目的是调查相关要素与目标群体的联系,故而问卷调查的内容要贴合主题。
(2)问题通俗易懂
问卷分发后,是需要受众进行填写的,所以问卷题目一目了然、能让大家看懂才是关键。同理,问卷题目的易懂性与一般性也直接决定了问卷的质量。(题目的一般性是指,这个问题的设置是否对对所有大众都适用。)
(3)充分考虑被调者特点
在使用问卷调查方式时,要充分结合被调群体的特色,来进行问卷的设置;例如针对高龄、低龄及聋哑人群,则不宜采取书面问卷调研的形式,要充分考虑到他们的身体情况,在针对想要调查的内容特性,单独设置适合他们的“问卷”,进行沟通取样。
(4)循序渐进设置问题
问卷问题在设置上,除了要考虑到每个问题的合理性、逻辑性之外,还要考虑各问题间的关联性。
(5)考虑统计的便捷性
问卷在大家填完后,还需回收进行数据汇总,故而要尽可能减少变量性问题,多用单选或正误等定性问题。
2.线上
线上数据收集按照数据采集端口分类,又分为APP端和网页端。
(1)APP端
APP端主要靠数据埋点获取数据。数据埋点就是在用户使用APP的过程中,对他们一系列行为数据进行收集,用以优化产品和运营。举个例子,以某宝为例,它本身自带服务与盈利性质,如要实现转化,就需将“点”埋在跳转购买、付款等交互组件上,然后对用户停留时长、购买率、跳出率、退货率等指标进行量化。
就埋点的形式而言,主要分为以下三种:
类别 |
代码埋点 |
可视化埋点 |
无埋点 |
定义 |
控件操作发生时通过预先写好的代码来发送数据 |
利用可视化交互手段,通过可视化界面配置控件操作与事件操作发生关系,通过后台截屏的方式采集数据 |
用户展现UI界面元素时,平台会通过控件绑定触发事件,事件被触发的时候系统会有相应的接口让开发者处理这些行为 |
优点 |
控制发送数据时间,事件自定义属性详细记录 |
成本低,速度快,产品、市场等各部门均能参与 |
无需埋点,方便快捷 |
缺点 |
时间、人力成本大,数据传输的时效性 |
行为记录信息少,支持的分析方式少,减轻开发负担 |
行为记录信息少,传输压力大 |
(2)网页端
通过爬取进行数据收集。鉴于语言多样(python、c、go等),可用自己擅长的方式进行数据收集。
方法论:人工确定爬取信息的维度→分析目标网站URL构成→确认爬取工具→编写程序语言→获取数据→保存于本地→后续进行数据挖掘。
好了,如想知道更多内容,请关注【三元园区】,下周小编将为大家带来数据清洗相关内容,让我们不见不散。
,