上一期内容,我们我们已经对数据有了一个更深入的了解,没看的小伙伴请戳(一文读懂数据标注(一):数据来源)。此次我将给大家详细说说数据采集。

什么是数据采集

在了解数据采集前,我们先对数据采集做一个简单分类。

按数据采集方式,分为线下与线上收集。

1.线下

线下采集,顾名思义就是采用问卷、实地调研等方式获取需要的数据集。

线下数据采集时需注意的5个要点:

(1)明确研究主题与目的

问卷调查的本质或目的是调查相关要素与目标群体的联系,故而问卷调查的内容要贴合主题。

(2)问题通俗易懂

问卷分发后,是需要受众进行填写的,所以问卷题目一目了然、能让大家看懂才是关键。同理,问卷题目的易懂性与一般性也直接决定了问卷的质量。(题目的一般性是指,这个问题的设置是否对对所有大众都适用。)

数据标注和数据采集哪个容易些(一文读懂数据标注)(1)

(3)充分考虑被调者特点

在使用问卷调查方式时,要充分结合被调群体的特色,来进行问卷的设置;例如针对高龄、低龄及聋哑人群,则不宜采取书面问卷调研的形式,要充分考虑到他们的身体情况,在针对想要调查的内容特性,单独设置适合他们的“问卷”,进行沟通取样。

(4)循序渐进设置问题

问卷问题在设置上,除了要考虑到每个问题的合理性、逻辑性之外,还要考虑各问题间的关联性。

(5)考虑统计的便捷性

问卷在大家填完后,还需回收进行数据汇总,故而要尽可能减少变量性问题,多用单选或正误等定性问题。

数据标注和数据采集哪个容易些(一文读懂数据标注)(2)

2.线上

线上数据收集按照数据采集端口分类,又分为APP端和网页端。

(1)APP端

APP端主要靠数据埋点获取数据。数据埋点就是在用户使用APP的过程中,对他们一系列行为数据进行收集,用以优化产品和运营。举个例子,以某宝为例,它本身自带服务与盈利性质,如要实现转化,就需将“点”埋在跳转购买、付款等交互组件上,然后对用户停留时长、购买率、跳出率、退货率等指标进行量化。

就埋点的形式而言,主要分为以下三种:

类别

代码埋点

可视化埋点

无埋点

定义

控件操作发生时通过预先写好的代码来发送数据

利用可视化交互手段,通过可视化界面配置控件操作与事件操作发生关系,通过后台截屏的方式采集数据

用户展现UI界面元素时,平台会通过控件绑定触发事件,事件被触发的时候系统会有相应的接口让开发者处理这些行为

优点

控制发送数据时间,事件自定义属性详细记录

成本低,速度快,产品、市场等各部门均能参与

无需埋点,方便快捷

缺点

时间、人力成本大,数据传输的时效性

行为记录信息少,支持的分析方式少,减轻开发负担

行为记录信息少,传输压力大

(2)网页端

通过爬取进行数据收集。鉴于语言多样(python、c、go等),可用自己擅长的方式进行数据收集。

方法论:人工确定爬取信息的维度→分析目标网站URL构成→确认爬取工具→编写程序语言→获取数据→保存于本地→后续进行数据挖掘。

数据标注和数据采集哪个容易些(一文读懂数据标注)(3)

好了,如想知道更多内容,请关注【三元园区】,下周小编将为大家带来数据清洗相关内容,让我们不见不散。

,