爬虫内容怎么加上自己需要的(这届网友已经开始用爬虫互相贴标签了)(1)

十几天前,在为C端用户提供拓展脚本的论坛网站Greasy Fork上,一位开发者做了一款“原神玩家指示器”。据开发者留下的公开信息,此拓展脚本主要应用于B站视频的评论区,安装了该工具的用户可以识别出发言的网友是否为原神玩家。

爬虫内容怎么加上自己需要的(这届网友已经开始用爬虫互相贴标签了)(2)

识别的方式也很简单,经过拓展脚本的筛选,符合条件的网友会在其头像与昵称的后面,被标注上“原神玩家”几个字。

爬虫内容怎么加上自己需要的(这届网友已经开始用爬虫互相贴标签了)(3)

这款拓展脚本一经发布,就引起了游戏玩家的强烈反响。在Greasy Fork这个较为小众的用户脚本论坛上,原神玩家指示器的安装量已达数万次,反馈中,不少用户将其称之为“本年度最好用的脚本”、“这个伟大的发明仅次于第一定律”、“几个字就能带来极致的精神享受”。

不仅如此,由于该开发者表示自己是做着玩的、不太会迭代更新,但部分用户确实在使用中发现了一些bug,于是论坛上涌现了很多愿意参与其中的开发者,有的人制作出了“原神玩家指示器升级版”,有的发明了适用于B站、微博、知乎在内的全平台版本脚本,还有的将王者荣耀、明日方舟、新三相之力等大热游戏都涵盖在内,支持识别更多游戏玩家群体。

在使用了该拓展脚本的用户界面中,每个网友的昵称后面被贴上了五颜六色的标签,且针对不同标签的群体数量,指示器还会显示“普通”、“稀有”、“史诗”、“隐藏”等前缀。

而指示器检测不出任何标签的用户,会被标注为“普通|纯良”。

爬虫内容怎么加上自己需要的(这届网友已经开始用爬虫互相贴标签了)(4)

这场始于游戏圈的“指示器”制作大赛到这里并没有结束。

为了响应用户们对其他领域身份识别的需求,越来越多类型的指示器出现在了拓展脚本的论坛上,包括识别虚拟主播(Vtuber)的V圈指示器、明星粉丝的饭圈指示器、苹果/华为用户的指示器、抽奖转发参与者指示器……..

匿名开发者们很快制作出了应用范围更广的拓展脚本。在一个名为“成分指示器”的脚本中,用户可以通过自定义关键词来实现识别不同网络群体的目的。换言之,这款“指示器”是一个可供用户个性化使用的“给网友打标签机器”。

仅从技术实现角度来看,指示器的制作并不复杂。

它主要利用了爬虫技术来读取社交平台的API数据,通过挖掘评论区和用户发布动态的内容,按照一定的匹配规则进行筛选。这种爬虫技术最早应用于互联网搜索引擎中,近年来曾被大数据公司用于获取用户个人信息和简历,一些公司对它的滥用也助长了互联网金融借贷的导流获客和暴力催收等行业乱象。

虽然随着AI技术的发展,很多互联网平台开启了智能反爬虫功能来保护用户的个人隐私,但对于社交媒体平台来说,用户所发布的动态、评论转发点赞的内容,以及头像和昵称等公开信息,仍可以被爬虫软件轻易获取。

一方面是拓展脚本的技术实现成本和用户获取成本无限低,另一方面则是互联网世界的割裂程度的加剧,于是爬虫“摆脱”了商业目的的束缚,爬到了数万网友的手中。

在最先火出圈的“原神玩家指示器”拓展脚本评论区中,已经聚集了很多对原神游戏及其玩家具有负面情绪的用户,在不少用户互动对话里,也开始了基于各自喜爱游戏立场的对线。

爬虫内容怎么加上自己需要的(这届网友已经开始用爬虫互相贴标签了)(5)

整体来看,这类“对线”针对游戏内容本身的并不多,更多是在以游戏作为标签对社交媒体上的陌生网友进行群像化分类。事实上,很多用户需要“网友指示器”的原因,是希望对社交媒体中发表与自身观点相反、谈论自己不喜内容,或曾就某议题产生过争执的陌生网友,找到一种标签式的合理解释。

借助指示器来给网友打标签的人中,相当大一部分用户的诉求是——屏蔽不想看的标签内容与社交账户。

“谢谢你,我真的很需要这个,如果能屏蔽掉这一群体的发言就更好了。”

“请问可以改成屏蔽id及内容吗?不关心是不是,就是不想看。”

“需要一键拉黑功能,如果可以自动屏蔽就更好了。”

而能成功实现这种诉求的拓展脚本也很快被制作出来。

事实上今天的头部社交媒体平台上,屏蔽和拉黑早已成为必不可少的功能。以微博为例,仅在拉黑上就做过多次调整,包括主页是否可见、发文对谁可见、谁能参与评论在内的一系列具体功能,用户都有着相对细分的选择权限。即使对零互动的陌生网友所发内容,微博也设置了屏蔽关键词的功能。

但看起来这些出于预防网络暴力目的推出的功能对不少用户来说还是不太够。

不少使用了此类指示器的用户发帖表示,他们反向追溯了以往看不惯的网友发言内容,不出意料地发现这些网友果然被打上了某类标签。

一些有意思的变化也随之发生,这一方面令他们更加确定了自己对某类观点或内容的厌恶是正确的,另一方面也加深了他们对某个标签化群体的厌恶情绪。

而不少网友显然并不满足于只是识别出来“敌军”。

有网友观察到,一些网络对线爱好者在B站和微博等社交媒体开启了“猎巫”行动,他们不在乎网友们具体发表了什么内容和观点,而是专注于寻找被指示器打上了某类标签的群体,并进行无差别攻击。

一个荒谬的例子是,在“原神指示器”早期版本中,因为脚本的不完善,所有网友的发文内容之要含有“原”和“神”两个字,都会被指示器打上标签。于是,在一些名为“还原神州飞船”和“感染源神出鬼没”的发问评论区中,明明内容与游戏毫不相关,却出现了游戏玩家或团建或对线的群体行为。

当然,也有很多用户认为用指示器给网友打标签只是图个乐玩一玩,并且随着安装脚本用户的激增,大量发送到社交媒体服务器的数据请求,也很可能已经引起了平台方的注意,对于滥用爬虫技术的行为,开发者面临着被平台方起诉的风险,而使用者的账号也存在被封禁的可能。

爬虫内容怎么加上自己需要的(这届网友已经开始用爬虫互相贴标签了)(6)

看着这类指示器的流行,很容易让人再次确信,这些年互联网对人们思维的最大改造就是贴标签。移动互联网时代的平台无论是短视频,资讯、外卖、出行还是电商购物,只要有用户账号存在的地方,平台系统都在以打标签的方式将用户分门别类,再通过算法来推荐偏好内容或服务。

现在看来网友们也开始用同样的方法对待彼此了。

,