公元1977年5月25日,在美国37家影院上映了一部名不见经传的科幻电影,没有大牌明星、没有一线大导演、没有人们熟悉的故事。这个发生在外太空的战争影片,从一开始就没有人看好她的前途。可是它最终成就了百亿票房,并成为了全世界科幻迷集体记忆的一部分,这部电影就叫做——《星球大战》(STAR WARS)。
作为资深铁粉,看完了这么多部,你能否说的出来到底是哪个角色带动全场,出镜最高呢?
R2-D2(图片来自网络)
是这台机智、勇敢、略略鲁莽的宇航技工机器人R2-D2,而它甚至从来没有一句台词。
R2-D2知识图谱
尤达大师知识图谱
尤达大师 (图片来自starwars)
比起在《The Phantom Menace》、《Attack of the Clones》、《Revenge of the Sith》、《The Empire Strikes Back》、《Return of the Jedi》这五部影片中都登场的快900岁的尤达大师,参与了7部星球大战的电影的R2-D2,才是星球大战体系中剧情发展的真正“推手”。
那R2-D2来自哪颗星球?他曾服役于哪几艘飞船?曾经出现在哪几部星战电影中吗?上图一样可以告诉你,R2-D2是一名来自纳布星球的宇宙技工机器人,最早与同系列的其他31个宇宙技工机器人一起服役于民选女王的皇家飞船,后来长期服役于Droid Starfighter。
再来考一考资深铁粉。战事遍布整个银河系的星球大战,到底在哪颗星球上发生了最多的故事?
答案是塔图因!
塔图因(图片来自starwars)
塔图因星球的知识图谱
让我们再以塔图因这颗星球为例,从图上我们看到了什么信息:
- 达斯·摩尔在这遇见了还是奴隶的阿纳金·天行者。
- 经魁刚的引荐,阿纳金(Anakin)从此离开塔图因开始了他的绝地之路。
- 阿纳金重返塔图因,给母亲施密·天行者(shmi skywalker)复仇。
- 欧比旺为了逃避达斯·西迪厄斯对绝地的屠杀,隐居塔图因,并将还是婴儿的卢克交给阿纳金的同母异父的兄弟欧文·拉尔斯夫妇抚养。
- 莱娅公主的飞船遭达斯·维德劫持,C-3PO和R2-D2携帝国死星计划图纸乘坐救生舱弹出飞船坠入塔图因,在那里他们被卖给了卢克的叔叔欧文·拉尔斯。
- 因为R2-D2的出现,使得卢克有机会与欧比旺大师相遇,成为绝地武士。
这一张带着各色点点的图片,就讲了这么多故事?
其实这并不只是一张图片,这一类带有各色点点的图片其实有专属称为——知识图谱(Knowledge Graph),这一概念最早可以追溯到上世纪六十年代提出的一种知识表示形式——语义网络。在当今的互联网时代,日常所使用的知识图谱则是来自著名搜索引擎Google,通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱在为学科研究提供切实的、有价值的参考的同时,更能提高搜索引擎能力和提升用户搜索体验。
星球大战知识图谱
从基本形式上分析,知识图谱一般有两种形式,即“实体-关系-另一个实体”和“实体-属性-属性值(通常属性值也是实体)。”
比如在前文所提到的星战系列知识图谱,便是使用的左图中的“实体-关系-另一个实体”形式,它将6部影片、87位主要角色、21个物种、37种艘宇宙飞船、39种战争武器,在一张数据图谱内完整记录,并以类似牵线气球的形式进行组合拼接,所构成的巨大图形网络。
图中的节点代表一个实体,颜色代表实体的分类,而线则代表的是实体与实体间的关系。如在“星球大战”图谱中,作者使用不同的颜色用来区分不同实体类型,以绿色代表每部的电影宇宙;以蓝色代表每部电影中出现的角色;以肉粉色代表星球;以透明线条表示了各个实体类别之间的关系。
而要构成一幅知识图谱其中最为基础也是最为关键的便是图谱内人物关系等数据的收集。按照由易到难程度,我们可以简单粗暴地把用于制作知识图谱的数据来源分为结构化数据、半结构化数据、非结构化数据三种。
其中,半结构化数据(如维基百科数据、引用数据)需要通过一定的抽取和转化,非结构化数据(如文本数据)则需要运用到自然语言处理等人工智能技术手段将其结构化才为知识图谱所用。结构化数据则相对比较简单,我们只需要通过简单的代码将它转换成知识图谱两种基本形式并分别存入两张表:一张实体-属性-属性值表,一张实体之间的关系表,再考虑用什么工具将它进行可视化即可。
比如我们本文所介绍的“星战系列电影知识图谱”(传送门zhanghonglun/starwars/)便是用到了星战迷开放的数据接口(swapi.co/api/people/1/)提取数据,并用可视化插件老大哥D3(Data-Driven Documents,d3js/)进行的可视化展现。
当然,除了D3以外我们还可以选择百度ECharts以及图形数据库Neo4j附带的展示插件对数据进行可视化展现。
除此之外,在进行可视化后,为了使知识图谱的外观显得更为灵动,我们可以在D3中改变可视化知识图谱,比如代表实体的圆球颜色,比如连接线的样式,比如整体图谱的呈现形式等等。在“星球大战知识图谱”中,作者就将实体球的颜色和形状,根据不同的类别进行统一,加以漂浮效果,避免枯燥的数据呆板无趣,更以透明线连接的形式,避免过于繁复的图谱给读者的阅览造成不便,同时作者还在图谱的左侧增加了搜索栏一项,整体改善了如大海捞针般的搜索体验。
知识图谱通过将冗杂的知识领域通过数据挖掘、信息处理、知识计量后,绘制出知识与知识间的关系图形,以图谱的形式形象客观的揭示该知识领域的动态发展规律,让该图谱的使用者能够更好更系统化的了解该知识领域的全貌,为使用者选取更为精确的内容,为学习的深入提供更好的助力,更在当今互联网时代,成为了搜索引擎提升搜索效果,不可或缺的手段。
知识图谱告诉你的其它关于星球大战的冷知识:
1、通过Characters的一些统计信息,星球大战系列中只有19名女性。她们平均身高165.8CM、体重56KG,而这个系列里男性的平均身高是185.8CM、体重83.2KG。总体上看,星战里的角色平均身高在174CM,平均体重在97KG,为什么那么胖?这其实是一个异常点——Jabba Desilijic Tiure,身高仅175cm,体重却达1358kg,就是他拉高了平均体重。
贾巴(图片来自网络)
2、从这些数据中,还发现87个角色里,光头非常流行——头发颜色的数据显示37个NONE(没有数据是N\A),19个是棕色头发。同时,棕色眼睛在这7部电影里最受宠,有21个角色拥有棕色眼睛,其次才是蓝色眼睛,有16人。
楚巴卡(图片来自网络)
Star Wars API字段汇总##
- Film:title、episode_id、opening_crawl、director、producer、release_date、characters、planets、starship、vehicle、species、created、edited、url
- Characters:name、height、mass、hair_color、skin_color、eye_color、birth_year、gender、homeworld、films、species、vehicle、starships、created、edited、url
- Planets:name、rotation_period、orbital_period、diameter、climate、gravity、terrain、surface_water、population、residents、films、created、edited、url
- Starships:name、model、manufacturer、cost_in_credits、length、max_atmosphering_speed、crew、passengers、cargo_capacity、consumables、hyperdrive_rating、MGLT、starship_class、pilots、films、created、edited、url
- Vehicles:name、model、manufacturer、cost_in_credits、length、max_atmosphering_speed、crew、passengers、cargo_capacity、consumables、vehicle_class、pilots、films、created、edited、url
- Species:name、classification、designation、average_height、skin_colors、hair_colors、eye_colors、average_lifespan、homeworld、language、people、films、created、edited、url
注:
1.本文中所提到的“星球大战”系列知识图谱地址:assets.dtcj/visualization/star_war/index.html
2.本文内电影资源数据均“星球大战”系列知识图谱截止时间同步。
3.部分内容引用自宏伦工作室。
4.头图来自网络。
本文来自微信公众号“上海科技创新资源数据中心”。
如需转载,请在“上海科技创新资源数据中心”后台回复“转载”
,