汽车各传感器测量方法(利用汽车内置传感器数据)(1)

作者:hanbingxzy 看雪学院

6 结果

开始分析,我们预期司机可能间歇性地显示出独特的行为,但直觉上不清楚这会怎样转化为我们数据库中参与者之间的可量化的识别准确性。

概念实验的初始证据发现,对于报告自身驾驶风格存在差异的几个受试者,其原始传感器数据有统计上的显著差异。受此结果影响,我们应用多类别机器学习查询框架到数据库的一个子集(停车场 ),这产生了具有可实现的准确率的有希望的起始基线。我们随后优化了分析工作流程的自由参数,并磨练成性能表现最好的分类器。

框架一调整好,我们就发现了令人信服的证据,司机们确实是可通过传感器数据区别的;

此外,我们观察到没多少数据和几个传感器足以用于识别。

表3. 识别准确率

汽车各传感器测量方法(利用汽车内置传感器数据)(2)

图3 前几个传感器按照它们区分司机能力的排序顺序显示(前5个传感器显示为红色)。刹车板位置是驾驶员风格的最明显的指示器。下一个最相关的传感器是最大发动机扭矩。

6.2 分类器集合修剪

我们的尝试优化的另一个有趣的结果是,随机森林分类器几乎总是胜过集合的其他成员(在97.33%的测试用例中更好,在99.13%的评估实例中并列第一)。

我们将这些分类器之间的性能的显着差距归因于它们独特的数学机制,特别是每个模型处理大的,冗余的和/或不相关的特征集的能力。虽然一些分类器对训练特征(支持向量机)非常敏感,但随机森林分类器做得很好,因为它内部执行特征选择步骤。

由于随机森林模型支配性能,在后续分析中,我们不报告来自分类器集合的其他成员的结果,有利于计算复杂性以及为了报告简单性。

6.3司机识别的排名先前的传感器和特征

给定优化的参数和分类器模型,我们想找到哪些传感器和特征对于精确识别最重要。为此,我们将所有可用数据(停车场和两个开路驾驶部分)组合,并使用所有可用特征(随机森林分类器)单独测试每个传感器的识别准确度。该实验的结果如图3所示,一个有趣的结论是,刹车动作在我们的数据库中(通过刹车踏板位置传感器)产生了驾驶行为的最可识别的方面。

接下来,我们探讨了特征集中各个特征的重要性。该分析遵循变量重要性方法,并再次使用组合数据集,其包括所有司机(停车场和两个开放道路驾驶部分)的所有传感器。对于待测试的每个单个特征(m),我们沿随机森林的分支随机重排其值,并使用out-of-bag error对正确的分类进行平均,以确定特征m的重要性分数。

我们的假设是传感器和特征排名结果可能适用于其他车辆。虽然在每个时刻的最大可实现扭矩可能无法从每个车辆访问,我们相信制动踏板和方向盘将是用于驾驶员识别的排名靠前传感器,因为(1)它们表示关于驾驶员的动作的最直接的信息,而且(2)似乎捕获了司机的策略/执行的最独特的方面。至于特征排序,排名靠前特征似乎捕获分析时间窗中的传感器值的范围(尽管我们期望特征重要性的确切顺序对分析方法中的差异非常敏感)。前5个特征是:min、std、max、range、第4个四分位数。

6.4查询结果与科目、传感器

接下来,我们使用不同的传感器集合计算了我们科目(停车场,对照驾驶部分1,对照驾驶部分2)的各个段上的司机识别准确度。表3示出了在各种组合中可实现的准确率。下面我们重点介绍一些关键的结果:

- 单传感器 - 使用单个传感器(制动踏板),使用开路驾驶的第一部分(约15分钟平均持续时间),在参与者组中可达到87.33%的精度,并且使用刹车传感器,在第二部分开路驾驶(〜1.5小时的平均持续时间),实现了100%的精度。

- 停车场 - 使用所有可用的传感器,在停车场的封闭道路技术演习(约8分钟平均持续时间),在参与者中可达到91.33%的准确性。

- 驾驶部分1 - 使用所有可用传感器,在第一开路段上(平均持续时间约15分钟),在一组参与者中可达到100.00%的准确度,包括城市和公路段

- 驾驶部分2 -使用所有可用传感器,在第一开路段上,(平均持续时间约1.5小时),包括住宅,城市和高速公路段,可以在一组参与者中达到100.00%的准确度

总而言之,我们的调查显示,不需要太多时间和太多传感器,就能在我们的数据库中准确地识别出一个司机。

6.5扩展:鉴别稳定性

作为一个扩展,我们还探讨了是否可以在多天的数据记录和科目中的差异中一致地识别单个司机。

为此,我们选择了一个司机,并收集了从大学到附近城市(22英里之旅)的5次往返。使用这个数据集作为查询(而我们的原始数据集作为训练),我们应用我们的分析方法,发现我们的测试司机的独特鉴别能力在多天和道路的数据中是一致的(91%的准确性,相同的司机不同的道路和多天的数据收集)。这些鉴别稳定性实验中的数据使用了所有传感器和在上面6.1节中描述的工作中开发的所有优化参数。

作为验证,我们还从训练数据库中排除该司机(减少到N = 14),并尝试使用来自5次往返(不包括在原始数据库中)的新测试数据进行查询。这导致了非常低的置信结果(在顶级候选人和亚军之间的成对比较中的平均相差6.53%)在候选司机集合中随机分布(8.2% /- 4%可能性归属于数据库中14个司机中的任何一个)。这些结果表明,当查询数据属于不存在于训练数据库中的驾驶员时,鉴别方法也可以可靠地解释。

7 相关工作

据我们所知,在2007年,由 Miyajima 等人和 Nishiwaki 等人实施的两个最相似的先前研究工作也以从传感器数据进行司机身份推理为目标。这两次努力都是由一组类似的作者完成的,他们的不同之处在于引用的 Miyajima 等人是一篇文章,而 Nishiwaki 等人以一本书章节出现。

Miyajima 等人和 Nishiwaki 等人基于从两个独立实验收集的传感器数据的频率分析(基于 ceptstrum)开发了识别方法;第一个实验使用从虚拟驾驶模拟器收集的数据(11个受试者中86%的识别准确率),以及第二个实验借助先前从CAIR数据集中收集的数据(在274个受试者中76.8%的识别准确率)。CAIR 数据集记录驾驶员对提示的对话问题做出反应时的多媒体数据,例如音频,视频和车辆传感器信息;该数据集的主要目的是研究驾驶行为过程中的人机语音交互界面。

虽然 Miyajima 等人和 Nishiwaki 等人的驾驶员识别结果是重要的,我们注意到,他们的驾驶数据集是基于模拟数据,或收集于在一个带有大型计算机机架的高仪表化的van(箱式货车)中的昂贵/不常见的传感器(即激光测距仪,视频)。我们的工作重点是在现代轿车的库存传感器,并专注于自然驾驶行为,而不引入潜在的分心的任务,如提示对话。

Choi 等人还研究了使用车载 CAN 总线信息对驾驶员进行推断,但是工作的主要重点是在正常驾驶和分散精力任务驾驶期间测量驾驶员注意力。作者评估了识别9个司机的潜力,并使用隐马尔可夫模型(HMM)达到31.45%的准确性。

另外两个相关的努力,调查了在模拟虚拟环境中识别司机的潜力,由 Zhang 等人和 Wakita 等人完成。 Wakita等人在被指示遵循指导车辆的一组30个驾驶员中达到73%的驾驶员识别。

Zhang等人收集来自20个男性受试者的模拟器数据,跨越多天环节(在相同的路线上进行会话并持续约30分钟),并使用HMM达到85%的识别准确水平。一方面,这些模拟实验实现了控制设置,其消除了真实世界驾驶中存在的潜在的混杂因素(例如,交通变化)。另一方面,参与者自身报告模拟器没有捕获真实的体验,特别强调刹车动作不能很好地模仿真实驾驶。与尝试模仿生物保真的这些努力不同,我们的数据来自真实的驾驶场景;此外,我们通过在没有外部因素影响驾驶员行为的封闭道路(停车场)会话期间收集数据来尝试平衡缺乏受控环境。

最后,Van Ly等人尝试执行驾驶员识别,使用从移动设备中的惯性传感器收集的传感器数据来区分两个驾驶员。这项工作最初表明,安装的手机传感器的加速度计与加减速活动高度相关,随后作者使用电话数据来区分两个司机沿着一个不同的多小时科目涉及住宅和公路段(使用现代轿车)。他们的结果表明,使用加速度,刹车和转弯数据,使用他们的数据集,使用无监督的k均值和有监督的SVM分类器,最高可实现的性能大约是60%。

虽然过去的结果表明驾驶员识别高于机会水平可能是可能的,但是不清楚可以从流经未修改的车辆的信息做出该推断到什么程度。我们旨在解决这一差距,并调查使用传感器数据的可能司机识别的水平,由15个驾驶员沿着开放和封闭的科目驾驶的stock车辆。与过去的工作不同,我们不使用模拟数据,也不使用手机,我们选择的传感器流是制造商预先安装的,不包括额外的仪器(即激光测距仪)。

8 讨论

虽然预料到某种程度的成功去匿名化,我们的结果是令人惊讶的,因为存在车辆中的车辆传感器数据的明显潜力,在给定有限的时间和对传感器的限制访问权限下,去区分的个人。我们认为这是一个重要的结果,因为它暗示即使简单的设备,如保险加密狗连接到汽车的内部计算机网络,都有可能侵犯隐私。此外,我们预期未来的车辆可能具有甚至更丰富的传感器流,包括视频数据和位置感知,这只会增加潜在的隐私破坏攻击。然而,我们注意到,随着更多的功能最终变成自主的,鉴别能力降低;发展到最后,车辆完全是自主的,预期我们最多能够鉴别算法而不是乘客。

8.1

缩放到大型和不同车辆

关于我们工作的一个自然的问题是,我们提出的技术是否能够在应用于大量个体时实现司机识别。尽管将我们的技术应用于只有少数司机能够仍然是一个重要的隐私问题(注:即能够成功地侵隐私),如我们的威胁模型部分所述,我们认为应该可以应用非常大规模的司机识别。具体来说,我们推测可以[一起]应用几个想法来限制匹配司机的候选池,给出传感器数据的查询样本:

- 聚类技术(以及其他无监督结构方法)可以用于将候选匹配的集合限于给定查询。

- 如果汽车和驾驶员的粗略地理位置是已知的,则可以进一步限制搜索空间。

- 访问纵向数据应便于识别(即,给定足够的数据可以区分每个人)。

我们在我们的工作中没有实验探索的一个问题是,驾驶员的鉴别特征如何在不同的车辆和车辆类型之间传递。虽然我们认为这个分析超出了我们的研究和核心威胁模型的范围,我们推测司机可能保留大部分的驾驶签名(策略和执行模式)独立于所用车辆。一个有趣的未来研究方向是开发能够适应不同车辆动力学/制造/模型的驾驶员识别模型。

8.2

实现车辆数据中的效用和隐私平衡

鉴于汽车生态系统的多样性和规模,我们认为在传感器数据交换中实现效用和隐私之间的平衡将需要法律和技术解决方案的结合。政策辩论已经迎来了增加消费者隐私保护的一贯呼吁,然而现有法律意见的多样性突出了在智能汽车系统中创建监管框架的复杂性。

已有技术方法被提出来以减缓紧张,然而使可用解决方案与每个部署环境匹配是一个困难的问题。下面我们谈谈法律和技术领域中的一些有趣的发展,我们认为它们与车辆传感器数据交换中的效用和隐私的未来相关。

8.2.1 车辆数据隐私的现有法律观点

从法律的角度来看,在车辆传感器数据所有权,处理和管理方面有不同的立场。中央政策挑战之一是减少数据重用对未预见的和潜在的对抗性目的的风险,这引起重大的隐私问题。在美国,13个州采取了车辆的传感器数据是私人的和车主的财产的立场,然而在这13个州中,在没有所有者同意的情况下什么构成可接受的数据检索存在明显的差异(康涅狄格州需要调查证,俄勒冈允许未经同意的公开是“促进人体对机动车辆碰撞的反应的医学研究”或“诊断,服务或修理汽车”,阿肯色州禁止保险公司访问事故数据,以防止保险公司假设车辆所有权)。当然,驾驶员仍然可以授权另一实体访问车辆的传感器数据,例如作为合同的一部分。

8.2.2 技术防御

从技术角度来看,存在开发防止匿名化工具可以保护个人免受隐私攻击的巨大努力。通常,这些努力集中于在有限上下文中提供理论保证,其中信息发布由能够模糊数据或注入噪声以防止数据条目与特定人员的链接的统计数据库(或数据库)管理。虽然这些方法提供了强有力的保护,但是它们的使用情况在某种程度上受到实施隐私政策所需的信息请求和释放机制的限制。与车辆传感器数据的流传输性质更加一致,是朝向保护实时流传输隐私(例如,SensorSift)的工作,旨在移除数据的敏感方面,同时允许有用的推论仍然能从筛选过的数据中提取到。

特定于司机反识别问题的另一种防御技术是将随机传感器信号(例如,中断踏板致动)嵌入到 CAN 总线的输出节点(例如,OBD-II端口)。以这种方式,车辆状态实际上不会被信号注入中断(即,中断信号将不被执行),但是将被任何上游订户观察到,因此在获取驾驶员的唯一身份指纹的能力中引入噪声。

最后,一些汽车制造商开始通过网关调解对CAN数据包的访问,这可以限制在 OBDII 端口可观察到的信息。如果此功能变得更常见,它将阻止依赖从诊断端口的数据渗出的方法(尽管可能使用网络上的其他受信任节点来访问传感器数据)。

9 结论

通过我们的工作,我们希望在现实的车辆环境中向利益相关者通报信息泄露(通过隐私制动推理)的具体结果。与以往的工作不同,我们的分析只集中在典型车辆(2009轿车)的库存传感器,没有使用制造商安装之外的传感器。如我们的结果所示,可以使用从有限的传感器集合收集的有限量的传感器数据精确地识别驾驶员(例如,区分15个驾驶员的87%精确度,仅使用来自开路的15分钟的制动踏板位置驾驶数据[13.5分钟训练,1.5分钟测试数据],使用前5个传感器可实现99%的精度)。此外,我们的扩展工作表明,驾驶员的身份指纹(驾驶策略和独特的执行模式)在不同的日期和道路类型(见第6.5节)是一致的。

这些结果表明,当没有实质性的保证优质的服务时,司机应该警惕共享他们的车辆数据流。类似地,所述数据的消费者和收集者应该有责任向用户提供隐私控制,并为跟上不断发展的威胁模型情景的数据处理和保留开发保护措施。

10 致谢

这项研究得到了 Alfred P. Sloan 基金会,英特尔普适计算科学技术中心和 NSF Grant CNS-0963695 的资助。我们衷心感谢 Melody Kadenko 在本项目的所有阶段给予的重要和持续的支持。我们也感谢帕特里克·约翰逊和华盛顿大学通勤服务协助安排我们使用E1停车场进行实验。

本文由 hanbingxzy 编译

原文作者:Miro Enev*, Alex Takakuwa, Karl Koscher, and Tadayoshi Kohno

,