前几天,雅虎公司终于承认,在2013年曾发生了一起泄露用户个人信息的事件,涉及10亿个雅虎账号,这个数字几乎相当于全部雅虎用户的数字,被认为是人类历史上规模最大的信息泄露事件。

泄露的内容包括,用户的姓名、生日、邮箱地址、密码、电话、安全问题和答案。

黑客公然在网上出售用户信息

雅虎为啥被盗了 人类历史上最大规模的信息泄露(1)

换句话说,如果您以前注册过雅虎邮箱,那您用在雅虎邮箱上的那套用户名和密码已经不安全了。您的其他账户只改密码还不行,因为安全问题和答案也泄露了,黑客可以还凭借它轻松“找回”你的密码,对于用户来说这是件想想都头疼的事情。

改密码都没用系列……

这件事情严重到美国白宫都要出面讲话,白宫发言人欧内斯特宣布FBI已经开始对这起数据被盗案件进行调查。谁是幕后黑手要等待公正的调查结果,今天我们就来说说这起泄露事件是怎么发生的。

和雅虎公司的泄露事件前后脚,前一阵子有个国家电网旗下的“掌上电力”和“电e宝”等等APP泄露用户信息的事情。同样都是泄露用户信息,这两件事情本质上不一样。国家电网这个是有个别的“内部员工”为了完成任务,把用户的信息交给了淘宝。国家电网自查当中有一句话很清楚:“相关信息系统无批量导出功能,无渠道可获取批量客户信息。”

雅虎为啥被盗了 人类历史上最大规模的信息泄露(2)

而雅虎这个泄露恰恰相反,属于被人从外部攻破,它是被黑客批量导出了用户信息,所以才会有10亿这么大的量。可是我们都知道,网站存储用户信息从来不是“明文信息”,黑客拿到的不是一张Excel表格上面写着张三李四的用户名和密码,而是一份加密过的数据。毕竟哪家网站也不能保证自己完全不会被黑客攻破,那么至少要保证,黑客即便拿到了数据,也破解不了。所以问题主要出在了雅虎的加密算法上。

雅虎采用的是一种叫做MD5的加密方案。我们有时候在网上下载软件的时候网站会给出一串MD5码,在你把软件下好之后,可以用MD5校验工具验证一下,比对一下网站给出的原版MD5码,看看软件有没有经过恶意修改,从而保证安全。

雅虎为啥被盗了 人类历史上最大规模的信息泄露(3)

MD5的全称是Message-DigestAlgorithm 5,上世纪90年代初就被提出来了,由MD2/MD3/MD4 发展而来的。无论输入任何长度的信息,总能输出固定长度四个32位数据,最后联合起来成为一个128位的散列。MD5的实际应用是对一段Message(字节串)产生fingerprint(指纹),可以防止被“篡改”。

雅虎为啥被盗了 人类历史上最大规模的信息泄露(4)

例如我写一段文字:“任梦岩惹人烦”,经算法变换后得到MD5码:

c553424fc38f248145ae77a41033f8a2。即便我把这个码发给任梦岩,他也没法还原出之前的文字是什么。所以无论用它来表白或是骂人都很安全……

这种散列算法还有一个特性,就是原信息的一点点变化就会导致结果的巨大变化,例如“任梦岩 惹人烦”(中间加了一个空格)的MD5码为:9ad036deaae73facaf2d034aa8aa3516。跟之前的差别非常大,而且之间没有任何关系,完全不可预测。基于信息摘要算法,只要稍被篡改,会很容易发现。

MD5和SHA安全哈希算法(Secure Hash Algorithm)都来源于MD4,所以本质上差不多,最大的区别是:SHA-1产生的是160位(2的160次方)的消息摘要,而MD5是128位(2的128次方),比MD5多了32位,相对更加安全。

然而早在2005年,密码学家就证明SHA-1的破解速度比预期提高了2000倍,虽然破解仍然是极其困难和昂贵的,但随着计算机变得越来越快和越来越廉价,SHA-1算法的安全性也逐年降低,已被密码学家严重质疑,希望由安全强度更高的SHA-2(SHA-224, SHA-256, SHA-384 和 SHA-512)替代它。微软第一个宣布了SHA-1弃用计划。2016年1月1日起微软停止签发新的SHA-1签名算法SSL证书和代码签名证书。

感受一下“科技富能量”这几个字在几种加密算法下不同的复杂程度:

雅虎为啥被盗了 人类历史上最大规模的信息泄露(5)

附一个哈希值加密算法的网站:http://www.atool.org/hash.php感兴趣的朋友可以去玩耍。

2013年,雅虎曾经考虑过放弃MD5加密方案,但是为时已晚。同年8月份,黑客就盗取了10亿条加密极其脆弱的账户信息。而直到3年之后的今天,雅虎才察觉到自己丢了东西。看上去是雅虎运气不好,刚考虑更换方案就赶上黑客攻击,可是5年前就被专家警告的风险,为什么早没被重视起来呢?

雅虎丢东西丢得后知后觉

雅虎为啥被盗了 人类历史上最大规模的信息泄露(6)

据一位雅虎前安全专家讲,当年的雅虎被谷歌、Facebook压得喘不过气来,他们把更多的钱全都用来拓展业务,但是却轻视了安全。我们总说安全面前无小事,哪怕当初只是贪了一点点、迟了一点点,多少年过去,迟来的总归会来。

我现在最担心的是:有多少网站还在使用SHA-1算法?又有多少黑客在对这些数据虎视眈眈?

,