趋势网(微博|微信|熊掌号):有没有想过,在Hangouts(谷歌环聊)会话的另一端的人们到底在看什么呢?根据上周在圣巴巴拉举行的CRYPTO 2018大会上发表的一项研究,在机器学习的帮助下,你或许可以从他们的肩膀上窥见一斑。你需要做的就是处理他们麦克风接收到的声音。
金正恩:朝鲜半岛核战争一触即发 受王宝强资助孩子父亲发声 贫困生一年旅游20多地引争议 旺旺三公子称明显有人在搞事 百雀羚化妆品疑似涉嫌添加禁用原料
密歇根大学的Daniel Genkin,宾夕法尼亚大学的Mihir Pattani,康奈尔科技大学和特拉维夫大学的Roei Schuster,特拉维夫大学和哥伦比亚大学的Eran Tromer研究了一种他们称之为“联觉”的远程监控的潜在新途径:一种侧通道攻击,可以显示远程屏幕的内容,仅基于“LCD屏幕内容相关的声学泄漏”提供对潜在敏感信息的访问。
这项研究由特拉维夫大学信息安全检查点研究所(Schuster和Tromer是该研究所的成员)资助,部分由国防高级研究计划局资助。Van Eck phreaking使用的是无线电信号,会泄露显示连接器的信号,而联觉研究利用的是“线圈呜呜”,即变压器和其他电子元件发出的声音,用于为设备的LCD显示屏供电。
音频炸弹
无论如何,这并不是第一次发现声侧信道攻击。Genkin和tromer——包括RSA密码算法的共同发明者之一Adi Shamir在内的另一组研究人员——之前演示了一种利用计算机电源和其他组件产生的噪音来恢复RSA加密密钥的方法。民族国家使用声侧通道已经被证明,尽管不是针对电脑屏幕。在前军情五处助理处长彼得·赖特(Peter Wright)的《间谍捕手》(Spycatcher)一书中,赖特讲述了英国情报机构在苏伊士危机期间如何使用电话龙头录制埃及大使馆密码机的音频。而声学窃听也被证明可以揭示物理键盘上的按键。
任何记得使用阴极射线管监视器的人都熟悉线圈抱怨的现象。尽管LCD屏幕比老式CRT屏幕耗电少得多,但它们仍然会产生同样的噪音,只不过频率范围完全不同。
由于计算机屏幕呈现显示的方式——向每行像素的每个像素发送不同强度的信号——在显示器进行刷新扫描时,向每个像素发送的功率会发生波动。每个像素强度的变化会造成屏幕电源产生的声音波动,泄露关于图像更新的信息——这些信息可以通过机器学习算法进行处理,以提取显示内容的细节。
这种音频可以通过多种方式捕捉和记录,研究人员在这个案例中演示了这一点:通过设备的嵌入式麦克风或在Skype、谷歌Hangouts或其他流音频聊天期间的附加网络摄像头麦克风;通过附近设备的录音,如谷歌家庭或亚马逊回声;在附近的一个智能手机;或者使用一个抛物面麦克风,距离可达10米。即使是一个相当便宜的麦克风也能从显示器上接收并录制音频,即使它只是在人类听觉的边缘。结果是音频可以通过机器学习的黑魔法得到利用。
远程深挖
研究人员开始尝试识别简单的、重复的模式。“我们创建了一个简单的程序,可以显示相同厚度(以像素为单位)的水平黑白条纹交替出现的图案,我们将其称为斑马,”研究人员在论文中叙述道。这些“斑马”每条都有一个不同的周期,用黑色条纹之间的像素距离来衡量。当程序运行时,团队记录了Soyo DYLM2086显示器发出的声音。随着条纹的不同周期,超声噪声的频率以可预测的方式移动。
音频的变化只能提供关于某一行像素的平均强度的可靠数据,因此它不能直接显示屏幕的内容。然而,通过在三种不同类型的攻击中应用监督机器学习,研究人员证明,可以提取大量关于远程屏幕上内容的信息。
经过训练后,神经网络生成的分类器能够以96.5%的准确率,根据谷歌Hangouts调用捕获的音频,可靠地识别出Alexa排名前10位的哪些网站在屏幕上显示。在第二项实验中,研究人员能够在竖屏模式(典型的平板电脑和智能手机配置)下可靠地捕捉屏幕上的键盘敲击,准确率达96.4%,在按键“轻击”之间的切换时间为1秒到3秒。在景观模式显示中,分类器的精度要低得多,第一次猜测的成功率只有40.8%。然而,在风景模式中,正确的输入词出现在前三种选择中,占71.9%,这意味着进一步的人类分析仍然可以得到准确的数据捕获。(在竖屏模式分类器中,正确输入的单词占99.6%,排在前三名)
在第三个实验中,研究人员使用引导机器学习的方法,试图从显示内容中提取文本,这是一种比检测屏幕键盘强度变化更细粒度的数据。在这种情况下,实验集中在100个英语单词的测试集上,并使用了某种理想的显示设置来进行这种捕捉:所有字母都大写(Fixedsys Excelsior字体,字符大小为175像素宽),在白色屏幕上用黑色。正如研究小组报告的那样,结果很有希望:
每个字符验证集的准确度(包含10,000个跟踪集合的10%)从88%到98%不等,最后一个字符的准确度为75%除外。在100份测试单词的录音中,有两份的预处理结果是错误的。对于其中的56个,列表中最可能的单词是正确的。其中有72个单词出现在最可能出现的前五名中。
当这些测试都完成了单一监控类型,研究人员还证明了“交叉屏幕”攻击也可能使用远程连接到远程屏幕上显示相同的图像和录制音频,可以为目标屏幕校准基线。
显然,作为一种远程监测手段的声学侧通道的实用性是有限的。但随着人们开始使用智能手机和平板电脑等移动设备来完成更多的计算任务——内置麦克风、有限的屏幕尺寸和更可预测的显示环境——此类攻击的可能性可能会上升。降低风险需要对现有的屏幕技术进行重新设计。因此,尽管这仍然是一个小风险,但那些处理敏感数据的人肯定需要记住这一点——尤其是如果他们花很多时间在谷歌上与屏幕上的数据打交道的话。