智能设备走入家庭,会有哪些安全噩梦?
【编者按】到2020年,全球将有2.25亿智能音箱走入消费者家中。到2020年,全球将有2.25亿智能音箱走入消费者家中。但智能音箱市场膨胀的同时,我们不得不考虑这些设备走入家庭的潜在安全影响。 联网设备快速增殖,物联网(IoT)技术迅速超越了基本联网装置和可穿戴设备的范畴,语音处理等更复杂的互动式功能开始冒头,智能音箱之类声控设备迎来极大增长。 Adobe Analytics 的调查研究显示:2018年,受访消费者中32%拥有智能音箱,上年同期的比例是28%。语音助手产品的采用率甚至超过了智能手机和平板电脑的——事实上,有人预测:到2020年,全球将有2.25亿智能音箱走入消费者家中。 智能音箱蓬勃发展 智能音箱市场膨胀的同时,我们不得不考虑这些设备走入家庭的潜在安全影响。一个不太为人所知的威胁就是“Skill Squatting ”(译为:技能偷占),该威胁很可能发展成现实网络安全问题。 语音助手驱动的设备依赖“技能”,或者说指示助手执行任务的声音指令组合。当该用户通过短语下达声音指令时,设备注册该指令并确定用户想要激活的技能。从开启客厅的灯盏,到往购物清单上添加商品,甚至直接购买这些商品——用户下达的每一个指令都有相应的技能与之关联。 每个智能助手都有能力在软件小程序的驱动下变得更智能,可以自动执行处理进程。这些小程序会查询指令,然后通过执行一系列相关技能来完成指令指示的任务。比如说,在厨房准备晚餐时可以指示智能音箱“播放晚餐音乐”,音箱便会找到相应歌单,激活距离最近的扬声器开始播放。但要执行该指令,智能音箱必须先准确翻译用户的语音指示,再将该指令与用户想要激活的特定技能相关联。 去年9月,亚马逊报告称,开发人员已对超3,500个品牌推出了5万多个Alexa技能。报告发布后的4个多月中肯定还有新的技能不断添加到Alex技能库中。 语音处理技术目前看起来似乎没有局限性,这一点既令人振奋,又使人担忧。语言处理领域有些像是狂野西部时代,创新空间无限,但防护也几乎没有,用户对相关风险的认知几近为零。 同音异形字之殇 智能音箱错接技能会发生什么情况?通常也就是用户万般无奈,只好一遍遍重复自己想要执行的操作指令。然而,除了情绪上的沮丧和愤怒,智能音箱错误理解用户指令能造成的后果更为可怕。 语音处理技术并不能总是正确翻译指令。同音异形字或发音不清晰的指令常能引起错误解析。在亚马逊Alexa平台上测试过53.7万条单字语音样本后,伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员发现了27个可预测的错误。其中一些是同音异形字,比如“sale”和“sail”,但有些就带有不同的语音结构了,比如“coal”和“call”,或者“dime”和“time”。 所有这些潜在错误将用户暴露在了触发意外指令的风险之中,也就给网络罪犯开辟了一条新的攻击途径。恶意黑客可以盯准可预测错误,寄希望于重定向指令到恶意技能,以便窃取口令信息、入侵家庭网络,甚或将录音发送至第三方。这就是所谓的技能偷占( Skill Squatting )攻击。 以“coal”和“call”为例:“call mom”(给妈妈打电话)是智能音箱常会收到的语音指令。黑客可以开发一条能被“coal mom”语音激活的技能。“coal mom”与“call mom”从意思上讲完全不同,且“coal mom”不太可能作为合法指令注册,但智能音箱很容易搞混二者,去执行黑客的恶意指令,然后连接回正确的技能,在此期间用户毫无所觉。 UIUC研究团队的测试中,27个可预测错误中有25个都至少能被偷占成功一次——93%的成功率。 武器化 尽管尚未在实验环境外发现此类攻击,但我们很容易想象该攻击的现实世界应用。过往经验告诉我们,语音识别系统会犯错,用户家庭网络访问权会被错误地交给网络罪犯。通过激活被偷占的技能,恶意黑客甚至无需执行所请求的指令就能抽取用户的账户、家庭网络和口令信息。因为这些设备通常不带屏幕且操作很快,被偷占的技能可能激活太快以致用户注意不到。与其他攻击类似,网络罪犯能利用人类行为及可预测错误劫持预定指令,将用户导引向恶意技能。 虽然目前还没出现WannaCry或熔断/幽灵漏洞级别的大规模技能偷占攻击,不足以拉响警报,但与所有创新一样,语音处理技术总会出现故障。网络安全人员和消费者需认真对待IoT设备安全问题。只要想想近半数美国家庭拥有智能音箱,难免会对这一数字背后的大量网络犯罪潜在受害者数量暗暗心惊。