当前位置:首页 > 智能 > 正文内容

匿名代码根本无法破解?不存在的!机器学习玩转去匿名化

访客2021-05-01 05:29智能1547

编者注:匿名的代码是否真的无法破解?代码的开发人员是否能完美隐藏?新的研究表明可以利用机器学习技术对代码样本的作者进行去匿名化操作。这种操作对剽窃和隐私问题也会产生影响。本文将带你了解去匿名化研究目前的结果和未来的方向。

文体学(语言文体的统计分析)研究者—早就知道写作是一个独特的、个人主义的过程。您选择的词汇、句法和语法都会留下痕迹。例如,只要自动化工具有足够的培训数据可供使用,它们现在就可以准确地识别论坛帖子的作者。但最新的研究表明,文体学也可以应用于人工语言样本,比如代码。事实证明,软件开发人员也会有指纹留下。

雷切尔·格林斯塔特(Rachel Greenstadt)是美国德雷塞尔大学计算机科学的副教授。艾林·卡利斯坎(Aylin Caliskan)是格林斯塔特的前博士生、现任乔治·华盛顿大学助理教授。他们两人发现,代码和其他形式的文体表达一样,都是无法匿名的。在周五的DefCon黑客大会上,这两位科学家将展示他们的多项研究。在研究中,他们利用机器学习技术对代码样本的作者进行去匿名化操作。例如,他们的工作可能在剽窃纠纷中发挥作用,但同时它也有隐私问题,尤其是对成千上万向世界贡献开源代码的开发者而言。

如何对代码进行去匿名化?

下面用一个例子对研究人员如何使用机器学习来发现代码的作者进行简单解释。首先,他们设计的算法识别了在一些代码样本中找到的所有特征,有很多不同的特征。想想自然语言中存在的每一个方面:有你选择的单词,你把它们组合在一起的方式,句子长度,等等。格林斯塔特和卡利斯坎随后缩小了功能范围,使其只包含了真正区别于其他开发者的功能,将列表从数十万缩减到大约50个。

研究人员不依赖底层特性,比如代码的格式化方式。相反,它们创建“抽象语法树”来反映代码的底层结构,而非它的任意组件。他们的技巧类似于优先排序某人的句子结构,而不是在于他们是否缩进一个段落的每一行。

!
也想出现在这里? 联系我们
首页广告区块

这个方法还需要一些别的工作来教一个算法,让它知道什么时候应该发现另一个代码示例。如果一个随机的GitHub账户弹出并发布了一个代码片段,格林斯塔特和卡利斯坎就不一定能够识别背后的人,因为他们只有一个样本可以使用。他们可能会说,这是一个他们从未见过的代码开发人员。然而,格林斯塔特和卡利斯坎并不需要把一生的时间都花在代码上,他们只需要几个短的样本。

例如,在2017年的一篇论文中,卡利斯坎、格林斯塔特和另外两名研究人员证明,即使是存储库站点GitHub上的一小段代码,也足以区分出各个编码者之间的区别,而且精确度相当之高。

最令人印象深刻的是,卡利斯坎和其他研究团队在另一篇论文中表示,只用他们编译的二进制代码就可以去匿名化程序员。在开发人员编写完一段代码后,一个名为编译器的程序将它转换成一系列的1和0,机器可以读取这些1和0,称为二进制。对人类来说,这简直就是胡说八道。

卡利斯坎和与她一起工作的其他研究人员可以将二进制分解回C++编程语言,同时保留开发人员独特风格的元素。假设您写了一篇论文,使用谷歌翻译将其转换为另一种语言。虽然文本看起来可能完全不同,但是您编写的方式元素仍然嵌入到了语法之类的特性中。代码也是如此。

“风格被保留了下来,” 卡利斯坎说。“当文本是以个人学习为基础时,就会有很强的风格特征。”

为了进行二进制实验,卡利斯坎和其他研究人员使用了谷歌 Code Jam年度编程挑战赛的代码样本。机器学习算法正确地识别出了100名个体程序员,而只用了96%的时间。每个人使用8个代码样本。即使将样本量扩大到600名程序员,该算法仍能在83%的时间内准确识别。

对剽窃和隐私的影响

格林斯塔特和卡利斯坎说,他们的工作可以用来判断编程学生是否有抄袭行为,或者开发者是否违反了雇佣合同中的非竞争条款。安全研究人员可能会使用它来帮助确定创建一种特定类型恶意软件的可能开发人员。

更令人担忧的是,一个威权政府可能会使用去匿名化技术来识别背后的个人,比如说,一个规避审查的工具。这项研究还对那些为开源项目做贡献的开发人员有隐私方面的影响,特别是如果他们一直使用相同的GitHub账户的话。

格林斯塔特说:“人们应该意识到,在这种情况下,要百分之百地隐藏自己的身份是非常困难的。”

例如,格林斯塔特和卡利斯坎发现,一些现成的混淆方法,即软件工程师用来使代码更复杂、安全性更高的工具,并不能成功地隐藏开发人员的独特风格。然而,研究人员说,在未来,程序员可能能够使用更复杂的方法隐藏他们的风格。

“我确实认为,只要我们继续进行下去,将会发现一件事,那就是什么样的混淆方法能够掩盖这些东西。” 格林斯塔特说:“我不相信,最后发现的结论是你做的每件事都是有迹可循的。无论如何,我希望不是这样。”

例如,在另一篇论文中,由华盛顿大学的露西 ·西姆科(Lucy Simko)领导的团队发现,程序员编写代码的目的可以是让算法相信自身是别的程序员编写出来的。该团队发现,即使开发人员没有专门训练过如何创建赝品,他们也可能会对自己的“编码签名”进行恶搞。

未来的研究方向

格林斯塔特和卡利斯坎还发现了许多关于编程本质的有趣见解。例如,他们发现经验丰富的开发人员比新手更容易识别代码。你越熟练,你承担的工作就越独特。部分原因可能是因为初级程序员经常从Stack Overflow这样的网站复制粘贴代码解决方案。

同样,他们发现,解决更困难问题的代码示例也更容易属性化。通过使用62名程序员组成的样本,这62名程序员每个人都解决了7个“简单”的问题,研究人员在90%的时间里都能够将他们的工作去匿名化。当研究人员使用7个“困难”问题样本时,他们的准确率下降到95%。

在未来,格林斯塔特和卡利斯坎想要了解其他因素是如何影响一个人的编码风格的,比如当同一个组织的成员在一个项目上合作时会发生什么。他们还想探究一些问题,比如来自不同国家的人是否会以不同的方式编码。例如,在一项初步研究中,他们发现他们可以区分加拿大和中国开发者编写的代码样本,准确率超过90%。

还有一个问题,相同的属性方法是否可以在不同的编程语言中以标准化的方式使用。目前,研究人员强调,尽管到目前为止他们的方法已经被证明是有效的,但是去匿名化代码仍然是一个神秘的过程。

“我们仍在努力弄清楚哪些是真正可以属性化的,哪些不是。”格林斯塔特说:“有足够的理由证明,这些应该引起关注,但我希望这不会导致任何人都不公开发表意见的糟糕情况发生。”

扫描二维码推送至手机访问。

版权声明:本文由4K智能学习网发布,如需转载请注明出处。

本文链接:https://4k3.cn/post/15520.html

分享给朋友:

“匿名代码根本无法破解?不存在的!机器学习玩转去匿名化” 的相关文章

工信部将国产特斯拉纳入免征购置税新能源车目录

工信部将国产特斯拉纳入免征购置税新能源车目录

国产特斯拉也被纳入了免征车辆购置税目录。 12月27日,工信部在公布免征车辆购置税的新能源汽车车型目录(第二十九批)中,将特斯拉上海产车型纳入免征车辆购置税的新能源车目录,车辆型号为Model 3。 今年8月,特斯拉旗下的Model S、Model X、Model 3全系11款入围《免征车辆购置税的新能源汽车车型目录》(第二十六批),用户在2019年8月30日至2020年12月31日期间享受购置税减免政策,最高可达9.9万元。 另外在本月6日,根据工信部发...

华为Sound X全新体验:顶级智能音箱加华为生态布局的主角部分

智能音箱大家应该不陌生,甚至大家家里至少都有一台,因为智能音箱还算是一个相对较新的品类,为了争夺市场,各个厂商纷纷推出低价智能音箱。不过我个人并不认为它们属于音箱分类,充其量就是带音响功能的语音助手,因为在我的印象中目前除了苹果HomePod外,没有一款可以在音质和智能交互上碾压市面同类的产品。 11月25日,华为Sound X高保真双低音HiFi智能音箱发布,这款定位高端的智能音箱,不仅拥有帝瓦雷和华为技术加持的超高音质表现,还非常智能。试用华为Sound...

人类工作会被人工智能淘汰吗?马云和马斯克两位大佬是这样说的

人类工作会被人工智能淘汰吗?马云和马斯克两位大佬是这样说的

科学家第一次提出“人工智能”这个词时,不会想到短短60年后,人工智能已经深刻改变了世界,以至于人们一边为人工智能时代的来临欢呼雀跃,一边为人类未来的命运心生隐忧。该书全面呈现世界人工智能最新发展态势,展望未来智能世界的无限可能。当人工智能延伸到每一个角落、连接起每一个人,世界将会怎样,我们又该怎样应对?通过顶级学术大咖、知名行业领袖的分享,读者能够获得有益的启示,做出自己的回答。 《智联世界》 世界人工智能大会组委会编 上海科学技术出版社出版 人工智能,...

苹果手表心率监测技术被诉专利侵权

苹果手表心率监测技术被诉专利侵权

据彭博社12月28日报道,纽约大学一名心脏病专家起诉苹果手表心率监测技术侵犯其专利权。威塞尔表示,他的专利描述了如何从连续的时间间隔中监测不规则的脉搏节律,专利中所涵盖的技术正是苹果手表的关键部分。...

三星

三星"人造人":能自主生成表情动作

三星称将在美国时间1月6日的CES上发布全新产品“人造人”(NEON)。该项目负责人称三星Core R3技术,目前可自主创建与原始捕获的数据完全不同的新表情动作对话。“人造人”能够成为任何人,模型与真人几乎一模一样。...

LG描绘人工智能路线图,扩展OLED阵营|2020 CES

当地时间1月6日,在2020 CES(美国消费电子展)开幕前一天的发布会上,LG电子总裁兼首席技术官朴智星以“人工智能体验水平:人工智能和人类体验的未来”为题,描绘了人工智能发展的路线图,最终目的是建立一个包含产品和服务的系统,可以让任何地方都有家的感觉。 与朴智星一起登台的还有蒙特利尔Element AI公司的联合创始人兼首席执行官让·弗朗索瓦·加涅(Jean franois Gagné),这家公司着眼于有效的人工智能实现。他们一起解释了四个层次的人工智能体...