在《美国国家安全局如何分析手机通话数据》一文中我们了解到“图谱分析”是NSA分析手机用户通话数据最重要的技术手段,据NSA官员透露的文档,仅Verizon的用户通话数据的图谱分析项目,规模就已经超过了Facebook。
除了结构化程度较高的通话数据外,NSA代号PRISM的超大规模数据挖掘项目能直接监测Google、Facebook、微软和苹果等九大互联网IT企业中央服务器中的各种结构化和非结构化用户数据,被提取分析的数据包括音频、视频、图片、电子邮件、文档和联系日志。
毫无疑问,NSA在分析海量非结构化数据时势必要用到大量大数据分析技术,据《华尔街日报》报道,数据库系统、机器学习和Hadoop基础架构三大技术在NSA的互联网大数据分析中发挥了非常重要的作用。
以下是文章内容全文,由腾讯科技翻译:
仅仅在五年之前,诸如美国国家安全局(National Security Agency,NSA)这样的政府机构要想通过关键词的方式高效率地分析数百万份电话、文本消息和在线聊天记录,简直是不可能完成的任务。不过目前,一系列新技术的使用则让NSA拥有相对充分的人力和财力做到这一点。尤其考虑到,这些关键词最终有可能避免未来针对美国恐怖袭击的放生。
这些新技术能够在一个单独的数据库里存储大量不同类型的数据,而且不需要使用造价昂贵的硬件设备就能够实现数据的高速处理,同时还无需数据分析专家提前设定假设条件。
哈佛商学院客座教授、数据分析专家汤姆
新闻热点
新闻爆料