大数据与数据挖掘的相对绝对关系

泄密者爱德华·斯诺登(Edward Snowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒。奥巴马当局声称,监听数据带来了安全,然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。

数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。

麻省理工学院的研究者约翰·古塔格(John Guttag)和柯林·斯塔尔兹(Collin Stultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者——一年内死于第二次心脏病发作的机率比未出现者高一至二倍。这种新方法能够识别出更多的,无法通过现有的风险筛查被探查出的高危病人。

数据挖掘这一术语含义广泛,指代一些通常由软件实现的机制,目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。

威斯康星探索学院主任大卫·克拉考尔(David Krakauer)说,数据量的增长——以及提取信息的能力的提高——也在影响着科学。“计算机的处理能力和存储空间在呈指数增长,成本却在指数级下降。从这个意义上来讲,很多科学研究如今也遵循摩尔定律。”

在 2005年,一块1TB的硬盘价格大约为1,000美元,“但是现在一枚不到100美元的U盘就有那么大的容量。”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论“之所以发生是因为我们正处于惊天动地的变革当中,而且我们正以前所未有的方式感知它。”克拉劳尔说。

随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹,大数据不断增长的商业影响也在如下时刻表现出来:

 

  • 你搜索一条飞往塔斯卡鲁萨的航班,然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息
  • 你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术
  • 你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润
  • 用算法预测人们购票需求,航空公司以不可预知的方式调整价格
  • 智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信息

 

大数据在看着你吗?

除了安全和商业,大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器,传回愈发难以驾驭的数据流,于是人们需要日益强大的分析能力。在气象学、石油勘探和天文学等领域,数据量的井喷式增长对更高层次的分析和洞察提供了支持,甚至提出了要求。

 

2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局

(NASA)的Topex/Poseidon卫星、Jason-1卫星,以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的 QuikScat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计——地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器,以及国际Argo海洋观测系统。

这幅2005年6月至2007年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流,但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用,并监测地球系统的不同部分内部及之间的热量、水和化学交换。

在医学领域,2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性的进展之后,数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基因组上有几十亿个“字母”,计算时出现纰漏的危险,催生了生物信息学。这一学科借助软件、硬件以及复杂算法之力,支撑着新的科学类型。

 

精神障碍通常是具体病例具体分析,但是一项对150万名病人病例的研究表明,相当多的病人患有超过同一种疾病。芝加哥大学的西尔维奥·康特中心利用数据挖掘理解神经精神障碍的成因以及之间的关系。“好几个(研究)团队都在致力于这个问题的解决。”中心主任安德烈·柴斯基(Andrey Rzhetsky)说,“我们正试图把它们全部纳入模型,统一分析那些数据类型……寻找可能的环境因素。”

另一例生物信息学的应用来自美国国家癌症研究所。该所的苏珊·霍尔贝克(Susan Holbeck)在60种细胞系上测试了5000对美国食品和药品管理局批准的抗癌药品。经过30万次试验之后,霍尔贝克说:“我们知道每种细胞系里面每 一条基因的RNA表达水平。我们掌握了序列数据、蛋白质数据,以及微观RNA表达的数据。我们可以取用所有这些数据进行数据挖掘,看一看为什么一种细胞系对混合药剂有良好的反应,而另一种没有。我们可以抽取一对观察结果,开发出合适的靶向药品,并在临床测试。”

互联网上的火眼金睛

当医学家忙于应对癌症、细菌和病毒之时,互联网上的政治言论已呈燎原之势。整个推特圈上每天要出现超过5亿条推文,其政治影响力与日俱增,使廉洁政府团体面临着数据挖掘技术带来的巨大挑战。

印第安纳大学Truthy(意:可信)项目的目标是从这种每日的信息泛滥中发掘出深层意义,博士后研究员埃米利奥·费拉拉(Emilio Ferrara)说。“Truthy是一种能让研究者研究推特上信息扩散的工具。通过识别关键词以及追踪在线用户的活动,我们研究正在进行的讨论。”

Truthy是由印第安纳研究者菲尔·孟泽(Fil Menczer)和亚力桑德罗·弗拉米尼(Alessandro Flammini)开发的。每一天,该项目的计算机过滤多达5千万条推文,试图找出其中蕴含的模式。

 

大数据盯着“#bigdata”(意为大数据)。这些是在推特上发布过“bigdata”的用户之间的连接,用户图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及,绿线表示一个用户是另一个的粉丝。

一个主要的兴趣点是“水军”,费拉拉说:协调一致的造势运动本应来自草根阶层,但实际上是由“热衷传播虚假信息的个人和组织”发起的。

2012年美国大选期间,一系列推文声称共和党总统候选人米特·罗姆尼(Mitt Romney)在脸谱网上获得了可疑的大批粉丝。“调查者发现共和党人和民主党人皆与此事无关。”费拉拉说,“幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。”

水军的造势运动通常很有特点,费拉拉说。“要想发起一场大规模的抹黑运动,你需要很多推特账号,”包括由程序自动运行、反复发布选定信息的假账号。“我们通过分析推文的特征,能够辨别出这种自动行为。”

推文的数量年复一年地倍增,有什么能够保证线上政治的透明呢?“我们这个项目的目的是让技术掌握一点这样的信息。”费拉拉说,“找到一切是不可能的,但哪怕我们能够发现一点,也比没有强。”

头脑里的大数据

人脑是终极的计算机器,也是终极的大数据困境,因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。

除了连接组,还有很多充满数据的“组”:

 

  • 基因组:由DNA编码的,或者由RNA编码的(比如病毒)——全部基因信息
  • 转录组:由一个有机体的DNA产生的全套RNA“读数”
  • 蛋白质组:所有可以用基因表达的蛋白质
  • 代谢组:一个有机体新陈代谢过程中的所有小分子,包括中间产物和最终产物

连接组项目的目标是“从1,200位神经健康的人身上收集先进的神经影像数据,以及认知、行为和人口数据”,圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯(Daniel Marcus)说。 

项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期,两年之后数据收集工作完成之时,连接组研究人员将埋首于大约100万G数据。

 

20名健康人类受试者处于休息状态下接受核磁共振扫描,得到的大脑皮层不同区域间新陈代谢活动的关联关系,并用不同的颜色表现出来。黄色和红色区域在功能上与 右半脑顶叶中的“种子”位置(右上角黄斑)相关。绿色和蓝色区域则与之关联较弱或者根本没有关联。

绘制脑区分布图的“分区”是一项关键的任务,这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1,200个人的数据,”马库斯说,“因此我们可以观察个人之间脑区分布的差别,以及脑区之间是如何关联的。”

为了识别脑区之间的连接,马库斯说,“我们在受试者休息时获取的扫描图中,观察脑中的自发活动在不同区域之间有何关联。”比如,如果区域A和区域B自发地以每秒18个周期的频率产生脑波,“这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其 他每一个点关联的矩阵。”(这些点将比磁共振成像无法“看到”的细胞大得多。)

星系动物园:把天空转包给大众

星系动物园项目打破了大数据的规矩:它没有对数据进行大规模的计算机数据挖掘,而是把图像交给活跃的志愿者,由他们对星系做基础性的分类。该项目2007年 启动于英国牛津,当时天文学家凯文·沙文斯基(Kevin Schawinski)刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。

阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔(William Keel)说,沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了,便去了一家酒馆。他在那里遇到了克里斯·林托特(Chris Lintott)。两人以经典的方式,在一张餐巾的背面画出了星系动物园的网络结构。”

星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空,可能会看到2000亿个这样的恒星世界。然而,“一系列与宇宙学和星系统计学相关的问题可以 通过让许多人做相当简单的分类工作得以解决。”基尔说,“五分钟的辅导过后,分类便是一项琐碎的工作,直到今日也并不适合以算法实现。”

星系动物园的启动相当成功,用户流量让一台服务器瘫痪了,基尔说。

斯隆巡天的全部95万张图片平均每张被看过60次之后,动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅,基尔说。“我的很多重要成果都来自人们发现的奇怪物体,”包括背光星系。

这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色,但它本身也是由恒星制造的,因此检测其数量和位置对于了解星系的历史至关重要。

星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时,而认为它是椭圆星系的人数比例保持不变,这个星系就不必再被观察了。

然而,对一些稀有的物体,基尔说,“你可能需要40至50名观察者。”

大众科学正在发展自己的法则,基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献,是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”

这种动物园方法在zooniverse.org 网站上得到了复制和优化。这是一个运行着大约20项目的机构,这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。

最终,软件可能会取代志愿者,基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。

我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说,“他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说,不要浪费点击。如果某人带来了同样有效的新算法,人们就不必做那些事情了。”

学习的渴望

人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练,威斯康星大学麦迪逊分校的克拉考尔说。“它不仅仅是有所改善,更是有了实际的效果。5到10年之前,iPhone上的Siri是个想都不敢想的点子,语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法,忽然之间它们就管用了。”

 

随着数据及通讯价格持续下跌,新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量,麦克阿瑟奖获得者西瓦塔克·帕特尔 (Shwetak Patel)有个解决方案:用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器,以低廉的成本找到耗电多的电器。位于加利福尼亚 州海沃德市的这个家庭惊讶地得知,录像机消耗了他们家11%的电力。等到处理能力一次相对较小的改变令结果出现突破性的进展,克拉考尔补充道,大数据的应用可能会经历一次“相变”。

“大数据”是一个相对的说法,不是绝对的,克拉考尔指出。“大数据可以被视作一种比率——我们能计算的数据比上我们必须计算的数据。大数据一直存在。如果你想一下收集行星位置数据的丹麦天文学家第谷布拉赫(Tycho Brahe,1546-1601),当时还没有解释行星运动的开普勒理论,因此这个比率是歪曲的。这是那个年代的大数据。”

大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。”克拉考尔说。

我们好奇,当软件继续在大到无法想象的数据库上执行复杂计算,以此为基础在科学、商业和安全领域制定决策,我们是不是把过多的权力交给了机器。在我们无法觑探之处,决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。“这正是我所从事的领域,”克拉考尔回应道,“我的研究对象是宇宙中的智能演化,从大爆炸到大脑。我毫不怀疑你说的。”

首席信息安全官们的SaaS安全标准清单

在SaaS提供商提高安全标准(对客户可见并可控)之前,用户仍然需要控制潜在的合规风险。显然,将业务应用移出企业,安全是最大的问题。

看不到用户活动、没有监控和限制访问控制,SaaS对首席信息安全官(CISO)来说很严峻,特别是合规责任。为了减少安全问题,安全团队(特别是企业)必须做很多工作,包括:

 

  • 积极参与采购,采取积极主动的态度并审核所有SaaS关系。
  • 充分意识到数据合规问题,它围绕着每个SaaS应用。
  • 拒绝不能提供足够可见度、活动监控或访问控制的供应商。

 

SaaS安全标准清单

SaaS还在起步阶段且发展迅速,提供商各不相同。因此,如果用户想评估第三方SaaS提供商的安全漏洞或能力,必须问对问题。例如:

不同的访问控制是如何形成颗粒状的?

显然,针对数据泄露,IT当前最大的问题是恶意或无意的误用用户凭据,特别是登录信息。因此,有效的数据保护需要了解用户活动,同样包括管理的变化。

什么指标可用于报告?

考虑下是否可以创建同时让首席信息主管、审计师以及董事会满意的报告呢?企业数据安全能否满足监管要求呢?它应该可以。

 

  • 问问自己,这样获取的数据能否方便的集成到内部监控工具以防止数据竖井。为了确保万无一失,必须同时监控企业内部和SaaS应用(从一个集中的管理面板)。

 

最后,必须了解SaaS应用的业务,特别是涉及数据的。另外,必须知道应用是否处理客户的机密信息。这时就可以执行相关的合规清查。

SaaS安全问题

SaaS提供商需要保证用户不能查看彼此的数据。以下是SaaS的一些安全标准和措施:数据安全、数据局部性、网络安全、数据隔离、数据隐私、数据泄露、Web应用安全以及认证和授权。

客户安全顾虑

从行业角度来说,计算需要关注大量的属性,特别是安全方面的。起初,客户对安全期待非常高。他们不会允许数据被托管到共享环境。这意味着云提供商必须停止公有云方案,并专注于私有云。

另外,客户都很关心遵从性和提供商是否符合审计标准(SAS 70、 SOC 2、SOC 3 和SSAE 16)。有时,他们希望能够检查物理设施,一些SaaS供应商不允许这样做。这是一个大忌。长远来说,让SaaS供应商控制的越多,风险就越大。但是,一旦你了解了需求,就可以和某个云提供商合作,使安全水平让人满意。

SaaS安全维度

云计算的安全性或许是如今最热门的话题之一。考虑到SaaS安全是多维的且关系复杂。因此,要着眼于更大、全局的环境(物理、应用、网络安全)。但是IaaS/PaaS连同扩展性、可用性、性能以及集成也需要考虑到。

快速部署以及定制/回收/多租户是基于另一个维度,政策和程序则又是一个。因为基本上不可能在以上所有领域都做到最好,你可以根据用户的容忍程度来决定或定义安全。

事实上,用户通常在全面考虑之后,选择适当的安全技术或机制,再定义自己的安全指标。因此,建议尽力尝试以提供云计算安全保障的最佳实践。

云安全囊括了多个方面和工具。

一些涉及的问题包括:

 

  • 窃听设备(路由器、电脑、物联网设备等等);
  • 失败的变更管理;
  • 传输过程中的数据操纵和/或拦截;
  • 社会工程等
  • 内部人员的非法访问

 

以上是一些(不是全部)领域。不像内部部署的应用和云,公有云又加入了两个安全点,即因特网和内部的(但外部管理)云。

如今的第三方云供应商只向客户提供有限的信息。不幸的是,他们不能准确回答关于用户访问异常的问题。例如,SaaS供应商不能直接回答这个关键问题:“在组织里,谁可以修改权限?”然而,调查内部攻击时,这些信息很重要。

另外,对于正确引导SaaS供应商简化客户报告,还缺乏行业标准。即使有日志数据,如果在格式上未达成一致,企业客户也面临着挑战以及高昂的集成过程。

结论

SaaS提供商任务艰巨,他们必须提高安全的可见性和可控性,使用户相信他们有能力管理潜在的合规风险。将业务应用移出企业,通常要损失安全。

因此,首席信息安全官有责任减少安全问题。作为客户必须有一个安全清单,SaaS安全标准是如今的热门话题,SaaS供应商要赢得客户的信任必须解决这些问题。

简单几步 开启AWS免费套餐使用之旅

以下是一些AWS的相关使用信息的分享,通过一些简单的步骤,便可以快速使用AWS。

什么是AWS免费使用套餐?

AWS 主要的服务都提供一定使用量范围内的免费使用套餐。免费使用套餐包括:Elastic Compute Cloud (EC2)中750 小时时长的 Amazon EC2 Linux 微型实例使用时间, Amazon EC2 Linux/UNIX或 RHEL 或 SLES 微型实例使用时间以及 Elastic Load Balancing 的使用时间等。在Simple Workflow (SWF)中,可免费启动 1 000 个 Amazon SWF 工作流执行。在Simple Queue Service (SQS) 和 Simple Notification Service (SNS)中,可与 Amazon Simple Notification Service 配合使用的 1 000 000 个请求、100 000 个 HTTP 通知和 1 000 份电子邮件通知等一系列的免费使用功能。

这些功能的使用都有免费使用额度,如果超出额度,将会产生一定的费用(参阅 各服务页面 获取向详细定价详情)。AWS免费使用套餐针对所有的新账户,而且适用于任何AWS地区。AWS提供的免费套餐,可以了解并启动新应用程序、测试云中现有的应用程序,或只是利用AWS 获取实践经验。

相关信息:( https://aws.amazon.com/cn/free/ )

 

如何使用AWS免费套餐?

要想快速使用AWS提供的免费套餐(Free Usage Tier),使用者需要注册AWS账户并订阅您可能要使用的服务,尽早完善AWS账户资料,包括信用卡信息。当用户的实际使用量超出免费使用套餐的限额后,AWS会收取相应的费用。为了方便使用,AWS 提供了多种简单易用的功能,包括监控并支付一个或多个账户的账单。

AWS 免费使用套餐适用于在所有 AWS 地区里参与的服务:美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、美国西部(加利福尼亚北部)、欧洲(爱尔兰)、亚太地区(新加坡)、亚太地区(东京)、亚太地区(悉尼)和南美洲(圣保罗)。免费使用量每月计算一次(所有地区)并自动应用到账单中,免费使用量不能累计。

免费套餐仅适用于新的 AWS 客户,可在注册 AWS 后的 12 月内均可试用。当您的免费试用过期或者您的应用程序使用量超过了免费使用套餐限额,您只需支付标准的按使用量付费服务费率(请参阅 服务页面 获取完整的定价信息)。

这些免费套餐在 12 个月后仍不会过期,新老 AWS 均可无限期使用。