R的数据分析制霸以及企业级应用盘点

通过与大数据工具整合,R提供了大数据集的深度统计能力,包括统计分析以及数据驱动的可视化等。而在金融、药物、媒体及销售这些可直接从数据中获取决策的行业中,R更得到了深度应用。

根据Rexer Analytics 2013年对数据挖掘专业人员的调查显示,R已经成为当下最流行的统计分析工具,至少有70%被调查者表示有使用过R语言。而在企业市场,R的受欢迎程度同样如此,多个公司和项目都使用R,并将其提供给大数据科学家和业务用户,其中包括了微软的云计算Azure Machine Learning、IBM的Big R、Teradata Aster R、Oracle R Enterprise、PivotalR的Big Data R发行版、SAP的R for HANA等,下面做简要分析:

搭载了R的Azure Machine Learning。微软在Azure ML中提供了R语言的API和模板,支持了300多个使用R语言的包,同时用户不用从头做起,Azure ML允许开发者使用已有的部分来组装适合自己需求的模型。这样做无疑降低了机器学习的使用门槛,让各种背景的数据科学家都可以使用。

IBM InfoSphere BigInsights Big R。Big R是一组功能库,提供了终端到终端的R与InfoSphere BigInsights集成。Big R可以被用于InfoSphere BigInsights服务器上的数据综合分析,降低亲自编写MapReduce作业的复杂性,让用户回归常见的R语法和范例。

Teradata Aster R。Teradata Aster R,通过放宽内存和处理能力限制条件,扩展开源R语言分析能力。针对R语言分析师,Aster R开发出他们熟悉的R语言和工具,并提供强大的处理能力及丰富的分析方法,其主要分为3个组件:“Aster R Library”预置100余种R语言功能;“Aster R Parallel Constructor”拥有超过5500个R语言分析工具包;“Aster SNAP Framework集成”将开源R语言引擎完全整合至Teradata Aster无缝网络分析处理框架。

Oracle R Enterprise。Oracle R Enterprise主要提供了该公司RDBMS以及Exadata设备的in-database分析能力。

PivotalR。PivotalR是一个允许R用户与Pivotal (Greenplum)Database以及Pivotal HD(用于大数据分析)交互的包,在类似R的界面为数据科学家提供in-database和in-Hadoop计算。HAWQ是Pivotal HD Hadoop技术的核心,通过支持R语言,提供了Dynamic Pipelining、世界级的查询优化器、纵向扩展、SQL依从、交互式查询、深度分析以及常用的Hadoop格式。

SAP将R与HANA集合。SAP整合了R语言和他们的内存数据库HANA,形成一个服务于移动、分析、数据服务和云集成服务的新平台,SAP通过Rserve(与R Server的通信器)实现了这个功能。因为使用了列存储,HANA能够与R效率的交换数据,SAP通过预封装快速部署解决方案来简化用户的操作。

用户暴增下的收入降低,AWS面临尴尬

过去十年里亚马逊的发展十分惊人。在保留其传统科技产业的基础上,创建了近50亿美元的云计算业务来迎合善变的软件开发人员。就连像IBM和HP甚至是Google这样的大软件企业,也不得不追随着它的脚步。

 

但亚马逊的未来究竟会如何?亚马逊昨天表示,即使其去年的云业务增长了90%,但仍然有更大的利益空间。而亚马逊AWS云业务——在其资产负债表的其他项(包括信用卡和广告收入)中占主要地位——本季度收入只增长了38%,而上个季度收入增长还是60%。也就是说,亚马逊的用户增长率已经超出了它的营收。

亚马逊财务总监Tom Szkutak将收入的下降归咎于公司在EC2、存储及数据库服务等这类核心产品上的“实质性”降价,他在与分析师的电话会议中说“28%到51%的变动是依附于服务的”。

在某种程度上,摩尔定律和大规模的经济增长会为亚马逊的巨型云服务构建成本节约。毕竟,亚马逊能够通过提供更多的计算服务减少芯片制造商制造晶体管的数量。

但不得不提的是,亚马逊正同时面临着来自Google、Microsoft、IBM 和HP等多方的挑战。尽管亚马逊的业务已经和VMware一样很成熟,投资者依然很担心看到利润下滑。同时,Amazon降低的还有它的投资潜力,今天下降了10%的股价已经表明了一些投资者对其利益的担忧。

但亚马逊的管理层却很乐观,对于AWS,Szkutak说“我很喜欢AWS业务,它做的非常好,我很高兴能有机会投资它”。然而Szkutak什么时候能有机会投入资金?很显然,亚马逊越来越壮大的AWS用户群并不希望那一天的到来。

黑客们如何在云中隐藏货币挖掘僵尸网络?

黑客长期使用恶意软件操控僵尸电脑,但是安全研究人员Rob Ragan和Oscar Salazar有一个疑问:为什么这些黑客放着免费的资源不用,却喜欢窃取无辜受害者的计算资源?

下个月在拉斯维加斯举行的Black Hat会议上,Ragan和Salazar计划透露他们如何只利用免费试用和免费增值账户,在线上宿主程序服务上构建一个僵尸网络。这一黑客组合使用自动化操作生成唯一的电子邮件地址,然后集体为这些免费账户注册,构建一个大约一千台电脑组成的基于云的僵尸网络。

这个在线僵尸部落能够发动统一的网络攻击,破解密码,或挖掘价值数百美元一天的电子货币。相比劫持电脑,通过从云账户构建僵尸网络,Ragan和Salazar相信他们的行为可能是合法的。

“我们本质上建造了的一台免费的超级计算机”,Ragan说,他和Salazar目前在一家全咨询公司Bishop Fox做研究员。“我们肯定将会有更多的恶意活动出自这些服务。”

像Google、Heroku、Cloud Foundry、CloudBees这样为开发者提供在遥远的数据中心服务器上管理他们应用程序能力的公司,经常转售像Amazon和Rackspace公司拥有的计算资源。Ragan和Salazar测试了超过150个这些服务的账户创建过程。只有三分之一需要证书——附加的信息比如信用卡,电话号码,或者填写验证码。

从剩下简单的三分之二服务中,他们选择了可以免费注册账户或免费试用的大约15项服务作为目标。研究人员不会指出那些脆弱服务的名字,以避免被恶意黑客利用。“很多这些公司是初创公司,他们试图尽可能快的得到尽能多的用户,” Salazar说。“他们很少思考针对这种类型攻击的防御。”

不法活动

Ragan和Salazar使用Mandrill和他们自己运行在GAE上的程序进行自动快速注册和确认过程。一个名为FreeDNS.afraid.org的服务让他们在不同域上创建无限的电子邮件地址;他们使用看上去更像真实情况的地址。然后使用一个可以让开发人员管理多个Python脚本工具的Python Fabric来控制他们成百上千的电脑。

基于云的僵尸网络的一项实验是挖掘电子货币Litecoin,他们发现,根据Litecoin的汇率,每天每个账户可以生产大约25美分,这样一个星期下来,整个僵尸网络将产生1750美元,Ragan说。

由于Ragan 和Salazar担心他们的演示带来真正的破坏活动,他们关掉采矿操作几小时,但为了测试,他们在两个星期里仅运行少量的采矿程序,没有一个被检测到或关闭。

除了Litecoin采矿,研究人员表示,他们可以使用cloudbots来做更多恶意终结者式的分布式密码破解、点击欺诈或者使用垃圾流量淹没目标网站的拒绝服务攻击。由于云服务提供网络带宽远远超过普通家用电脑,他们表示这样的僵尸网络可以给任何特定攻击目标大约20000台PC的攻击流量。Ragan和Salazar无法真正衡量攻击的规模,因为他们的测试目标没有一个能够坚持足够长在线时间,所以他们很难精确计算,“不过我们仍在寻找志愿者,”Ragan开玩笑说。

更令人不安的是,Ragan 和Salazar表示,从信誉良好的云服务上发动的攻击,目标会非常难以过滤。“想象一下,IP地址都来自Google和Amazon的分布式拒绝服务攻击,“Ragan说,“这才是真正的挑战,你不能将整个IP范围拉入黑名单。”

守法公民

使用基于云的僵尸网络攻击,当然,将是非法的,但首先创建僵尸网络可能不是,这两位研究者争论着。他们承认违反了不少公司的服务条款协议,但无论这样一个行为是否构成犯罪,它仍然是一个重要的合法争论。根据计算机欺诈和滥用法,违反这些细则的行为已经引起了一些诉讼,如后期的Aaron Swartz。但至少有一个法院裁定违反服务条款本身并不构成计算机欺诈。大多数的服务条款违反者并没有受到处罚——这也是件好事,因为它告诉我们实际上没有多少网民真正阅读它们。

Ragan 和Salazar认为,尽管法律保护,公司本身需要实现自己的反自动化技术来阻止他们演示的这种bot-based注册。在Black Hat会议上,他们计划发布用于创建和控制他们cloudbots的两款软件,以及免遭他们方案攻击的防御软件。

毕竟,在他们的云计算实验中,并不是每个黑客都像Ragan和 Salazar一样。两位研究者表示,他们已经看到AppFog和Engine Yard关闭或暂停了他们的一些免费选项,原因是越来越多的恶意黑客利用他们的服务进行攻击活动,另一家公司也以僵尸网络挖掘电子货币的缘由关闭其免费帐户功能。

“我们想引起大家的警觉,因为很多公司没有充分的反自动化技术来阻止这种类型的攻击“,Ragan说。“我们将会看到这种类型的僵尸网络呈上升趋势?答案无疑是肯定的。”