R的数据分析制霸以及企业级应用盘点

通过与大数据工具整合,R提供了大数据集的深度统计能力,包括统计分析以及数据驱动的可视化等。而在金融、药物、媒体及销售这些可直接从数据中获取决策的行业中,R更得到了深度应用。

根据Rexer Analytics 2013年对数据挖掘专业人员的调查显示,R已经成为当下最流行的统计分析工具,至少有70%被调查者表示有使用过R语言。而在企业市场,R的受欢迎程度同样如此,多个公司和项目都使用R,并将其提供给大数据科学家和业务用户,其中包括了微软的云计算Azure Machine Learning、IBM的Big R、Teradata Aster R、Oracle R Enterprise、PivotalR的Big Data R发行版、SAP的R for HANA等,下面做简要分析:

搭载了R的Azure Machine Learning。微软在Azure ML中提供了R语言的API和模板,支持了300多个使用R语言的包,同时用户不用从头做起,Azure ML允许开发者使用已有的部分来组装适合自己需求的模型。这样做无疑降低了机器学习的使用门槛,让各种背景的数据科学家都可以使用。

IBM InfoSphere BigInsights Big R。Big R是一组功能库,提供了终端到终端的R与InfoSphere BigInsights集成。Big R可以被用于InfoSphere BigInsights服务器上的数据综合分析,降低亲自编写MapReduce作业的复杂性,让用户回归常见的R语法和范例。

Teradata Aster R。Teradata Aster R,通过放宽内存和处理能力限制条件,扩展开源R语言分析能力。针对R语言分析师,Aster R开发出他们熟悉的R语言和工具,并提供强大的处理能力及丰富的分析方法,其主要分为3个组件:“Aster R Library”预置100余种R语言功能;“Aster R Parallel Constructor”拥有超过5500个R语言分析工具包;“Aster SNAP Framework集成”将开源R语言引擎完全整合至Teradata Aster无缝网络分析处理框架。

Oracle R Enterprise。Oracle R Enterprise主要提供了该公司RDBMS以及Exadata设备的in-database分析能力。

PivotalR。PivotalR是一个允许R用户与Pivotal (Greenplum)Database以及Pivotal HD(用于大数据分析)交互的包,在类似R的界面为数据科学家提供in-database和in-Hadoop计算。HAWQ是Pivotal HD Hadoop技术的核心,通过支持R语言,提供了Dynamic Pipelining、世界级的查询优化器、纵向扩展、SQL依从、交互式查询、深度分析以及常用的Hadoop格式。

SAP将R与HANA集合。SAP整合了R语言和他们的内存数据库HANA,形成一个服务于移动、分析、数据服务和云集成服务的新平台,SAP通过Rserve(与R Server的通信器)实现了这个功能。因为使用了列存储,HANA能够与R效率的交换数据,SAP通过预封装快速部署解决方案来简化用户的操作。