Teradata Aster在Hadoop和R上的进展

刚刚宣布放宽计算及内存限制,Aster提供R语言分析能力之后,Teradata迅速出手,宣布由Teradata实验室收购了Revelytix和Hadapt。前者主要致力于Hadoop上的数据管理,而Hadapt则是一家专注SQL-on-Hadoop的公司。显然,Teradata构建统一数据架构方面正在加速奔跑。

构建统一数据架构

事实上,结构化数据和非结构化数据通过传统的SQL分析和新的分析算法(时间序列、路径、图和文字)正在产生新的价值。为了最高效率、最优存储、分析和应用的成本,大数据的技术链条正在分层。在Teradata天睿公司大中华区大数据事业部总监孔宇华的分析中,统一数据架构可以分为三层:Teradata整合数据仓库、以Aster为主的探索分析平台,以及以Hadoop为主的数据平台 。

 

Hadoop自然是为了实现快速数据加载和获取,数据过滤和预处理以及在线归档;Aster则是数据发现、快速假设校验和试错、模式监测,实现路径、图、时间序列分析;Teradata数据仓库是实现战略智能、预测分析和操作型智能。

这也是业内比较认可的技术分层模式。通过三个平台的整合,来满足更多行业深入的数据分析需求。

以医疗行业为例,要实现对病人住院情况进行分析,需要在数据平台上复查住院治疗数据,并通过运用Aster中的时间序列路径函数,聚集函数以及Sigma值函数,识别一个病人从住院到出院的所有治疗程序以及为其提供医疗服务的医生,进而在Teradata中生成时间、地域、交叉、医疗效果等可视化分析图谱。而通过对美国一家医院肺炎患者的相关分析并指导业务改进,“降低了10%的住院时间,节省了5000万美元”。孔宇华表示。

同样可分享的案例还有运营商、银行、零售、电商、高科技制造等。而回到技术上,整合数据仓库,无论是在共享相关性、一致性和整合数据,还是快速部署新应用,形成业务视图等方面都较为成熟。与之相对应的是,最有技术挑战的是数据平台和探索平台。

在Hadoop基础上发挥Aster优势

这两者在技术发展上有重叠,也各有侧重。对Teradata而言,就是如何有效利用Hadoop,并在其上通过Aster实现挖掘和分析。

在孔宇华看来,Aster和Hadoop同样是MPP架构,但在存储,运算引擎以及界面方面都有较多的差异,这决定两者所擅长任务的差别(如图)。

Aster和Hadoop的区别(点击看大图)

在Hadoop基础上进行创新并不鲜见。但能够在企业级市场拥有如此多引擎的并不多。Aster的优势就在于此。以Aster SQL-Graph引擎为例,相比Hadoop Giraph或者Google相关产品,Aster SQL-Graph的优势在于:

图并行架构
通用目标的BSP 框架
无内存绑定,高可扩展
易于开发使用的APIs
面向顶点编程的API
构建用户自定义图函数的SDK 和 IDE
预定义的图函数
开箱即用的函数,适合图并行执行
和现有平台集成能力
和Aster关系存储、文件存储、外部数据源的
数据一起工作
和其它分析引擎集成 (SQL, SQL-MR)
其它企业服务

突破开源R语言的限制

不止如此,Aster对R的支持已经进入企业级标准。这与趋势相符。Rexer Analytics咨询公司调查显示,70%的调查对象称他们正在使用R语言。数据显示,从2010年开始到2013年,使用R的人群是陡然剧增的

但R也有不得不面对的挑战。如R分散于各节点或各服务器,各节点或各服务器单独运行,尽管有利于行的独立分析处理,例如模型评分,但并不利于分析功能所需要的所有数据,例如模型搭建等。要突破开源R语言的限制,整合Aster和R,实现企业级分析需求,需要更多技术优化:

 

  • 通过Aster MPP架构运行开源R语言,实现高效并行分析
  • 放宽内存及数据处理限制,保证大规模并发
  • 利用Aster Discovery Portfolio功能增强R语言分析能力
  • 通过整合超过100项 Aster Discovery Portfolio分析功能和 5000多种R工具包

 

孔宇华表示:“Teradata Aster R以软件数据包形式,实现开源R语言的大规模并发,这对数据分析人员而言,更具优势。”

从Hadoop中读取数据,在Teradata数据仓库或Teradata Aster数据库中智能地运用多种异构处理引擎的功能进行数据分析,形成可视化报告,进而带动业务洞察和创新。这个技术架构已经极为流畅,对Teradata而言,更重要的挑战是如何尽快在更多行业落地,驱动数据分析变革。

腾讯游戏引入第三方游戏的三大逻辑

在腾讯不久前公布的财报中,手游高增长成为业界激烈探讨的话题,不过峰回路转的是,腾讯高管在解读财报中明确表示随后的两个季度腾讯手游收入将会保持稳定。小谦推测这或许是因为腾讯微信和手Q两大分发渠道已经陷入瓶颈期,对腾讯来说分发量以及游戏用户量或许很难再继续增长下去,接下来的时间里腾讯只能把重心放在提升ARPU值上,但休闲游戏用户付费率普遍不高,腾讯未来或许将遭遇断崖式的收入下降。

不过有一个有意思的信息就是腾讯高管说的一段话:“我们会继续对移动游戏进行商业化,同时也会投入更多精力来改善平台基础设施和用户体验。与此同时,我们会在研发方面投入大量资源,以支持第三方游戏的发展,给它们带来更多的流量。我们的平台游戏收入出现了增长,但主要是由第三方游戏推动。”

这段话引申出了一个思考,那就是为什么一直对开发商不屑于顾,自己闷声挣大钱的腾讯,也愿意开放资源给第三方,并支持这些第三方移动游戏了呢?在小谦看来,可能主要有三方面原因。

一、平台内部良性竞争的必要抉择

腾讯既是游戏平台,又是游戏研发商,运动员和裁判员都是。腾讯确实因为这种垄断性的地位获取了整个产业链上更多的利润,但随之问题也是大爆发。好的开发者不愿意接受腾讯的霸王条款和腾讯合作,差的开发者腾讯又不愿意接受他们,处于一个两难抉择中。就算有好的开发商愿意合作,腾讯肯定也是把更多的资源给自家的游戏。

但现在手游已经属于大爆发时代,腾讯的研发实力确实很强,但就现在而言也没研发出什么好玩的游戏,端游上的积累,反而成为阻碍手游创新的障碍。腾讯内部如果持续没有诞生好游戏,那么一定会造成用户大量流失。引进优质游戏对平台来说相当必要,因为对腾讯来说游戏平台比纯游戏公司地位更重要。好的游戏引入还会刺激腾讯游戏内部的再创业激情,不会因为坐吃腾讯平台用户而放弃创新,这对腾讯来说是一种双赢选择。

二、第三方游戏可为腾讯带来可观收入

对腾讯来说,拥有微信和手Q两大移动分发平台,不管是自主研发的游戏还是第三方游戏,营业利润都会相很可观。对第三方游戏,腾讯获得的收入占用户所花的总金额比例会低一些,但那会体现在收入而不是利润率上面。如果它是一款成功的游戏,不管它是第三方游戏还是自主研发的游戏,它对腾讯和游戏开发商来说都是一项盈利可观的业务。

好的第三方游戏也可以确保腾讯平台能够支持更好的用户体验。从第三方游戏中获得净营收稍低一点,但第三方游戏也是可以反馈回给腾讯更多的流量和资源,这将有助于腾讯在平台上打造一个非常庞大的第三方游戏生态系统。

三、资本洗牌的诉求需要

腾讯其实在外面投资了大量的游戏公司,主要都是通过少量的现金+用户+流量获取对方公司的股份,虽然腾讯确实在积极引入第三方游戏,但绝大多数这些游戏公司都是腾讯有入股。这些游戏公司入驻腾讯平台,腾讯就能更好的对这些游戏公司进行掌控。而一款游戏是否有潜力,没有一定用户量测试,肯定是无法感知游戏好坏的。

腾讯通过少量用户导入,就可以发现这款游戏的潜力所在,然后就可以通过深入性的合作获取更多的利润,榨取更大的商业价值。而这一切的基础都需要腾讯平台引入第三方游戏公司。

手游的多元化,在小谦看来已经成为一种不可避免的趋势。现在手机已经如同我们身体一个器官一样,我们去到每个地方都会带着手机,而且随着智能终端的普及,让很多从来没有接触过游戏的朋友开始接触游戏,所以游戏里面的需求是多元化的,因为它移动的特征。腾讯永远不会开发出所有能够符合用户兴趣的手游,引入第三方游戏公司,才是最终的出路。

深度学习算法有望在FPGA和超级计算机上运行

机器学习在过去的几年里取得了很大的进步,在很大程度上归功于计算密集型工作负载扩展新技术的发展。NSF最新的资助项目似乎暗示我们看到的可能只是冰山一角,因为研究人员试图将类似深度学习的技术扩展到更多的计算机和新型的处理器上。

由纽约州立大学石溪分校团队实施的一个特别有趣项目,该项目旨在证明FPGA(现场可编程门阵列)优于GPU,他们发现深度学习算法在FPGA上能够更快、更有效地运行,这突破了当前传统的认识。

根据项目概要:

研究人员预计在GPU上算法的最慢部分,运行在FPGA上将实现明显的加速,同时,在GPU上算法最快的部分在FPGA上将有类似的运行性能,但是功耗会极低。

实际上,除了不同于GPU,在硬件上运行这些模型想法并不新奇,例如,IBM最近凭借一个新的brain-inspired芯片轰动一时,它声称可以完美支持神经网络和其他cognitive-inspired工作负载。微软在今年7月演示了它的Adam项目,这个项目是重新修改了一个流行的深度学习技术使其在通用英特尔 CPU处理器上运行。

由于其可定制的特点,FPGA有着独特的优势,今年6月,微软解释它如何通过卸载某些进程部分到FPGA来加快Bing搜索。当月晚些时候,在Gigaom的Structure大会上,英特尔宣布即将推出的混合芯片架构将FPGA在CPU共置在一起(实际上它们会共享内存),这主要针对专业大数据负载与微软必应这样的案例。

然而,FPGA对于深度学习模型来说并不是唯一的、潜在的基础架构选择。NSF还资助纽约大学的研究人员,让他们通过基于以太网远程直接内存访问技术来测试深度学习算法以及其他工作负载,这在超级计算机上广泛使用,但现在要将它带到企业系统,RDMA连接器通过直接发送消息到内存,避免了CPU、交换机和其他组件给进程带来的延迟,从而加快计算机之间传输数据速度。

说到超级计算机,另一个新的NSF资助项目,由机器学习专家斯坦福大学(百度和Coursera)的Andrew Ng和超级计算机专家田纳西大学的Jack Dongarra以及印第安纳大学的Geoffrey Fox领导,旨在使深度学习模型利用Python可编程,并且将它带到超级计算机和扩展云系统。据悉,这个得到了NSF将近100万美元的资助的项目被称为Rapid Python Deep Learning Infrastructure。

RaPyDLI将被构建成一套开源的模块,可以从Python用户界面访问,但是可以放心地在最大规模超级计算机或云的C / C++或Java环境中通过互动分析和可视化执行。RaPyDLI将支持GPU加速器和英特尔Phi协处理器以及广泛的存储技术包括Files、NoSQL、HDFS和数据库。

目前做的所有工作都是让深入学习算法更容易并且改善它们的性能,这三个项目只是一小部分,但是如果这些技术能够被科技巨头用到商业领域,或者进入研究中心以及国家实验室利用计算机解决真正的复杂问题将是非常有益的。