发表于:2015年2月3日
大数据技术和实践在迅速变化。要想主导这场游戏,您需要了解以下这些。
作者:Robert L. Mitchell
Bill Loconzolo是Intuit公司数据工程部副总经理,他先行试水了“数据湖”。Smarter Remarketer公司的首席数据科学家Dean Abbott则取捷径选择了云技术。两人都说,大数据和分析工具(包含了因本机格式和云计算中存储大量数据而形成的数据湖)的领先优势是一个活动的目标。尽管这一技术的成熟度还远远不够,但守株待兔也不是个好办法。
Loconzolo说:“现实情况是,这些工具还在不断出现,而大数据分析平台的前景还达不到可以让企业依赖的程度。”但是,大数据和分析学科的发展非常之迅速,企业需要激流勇进,要么就只能望洋兴叹了。他说,“在过去,新兴技术可能需要很多年才能成熟。”“而现在,人们在短短几个月——或者几周的时间里就能迭代和驱动解决方案。”那么,您的监察名单上,或者实验室里,位居首列的新兴技术和趋势是那些?Computerworld杂志社询问了IT界领袖、顾问和行业分析师后,加以权衡获得以下八大趋势:
1.云端的大数据分析
Hadoop是一个能够对大量数据进行分布式处理的软件框架,最初是为了处理物理机而设计的。但是已经发生了变化。Forrester研究公司的分析家Brian Hopkins说:“现在越来越多的技术能在云端处理数据。”其中包括亚马逊托管在Redshift上的BI数据仓库,谷歌BigQuery中的数据分析服务,IBM的Bluemix云平台和亚马逊的Kinesis数据处理服务。他说:“大数据的未来状态将会是内部部署和云端的混合体。”
Smarter Remarketer公司提供基于软件即服务的零售分析、市场细分和营销服务,它最近从内部的Hadoop和MongoDB数据库基础架构转移到了亚马逊的Amazon Redshift上,这是一个基于云的数据仓库。这家位于印第安纳波利斯的公司收集了在线和实体店的零售销售额和客户人口统计数据,以及实时行为数据,然后分析这些信息,以帮助零售商建立有针对性的消息,在某些情况下实时地促发预期的消费者反应。
Abbott说,对于Smart Remarketer的数据需求来说,Redshift的性价比更高,特别是它针对结构化数据有强大的报告功能。作为一个托管工具,它既可扩展,又相对来说容易使用。他说:“在虚拟机上扩展比购买物理机进行管理要便宜。”
总部设在加州山景城的Intuit公司本身在使用云分析工具时小心翼翼,因为它需要一个安全、稳定和可审计的环境。就目前而言,这家金融软件公司把一切都保存在私有的Intuit分析云里。Loconzolo说:“我们与亚马逊和Cloudera就如何拥有可访问性高、安全且可以跨越公共和私人两个世界的分析型云技术进行了合作,但都没有解决这一问题。”然而,对Intuit这样销售云端运营产品的企业来说,转移到云端是势在必行的。他说:“它会到达一个节点,在这个点上,要把所有这里数据转移到私有云上的成本太高。”
2.Hadoop:新型的企业数据操作系统
Hopkins说,分布式的分析框架,如MapReduce,正在演变成分布式资源管理器,让Hadoop逐渐成为通用的数据操作系统。他说,有了这些系统,“您可以通过将它们作为分布式文件存储系统插入Hadoop来执行不同的数据操作和分析操作。”
这对企业来说意味着什么?由于结构化查询语言、分布式计算、内存、流处理,图形分析和其他类型的工作可以在Hadoop上运行,并且有足够强大的性能,越来越多的企业将会把Hadoop作为企业数据中心来使用。Hopkins说:“针对Hadoop中的数据运行多种不同[查询和数据操作]的能力,将会使其成为存储需分析数据的低成本通用场所。”
Intuit已开始构建其Hadoop基础了。Loconzolo说:“我们的策略是利用能与MapReduce和Hadoop密切合作的Hadoop分布式文件系统,将其作为一项长期战略,实现与人和产品的所有类型互动。”
3.大数据湖
传统的数据库理论规定在输入任何数据之前要设计数据集。普华永道美国咨询业务首席技术专家克里斯·柯伦说,数据湖也称企业数据湖或企业数据中心。他表示:“我们将把这些数据源放到一个大型的Hadoop存储库里,并且不会事先设计一个数据模型。”相反,它提供了工具供人们进行数据分析,以及对数据湖中存在什么样的数据的一个高层次定义。Curran还说:“人们在行进过程中就会建立起对数据的看法。这是建立大型数据库的一个增值有机模型。”不足之处在于——使用者必须技能非常娴熟。
普华永道的Chris Curran说,“人们在行进过程中就会建立起对数据的意见。这是建立大型数据库的一个增值的有机模型。”
Loconzolo说,作为Intuit分析云的一部分,Intuit的数据湖包括了点击流数据、企业和第三方数据,但重点在于让周围的工具“人性化”,以便商业人士能够高效使用。Loconzolo说,要在Hadoop建立一个数据湖的话,他的担忧是这一平台并不适合企业。他说:“我们需要的是传统的企业数据库几十年来都有的功能——监控权限控制、加密、保护数据,以及从头到尾溯源数据。”
4.更加可预测的分析
Hopkins说,有了大数据,分析师在工作时不仅有了更多的数据,而且有能力来处理具有多重属性的大量记录。传统的机器学习使用的是基于整个数据集样本的统计分析。他说,“现在,您能处理大量的记录,每条记录具备都多样属性”,这能提高可预测性。
大数据和计算能力的强强联合也让分析家们整天都能分析新的行为数据,比如访问的网站或站点。Hopkins把这叫作“零散数据”,因为找到要感兴趣的东西,您必须大浪淘沙,过滤掉大量无关的数据。他说,“试图用传统的机器学习算法来学习这类数据在计算上是不可能的,现在我们能用物美价廉的计算能力来解决这个问题。”Abbott说:“当速度和内存不再是关键问题时,您提出的这个问题也就完全不同了,”“现在您能通过在这个问题上投入大量的计算资源,找出哪些变量是最利于分析的。它真的是一个改变游戏规则的因素。”
Loconzolo说,“我们真正感兴趣的是,怎样在同一个Hadoop核心里实现实时分析和预测建模。”问题的关键在于速度,和更加成熟的技术相比,Hadoop解决问题要多花费20倍的时间。所以Intuit公司正在测试Apache Spark,一个大规模数据处理引擎,还有和它关联的SQL查询工具,Spark SQL。Loconzolo说:“Spark有快速的交互查询、图表服务和连续播送功能。它将数据保存在Hadoop里面,又有足够的性能帮助我们弥合这道鸿沟。”
(待续)