发表于:2015年2月3日
(接续)
5.Hadoop上的结构化查询语言(SQL):更快,更好
如果你是一个聪明的编码员和数学家,你就可以将数据拖放到Hadoop中,做任何分析。Gartner的分析员Mark Beyer说,这就是Hadoop的前景——也是问题所在。他说:“我需要有人把它设置成我熟悉的格式和语言结构。”Beyer说,这时候SQL Hadoop的产品就起作用了,尽管任何熟悉的语言都行,但支持SQL一类的查询工具将会让已经熟悉SQL的商业用户把同样的技巧应用在数据上。Hopkins说,Hadoop上的SQL“为Hadoop敲开了通向企业的大门”,因为企业无需投资于能使用Java、JavaScript和Python进行脚本编写的高端数据科学家和商业分析师——有时候Hadoop的用户也需要做这些工作。
这些工具已经不足为奇了。Apache Hive在好一段时间里都为Hadoop提供了类似SQL的结构化查询语言。但是Cloudera、Pivotal Software、IBM和其他供应商提供的商业选择不仅仅拥有更高的性能,而且速度更快。这使得该技术非常适合“迭代分析”,这种分析中,一位分析师会提出一个问题,然后得到一个答案,接着再提出另外一个问题。这类工作在传统上是需要建立数据仓库的。Hopkins说,Hadoop上的SQL不会代替数据仓库,至少短期内不会,“但是对于某些分析来说,它确实提供了能代替更加昂贵的软件和设备的其他选择。”
6.更多,更好的NoSQL(非关系型的数据库)
Curran说,传统的以SQL为基础的关系型数据库的替代选择成为NoSQL(即“不仅仅是数据库”),它作为人们在特定分析应用中使用的工具,迅速获得了广泛的青睐,并且这种趋势会不断持续。他估计目前有15到20种开源NoSQL数据库,每一个都有自己的特殊作用。举个例子,带有图形数据库功能的NoSQL产品,比如ArangoDB,能比关系型数据库更快更直接地分析客户间或者销售人员之间的关系网。
Curran说,开源SQL数据库“早已存在,但是由于人们需要各种类型的分析,它们仍然日益受到欢迎。”普华永道在新兴市场的一位客户曾经在超市货架上放了传感器来检测产品类型、顾客拿起产品的时间以及站在某个货架前的时间。Curran说道:“这些传感器发送的数据流将会成指数增长。”“因为它的专用性,高性能和轻便性,NoSQL键值对数据库成了存储这类数据的理想场所.”
7.深度学习
Hopkins说,深度学习是基于神经网络的一系列机器学习方法,它仍然还在不断演变,但是在解决商业难题上展现了巨大的潜力。他说,“深度学习.使计算机能够在大量非结构化和二进制数据中识别感兴趣的项目,并在不需要特定模型或编程指令的情况下推断出关系。”
举一个例子,一个深度学习算法从维基百科中检索数据,并自己从中了解到加州和得克萨斯州都在美国。Hopkins说,“它无需建模就能了解州和国家的概念,这就是旧式的机器学习和新兴的深度学习的巨大区别。”
Hopkins还说,“大数据能利用深度学习等先进的分析技术,用很多不同的非结构化文本完成工作,而这种协助方式是我们现在才开始了解的。”它可能会像神经网络一样,被用来识别很多不同种类的数据,比如视频中的形状、颜色和物体——或者甚至是图像中一只猫的出现,就像谷歌在2012年做的那样。“认知参与和高级分析的概念以及它所蕴含的意义.是未来一大重要趋势。”
8.内存分析
Beyer说,用内存数据库加快分析处理已经日益流行,并且在正确的设置中会大有裨益。实际上,很多企业已经在使用混合交易/分析处理(HTAP)功能——也就是允许交易和分析处理驻留在同一个内存数据库里。
Beyer也说,但仍有很多围绕HTAP的炒作,而且企业一直在滥用HTAP。当用户在一天中要以同种方式多次查看同一数据且数据没有显著变化时,对这类系统而言,内存简直是在糟蹋钱。
虽然你可以更快地用HTAP进行分析,但所有交易都必须驻留在同一个数据库里。Beyer说,这里的问题就在于,当今大多数的分析工作都需要把交易从许多不同的系统聚集到一起。 “把交易放在同一个数据库里就又绕回来了,如果您想在所有分析中使用HTAP,它需要您把所有的交易都放在同一个地方”, 他说:“您还需要集成各类数据。”
另外,引进内存数据库则意味着又多了产品一个需要管理,保护,集成和扩展。
对Inuit来说,Spark的使用已经减弱了对内存数据库的念想。Loconzolo说,“如果用Spark基础架构能解决70%的用例,系统内存能解决100%,那么我们的分析云就会采用70%的这个。”“所以我们会先制作原型,看是否适用,并且即刻从内部暂停内存系统。”
先行一步
在大数据和分析的各大趋势不断涌现之际,IT组织需要创造条件,让分析师和数据科学家进行尝试。Curran说,您需要一种方法来进行评估、制作原型,并最终把这些技术融入到企业中去。
Beyer说,“IT经理和实施人员不能以成熟度不高为借口停止实验。”最初需要进行实验的只有少数人——也就是最熟练的分析师和数据科学家。之后高级用户和IT部门应该共同确定何时为企业其他部门提供新的资源。并且IT部门不应该束缚想要全速前进的分析师们。Beyer说,相反,IT部门要和分析师们携手合作,“为这些高性能工具装上变速器。”