软件公司Intuit和Novantas采用了特定的方法来部署他们的第一个Spark集群,限制了初始用户访问,并寻找更加坚实的业务用途。
专家说,大多数公司都有可能利用的数据货币化机会。但是明确的战略和长期计划对于获得所需的利益至关重要。
Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件?
随着Hadoop,Spark和其他大数据技术作为更多组织中的关键IT组件,越来越重视寻找大数据分析应用程序的业务优势,
传统ETL工具仍然在数据集成市场占最大比例,Gartner公司在2016年数据集成工具魔法象限调研报告中发现,使用批处理任务处理大量数据集成的组织超过80%。
作为大数据平台,如Hadoop,NoSQL数据库和Spark 处理引擎被企业广泛采用。部署先进的分析工具,帮助企业分析业务数据流,这类方式被越来越多的企业所接受。
即使现在有了高级分析工具扩展阵列,但分析团队在开发大数据应用程序,以及从大数据分析应用中获得可用数据方面,仍然面临大量挑战。
几十年来,机器学习已经成为高级分析场景的一部分,但是大数据平台和创建自动分析算法工具的出现使得机器学习变得更加重要。
Spark的最开始的名片是它能比MapReduce更快地运行批处理应用程序,而其编程环境和执行引擎是嵌入在Hadoop原始版本中的。
虽然Spark自身还有待完善,但由于在批处理应用性能方面的优势,Spark正在逐渐将MapReduce边缘化,该数据处理引擎的使用正在快速增长。