很多企业正在使用Hadoop和其他大数据技术,打破现有的业务模式,寻求新的业务策略、研发新的产品。
数据科学家和其他用户在使用数据前,无需自己完成数据准备工作,这些数据准备任务应由具备大数据环境的企业来完成。
当LinkedIn还是一家规模较小的公司时,它从社交网站上获取的数据是如何被格式化和结构化的,似乎并没有人关注。
无论你如何构建治理环境,都需要对数据进行管理。但数据管理团队越来越多地以微妙的方式实现数据治理,以避免被商业用户视为“数据警察”。
大数据系统中,数据并非唯一需要管理的内容。数据科学家和其他用户所运行的查询也必须进行监控,以确保他们不会在Hadoop和Spark集群中陷入困境。
数据湖中大量的原始数据可用于不受约束的探索和分析。但一切并非那么容易:为了避免信息混乱,所有数据需要编目和管理,而这项工作通常需要大数据团队手动完成。
对于初学者来说,大型数据架构通常包括内部系统和外部数据源的组合。除结构化交易数据之外,它们还添加了各种类型的非结构化和半结构化数据。
如果应用程序开发人员不关注数据准确性和一致性,使用Hadoop,Spark和其他大数据技术的数据收集过程虽然要快得多,但效果并不一定很理想。
和构建大数据架构类似,支撑实时分析架构的软件种类繁多,这对于用户来说有利有弊。找到合适的技术,并把这些技术整合成一个有效的分析框架将是一个十分冒险的过程,一着不慎,满盘皆输。
并非所有的公司都有实现数据货币化的必要性。但对于适合的组织,实施数据货币化战略几乎可以将数据转化为更大的价值。