分布式文件存储 大数据产业的快速发展和Hadoop的贡献密不可分,可以说二者相生相伴,互相成就。Hadoop诞生于2006年,从1.0、2.0 一直走到今天的3.0时代,它扮演着数字时代新型生产工具的角色,也见证了企业唤醒沉寂数据价值的不凡征程。 如今,迈入云﹢AI时代,各行各业的数据量呈现爆炸式增长,华为《全球产业展望(GIV)》预测,全球数据量将从2018年的32.5ZB快速增长到2025年的180ZB。面对汹涌而来的海量数据存储和分析需求,大数据如何进一步支撑数据挖掘和变现,成为各行各业面临的新挑战。 如何提升效率成为新时代大数据平台演进必须思考的问题 以运营商为例,作为数据管道的提供者,积累了大量的用户数据,也顺理成章地成为大数据应用的先行者,通过多年的不断探索,构建了行业内领先的大数据系统,包括经营分析、网优网规、详单、日志等。 因各种历史和技术原因,大数据平台均为垂直建设,不同平台间的数据难以共享,形成了一系列的数据孤岛。随着业务的发展,运营商数据来源、类型越来越多样化,对大数据平台进行整合,实现多源数据融合、全量分析的诉求越来越强烈,传统的建设模式变得捉襟见肘。造成这种现状的一个主要原因就是计算和存储是一体的,无法支撑云化资源池方式的部署。 具体到单一大数据平台,以典型的日志历史库场景为例,为了更好地满足历史数据查询需求,数据保留周期不断延长,但日志的查询总量几乎没有增加。如果还是按照当前的方式建设和扩容,存储设备将增加X倍,但同时意味着更多的计算资源将被闲置。这显然与运营商降本增效的目标背道而驰。数据量在成倍增加的同时,意味着存储Capex和Opex的成倍增加,在日志数据价值未明显提升的情况下,这无疑会给运营商带来新的成本压力。
|