应对大规模数据集群治理,联通大数据这么做

1月 24, 2020 金皇朝4新闻

应对大规模数据集群治理,联通大数据这么做

维克托在2012年出版的《大数据时代》一书中预测,数据被纳入企业资产负债表只是时间问题。如今,随着新科技手段的整合和创新,大数据已经应用到我们生活的各个方面,数据资产的概念逐渐得到国内外企业的强烈认可。

但是,数据和企业资产可以直接等号吗?实际情况是,没有系统化管理和规划治理的数据集群,不仅难以为企业创造实际效益,还会带来权限混乱、计算能力下降、存储和计算冗余、Edit 中国北斗20多年走过的不平凡创新路!资源浪费等问题,使整个数据集群处于一个UB健康状态。

那么,是否有原始的清洁源解决方案?联通大达达渡口有限公司技术部部长李大中最近在2019年大数据产业峰会大数据前沿技术论坛上以“联通大数据集群治理实践”为主题,分享了运营商在数据资产管理方面的经验和对策。

联通大数据有限公司承担联通大数据能力建设和对外服务运营职能。目前平台的存储容量为100PB,Hadoop集群超过6000个节点,数据模型数量超过2000个。作为运营商,在数据管理过程中,不仅要面对大数据量的实时处理要求,还要从成本的角度考虑集群计算配置、安全合规性等方面的要求。大数据是一个高成本产业,其中集群计算成本是其主要组成部分。

通过借鉴行业治理的经验,结合公司业务特点和组织结构,总结出一套适合公司业务发展的数据资产管理系统,即“疏导提升+巡山+数据价值”的数据资产管理系统:世界卫生组织乐生命周期数据管理与管理系统基于“疏浚与推广”项目,而大型建设基于“巡山”项目。集群管理系统实现了基于“数据价值”项目的外部数据价值管理。三大项目同步推进,形成数据治理+集群治理+数据价值的整体协同效应。

对于大规模数据集群治理的推广方法,由于集群治理涉及到从采集、清理到模型处理,从平台运维到产品开发,几乎涵盖了公司产品线的整个技术线和数百人的工作内容。任何情况下,采用自上而下的设计方法都是不现实的。我们采用自下而上、自发的协作和完善。渐进式数据集群管理文化。从发现问题点入手,找出原因,制定解决策略,建立相应的监控点,逐步形成系统。通过治理的主导作用产生一些环节,可以带动整个公司的生产组织体系逐步形成治理文化。

针对小文件太多、文件太多、资源消耗大的情况,联通大数据通过自主研发统一的元数据实时采集平台进行fsimage和editlog的反序列化分析,实时批量访问资源队列信息、文件目录、作业任务信息等。离子等内容,通过多维关联纵向洞察可疑异常操作,促进作业优化和监控。优化效果。最终,集群文件的数量从近8000万下降到3000万,平均文件大小增加了四倍。集群资源负载从几乎每天都满降至不足70%。每年节约固定资产数千万元。

针对数据处理流程可追溯性和敏感数据难以有效跟踪的情况,在Hive执行日志上进行了sol分析,通过Spark作业输入输出目录图,非侵入性地构建了企业级全局元数据平台。它提供了全局物理视图、业务视图、元数据变更跟踪和监控、全局数据血缘关系图等核心功能,具有复杂的可追溯性要求和故障范围评估功能。

在谈到治理过程中的经验时,李大中指出:“大规模的数据集群治理不是一个人,一个单一的项目团队可以完成,而是需要以文化渗透的形式动员到公司的生产发展组织体系中,采用自下而上的自发协作,将企业的生产发展组织体系整合到企业中去。以OKR而不是KPI的方式进行管理,在解决问题的过程中,不断调整目标,从而建立持续优化。治理体系。当然,技术人员应该接受和理解大数据开放源码技术,并采取开拓性的思维来解决问题。

admin

作者admin

发表评论

电子邮件地址不会被公开。 必填项已用*标注