经营
快手是怎么做数据存储成本管理的?|彭文华滑稽的意思
2023-11-01 18:34  浏览:30

这是彭文华的第128篇原创

快手这次“数据管治技术交流会”分享内容真的给力!前两天分享了模型规范,今天分享第二个议题:《成本管理-快手大数据存储管理的落地实践》。文末有PDF下载。


这部分是快手数据治理专家程伟大佬讲解的:





快手大数据存储成本管理架构


既然是成本管理,那得按照财务的成本逻辑走。但是这个图给财务,我估计是看的迷迷糊糊的,因为财务压根就没有架构概念。不过基础逻辑是一致的,得进行成本分析,之后再去进行成本控制。





快手大数据存储策略


快手的存储量是真的实在太恐怖了。好几EB的存量存储,数十万张Hive表,增量存储按PB算,速度还不低,月增8%。

数据治理、成本管理这些吃力不讨好的事情,一般都是疼了哭了,哭了累了,矛盾心里总是强求~~~然后才开始痛定思痛,好好做工作的。按快手这个存储量,即便是再便宜的存储,费用那也是个天文数字啊!

造成这些的原因,一方面是数据量太大了,二来之前也没想过控制成本,再者也不知道怎么控制,其实最关键的还是不能耽误业务增长的路啊。

其实在其他大厂,数据配额也都是数据基础团队进行资源管控的主要手段。但是快手这边以“谁生产谁负责”的原则,把每张表都对应到人头上,然后进行存储成本的拆分和盘点。这样最典型的好处就是每个人都会有一个成本意识。

成本计算也很简单粗暴,数据存储量*存储单价=存储成本。当然这两个数据也没法做到非常精确,只能是一个大致准确的估算。

另外,快手还引入了数据生命周期的概念。以往的数据都是有进无出,统统保留。不仅持续产生费用,还对管理和维护带来非常大的挑战。

根据数据生命周期管理策略,临时表、价值不大的数据,定期直接删掉。针对数据相似度高的且需要全量保留的数据,采用数据压缩、建历史拉链表等方式进行极限存储。对于需要永久保存的数据,区分冷热轻重,冷数据扔到成本比较低的存储里,热数据、重要数据,那就给最优质的资源好好保留。

在这里,有个同学提了个问题,为什么ODS需要长期保留,但DWD层的数据为短期保留就行?

ODS层的数据都是最原始的数据,部分数据生产库都有可能没有,另外很多机器学习都需要最原始的数据,所以ODS层是需要保留的。DWD的数据随着时间逐渐变冷,大概率不会被使用了,可以直接删掉。如果需要,可以用ODS临时跑出来即可。

这个策略仁者见仁,智者见智,各个公司可以根据自身情况各自设置即可。

另外,快手还通过指标进行资产登记的设置。对于不太重要的指标数据,也基本上都是周期性删除,以保证资源的充分利用。





快手大数据存储治理实践


快手数据成本治理落地还是很有章法的。一方面进行专项数据治理,另一方面,发起全民进行自驱式的数据管理。

专项数据治理就是按照项目管理的逻辑,计划、执行、检查、复盘。按照上面的数据生命周期管理策略,进行各种表的清理。

专项数据治理则是发动每个人,朝着治理目标进发,减少各种伪数据需求。

因为之前已经把人和表对应起来了,所以就能做一个榜单排名,进行通晒。果然,效果最快的还是KPI。

最后的结果看上去非常棒,但是这种给别人加各种限制的事情肯定是会让人非常不舒服的。所以快手也设定了一个“数据治理运营”的角色,运营的对象是所有数据工作者,提升组织能力,增加组织势能,从而让全体提升成本意识,避免浪费,最后加上技术和产品工具,帮助成本管控。

虽然隐去了很多细节,比如除了排名通晒这种半强制的手段之外,还有哪些具体的手段来促使大家积极踊跃的参与成本控制的方法。但是这些经验已经足够给后来者提供一些参考了。

扩展阅读:《3.成本管理-快手大数据存储管理的落地实践-程伟》已经给你准备好了,后台回复“成本管理”即可下载。


配合以下文章享受更佳







干货 | 数仓到底要分多少层?

干货 | 快手数据治理之模型规范

干货 | 如何搭建一个数据仓库

【资料包】数据仓库建设完整资料包

热文 | 数据资产化的前提-浅谈数据治理体系的建设

我需要你的转发,爱你哟

发表评论
0评