100PB数据的“肯尼亚”大迁徙,这是一场「云」的全面胜利

百家 作者:51CTO技术栈 2019-08-21 11:23:51

2018 年 2 月,春节刚过,北京还笼罩在雾霾中,上地某酒店,阿里云工程师们摩拳擦掌。


他们从 115 科技“踩点”回后,推演了各种可能,确保万无一失,遂决定正式启动“肯尼亚”迁移项目。


肯尼亚,横跨赤道,是野生动物的王国,每年7-9月都会上演最为传奇的动物大迁徙。


在阿里云内部,“肯尼亚”迁移项目指 115 科技的数据大迁移。

115 科技是一家成立十年、以云存储起步的高新技术企业,旗下核心产品之一“115 个人”(原“115 网盘”)是国内最早一批上线的云盘产品。


但做云盘的苦,只有做过才知道。出于自身发展的综合考量,115 科技决定上云。


差点用劳斯莱斯运冰块


2009 年“115 个人”产品上线后,115 科技喊出「改变分享」的口号,以便捷的文件分享功能赢得海量用户的喜爱,且不放广告、不限速,用户体验好。

一时间,几乎全国各大论坛、软件厂商、游戏厂商、设计论坛、教育机构、漫画及影视行业全部在用“115 个人”进行文件分享。

到 2017 年底,115 科技个人注册用户接近 1.5 亿,随之而来的是,硬件成本节节攀升,要不断地租机房、买机器,繁重的运维工作如排山倒海袭来。

115 科技日常需要运行维护接近 5000 台服务器,安置在广东东莞、梅州、佛山等地的数据中心,共约 10 万块硬盘。硬盘不断读写数据,损耗极大。

硬盘一旦损坏,就需要及时的备份恢复。115 科技为此专门组建了一支“救火队”——七人换盘小分队。

队员们背景各异,有设备运维,有网络维护,也有帮忙搬运设备的厨房工作人员等。需要换盘时大家实时响应,平时就从事本职工作。

“救火队”的工作庞杂,不仅要换盘,有时数据中心没有硬盘备份时,他们还要集体出动采购硬盘,或从其他机房开车运送硬盘。甚至机房制冷供电系统出现故障,也要第一时间赶到检修。

有一次大朗机房空调制冷出现问题,小分队需要运送冰块到现场,由于当天公司还有其他接待任务,车辆紧张,还差点动用公司的劳斯莱斯运冰块。

小分队在机房蹲了一夜,用风扇吹冰块为设备降温,并密切关注是否有硬盘损坏,以备随时更换重启。

作为网盘行业的资深玩家,115 科技的存储技术已经炉火纯青,却吃够了硬件的苦头。

同时,网盘的市场格局也在不断变化,用户对网盘的体验提出了一些新要求。是继续把精力耗损在维护硬件上,还是把所有精力集中在业务创新?115 科技走到了岔路口。


上云,要上云


必须上云,上云才能解决问题。

这个决定来的突然但是坚决。2017 年 12 月,115 科技创始人赖霖枫忽然召集核心成员开会,传达了这个决定。没人有异议。但所有人都知道,这不是一件容易的事,毕竟 115 科技的数据量已经到了 100PB。

100PB 数据有多大?按普通 DVD 约 4GB 容量算,就相当于 2500 万张 DVD,每天观看一张,大约要 68000 年才能看完。


会后第二天,115 科技的上云小组就开始和各个厂商探讨方案。其中,阿里云是最后一家。

高手过招,两三回合后便可将对方底气探个大概。「我们聊了聊存储方面的技术问题,发现对方都非常有研究。」阿里云中国区解决方案总经理霍嘉回忆说。

115 科技向霍嘉坦言已经接触过几家云厂商,霍嘉也大方指出这个项目比较复杂。

首先,115 个人是一个在线系统,迁移过程不能影响用户正常使用,因此这是一个热迁移问题。其次,115 个人上数据量大,存储及业务系统复杂,因此更需要详细设计。 

霍嘉说,115 科技上云这一项目和优酷上云的项目非常相像。都是以非结构化数据为主的图片及视频业务,存储需求类似;也都是线上系统,需要保持不宕机。

有了优酷的迁移经验,霍嘉多了一份底气。他把整个上云过程进行了拆分讲解,找到关键节点及风险点,并估算了时间。他的判断是,这个项目需要 90 天完成。

对于 115 科技来说,迁移时间是非常敏感的考量指标。因为在迁移过程中,公司需要负担双份的硬件及带宽费用。

「动不动就几千万上亿的,这谁扛得住啊。

尽管深知 115 科技方面对时间的敏感,霍嘉还是坚持三个月迁移周期的评估,「100PB 的数据迁移,史无前例。这种事一定要对客户负责。因为开工没有回头箭。


决战 45 天


阿里云在周期评估过程中的专业与坚持,让 115 科技信心大增。

赖霖枫也在项目结束后谈到,最打动他的是阿里云的方案从实际出发,是最接地气的方案。

「不像是甲乙方,更像是战友和伙伴。」他评价说。

「我们派了两位同学留在 115 科技北京办公室,摸清系统架构、数据的冷热情况。仔细地制定了迁移方案,做了成本评估。又当面向赖霖枫做了汇报。


霍嘉回忆,「上云这件事最担心的就是影响业务,我们把所有的过程都拆解清楚了,对方也就吃了一颗定心丸。

刚刚过完 2018 年的春节,这个在阿里云内部代号为“肯尼亚”的迁移项目正式启动。

(115 科技在阿里云上海峰会现场演示)

阿里云的方案是闪电立方+专线迁移同步进行。闪电立方是阿里云于 2017 年初推出的物理搬迁方案,针对数据量大、时间紧的两地搬迁,115 科技的需求正好符合这两点。

针对 115 系统维持正常运转的需求,阿里云创新性地采取了闪电立方+专线辅助迁移的方式。


就此,115 科技也成为闪电立方问世以来数据量最大的使用客户。普通企业的数据量大多在几百 TB,上 PB 级很罕见。

阿里云当时调了十套闪电立方,八套用来迁移,两套备用。当一套在路上跑时,另一套加载数据。等数据加载完,另一组已经回来了。霍嘉回忆说,「这是一个非常精密的过程,中间不能有任何的误差。」 

115 迁移上云的最终回合在一个凌晨打响。最后一台闪电立方在阿里云的深圳机房平稳上传完最后 100TB 数据。

凌晨 5 点,「肯尼亚」项目完工,闪电立方停止工作,115 科技和阿里云完成最后割接。


阿里云一行人走出 115 科技在东莞的办公大楼。广东的早春,已经不算寒冷了。霍嘉扭头和身边的同事们说,「你看兄弟们还行吧,当初吹的牛也算是实现了。

最终,「肯尼亚」项目仅仅用时 45 天,比预计的三个月时间少了一半,也创造了百 PB 级数据公共云迁移的新纪录。

现在,上云后的 115 科技摆脱了运维的繁重工作,七人换盘小分队得以解散,都投入到了更有意义的系统优化和业务创新工作中。

115 科技一共使用了阿里云三十多款产品。除了解决了原本机房不稳定的问题,还实现了业务层面的创新,直接采用云上的 AI、视频转码技术,用户已经可以快速分类网盘内容、智能搜索。

借助大型公共云的力量,115 科技加快了在人工智能等方面的战略布局,进一步完善云生态,让基于大数据的云端存储、沟通、协作成为了新的业务增长点。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接
百度热搜榜
排名 热点 搜索指数