数据是人工智能(以下简称AI)技术的燃料,也被比喻为数据经济中的石油。在AI时代,数据的采集、存储、传输和处理需要强大的基础设施作为支撑。数据中心和数万台服务器成为互联网巨头的标配。
8月22日,今日头条与英特尔举办主题为“数据赋能,AI正当时”的战略合作发布会,会上,今日头条介绍与英特尔合作的超10万台服务器的大规模数据中心,同时双方宣布成立技术创新实验室,在大数据和AI方面进行更长远战略合作。
近日头条技术副总裁杨震原介绍,目前,今日头条每日数据处理量超过50PB、存储数据超过1500PB、评论系统每天的评论数大概有1亿条,需要大量的服务器来处理这些内容。
2013年3月字节跳动的服务器数量只有几十台,到年底增至一千台,此后便是上万台的增长。在2017年年初的时候,公司大概有2-3万台服务器,现在大概有17万台服务器。
今日头条对大型数据中心的需求是急迫的。杨震原介绍道,字节跳动花费了不到九个月的时间在怀来创建起了超大规模的数据中心。数据中心投入运营创立了国内多个第一,包括国内首个大平层预制数据中心,首个整体电源模块预制数据中心,首个大规模分布式数据中心,首个间接蒸发冷却模块数据中心。
据以往报道,今日头条在怀来的数据中心是第三方厂商秦淮数据定制的,投资60亿元,主要承载数据存储、挖掘分析、应用等数据交易生态体系和云服务生态体系,定位为国家级新媒体企业提供高可靠性的云计算服务。
字节跳动2016年初开始有新建数据中心的计划,怀来的基础设施相对不完善,但是潜力巨大。2017年12月字节跳动开始在怀来数据中心放置服务器,目前一期园区约5万台服务器已经投入使用,正在紧邻一期园区建设二期,规模增加一半但预计工期相同,大概能容纳9万台服务器。
数据中心是互联网巨头的标配,但是也不是一劳永逸的方法。杨震原谈到,“怀来数据中心已经满载运行了,下一步我们还要建设更大规模的数据中心。但是,更大规模的数据中心实际上只是解决扩展性的问题,我们有资源的情况下可以迅速的扩充资源,支撑我们的业务发展。但未来的挑战也非常大,我们也不可能完全靠堆资源的方式解决我们的问题。
举一些我们未来的挑战,比如全球化运营,字节跳动在欧洲、北美、南美、东南亚都有很多产品和用户。全球化运营过程中我们会面临海外IDC的建设还有长距离传输的挑战,尤其是我们的推荐系统是一个非常紧耦合的结构,这个对我们的挑战非常大。再比如,数据规模会进一步的扩大,会带来一些计算模式的演进,还有算法沉淀、商业模式带来的一些问题。
另外,新硬件的变化,手机移动端和5G网络这些新的变化可能会带来未来计算模式到底是什么样的变化,是不是有更多的计算offload在外面,我们的传输是不是有新的模式去运作,这些问题对我们都有很大的挑战,而且我们不能都仅仅通过加资源去解决,这就是我们为什么去跟英特尔更加紧密的合作,我们希望不仅仅在资源的累积上,而是做更多的创新,更多的算法,我们能够给英特尔提出更多的问题,我们一起去合作,这些东西是为了解决我们的挑战,而且我希望这些东西能够输出给行业,能够带动市场的发展,所以这是共赢一个事情。”
这几年,AI风口正盛,而今日头条正是依靠算法、AI技术快速崛起的新锐AI公司代表。在2016年,今日头条创办人工智能实验室,旨在推动人工智能前沿技术研究,让机器深入理解文字、图片、视频、环境场景和用户兴趣,从而促进人类信息与知识交流的效率和深度。主要研究机器学习、图像识别、自然语言处理、语音识别等AI技术。
据今日头条算法架构师曹欢欢介绍,今日头条在目前在多方面运用AI技术:第一方面是做内容推荐的算法,目前头条、抖音、火山、西瓜都在大量地使用这方面的技术;第二是自然语言处理,主要用来分析文章内容、用户评论等,对内容推荐是很重要的支撑。此外,我们也在用NLP技术做写稿机器人“Xiaomingbot”;另外是计算机视觉,我们在抖音、火山、FaceU激萌等短视频App上用到了很多的CV技术,例如人脸特效、背景分割、“尬舞机”、内容审核、封面选择、AI剪辑等;最后是语音识别,这个方面应用还不多,目前是用在抖音、火山、西瓜里的内容审方面,将视频的语音内容识别成文字,然后利用NLP技术去发现不良内容、恶意营销等。