中国计量网 http://www.chinajl.com.cn/
中国计量网——计(jì)量行业门户网站
计(jì)量资讯速递(dì)
您当前的位置: 首页 > 新闻 > 综合资讯

中国计量科学研究院先进测量工程中心副主任武彤:计算性能基(jī)准计量测试工具研究

发布时间:2020-09-17 作者: 来源: 浏览:6745

中国IDC圈讯,开放数(shù)据中心峰会(ODCC2020)在北京召开,峰会围绕数(shù)据中心新基建为主题,有(yǒu)数据中心领域及相(xiàng)关行业的众多专家与会。在9月16日新技(jì)术与测试分论坛上,中国计量科学研究院先进测量工程中心副主任武彤(tóng)带来了主题为“计(jì)算性能基准计量测试工(gōng)具研究(jiū)”的演讲。

39664009

中国计量科学研究院先进测量工程中心副主任武彤

大(dà)家好,我是武彤,先介绍一下我们单位(wèi)的情(qíng)况,可(kě)能在IT行业大家不太了解我们单位(wèi),我来(lái)自中国计量科(kē)学研究院,它隶属于国家市场监督管理总局,是我国最高的计量科学的研究中心,国家级的法定计量技术机构,我所在的部门主要负责智能工程、云计算以及数据中心领域还有(yǒu)一些其他的材料领域的计量测(cè)试以及评价验证。

可能大家不太熟(shú)悉计量,我首先给大家介绍(shào)一下,大(dà)家对计量的概念一般都(dōu)从秦朝开始,就是商鞅变法统一度量衡称为计量。实际上在(zài)上古时代,《伏羲女娲图》里面拿了两个工具就是比较早期的计量工具。什么叫计量?给(gěi)大家举个例子,在秦朝叫秦钱,“秦钱半两,径一寸二分,重十二铢。”这儿都两个(gè)单位“两”和“铢”,一两等于二十四铢,计量就是单位统一、量(liàng)值准确可(kě)靠的活动。度量衡的技术进(jìn)步开(kāi)启了我国(guó)的金融体(tǐ)系(xì)。

计量的发展通常我们称(chēng)为从古典计量到(dào)现代计(jì)量。古典计量基本上大家(jiā)都非常了解(jiě),是用植物的果实或者是用某一个人的人体器官的长度作为计(jì)量(liàng)的(de)单位,比如说克拉,克拉就是是一种植物的果实,大家都用于做重(chóng)金(jīn)属或者钻(zuàn)石重量的计量,克拉原(yuán)来是植物的果实,后来做标准(zhǔn)化,1克拉等于200毫克。到1875年,米制公约的确立,为了工业制造的发展需(xū)要标准化,就需要统一(yī)的量值体系,到了现代计量,主要为了科学技术的发展,特别是军事科学技术的发展(zhǎn)。

我们看一下云计算领域的计量(liàng)。首先(xiān)看贸易(yì)的角度,我们看怎么来卖云计算服务(wù)的,特别是IaaS的方面,这是腾(téng)讯云的,里面有三个指标,其中一个比较重要,一个叫CPU,一个叫内存,一个叫带(dài)宽,它(tā)卖了三种服务,一个是计算的能力,一个是存储的能力,一个是通信的能力,其(qí)他的厂商也是这样的(de)。

实际上如果从度量的角度来讲,“核”就是一个单位,因为我们(men)卖的计量单(dān)位是一核,一核(hé)的计量单位是多少我们大家都(dōu)不是特别清楚(chǔ)。从计量角度来讲,我们认为云计算(suàn)的计量可能处于植物果实的状态(tài),就是克拉的状态。

在物理领域,计量有七个基(jī)本单(dān)位能描述整个物理世界,比如千克等等。在(zài)互联网领域怎么来描述整(zhěng)个互联(lián)网领域的量呢?在2015年ODCA开放数据中(zhōng)心联盟,这个联(lián)盟大部分由数据中心的使用方组成的,他们做了(le)研究成果就是IaaS的度量方(fāng)法(fǎ)。他们提出来在互联网领域可能用三个指标整个描述互联网(wǎng)领域的活动:第一是秒(miǎo),秒是时间的永(yǒng)恒的时间指标;第二是比特,大家知道比特是描述信息的一个计量单位;第三是计算能力,计算能力是互联网领域一个新的计算(suàn)指标,因为我们买的就是算力,类似于电力(lì)的千瓦时一样。

实际上在这三个指标里(lǐ)面,计(jì)算能力(lì)的(de)测量是最复杂的。我们归纳一下,在互联网测试领(lǐng)域怎么做计量或者测(cè)试,比较重要的就是计算资源的测试,存储资源的计(jì)量单位比如比特。存(cún)储资源(yuán)是(shì)计量是按(àn)照“块(kuài)存储(chǔ)”来测量的,“块存储”的不(bú)同(tóng)也会(huì)导致的计量测试结果差异很大(dà),但计算资源的计量可能(néng)是颠覆性的差异,比如你买(mǎi)一核的算力是(shì)两块钱,另(lìng)外一核可能二十块(kuài)钱,担算力到底是多少,实际上是没(méi)有一个统的度量指标的,所以我(wǒ)们(men)就从需(xū)求的角度来讲,最重要的需求(qiú)是先把(bǎ)计算资源的这(zhè)种计量的能力或(huò)者测(cè)量能(néng)力统一。

刚才我讲物理计量用七个基本单位,但是在化学(xué)计量里面,采用的计量标准叫标准物质。比如测氧气的浓度97%是怎么测量的呢?我们(men)首先出一个标准(zhǔn)物(wù)质,标准物(wù)质是4个(gè)9或者5个9的标准物质,跟它比较(jiào)来的(de),根据比较(jiào)的接过去确定是97%、96%。

在计(jì)算领域(yù)我(wǒ)们找(zhǎo)到一些基准的测量程序,比如(rú)算π,每秒钟算一百万(wàn)位是(shì)一核,两百万位是两核,但实际的计算场景没那么(me)简单(dān),但它的原理是这样,靠(kào)基准程序来确定测试能力。

互联网的处(chù)理数据非常复杂,你不可(kě)能找一个程序来度量整个(gè)能(néng)力,所以(yǐ)我们(men)要找到一系列的程序,比如说负载压缩的(de)程序、流体力学(xué)的程序,计算(suàn)负载越来越多,其测量(liàng)的数据与互联网的体验就吻合得越(yuè)好。当然它还(hái)需要其他(tā)的一些处理,比如说控制程序、硬件的操作。测试程序只是最基础的单(dān)元测量能力,就像我们有了尺一样(yàng),怎样用尺来量面积,还需要有方(fāng)法学的标(biāo)准。

基本测试的工具(jù)有这么多程序组成的,实际上我们在测量的时候(hòu),包括云(yún)计算的厂商在测量的时(shí)候,它把这些东西装入它的计算单元,通过运行来测量一个结果,这是各种各样的基本测试程(chéng)序。通过这个基本测试程序你能做出来一系列(liè)的测量结果,服务器的算力和功耗之间的比值就是服务器的能效,PUE是比较IT的耗电和总耗电,如果是服(fú)务器(qì)的能效是提高了,实际上PUE的能耗高点也没问题。从综合能耗(hào)来讲,服(fú)务器的能效的提高,从实践上来说它的技术进步更快(kuài),因为随着半导体技术的进步,它的提高能(néng)力比数据(jù)中心的制冷的这(zhè)种效率的提升速度是要快的,只不过大家更关注PUE的准确。

计算性能的(de)测试需要很多策略(luè),它并(bìng)不是把一些负(fù)载堆积到一起就可以了,需要很(hěn)多策略来支撑它,因为这种测试工具(jù)需(xū)要有很多(duō)指标证明它是科学的测量工具。

这(zhè)是我们做的一款工具,大家看到的(de)这是指标不是指(zhǐ)现在的腾讯云和阿里云、百度云的测量结果,这是我做实验的时候(hòu)它们(men)的性能(néng),今天(tiān)只是展(zhǎn)示一(yī)下这个结果用来说明怎么判断基准测(cè)试工具的(de)科学性。

现在我解(jiě)释一下这种计量工具(jù),基准(zhǔn)测试工具怎么才算是一个科学的(de)测试工具?首(shǒu)要基(jī)准测量工具重(chóng)复性(xìng)要好,比如这(zhè)个基准(zhǔn)测量工(gōng)具,你测量的结果是被测的计算单(dān)元的(de)重复性加上工具的重复性的合成的结(jié)果。假定测(cè)量工具的重复性本身很(hěn)差(chà),这个测试工具不能作为基准计算测试工具,当然不同的负载它的重复性也是(shì)不一样的,所以我们在选这种测试负载的(de)时候(hòu)要选重复性好的。这就是为什么要选克拉作为钻石(shí)的单位(wèi),克拉的种子可能一致性比较好,选苹果就比较麻烦,有的大、有的小,所以选这个程(chéng)序还是要从(cóng)很多的负载里面选择重复性比较好的。

这种负载(zǎi)并不(bú)一(yī)定是我们(men)实际使用的,基准测试实际上是一种理想测试(shì),例如说我(wǒ)们每次看英特尔发布CPU说今(jīn)年我们的计算性能提高40%,实际上(shàng)它是(shì)在理想(xiǎng)情况(kuàng)下也(yě)就是这种(zhǒng)理(lǐ)想负载下做(zuò)的,并不是(shì)在实际(jì)场景,你用WORD等应用程序体验不到提升40%的体验。

基准测试工具它是一个理想(xiǎng)的测试工具,我们就选这么多的(de)负载首先来看它的重复性。重复性对基础测试是最重要的指标,只有(yǒu)你把重复性确定了,你才能确认被测的样品的一致性。假定我们的工具的一致性(xìng)是(shì)0.2%,看一(yī)下单核心的测试结果,大家看云计算如果是单核心它的重复性就比较好。

这是重复性的技术指标,大家可(kě)以看一下这个(gè)技术指标,腾讯云整(zhěng)数运算的时候重复性(xìng)是1.67%,浮点是1.06%。如果是(shì)共享计算单元,云计算有很多共享的计算单元,它的(de)重复性非常差(chà),如果是共(gòng)享的,别人用的多了可能缩减你的计(jì)算能力。实际上其他厂商也是类似情况,有的厂商可能会更差(chà),核数多的(de)重(chóng)复性会更差,比如16核13.6%,它(tā)的算力是波动(dòng)的,如果是独享会好一点(diǎn)。每家厂商的(de)计算(suàn)能力实际(jì)上(shàng)是(shì)波动的,并不是很稳定,我们买其他的东西也(yě)是一(yī)样,我们买水果他每次(cì)给你称500克也是波动(dòng)的,有一个范围,我们购买(mǎi)定量包装的商品也(yě)是这(zhè)样(yàng)。

这样就有一个问题,我们怎(zěn)么样来比较不同(tóng)的算力,因为所(suǒ)有的算力都是波动的?

有一个概(gài)念叫不确定度,测量的“真值“实(shí)际上是不存在的。例如我们测量(liàng)长度,测量长度假设1米,实际上它的最可能的范围是呈正态分布的值,包含有不确定(dìng)度。假定两个人测(cè)量都是1米,这1米它不完(wán)全是相同,它有可能是正(zhèng)偏差,有的是负偏差,如果做可比较的话,就要把你测量结果的不确(què)定度评估出(chū)来。我们有时候测量不确定(dìng)度非常大,比如说算力不确定度达到30%,你测量(liàng)一颗CPU算出来是(shì)2000,另外一个是(shì)1500,实际上比较不(bú)出来(lái)哪个算力更大。

今天大体来解释一(yī)下做一个测量工具需要什么样的技(jì)术指标。

这是我们的不确定度(dù),任何一个测(cè)量工具必须有包(bāo)含不确定度的结果(guǒ),它才是完整的测量结果,这个具(jù)体的不确定度的值(zhí)我就不再具体解(jiě)释了。

总结一下,一个科学的基准测试工具(jù)需要有几个(gè)方面的指标:

第一个是可测量,可(kě)测量是(shì)必须有值测量出来,不能给你给个感觉(jiào)这个挺快、那个很慢,必(bì)须是有量值的;

另外一个可重复,每次的测量结果都在一定的(de)范围内是可以重复(fù)的。

另外(wài)是可以比较(jiào),就是我们设定两(liǎng)种可以比(bǐ)较,比如单核的是什么,双(shuāng)核的是什么,16核的是什么,当然不是线性的(de)。如果别人拿给你一(yī)个工具讲不清楚这些指标,实际上你无法确定是不是可(kě)以用这个工具,当然你(nǐ)可(kě)以根据这个(gè)工具的发布方是(shì)不是权威的(de)组织,来确定是不是相(xiàng)信它。

另外要完全释放(fàng)硬件性能,要(yào)准确模(mó)拟用户的行为,我们选择负载要有典型性,不能选一些很不常见(jiàn)的负载。

还有一个功能是引导未来软件(jiàn)开发,基准测量工具(jù)是一个工具,它自己的稳(wěn)定性实际上是非常高的,比一(yī)般测试程序的稳定性(xìng)要求要高。你要是用应用(yòng)软件的时候(hòu),比如WORD,它每次装载的时间都不一样的,那(nà)个(gè)不一(yī)样(yàng)对你的体验影响是很小,但是基准(zhǔn)测量(liàng)工具作为测量工具要求非常稳定。作为基(jī)准测量(liàng)工具,我们认(rèn)为这些指标是必(bì)须的,刚(gāng)才有很多嘉宾来讲核心的(de)指标、实际上它都是用(yòng)基准工具测量出(chū)来的,如果你(nǐ)的指标(biāo)差异很大,基准测试(shì)工具的影响不(bú)明显。如果差异(yì)很小,实际上影(yǐng)响(xiǎng)很大的。

对于未来的考虑,我们希望能建(jiàn)立硬(yìng)件的(de)服务器和云计算的服务器一致的测量(liàng)工具,这种更便于比较。

我们的工作基本上来提供工具(jù)一致性,并(bìng)不是说所有基准工具都是(shì)由我们发布,实际上基准的测试工具主要依(yī)靠厂商,我们来(lái)提供方法学的支持,怎么来做一款基准(zhǔn)测试工具,怎么来评价基(jī)准测试工具。

我们自己也写工具,我们自己(jǐ)写的工具也不一定是最好的,这需要厂商共同(tóng)的努力,刚才郭亮讲也计划(huá)在ODCC立一个项目是关于基准测试工具的,我们国家基准测试(shì)工具实事求是讲,还是非常落后,这还有一段过程。

我们希望在ODCC的平台下,我们国(guó)家的基准测试工具能(néng)够获得长(zhǎng)足的进步,只有(yǒu)工具进步了,进行市场监管的时候才有基础(chǔ)。比如有人(rén)投诉云厂商,说我买的算力(lì)不够(gòu),如果没有基准测试工具很(hěn)难判定(dìng)怎么叫不够,你买了一核到底多少算力(lì)才够。计量是技术合规的原点,市场监管(guǎn)的基础。

谢谢大家。

分(fèn)享到:
通知 点击查看 点击查看
公告 征订通知 征订通知
会员注册
已有账号,
会员登陆
完善信息
找回密码
一卡二卡久久丨亚洲永久精品视频丨99亚洲永久免费精品丨國產成人綜合丨伊甸园是什么意思丨天天桃色网丨青热久思思丨最新高清中文字幕在线观看视频最新