COMPUTERENGINEERINGANDDESIGN July 2018Vol. 39 No. 7
基于天河二号超算的网格无关性及并行研究
徐艺峰-,李健-,王杰-,范冰丰2,王钢13+
(1.中山大学电子与信息工程学院,广东广州510000& 2.中山大学先进技术研究院, 广东广州510275& 3.中山大学光电材料与技术国家重点实验室,广东广州510275)
摘要:以CFD商用软件Fluent 15. 0为基础,天河二号超级计算机为平台,ZnO-MOCVD腔体为数值模型,对网格无关
性及超算中心的并行计算能力进行研究。通过计算7种不同网格数量的ZnO-MOCVD模型的沉积率,确定网格数量为408 万时沉积率结果达到网格无关性。根据工程需要选取其中两种模型,设置并分析多种并行组合,得出网格数量为17万和
408万的MOCVD腔体模型的最佳处理器核数分别为16 — 128,最大加速比分别可以达到9 — 45,验证了该软件在天河二
号上并行处理的实用性,结果可为后续大规模计算提供参考。
关键词:计算流体力学软件(Fluent) &金属有机化合物化学气相沉积(MOCVD) &天河二号&并行计算&数值模拟 中图法分类号:TP338. 6 文献标识号:A 文章编号:1000-7024 (2018) 07-2036-06
d
oi: 10. 16208'. issnl000-7024. 2018. 07. 039
Grid independence and parallel study based on TianheH supercomputing
XUYi-feng1, LI Jian1 ? WANG Jie1 ? FAN Bing-feng2 ? WANG Gang13d
(1. 2.
School of Electronics and Information Engineering,Sun Yat-sen University, Guangzhou 510000,China;Institute of Advanced Technology, Sun Yat-sen University, Guangzhou 510275, China; 3. State Key
Laboratory of Optoelectronic Materials and Technologies, Sun Yat-sen University, Guangzhou 510275, China)Abstract: Based on the Fluent 15. 0, the platform 〇f Tianhe II supercomputer, and the numerical model 〇f ZnO-MOCVD cham- ber,the grid independence and the parallel computing capabilities of the supercomputing center were studied. By calculating thedeposition rate of ZnO-MOCVD model with seven different grid numbers, the number of grids whose deposition rate resulting in grid independence was determined to be 4 million 80 thousand, According to the needs of the project, two models were selected, and a number of parallel combinations
was
set
up and analyzed, and the optimal processor cores
of
with 170 thousand mesh number and 4 million 80 thousand mesh numberwere obtained,respectively,16 and 128, and the maximum speedup reached 9 and 45 respectively. By comparing the computational efficiency, the optimal parallel computing combination was obtained, and the simulation cycle was
shortened greatly, the
practicality
of
Fluent
he II was verified,the results provided a reference for following large-scale computation.Key words: Fluent; MOCVD) Tianhe * ) parallel processing; numericll simulation
/引言
模
而互法
随着计算机软硬件的不断优化和升级,求解问题的规 也日益增大。由于单个计算机的计算和存储能力有限, 大型并行计算机可以实现多个处理部件与设备间的高效 联,因此并行计算逐渐成为求解CFD问题的重要方 [3,4]。“天河二号”是我国自主研发的超级计算机平台,
坐落于中山大学的国家超级计算广州中心56,计算和存储 能力世界领先78],是研究大规模并行计算的最佳选择。
MOCVD (metal-organic chemical vapor deposition)生 长过程复杂[],包括湍流层流模型、质量与热传输、内部 化学反应、三大守恒、工艺参数的设置与薄膜生长条件 等[10]。实际生长要对每个因素进行全面而系统的研究因而 成本巨大,利用计算流体力学(CFD)通过建立仿真模型
收稿日期:2017-04-26;修订日期:2017-08-02
(1983 -),男,黑龙江双鸭山人,博士,
助理研究员,研究方向为数值模拟;王杰(1993 -),男,江苏兴化人,硕士研究生,研究方向为数值模拟;范冰丰(1982 -),男,湖南 岳阳人,博士,高级工程师,研究方向为光电化合物半导体材料与器件制备技术;d通讯作者:王钢(1968-),男,吉林长春人,教授, 研究方向为光电化合物半导体材料与器件制备技术。E-mail: stswangg@maiLsysu.edu.cn
作者简介:徐艺峰(1992-),男,辽宁丹东人,硕士研究生,研究方向为数值模拟仿真;李健
第39卷第7期 徐艺峰,李健
,
王杰,等
:
基于天河二号超算的网格无关性及并行研究 • 2037 •
行数值计算就体现出强大的优越性,并成为了国内外
的研究热点[11,12]。通过计算机进行各参数数值的计算,能 够得到比较详细的资料, 力。
本文通过在“天河二号”上测试Fluent15. 0对 MOCVD腔体模型的并行计算能力,探究了网格无关性, 得出了最佳并行 合,使计算效 提高。
1计算环境及并行计算原理
系统包含有系统 、运行支撑等4种环境。当
前操作系统版本为 Red Hat Enterprise Linux Server release 6.2。应用开发环境包括串行编程语言、并行开发工具和并 行编程模型。并行编程模型定义请参见文献%6]。
1.2
Fluent并行计算
在天河二号超级计算机上的测试采用的是由安世亚太 公司(Ansys公司的中国代理商)提供的测试版An- sys15. 0。Fluent软件是一个应用于模拟和分析复杂几何区 1.1计算环境
2017年6月19日,最新的全球超级计算机500强榜单 公布, 国的超级计算机“神威• 之光”和“天河二号”第三 手夺得 。 行业 用的需要,国家相关部门的重视,中国超级计算机正在飞速发展,在 性能与应用上不断迈步%3]。
位于无锡的“神威•太湖之光”由40个机柜、共160 个超级节点 , 级节点包含256个计算节点,每个节点装有1个1. 5 GHz、260核的SW26010众核处理器 和32GBDDR3内存,全系统总Linpack峰值浮点计算能力 为为 125. 4359PFlops[14]。
本次测试中的“天河二号”的硬件系统包含有计算阵 列、服务阵列、 系统、互 信子系统、 诊断子系统等,如图1所示。计算阵列全系统包含125个计算 机柜, 计算机柜包含4个计算插框, 计算插框包含16个计算 , 计算 包含2个计算节点,因此计算一共包含16 000个计算节点。 计算节点包含$2 个 Intel(R) Xeon(R) CPU E5-2692 v2 @2. 2 GHz 12 核 心处理器、3个Intel XeonPhi 31S1P 57核心协处理计算 卡、64GB内存、高速互联接口、2个以太网接口。一个 E5-2692处理器Linpack峰值浮点计算能力为0. 2112TFloPs,一个 Phi 31S1P 协处理计算卡 Linpack 峰值 浮点计算能力为1. 003TFlops,总的峰值性能为 3. 4314TFlops。因此计算阵列Linpack峰值浮点计算能力 为54902. 4TFlops,也就是每秒钟5. 49亿亿次%5]。
局速定制互联网络
冷' ,0
◊
分
'服务阵列 1
r
计算阵列
1节点11节点II节点[]节点
1节点1节点II节点II节点
系U节点
)
节点II节点II节点
统管理F T:
网m存储网络
络
ip存储网络
^ 4U!
存储阵列
域内的流体流动与传 象的专业 ,该界CFD仿 域最为全面的 包之一%7]。
Fluent 并行计算 用 理 计算 , 计算可以在一台机 执行,也 同 不同机器上执行。并行处理主要目的是为了减少仿 间, 使用 速度更快的机器,例如更快的CPU,内存,缓存以及CPU 内存之间的通信 ,也 使用更快的互联,例如较小的延 更高的 ,还可以使用更好的负载均衡,例如载荷均匀分布以及CPU的运算过程中不会空转。Fluent 并行计算的基本原理,如图2所示。Fluent并行处理包括 一 机进程,一系列的计算进程(处理器)以及计算进程之间的相互作用。Cortex功能是处理Fluent的用户界面 基本的图形功能。主机进程不 网格和计算数据,主要解释来自cortex的命令,然后通过socket把这些命令 发给计算进程0,计算进程0 取的命令传 其它计算进程。每个计算进程上都有一个MPI (message passing interface),计算进程之间相互交换数据信息通过MP库 实现%8]。
计算进程计算之前,需要将整个三维流场区域分成 多个计算区域。对网格进行分区域,需要选择分区的方法, 设置分区的数量,以及对网格分割的质量进行最优化。分 区域的主要目的是为了平 计算区域的网格单元数量、尽量减少 计算区域边界的表面 及尽量减少计算区域的数量,确保 理 有相同的 及 计算域之间数据交换能同 行。本此测试采用METIS算法进行分区[19],这种分区方法对计算区域的数量没有 丨,该算法将根据 理器的数 动 同数量的计算域。 分 的各计算进程去计算,由主机进程调度 理器的计算, 一次全区的 过程中,由
理器完成计算并在边界完成数据交换。最后由主机 程根据 准则进行判别, 则计算结束,不收敛则继续迭 解。
2
MOCVD模型简介及边界条件设定
MOCVD的
整
个反应腔体为立式旋转基座结构,如图3 所示。MOCVD的基本原理是以V族、W族元素的氢化物 n族、, 的 有机化合 为外延 的源材料,经过热分解 与化合 等一系 ,在
• 2038 •计算机工程与设计2018 年
图2 Fluent并行计算结构原理
衬底表面沉积出各种m-v料%0&+ MOCVD腔体原几不影响流场流动的情况盖的两 结构简化为等区域。
族、n-w族化合物半导体薄膜材 型非常复杂,对原几 型 行简化,如图4所示,原上一 , 了观察窗
本文选用SIMPLEC算法来求解控制方程组%2&,根据
实际流动状态设置CFD边界 如下:
(1) MO源入口和O源入口均设置为Velocity Inlet (速度入口#,O源混合气体流量为1560 seem,O2摩尔百 分数为4.6[,MO摩尔百分数为0.22[,MFC1入口流量为 147 seem,MFC2 入口流量为 632 seem,MFC3 入口流 量为 747 seem,MFC4 入口 流量为 575 seem,MFC5 入口 流量为173 seem。
\")出口设置为Pressure Outlet (压力出口)为0 Pa, 腔体内部压强为1〇torr。
\")衬底的转速和温度分别为750 rpm和723 k,反应 堆内 设置为绝 无滑移的。
3
网格无关性
图
3
MOCVD反[腔体
图4 MOCVD反应腔体简化
从理论上来说,当网格数量越密时,模型越准确, 但计算量也 。由于目前的超级计算机 Linux系统 ,同时计算所保存的数据特别大, 级计算机上传 数据不便,因此有必要探索网格数量对结果的 。网格无关性是指,当网格数 到一定数量, 网格数 , 基本上变化不大的情况%1]。实验 的方法,如图5所示, 盘面放有 的区域 径向分成9片圆环,标记为9个点,对每片圆环沉积率求得的平均值即每个点上的沉
[气
本文模型中通过对网格数量作均匀加密处理,计算得 出每组Case的9个点的沉积率数值,并比较每组沉积率的
系数和平均 的误差,以探索网格无关性,具体情况如表1及图6所7K。
第39卷第7期 徐艺峰,李健
,
王杰,等
:
基于天河二号超算的网格无关性及并行研究 • 2039 •
稳定接近于1,因此Ca(04到Ca(07的变化趋势相似程度
较高。对于误差,Case01到Case03误差较大,约为2 [到 3[,而Case04到Case06误差缩小近一个数量级,达到约 0. 5[到0. 7[,因此Case04到Ca(07的平均沉积率数值 差异较小。综合以上两点说明,从Ca(04开 曲线已经趋于稳定,与Ca(07之间差异不大,可以认为此时已 经达到网格无关性,为了能 的进行 计算,没必要继续做 理,因此 行数值计算过程 用ca(04进行计算,而对于没有达到网格无关性的Ca(,如 Ca(01,由于其误差也小于5[,因此工程上也可以应用它
图5转盘表面分区 表1网格加密情况
Case
Cells
对
Cae01 数
Case0117万1倍Case0268万4Case03136万8Case04408万24Case05680万40Case06901万53倍Case07
1020 万
60倍
CaseOl Case02 Case03 Case04
Case05
Case06
Case07
图6 不同网格数量的网格
通过计算加密后的网格,得出每个Ca(对应每个点的 沉积率数值,其中沉积率的单位是^!!/}!,结果见表2+比 较每个Ca(与Ca(07之间的相关系数,即可得出 它们间变化趋势的相似程度,而比较每个Ca(与Ca(07 之间的误差((%〇,即可得出它们间平均沉积率数值上的 差异程度。从表2中可以看出,对于相关系数,CaseOl到 Ca(03,相关系数并没有呈增加的趋势,反而下降,表现 出了一定的不稳定性,而Case04到Case06,相关系数不断
来进行调机, 得到结果。
表2加密网格的计算结果
Case1Case2Case3Case4Case5Case6Case7Point102310.2210.2190.2260.2270.2250.223Point20. 2290.2190.2180.2230.2260.2240.223Point302240.2140.2140.2210.2230.2230.221Point402210.2100.2180.2170.2200.2210.219Point50. 2190.2080.2070.2150.2190.2200.219Point60. 2180.2070.2060.2130.2160.2180.216Point70. 2180.2070.2070.2110.2130.2150.213Point80. 2170.2060.2050.2100.2110.2130.211Point90. 2150.2050.2040.2090.2100.2110.210Average0. 2210.2110.2110.2160.2180.2190.217Error
1 9[3. 0[3. 0[0. 6[0. 5[0. 7[0. 0[
Correl0.8960.8800.8680.9610.9900.9991.000
4
并行计算结果与分析
测试选取的模型是上面提到的两个不同数量级网格单 元,并且均是实验常用的MOCVD反应腔体的三维网格模 型,具体情况见表3。
表3
MOCVD模型的基本情况
Case
问题规模
迭步数
说明
Case A17万个六面体单元300用于工程调机以求快速
得出结Case B408万个六面体单元
300
用于计算和优化实验参数
并行计算时间$算法在并行机上求解问题时,从第一
个任务进程开始执行到最后一 务进程执行完毕所需的间。包含CPU计算、并行开 算法输入输出所需时间。本次测试中,对于 的情况,如单核计算网格数 的情况,计算时间是估算值。所有的计算时间均是指从开始迭代到迭代结束为止所用的时间,不包括启 动 及 Ca(的时间,因为启动 及读入Ca(
• 2040 •计算机工程与设计2018 年
的时间相对比较小,可以忽略不计。
并行加速比:Sn = Ti /Tn,! 行
不变的情况下并常为处理
数,
40
3020
n时的并行加速比,并行
32、 64、 128、 160、 240。
并行计算效率:En = Sn/n,即问题规模不变的情况下, 并行 数为n时的并行计算效率,假设单核迭代时,计算效率为1。
本次并行规模的核数选取依次为$ 1* 2* 4* 8* 12* 16、
治
震
先单独考虑Ca(A的情况,即问题规模保持不变,
如图#所示,发 并行 数的 , 比呈现先 Ca(B减小的趋势, 理 数为16 到峰值,也呈现出相同的趋势,并且在处理器核数为128时
达到峰值。
比
的原因
的并行计算,大大缩
短了计算时间。
比减小的原因是由于并行 对于较大,
计算区域的信息数据交
常
:时
间,进程之间数据交换的时间比进程计算的时间要长,从
并行计算时间相对增加,因此减少分界面以及
计算区域的数
减少数据交换所需的时间。并且各个
计算区域的信息数据交换方式还有待进一步的提高。
10 I---------------------------------------------------------------------------1
〇0
20
40
60
80
100
120
140
160
并行规模(处Case理器核数)
--^-- A
*# Case A的加速比曲线
对比Case A和Case B的加速比曲线,如图8所示。当 并行
不变 ,
的
,
比 渐因此对于
比较大的情况,使用
并行计算会大
大缩短计算时间, 数 的周期。 较
小时,读入Case的时间可以忽略不计,问题规模较大时,
并行规模加大, Case的时间也相对的减少了。
实验结论:
\")由于网格数量大小影响沉积率结果以及计算速度, 因此在进行迭代计算之前,对于网 分时,要充分考虑
到网 数
, 验结
, 对于 MOCVD 体 型
当网格数量达到408万时,可以认为已经达到网格无关性。
() 保持不变时, 并行
的增加,
并行计算的
比呈现先
减小的趋势,计算效率也
0 40
80 120 160 200 240
并行规模--•--Case A(处理器核数)
---A-- Case B
图8 Case B的加速比曲线
逐渐降低。对于1#万个六面体单元的MOCVD腔体模型, 处理器核数为16时计算效率达到最高,加速比达到9,对 于408万个六面体单元的MOCVD腔体模型,处理器核数 为128时计算效率达到最高,加速比达到/5。
5结束语
本次测试在国家超级计算广州中心的平台上进行,利
用天河二号超级计算机的计算资源,由安世亚太公司提供 的测试
Ansys15.0
。测试验证了网格无关性,并选
取了 1#万个六面体单元和408万个六面体单元的两个
MOCVD腔体模型,对MOCVD反应腔体的温度场及流场
进行数
,结
,
理
数为16时,加
比达到最高值9, 理
数为128时,
比达
到最高值45。
通过本次测试可以看出,对于MOCVD腔体数值模拟
的 计算 ,由于需要计算的工况很多,而且网格
数目巨大,利用普通的计算机很难完成,因此超级计算机 并行计算成为了理 。Fluent在天河二号上的应用尝试,
提高了仿
验的计算效率,适用与
并行
计算,结
为后续计算提供参考。
参考文献:
[1] WANG Xiaoyuan, DU Jingjuan. Design and analysis of water
cooling system for HE Vs high-power-density motor using CFD and thermal technology %]. Journal of Electrical Engineering, 2015,30 (9): 30-38 (in Chinese).[王晓远,杜静娟.应用 CFD流固耦合热分析车用高功率密度电机的水冷系统%].电 工技术学报,2015,30 (9): 30-38.][2] WANG Wei,SHI Weidong,JIANG XiaoPing,et term wind speed forecasting based on CFD pre-calculated flow fields %]. Journal of Drainage and Irrigation Machinery Engineering, 2016, 34 (3): 191-19# (in Chinese).[王伟,施卫 东,蒋小平,等.基于正交试验及CFD的多级离心泵叶轮优
第39卷第7期 徐艺峰,李健,王杰,等:基于天河二号超算的网格无关性及并行研究 (2041 •
34 (3# 191-197. &hai: Science, 2017, 69 (3): 12-16 (in Chinese).[杨广文,
[3] CAO Wei. Research on efficient and large-scale CPUandGPU 赵文来,丁楠,等.“神威•太湖之光”及其应用系统[].
科学:上海,2017, 69 (3): 12-16.]heterogeneous parallel computing for CFD applications [D],
[15] FANG Xiang, LI Ningqiu, FU Xiaozhe, et al. Construction Changsha: University ofDefense Technology,2014 (in Chi
nese). [曹维. 大规模 CFD 高效 CPU/GPU 异构并行计算关 and application of bioinformatic analysis platform for aquatic 键技术研究[D],长沙:国防科学技术大学,2014]pathogen based on the MilkyWay-2 supercomputer [J]. Ge
netics, 2015, 37 (7): 702-710 (inChinese).[方翔,李宁 [4] LI Dali. Research on CPU/GPU parallel computing for multi
block structural grid CFD [D], Changsha: University of De求,付小哲,等.基于“天河二号”的水产病原生物信息分
析平台构建及其在水产病原分析中的应用[].遗传,2015, fense Technology, 2012 (in Chinese).[李大力.多区结构网
化设计排灌机械工程学报,2016,
格CFD典型求解器的CPU/GPU并行计算研究[D],长沙:
国防科学技术大学,2012.][5] Liao X. MilkyWay-2: Back to the worldTop 1 [M]. Springer-VerlagNew York, Inc. 2014: 343-344.
[6] Liao X, Xiao L, Yang C, et al. MilkyWay-2 supercomputer:
System and application [J], Frontiers of Computer Science Selected Publications from Chinese Universitiss, 2014, 8 (3):345-356.
[7] Pang Z, Xie M, Zhang J, et al. TheTH express high pe-formance interconnect networks [J], Frontiers of Computer
Science,2014,8 \"): 357-366.[8] XU Weixia, LU Yutong, LIQiong,et al. Hybrid hierarchy
storage system in MilkyWay-2 supercomputer [J], Frontiers of
Computer Science, 2014,8 (3): 367-377.
[9] LIUYugui, GAN Zhiyin, SUN Jiangping. Research on tech
nology of gas delivery system in MOCVD equipment [J].
Machinery Q Electronics, 2014 (3): 18-21 (in Chinese).[刘 玉贵,甘志银,孙江平.MOCVD气源输运技术研究[].机 械与电子,2014 (3): 18-21.][10] HanXF,Hur MJ, Lee JH, et al. Numerical simulation of
the gallium nitride thin film layer grown on 6-inch wafer by
commercial multi-wafer hydride vapor phase epitaxy [ J ]. Journal of Crystal Growth,2014,406: 53-58.[11] Tsai ML,Fang CC,Lee LY. Numerical simulation of
temperature distribution in a planetary MOCVD reactor [J], Chemical Engineering Q Processing, 2014, 81 (7): 48-58.[12] Ozcelik BK, Ergun C. Synthesis of ZnO nanoparticlss by an aerosol process [J], Ceramics International,2014,40 (5):7107-7116.
[13] YUAN Guoxing, YAO Jifeng. State of China HPC [J]. Computer Engineering Q Science, 2016, 38
(12): 2375-2380 (in Chinese).[袁国兴,姚继锋.2016 年 中国高性能计算机发展现状分析[].计算机工程与科学,
2016,38 (12): 2375-2380.][14] YANG Guangwen, ZHAO Wenlai, DING Nan, et al.
“Taihu Shenwi light” systemand its application [J], Shang37 (7): 702-710.][16] GAO Honghe. Research on the mechanism of hypersonic flow
based on GPU [D], Changsha: University of Defense Tech- nology,2012 (inChinese).[高洪贺.高超声速流场GPU并 行算法研究[D].长沙:国防科学技术大学,2012.][17] JIN Junqing,ZHENG Yunping. Application of FLUENT software in the field of oil and gas storage and transportation en
gineering [J]. Natural Gas and Petroleum, 2013, 31 (2): 2730 (inChinese).[金俊卿,郑云萍.FLUENT软件在油气储运 工程领域的应用[].天然气与石油,2013, 31 (2): 27-30.][18] SONG Zhifang. Research on heterogeneous many-core pla--
form Tianhe II for CFD simulation and performance optimization technology [D], Changsha: University of Nationll Defense Technology, 2014 (in Chinese).[宋志方.面向天河二 号异构众核平台的CFD模拟与性能优化技术研究[D].长 沙:国防科学技术大学,2014.][19] YANG Jie. Parallll computation of wind flow field of road- cross based on FLUENT [D], Changsha: Central South University of Forestry and Technology, 2016 (in Chinese).
[阳杰.基于FLUENT的道路交叉口风场并行计算研究 [D],长沙:中南林业科技大学,2016.][20] SHI Zhifeng. Study on the controllable growth of ZnO films by MOCVD and ZnO-based light-emitting devices [D], Jilin:
Jilin University, the2015 (in Chinese).[史志锋.高质量 ZnO的 MOCVD 法 及其发光 研究 [D]. 林:林 , 2015. ][21] YU Hao, YANG Zhigang, ZHU Hui. Studyon numerical
simulation of aerodynamic drag and grid-independent of hatch
back [J], Computer Simulation, 2013, 30 (1): 227-231 the (in Cart hinese).[analysis 余暗,杨志刚
of,朱晖,两厢车空气动力阻力 数值解与网格无关性研究[],计算机仿真,2013, 30 (1):227-2312]
[22] ZHANG Jinxiang, Research on the nucleation and growth of ZnO by MOCVD [D], Jilin: Jilin University, 2014 (inChi
nese), [张金香,MOCVD法制备ZnO的成核与生长研究[D]. 林: 林 , 2014. ]
因篇幅问题不能全部显示,请点此查看更多更全内容