2017年,美团云网络研发团队,对OVS-DPDK的高可用方面,做了很多自研工作,解决了很多关键难题,同时也积累了很多switch性能优化的经验。
1. SRIOV方式优化local性能
KNI和TAP是常用的DPDK网络设备和内核数据交互的方案,为了提升Local port 的性能,满足一些宿主机特殊场景。美团云将SRIOV和BOND结合,优化OVS-DPDK bridge的local port性能,现在Local 可以跑满万兆。
2. 平滑热升级
OVS-DPDK进程重启时间长,一直是存在的一个重要问题。美团云在今年上半年,重点解决了这个问题。这里采用的方案主要是双进程模式,以及dpdk vhost后端双进程模式,同时也对restore flow时间做了优化。60+VM,10G,2000条流表的情况下,原生OVS-DPDK需要2min+时间,经过改造后,可以达到1s以内。达到了OVS-DPDK进程平滑热升级,以及故障快速自恢复的功能。
3. VM内存热扩容
云环境中,有很多用户有对动态VM内存热扩容的需求,原生OVS-DPDK还不支持大页VM的热扩容,会引发VM以及OVS进程crash。我们的技术同学对DPDK-VHOST端进行了修改,解决了crash问题。同时也分析了大内存VM初始化时间长的问题,解决了超大内容VM扩容时间长的问题。
4.跨OVS-kernel和 OVS-DPDK热迁移
这里主要需要解决OVS-DPDK对TSO、UFO等feature支持, 因为原OVS-kernel的VM是默认打开这些feature的。而且需要解决VM->VM, VM-NIC, VM-LOCAL, LOCAL->NIC等多个路径的offload操作。
来源:CSDN
作者:索木目-黄淮
链接:https://blog.csdn.net/hliyuxin/article/details/78524303