美团云OVS-DPDK 2017年工作总结(SRIOV、热升级、热扩容、跨OVS-kernel热迁移)
2017年,美团云网络研发团队,对OVS-DPDK的高可用方面,做了很多自研工作,解决了很多关键难题,同时也积累了很多switch性能优化的经验。 1. SRIOV方式优化local性能 KNI和TAP是常用的DPDK网络设备和内核数据交互的方案,为了提升Local port 的性能,满足一些宿主机特殊场景。美团云将SRIOV和BOND结合,优化OVS-DPDK bridge的local port性能,现在Local 可以跑满万兆。 2. 平滑热升级 OVS-DPDK进程重启时间长,一直是存在的一个重要问题。美团云在今年上半年,重点解决了这个问题。这里采用的方案主要是双进程模式,以及dpdk vhost后端双进程模式,同时也对restore flow时间做了优化。60+VM,10G,2000条流表的情况下,原生OVS-DPDK需要2min+时间,经过改造后,可以达到1s以内。达到了OVS-DPDK进程平滑热升级,以及故障快速自恢复的功能。 3. VM内存热扩容 云环境中,有很多用户有对动态VM内存热扩容的需求,原生OVS-DPDK还不支持大页VM的热扩容,会引发VM以及OVS进程crash。我们的技术同学对DPDK-VHOST端进行了修改,解决了crash问题。同时也分析了大内存VM初始化时间长的问题,解决了超大内容VM扩容时间长的问题。 4. 跨OVS-kernel和 OVS