算法比赛 | 新能源数据清洗算法比赛
光伏功率异常数据识别与清洗 赛题背景 随着光伏发电数字化技术不断深入发展,伴随而来的是多种类、大批量、高密度的各种数据。如何筛选清洗数据成为后期数据分析的基础。以国家电投集团示范光伏电站为例,该电站全年约产生各类生产运行数据、设备监测数据、气象分析数据等多种类数十GB的各种数据,如何判别数据有效性,筛选有效数据开展定性及定量分析,是目前亟待突破的一项重大课题,机器取代人工分析不仅可以提高分析效率同时可以避免人工过多干预带来的不必要错误。大幅提高效率的同时降低人工成本,提高电站整体经济效益。因此开发智能数据清洗算法成为当前需要面对的一个问题,解决该问题可以有效提高光伏发电系统分析效率,同时为未来光伏发电系统精细化运维提供保障。 赛题任务 以异常数据判断及清洗为目的,开展相应功能算法研究。以国家电投集团提供的示范光伏电站数据为依据,数据记录了示范光伏电站10个方阵各3台逆变器1个月的5min间隔有功功率运行数据,主要给出时间戳信息、逆变器所属区块和方阵信息等。需要利用10个方阵的各3台光伏逆变器功率数据结合机器学习无监督算法技术,建立鲁棒的光伏功率异常数据检测模型,用于识别并剔除潜在的异常数据,提高数据质量。此任务未给出异常数据标签,视为聚类任务,为引导选手向赛题需求对接,现简单阐述异常数据定义。 异常数据是由光伏逆变器运行过程与设计运行工况出现较大偏离时产生,此处异常数据可分为3类