算法比赛 | 新能源数据清洗算法比赛

£可爱£侵袭症+ 提交于 2021-02-02 04:58:25

光伏功率异常数据识别与清洗

赛题背景

随着光伏发电数字化技术不断深入发展,伴随而来的是多种类、大批量、高密度的各种数据。如何筛选清洗数据成为后期数据分析的基础。以国家电投集团示范光伏电站为例,该电站全年约产生各类生产运行数据、设备监测数据、气象分析数据等多种类数十GB的各种数据,如何判别数据有效性,筛选有效数据开展定性及定量分析,是目前亟待突破的一项重大课题,机器取代人工分析不仅可以提高分析效率同时可以避免人工过多干预带来的不必要错误。大幅提高效率的同时降低人工成本,提高电站整体经济效益。因此开发智能数据清洗算法成为当前需要面对的一个问题,解决该问题可以有效提高光伏发电系统分析效率,同时为未来光伏发电系统精细化运维提供保障。

赛题任务

以异常数据判断及清洗为目的,开展相应功能算法研究。以国家电投集团提供的示范光伏电站数据为依据,数据记录了示范光伏电站10个方阵各3台逆变器1个月的5min间隔有功功率运行数据,主要给出时间戳信息、逆变器所属区块和方阵信息等。需要利用10个方阵的各3台光伏逆变器功率数据结合机器学习无监督算法技术,建立鲁棒的光伏功率异常数据检测模型,用于识别并剔除潜在的异常数据,提高数据质量。此任务未给出异常数据标签,视为聚类任务,为引导选手向赛题需求对接,现简单阐述异常数据定义。

异常数据是由光伏逆变器运行过程与设计运行工况出现较大偏离时产生,此处异常数据可分为3类:1)非正常0值数据,标记为“-1”;2)超量程数据,标记为“-2”;3)偏离正常数据,且非0值非超量程数据,标记为“-3”。

风电机组异常数据识别与清洗

赛题背景

风能是一种环境友好且经济实用的可再生能源。中国是世界排名第一的风力发电国家、新装风力发电设备装机容量最大的国家,并且保持快速增长。由于风力发电正处于飞速发展阶段,风电场数量和规模不断扩大,然而受地理条件和环境因素限制,风电场多位于偏僻遥远的平原、山区或海上,因此为风电公司引入SCADA系统(数据采集与监视控制系统)对风电场群的日常运行进行集中监控、调度和管理,但风电机组受设备、环境、运行状态等因素影响,SCADA系统实时采集的风机运行数据会存在有大量异常值和缺失值,这些“脏数据”的存在严重影响后续的风电机组状态分析、故障诊断等功能。因此,识别并排除风电机组的异常数据具有重要的探究意义。

赛题任务

依据提供的8台风力电机1年的10min间隔SCADA运行数据,包括时间戳信息、风速信息和功率信息等,利用机器学习相关技术,建立鲁棒的风电机组异常数据检测模型,用于识别并剔除潜在的异常数据,提高数据质量。此任务未给出异常数据标签,视为聚类任务,为引导选手向赛题需求对接,现简单阐述异常数据定义。异常数据是由风机运行过程与设计运行工况出现较大偏离时产生,如风速仪测风异常导致采集的功率散点明显偏离设计风功率。

两个赛程信息

  • 2020/08/28 大赛启动仪式

  • 2020/08/28-2020/10/16 A榜期间,参赛报名并网上提交资料,提交优化

  • 2020/10/16 截止报名及组队

  • 2020/10/18-2020/10/18 B榜期间,根据新的B榜分数优化,以最后一次提交成绩为准

  • 2020/10/19-2020/11/13 评审、公示、上线平台

  • 2020/11/24 总决赛颁奖、供需对接

参赛奖励

报名链接

http://bigdata2020.s3-website.cn-northwest-1.amazonaws.com.cn/


数据处理、分析、可视化

行业资讯、学习资料

长按关注不迷路


本文分享自微信公众号 - 气象杂货铺(meteogs)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!