光伏发电功率建模中的特征构建与选择：一种机器学习框架

1. 引言与概述

将光伏太阳能发电整合到工业流程中，是减少温室气体排放、提升可持续性的关键策略。然而，太阳能固有的间歇性和波动性给电网稳定性和可靠能源供应带来了重大挑战。因此，对光伏发电功率进行准确的短期预测，对于有效的能源管理、负荷平衡和运行规划至关重要。

本文提出了一种用于1小时超前太阳能发电功率预测的新型机器学习框架。其核心创新在于其两阶段方法：首先，利用切比雪夫多项式和三角函数将原始特征集扩展至高维空间；其次，采用定制的特征选择方案，结合约束线性回归，构建针对特定天气条件的预测模型。与标准模型相比，所提方法旨在更有效地捕捉气象变量与发电功率之间复杂的非线性关系。

2. 方法论

2.1 数据与输入特征

该模型利用了包含光伏系统输出和相关环境因素的历史时间序列数据。关键输入特征包括：

自回归项： 前一个15分钟间隔的太阳能发电功率。
天气状况： 分类数据（例如：晴朗、多云、雨天）。
气象变量： 温度、露点、湿度、风速。
时序特征： 通过数据的时间序列性质隐含考虑。

2.2 基于切比雪夫多项式的特征构建

为了对潜在的非线性关系进行建模，原始特征向量 $\mathbf{x}$ 被变换到一个更高维的空间。对于每个连续输入特征 $x_i$，生成一组指定阶数 $K$ 以内的第一类切比雪夫多项式 $T_k(x_i)$。$k$ 阶切比雪夫多项式递归定义如下：

$T_0(x) = 1$

$T_1(x) = x$

$T_{k+1}(x) = 2xT_k(x) - T_{k-1}(x)$

同时，还添加了特征的三角函数（正弦和余弦）以捕捉周期性模式。这种构建方式创造了一个丰富、表达能力强的特征空间 $\Phi(\mathbf{x})$，能够表示复杂的功能关系。

2.3 特征选择与约束回归

并非所有构建的特征都是相关的。采用一种基于包装器的特征选择方法，为不同的天气条件识别最具预测性的特征子集。随后，拟合一个约束线性回归模型：

$\min_{\beta} \| \mathbf{y} - \Phi(\mathbf{X})\beta \|_2^2$

需满足对系数 $\beta$ 的约束（例如，如果物理关系表明某些输入应仅对输出产生正向影响，则施加非负性约束）。此步骤在保持精度的同时，确保了模型的简约性和物理可解释性。

3. 实验结果与分析

3.1 性能指标

评估的主要指标是预测的1小时超前光伏发电功率与实际值之间的均方误差。MSE越低，表明预测精度越高。

性能摘要

所提方法： 在所有测试场景中均取得了最低的MSE。

关键优势： 在多样化天气条件下，尤其是在瞬变时期（例如，云层掠过时），表现出更优的性能。

3.2 与基线模型的比较

所提框架与几种经典的机器学习模型进行了基准测试：

支持向量机 / 支持向量回归
随机森林
梯度提升决策树

结果： 基于切比雪夫的特征构建与选择方法，其MSE始终低于所有基线模型。这表明，与单纯依赖集成树方法固有的特征组合能力或SVM中的核技巧相比，为太阳能预测问题量身定制地显式构建高维特征空间是有效的。

4. 技术细节与数学框架

该模型可以概括为一个将输入映射到1小时超前预测 $\hat{P}_{t+1}$ 的函数 $f$：

$\hat{P}_{t+1} = f(\mathbf{x}_t) = \beta_0 + \sum_{j \in S} \beta_j \phi_j(\mathbf{x}_t)$

其中：

$\mathbf{x}_t$ 是时间 $t$ 的特征向量。
$\{\phi_j\}$ 是从切比雪夫/三角展开中选出的基函数。
$S$ 是由特征选择算法选出的索引集合。
$\beta$ 是通过约束最小二乘法估计的系数。

可以加入某些 $j$ 对应的约束 $\beta_j \geq 0$ 以反映物理知识（例如，辐照度与功率正相关）。

5. 分析框架：一个非代码示例

考虑一个预测多云天气中午发电功率的简化场景。该框架的工作流程如下：

输入： 上午11:45的特征：功率=150 kW，温度=25°C，湿度=60%，云量指数=0.5（多云）。
特征构建： 创建新特征：$T_2(温度)=2*(25)^2 -1$，$sin(湿度)$，$云量 * T_1(温度)$ 等。这可能会生成20多个衍生特征。
特征选择（针对“多云”模型）： 包装器方法识别出在这些条件下，只有其中5个特征对预测至关重要，例如：$Power_{t-1}$，$T_2(温度)$，$云量$，$sin(湿度)$，以及一个交互项。
约束预测： “多云”特定回归模型，仅使用5个选定特征及其预先学习到的系数（并施加云量系数为非正的约束），计算出预测值：$\hat{P}_{12:00 PM} = 165 kW$。

6. 未来应用与研究展望

物理-机器学习混合模型： 将所提数据驱动方法与物理光伏性能模型（如NREL系统顾问模型中的模型）相结合，可以增强模型的鲁棒性和外推能力。
概率预测： 将框架扩展为输出预测区间（例如，通过对选定特征进行分位数回归），对于风险感知的电网运行至关重要。
分布式光伏的边缘计算： 在单个太阳能电站的边缘设备上部署轻量级的特征选择和回归模型，以实现实时、本地化的预测。
跨气候的迁移学习： 研究为某一地理区域选择的特征集，如何适应或微调到具有不同天气模式的另一区域。
与深度学习的集成： 将选定的切比雪夫特征作为循环神经网络或Transformer模型的信息输入，以捕捉超过一小时的长时期时序依赖关系。

7. 参考文献

Yang, Y., Mao, J., Nguyen, R., Tohmeh, A., & Yeh, H. G. (年份). 光伏发电功率建模中的特征构建与选择. 期刊/会议名称.
Mellit, A., & Pavan, A. M. (2010). 利用人工神经网络进行24小时太阳辐照度预测：应用于意大利的里雅斯特并网光伏电站性能预测. 太阳能, 84(5), 807-821.
美国国家可再生能源实验室. (2023). 太阳能预测. https://www.nrel.gov/grid/solar-forecasting.html
Hastie, T., Tibshirani, R., & Friedman, J. (2009). 统计学习基础. Springer. （关于特征扩展和正则化的基础）.
Isola, P., Zhu, J. Y., Zhou, T., & Efros, A. A. (2017). 基于条件对抗网络的图像到图像转换. IEEE计算机视觉与模式识别会议论文集 (pp. 1125-1134). （作为其他机器学习领域中变革性框架的示例被引用，类似于本文的特征构建方法）.

8. 分析师视角：核心见解与评述

核心见解： 本文的真正贡献不仅仅是又一个太阳能预测模型；它是一个严谨的、两步走的特征工程协议，将表示学习与模型拟合解耦。通过显式构建高维切比雪夫空间，它迫使模型考虑特定的非线性和交互项，而这些项对于像GBDT这样的黑盒模型来说，可能效率低下地偶然发现，或者根本无法发现。这是从“希望算法能找到它”到“构建信号所在的空间架构”的转变。这让人联想到其他领域成功框架背后的哲学，例如CycleGAN中精心设计的生成器/判别器架构，为无配对图像转换构建了学习问题的结构。

逻辑流程： 逻辑清晰而优雅：1) 承认太阳能发电复杂、非线性的物理特性。2) 不要仅仅将原始数据扔给非线性模型；而是用数学上合理的基函数（切比雪夫多项式非常适合近似）系统地扩展输入空间。3) 使用包装器方法进行特征选择——一种计算成本高但有针对性方法——将这个空间修剪为针对特定天气条件的、可解释的子集。4) 应用约束回归来注入物理先验知识（例如，“云层增多不可能产生更多功率”）。与通常应用于现成机器学习模型的“超参数网格搜索”方法相比，这个流程更具原则性。

优势与不足：
优势： 该方法取得了更优的MSE，证明了其经验价值。针对特定天气的建模是务实的。约束的使用增加了一层鲁棒性和可解释性，这在纯机器学习方法中常常缺失。这是工程系统中“玻璃盒”机器学习的一个很好的例子。
不足：针对每种天气类型，基于包装器的特征选择的计算成本，是实时适应或大规模部署的主要瓶颈。本文缺乏对所选特征集稳定性的讨论——它们是否会因略有不同的训练数据而发生剧烈变化？此外，虽然击败SVR、RF和GBDT是好的，但与一个经过良好调优的深度学习模型（例如LSTM或时序融合Transformer）或一个具有自身特征交互能力的复杂梯度提升实现（如XGBoost）进行比较，在2023年及以后的研究中是一个明显的遗漏。

可操作的见解： 对于行业从业者而言，本文是构建更可靠、针对特定站点的预测模型的蓝图。最直接的启示是，在跳转到复杂算法之前，先投资于特征工程基础设施。首先在您的历史数据上实现这个切比雪夫扩展流程。然而，对于运行系统，为了降低计算开销，请用更具可扩展性的过滤方法（如互信息）或嵌入式方法（如LASSO回归）来替代包装器方法进行特征选择。与领域专家合作，定义回归中最关键的物理约束。这种混合的、深思熟虑的方法，很可能比简单地租用更大的云实例来训练更大的神经网络带来更好的回报。

目录