Выбрать язык

Конструирование и отбор признаков для моделирования мощности фотоэлектрических солнечных станций: Машинно-обучающий фреймворк

Анализ машинно-обучающего фреймворка для прогнозирования солнечной мощности на 1 час вперёд с использованием разложения по полиномам Чебышёва и регрессии с ограничениями.
solarledlight.org | PDF Size: 0.2 MB
Оценка: 4.5/5
Ваша оценка
Вы уже оценили этот документ
Обложка PDF-документа - Конструирование и отбор признаков для моделирования мощности фотоэлектрических солнечных станций: Машинно-обучающий фреймворк

Содержание

1. Введение и обзор

Интеграция солнечной фотоэлектрической (PV) энергии в промышленные процессы является ключевой стратегией для сокращения выбросов парниковых газов и повышения устойчивости. Однако присущая солнечной энергии прерывистость и изменчивость создают значительные проблемы для стабильности сети и надёжного энергоснабжения. Поэтому точный краткосрочный прогноз выработки PV-электроэнергии критически важен для эффективного управления энергией, балансировки нагрузки и операционного планирования.

В данной статье представлен новый машинно-обучающий фреймворк для прогнозирования солнечной мощности на 1 час вперёд. Основная инновация заключается в подходе к конструированию признаков. Вместо того чтобы полагаться исключительно на сырые исторические данные и погодные переменные, метод конструирует пространство признаков более высокой размерности с использованием полиномов Чебышёва и тригонометрических функций. Затем применяется последующая схема отбора признаков в сочетании с линейной регрессией с ограничениями для построения надёжной и интерпретируемой прогнозной модели, адаптированной к различным типам погоды.

2. Методология

2.1 Данные и входные признаки

Модель использует комбинацию временных, метеорологических и авторегрессионных входных данных:

2.2 Конструирование признаков с использованием полиномов Чебышёва

Исходные входные признаки преобразуются в более богатое пространство более высокой размерности. Для заданной входной переменной $x$ используются полиномы Чебышёва первого рода $T_n(x)$. Эти полиномы определяются рекуррентным соотношением:

$T_0(x) = 1$

$T_1(x) = x$

$T_{n+1}(x) = 2xT_n(x) - T_{n-1}(x)$

Признаки конструируются как $T_n(x)$ для $n$ до заданного порядка и также могут включать перекрёстные члены (например, $T_i(x) \cdot T_j(y)$) и тригонометрические функции (например, $\sin(\omega t)$, $\cos(\omega t)$) для учета периодических закономерностей.

2.3 Схема отбора признаков

Для отбора наиболее релевантных признаков из расширенного набора используется метод-обёртка. Этот процесс выполняется отдельно для каждого типа погоды, чтобы учесть различное влияние факторов в разных условиях. Отбор направлен на балансировку сложности модели и прогнозной способности, избегая переобучения.

2.4 Модель линейной регрессии с ограничениями

После отбора признаков строится модель линейной регрессии: $\hat{y} = \mathbf{w}^T \mathbf{x} + b$, где $\mathbf{x}$ — вектор отобранных признаков. Для повышения физической правдоподобности и стабильности регрессия формулируется как задача метода наименьших квадратов с ограничениями. Ограничения могут включать неотрицательность определённых коэффициентов (например, облученность должна оказывать неотрицательное влияние на выходную мощность) или границы на величины коэффициентов.

3. Экспериментальные результаты и производительность

3.1 Экспериментальная установка

Предложенный фреймворк был протестирован на исторических данных PV-станции. Набор данных был разделен на обучающую и тестовую выборки, а производительность оценивалась с использованием среднеквадратичной ошибки (MSE) и, возможно, других метрик, таких как средняя абсолютная ошибка (MAE).

3.2 Сравнение с базовыми моделями

В статье метод сравнивается с несколькими устоявшимися машинно-обучающими эталонами:

Ключевой вывод: Предложенная модель регрессии на основе полиномов Чебышёва с отбором признаков достигла более низкого MSE, чем все сравниваемые классические методы.

3.3 Производительность при различных погодных условиях

Подход моделирования, специфичный для типа погоды, вероятно, показал превосходную адаптивность. Например, в условиях высокой изменчивости облачности отобранные моделью признаки (возможно, полиномиальные члены более высокого порядка, учитывающие нелинейные эффекты облученности) отличались бы от признаков, отобранных для стабильных условий ясного неба, что привело бы к более точным прогнозам в целом.

4. Технические детали и математическая формулировка

Основную задачу оптимизации можно резюмировать следующим образом:

  1. Разложение признаков: Создание расширенного вектора признаков $\mathbf{\Phi}(\mathbf{z}) = [T_0(z_1), T_1(z_1), ..., T_n(z_m), \text{ перекрёстные члены}, \text{ тригонометрические члены}]$ из исходного входного вектора $\mathbf{z}$.
  2. Отбор признаков: Нахождение подмножества $\mathbf{x} \subset \mathbf{\Phi}(\mathbf{z})$, которое минимизирует ошибку прогноза для конкретного типа погоды $k$.
  3. Регрессия с ограничениями: Решение для весов $\mathbf{w}$:
    $\min_{\mathbf{w}} ||\mathbf{y} - \mathbf{X}\mathbf{w}||^2_2$
    при условии: $\mathbf{A}\mathbf{w} \leq \mathbf{b}$ (линейные ограничения-неравенства, например, $w_i \geq 0$).

5. Фреймворк анализа: Пример без кода

Рассмотрим упрощённый сценарий прогнозирования мощности в полдень при переменной облачности. Исходные входные данные: Облученность ($I=600 Вт/м^2$), Температура ($T=25^\circ C$) и предыдущая мощность ($P_{t-1}=300 кВт$).

  1. Конструирование признаков: Для облученности $I$ сгенерировать члены Чебышёва до порядка 2: $T_0(I)=1$, $T_1(I)=600$, $T_2(I)=2*600*600 - 1 = 719,999$. Аналогичные разложения выполняются для $T$ и $P_{t-1}$. Также создаются перекрёстные члены, такие как $T_1(I)*T_1(T)$.
  2. Отбор признаков (для модели "Переменная облачность"): Алгоритм отбора может сохранить $T_1(I)$ (линейная облученность), $T_2(I)$ (учёт нелинейного эффекта насыщения), $T_1(T)$ и $P_{t-1}$, отбросив многие другие сконструированные признаки как нерелевантные для данного типа погоды.
  3. Прогноз: Окончательный прогноз представляет собой линейную комбинацию: $\hat{P} = w_1*600 + w_2*719,999 + w_3*25 + w_4*300 + b$, где $w_1, w_2 \geq 0$ из-за ограничений.

6. Ключевая идея и перспектива аналитика

Ключевая идея: Настоящий прорыв этой статьи заключается не в новом алгоритме типа "чёрного ящика", а в дисциплинированном, учитывающем физику конвейере конструирования признаков. Он признаёт, что взаимосвязь между погодой и выходом PV-электроэнергии не является просто линейной или легко улавливаемой стандартными деревьями решений. Явно конструируя базисное пространство (полиномы Чебышёва), известное отличными свойствами аппроксимации функций, а затем применяя отбор, индуцирующий разреженность, метод строит интерпретируемые, высокопроизводительные модели, адаптированные к конкретным рабочим режимам (типам погоды). Это более разумное использование машинного обучения, чем грубое применение глубокого обучения, особенно в промышленных условиях с ограниченными данными.

Логический поток: Логика обоснована: 1) Признать сложность проблемы (нелинейность, зависимость от погоды). 2) Систематически расширить входное пространство для представления потенциально сложных взаимосвязей. 3) Агрессивно сократить его с помощью отбора, информированного предметной областью (по типам погоды), чтобы избежать переобучения. 4) Применить простые линейные модели с ограничениями на уточнённые признаки для стабильности и понимания. Этот конвейер отражает лучшие практики современного машинного обучения, напоминая философию, лежащую в основе разложения по базису в обобщённых аддитивных моделях или обучения признакам в структурированных областях.

Сильные стороны и недостатки:
Сильные стороны: Подход является интерпретируемым — можно увидеть, какие полиномиальные члены важны для какой погоды. Он вычислительно легче, чем обучение массивных ансамблей или нейронных сетей для каждого типа погоды. Ограничения обеспечивают физическую реалистичность, шаг, часто отсутствующий в чисто управляемых данными моделях. Превышение производительности RF и GBDT на собственном наборе данных является сильным результатом, поскольку это мощные эталоны.
Недостатки: Основное ограничение — зависимость от точной, реальной классификации типа погоды, которая сама по себе является задачей прогнозирования. Метод может испытывать трудности с быстро меняющимися или смешанными погодными условиями, которые не отражены в обучающих категориях. Кроме того, хотя здесь он лучше эталонов, предельная производительность линейной модели на отобранных признаках может быть ниже, чем у идеально настроенной, сверхсложной модели для очень больших наборов данных, как видно в таких областях, как компьютерное зрение, где модели, подобные CycleGAN (Zhu et al., 2017), преуспевают на сырых пиксельных данных без ручного конструирования признаков.

Практические выводы: Для отраслевых специалистов вывод ясен: Инвестируйте в конструирование признаков до усложнения модели. Прежде чем развертывать нейронную сеть, попробуйте систематическое расширение ваших входных данных с помощью ортогональных полиномов или членов Фурье. Реализуйте модели, специфичные для погоды или режима работы. Всегда рассматривайте возможность добавления простых ограничений для согласования моделей с предметными знаниями. Для исследователей следующим шагом является гибридизация этого подхода: использование автоматического конструирования/отбора признаков в качестве входного процессора для более продвинутых моделей (например, отобранные признаки становятся входными данными для рекуррентной нейронной сети для моделирования последовательностей) или интеграция этапа классификации погоды непосредственно в сквозную обучающую структуру.

7. Будущие применения и направления исследований

8. Ссылки

  1. Yang, Y., Mao, J., Nguyen, R., Tohmeh, A., & Yeh, H. (Год). Feature Construction and Selection for PV Solar Power Modeling. Название журнала/конференции.
  2. Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
  3. International Energy Agency (IEA). (2023). Renewables 2023: Analysis and forecast to 2028. IEA Publications. [Внешний источник о росте возобновляемой энергетики]
  4. Mason, K., & Ghanem, R. (2021). Statistical Learning for Renewable Energy Forecasting. Wiley.
  5. National Renewable Energy Laboratory (NREL). (n.d.). Solar Forecasting. Retrieved from https://www.nrel.gov/grid/solar-forecasting.html [Авторитетный внешний источник по исследованиям в области прогнозирования солнечной энергии]