ساخت و انتخاب ویژگی‌ها برای مدل‌سازی توان خورشیدی فتوولتائیک: یک چارچوب یادگیری ماشین

فهرست مطالب

1. مقدمه و مرور کلی

ادغام توان خورشیدی فتوولتائیک (PV) در فرآیندهای صنعتی، یک راهبرد کلیدی برای کاهش انتشار گازهای گلخانه‌ای و افزایش پایداری است. با این حال، ماهیت متناوب و متغیر انرژی خورشیدی، چالش‌های قابل توجهی برای پایداری شبکه و تأمین مطمئن انرژی ایجاد می‌کند. بنابراین، پیش‌بینی دقیق کوتاه‌مدت تولید توان فتوولتائیک برای مدیریت مؤثر انرژی، توازن بار و برنامه‌ریزی عملیاتی حیاتی است.

این مقاله یک چارچوب نوین یادگیری ماشین برای پیش‌بینی توان خورشیدی یک‌ساعت جلوتر ارائه می‌دهد. نوآوری اصلی در رویکرد دو مرحله‌ای آن نهفته است: نخست، بسط مجموعه ویژگی‌های اصلی به یک فضای با ابعاد بالاتر با استفاده از چندجمله‌های چبیشف و توابع مثلثاتی؛ دوم، به‌کارگیری یک طرح انتخاب ویژگی سفارشی‌شده همراه با رگرسیون خطی مقید برای ساخت مدل‌های پیش‌بینی خاص شرایط آب‌وهوایی. روش پیشنهادی هدف دارد روابط پیچیده و غیرخطی بین متغیرهای هواشناسی و خروجی توان را مؤثرتر از مدل‌های استاندارد مدل‌سازی کند.

2. روش‌شناسی

2.1 داده‌ها و ویژگی‌های ورودی

مدل از داده‌های سری زمانی تاریخی شامل خروجی سیستم فتوولتائیک و عوامل محیطی مرتبط استفاده می‌کند. ویژگی‌های ورودی کلیدی عبارتند از:

جمله خودرگرسیون: تولید توان خورشیدی از بازه ۱۵ دقیقه‌ای قبلی.
شرایط آب‌وهوایی: داده‌های طبقه‌بندی‌شده (مانند آفتابی، ابری، بارانی).
متغیرهای هواشناسی: دما، نقطه شبنم، رطوبت و سرعت باد.
ویژگی‌های زمانی: به طور ضمنی از طریق ماهیت سری زمانی داده‌ها در نظر گرفته می‌شوند.

2.2 ساخت ویژگی با چندجمله‌های چبیشف

برای مدل‌سازی غیرخطی‌های بالقوه، بردار ویژگی اصلی $\mathbf{x}$ به یک فضای با ابعاد بالاتر تبدیل می‌شود. برای هر ویژگی ورودی پیوسته $x_i$، مجموعه‌ای از چندجمله‌های چبیشف نوع اول $T_k(x_i)$ تا درجه مشخصی $K$ تولید می‌شود. چندجمله چبیشف درجه $k$ به صورت بازگشتی تعریف می‌شود:

$T_0(x) = 1$

$T_1(x) = x$

$T_{k+1}(x) = 2xT_k(x) - T_{k-1}(x)$

توابع مثلثاتی (سینوس و کسینوس) ویژگی‌ها نیز برای ثبت الگوهای تناوبی اضافه می‌شوند. این ساخت، یک فضای ویژگی غنی و بیانی $\Phi(\mathbf{x})$ ایجاد می‌کند که قادر به نمایش روابط تابعی پیچیده است.

2.3 انتخاب ویژگی و رگرسیون مقید

همه ویژگی‌های ساخته‌شده مرتبط نیستند. یک روش انتخاب ویژگی مبتنی بر wrapper برای شناسایی زیرمجموعه پیش‌بینانه‌ترین برای شرایط آب‌وهوایی مختلف به کار گرفته می‌شود. متعاقباً، یک مدل رگرسیون خطی مقید برازش داده می‌شود:

$\min_{\beta} \| \mathbf{y} - \Phi(\mathbf{X})\beta \|_2^2$

با تابع محدودیت روی ضرایب $\beta$ (مانند محدودیت‌های غیرمنفی اگر روابط فیزیکی حکم کند که برخی ورودی‌ها فقط باید تأثیر مثبت بر خروجی داشته باشند). این مرحله صرفه‌جویی مدل و تفسیرپذیری فیزیکی را در حین حفظ دقت تضمین می‌کند.

3. نتایج تجربی و تحلیل

3.1 معیارهای عملکرد

معیار اصلی ارزیابی، میانگین مربعات خطا (MSE) بین خروجی توان فتوولتائیک پیش‌بینی‌شده و واقعی یک‌ساعت جلوتر است. MSE پایین‌تر نشان‌دهنده دقت پیش‌بینی بالاتر است.

خلاصه عملکرد

روش پیشنهادی: کمترین MSE را در تمامی سناریوهای آزمون به دست آورد.

مزیت کلیدی: عملکرد برتر تحت شرایط آب‌وهوایی متنوع، به ویژه در دوره‌های گذرا (مانند عبور ابرها).

3.2 مقایسه با مدل‌های پایه

چارچوب پیشنهادی در برابر چندین مدل کلاسیک یادگیری ماشین معیارسنجی شد:

ماشین بردار پشتیبان (SVM) / رگرسیون بردار پشتیبان (SVR)
جنگل تصادفی (RF)
درخت تصمیم افزایش گرادیان (GBDT)

نتیجه: رویکرد ساخت و انتخاب ویژگی مبتنی بر چبیشف، به طور مداوم MSE کمتری نسبت به تمام مدل‌های پایه تولید کرد. این کارایی مهندسی صریح یک فضای ویژگی با ابعاد بالا متناسب با مسئله پیش‌بینی خورشیدی را در مقایسه با تکیه صرف بر قابلیت‌های ترکیب ویژگی ذاتی روش‌های درخت گروهی یا ترفندهای هسته‌ای در SVM نشان می‌دهد.

4. جزئیات فنی و چارچوب ریاضی

مدل را می‌توان به عنوان یک تابع $f$ که ورودی‌ها را به پیش‌بینی یک‌ساعت جلوتر $\hat{P}_{t+1}$ نگاشت می‌دهد، خلاصه کرد:

$\hat{P}_{t+1} = f(\mathbf{x}_t) = \beta_0 + \sum_{j \in S} \beta_j \phi_j(\mathbf{x}_t)$

که در آن:

$\mathbf{x}_t$ بردار ویژگی در زمان $t$ است.
$\{\phi_j\}$ توابع پایه انتخاب‌شده از بسط چبیشف/مثلثاتی هستند.
$S$ مجموعه اندیس‌های انتخاب‌شده توسط الگوریتم انتخاب ویژگی است.
$\beta$ ضرایب تخمین‌زده‌شده از طریق حداقل مربعات مقید هستند.

محدودیت $\beta_j \geq 0$ برای برخی $j$ می‌تواند برای بازتاب دانش فیزیکی گنجانده شود (مثلاً تابش با توان همبستگی مثبت دارد).

5. چارچوب تحلیل: یک مثال غیرکدی

یک سناریوی ساده‌شده برای پیش‌بینی توان در ظهر یک روز نیمه‌ابری را در نظر بگیرید. گردش کار چارچوب به این صورت است:

ورودی: ویژگی‌ها در ساعت ۱۱:۴۵ صبح: توان=۱۵۰ کیلووات، دما=۲۵ درجه سانتی‌گراد، رطوبت=۶۰٪، شاخص پوشش ابر=۰.۵ (نیمه‌ابری).
ساخت ویژگی: ایجاد ویژگی‌های جدید: $T_2(Temp)=2*(25)^2 -1$، $sin(Humidity)$، $Cloud Cover * T_1(Temp)$ و غیره. این ممکن است بیش از ۲۰ ویژگی مشتق‌شده ایجاد کند.
انتخاب ویژگی (برای مدل "نیمه‌ابری"): روش wrapper شناسایی می‌کند که تنها ۵ مورد از این ویژگی‌ها برای پیش‌بینی تحت این شرایط حیاتی هستند، مثلاً $Power_{t-1}$، $T_2(Temp)$، $Cloud Cover$، $sin(Humidity)$ و یک جمله تعامل.
پیش‌بینی مقید: مدل رگرسیون خاص "نیمه‌ابری"، با استفاده از تنها ۵ ویژگی انتخاب‌شده و ضرایب از پیش آموخته‌شده آن‌ها (با محدودیت اینکه ضریب پوشش ابر غیرمثبت است)، پیش‌بینی را محاسبه می‌کند: $\hat{P}_{12:00 PM} = 165 kW$.

6. کاربردهای آینده و جهت‌های پژوهشی

مدل‌های ترکیبی فیزیک-یادگیری ماشین: ادغام رویکرد داده‌محور پیشنهادی با مدل‌های عملکرد فیزیکی فتوولتائیک (مانند مدل‌های System Advisor Model از NREL) می‌تواند استحکام و قابلیت برونیابی را افزایش دهد.
پیش‌بینی احتمالاتی: گسترش چارچوب برای خروجی فواصل پیش‌بینی (مثلاً از طریق رگرسیون چندک روی ویژگی‌های انتخاب‌شده) برای عملیات شبکه آگاه از ریسک حیاتی است.
رایانش لبه برای فتوولتائیک توزیع‌شده: استقرار نسخه‌های سبک‌وزن مدل‌های انتخاب ویژگی و رگرسیون روی دستگاه‌های لبه در مزارع خورشیدی منفرد برای پیش‌بینی محلی و بلادرنگ.
یادگیری انتقالی در اقلیم‌های مختلف: بررسی چگونگی تطبیق یا تنظیم دقیق مجموعه‌های ویژگی انتخاب‌شده برای یک منطقه جغرافیایی با منطقه‌ای دیگر با الگوهای آب‌وهوایی متفاوت.
ادغام با یادگیری عمیق: استفاده از ویژگی‌های چبیشف انتخاب‌شده به عنوان ورودی‌های اطلاعاتی به یک شبکه عصبی بازگشتی (RNN) یا مدل ترنسفورمر برای ثبت وابستگی‌های زمانی بلندمدت فراتر از یک ساعت.

7. مراجع

Yang, Y., Mao, J., Nguyen, R., Tohmeh, A., & Yeh, H. G. (سال). Feature Construction and Selection for PV Solar Power Modeling. Journal/Conference Name.
Mellit, A., & Pavan, A. M. (2010). A 24-h forecast of solar irradiance using artificial neural network: Application for performance prediction of a grid-connected PV plant at Trieste, Italy. Solar Energy, 84(5), 807-821.
National Renewable Energy Laboratory (NREL). (2023). Solar Forecasting. https://www.nrel.gov/grid/solar-forecasting.html
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer. (برای مبانی بسط ویژگی و تنظیم).
Isola, P., Zhu, J. Y., Zhou, T., & Efros, A. A. (2017). Image-to-image translation with conditional adversarial networks. Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1125-1134). (به عنوان نمونه‌ای از یک چارچوب تحول‌آفرین در حوزه دیگر یادگیری ماشین، مشابه رویکرد ساخت ویژگی اینجا، ذکر شده است).

8. دیدگاه تحلیلگر: بینش کلیدی و نقد

بینش کلیدی: مشارکت واقعی این مقاله صرفاً یک مدل پیش‌بینی خورشیدی دیگر نیست؛ بلکه یک پروتکل مهندسی ویژگی گام‌به‌گام و منظم است که یادگیری بازنمایی را از برازش مدل جدا می‌کند. با ساخت صریح یک فضای چبیشف با ابعاد بالا، مدل را مجبور می‌کند تا جملات غیرخطی و تعامل خاصی را در نظر بگیرد که مدل‌های جعبه‌سیاه مانند GBDT ممکن است به ناکارآمدی با آن‌ها برخورد کنند یا اصلاً نیابند. این حرکت از "امیدواریم الگوریتم آن را پیدا کند" به "معماری فضایی که سیگنال در آن زندگی می‌کند" است. این یادآور فلسفه پشت چارچوب‌های موفق در زمینه‌های دیگر است، مانند معماری‌های مولد/متمایزکننده با دقت طراحی‌شده در CycleGAN که مسئله یادگیری برای ترجمه تصویر جفت‌نشده را ساختار می‌دهند.

جریان منطقی: منطق محکم و ظریف است: ۱) پذیرش فیزیک پیچیده و غیرخطی تولید خورشیدی. ۲) فقط داده خام را به یک مدل غیرخطی ندهید؛ در عوض، فضای ورودی را به طور سیستماتیک با توابع پایه توجیه‌شده ریاضی (چندجمله‌های چبیشف برای تقریب عالی هستند) بسط دهید. ۳) از یک روش wrapper برای انتخاب ویژگی—یک رویکرد پرهزینه محاسباتی اما هدفمند—برای هرس این فضا به یک زیرمجموعه تفسیرپذیر خاص شرایط آب‌وهوایی استفاده کنید. ۴) رگرسیون مقید را برای تزریق دانش پیشین فیزیکی اعمال کنید (مثلاً "ابر بیشتر نمی‌تواند توان بیشتری تولید کند"). این خط لوله، اصولی‌تر از رویکرد معمول "جستجوی شبکه روی ابرپارامترها" است که روی مدل‌های یادگیری ماشین آماده اعمال می‌شود.

نقاط قوت و ضعف:
نقاط قوت: روش به MSE برتر دست می‌یابد که ارزش تجربی آن را ثابت می‌کند. مدل‌سازی خاص آب‌وهوا کاربردی است. استفاده از محدودیت‌ها لایه‌ای از استحکام و تفسیرپذیری را اضافه می‌کند که اغلب در رویکردهای صرف یادگیری ماشین مفقود است. این یک مثال عالی از یادگیری ماشین "جعبه شیشه‌ای" برای سیستم‌های مهندسی است.
نقاط ضعف: هزینه محاسباتی انتخاب ویژگی مبتنی بر wrapper برای هر نوع آب‌وهوا یک گلوگاه اصلی برای تطبیق بلادرنگ یا استقرار در مقیاس بزرگ است. مقاله فاقد بحث در مورد پایداری مجموعه‌های ویژگی انتخاب‌شده است—آیا با داده‌های آموزشی کمی متفاوت به شدت تغییر می‌کنند؟ علاوه بر این، اگرچه شکست دادن SVR، RF و GBDT خوب است، اما مقایسه با یک مدل یادگیری عمیق به خوبی تنظیم‌شده (مانند یک LSTM یا Temporal Fusion Transformer) یا یک پیاده‌سازی پیچیده افزایش گرادیان مانند XGBoost با قابلیت‌های تعامل ویژگی خودش، یک حذف آشکار در پژوهش‌های ۲۰۲۳+ است.

بینش‌های عملی: برای متخصصان صنعت، این مقاله یک نقشه راه برای ساخت مدل‌های پیش‌بینی قابل اعتمادتر و خاص سایت است. برداشت فوری این است که قبل از پریدن به الگوریتم‌های پیچیده، در زیرساخت مهندسی ویژگی سرمایه‌گذاری کنید. با پیاده‌سازی این خط لوله بسط چبیشف روی داده‌های تاریخی خود شروع کنید. با این حال، برای سیستم‌های عملیاتی، روش wrapper را با یک روش فیلتر مقیاس‌پذیرتر (مانند اطلاعات متقابل) یا روش جاسازی‌شده (مانند رگرسیون LASSO) برای انتخاب ویژگی جایگزین کنید تا سربار محاسباتی کاهش یابد. با متخصصان حوزه همکاری کنید تا مهم‌ترین محدودیت‌های فیزیکی برای رگرسیون را تعریف کنند. این رویکرد ترکیبی و متفکرانه احتمالاً بازده بهتری نسبت به اجاره صرف یک نمونه ابری بزرگتر برای آموزش یک شبکه عصبی بزرگتر خواهد داشت.