مجموعه جنگل تصادفی مدل‌های رگرسیون بردار پشتیبان برای پیش‌بینی توان خورشیدی

فهرست مطالب

1. مقدمه و مرور کلی

این مقاله با عنوان «مجموعه جنگل تصادفی مدل‌های رگرسیون بردار پشتیبان برای پیش‌بینی توان خورشیدی»، به یک چالش حیاتی در سیستم‌های قدرت مدرن می‌پردازد: عدم قطعیت و نوسان در تولید فتوولتائیک خورشیدی. با افزایش نفوذ منابع تجدیدپذیر در شبکه، پیش‌بینی دقیق برای حفظ پایداری، بهینه‌سازی ذخایر عملیاتی و امکان‌پذیری عملیات کارآمد بازار، امری ضروری می‌شود. نویسندگان یک مدل ترکیبی دو مرحله‌ای نوآورانه ارائه می‌دهند که نقاط قوت دو تکنیک ثابت‌شده یادگیری ماشین را به کار می‌گیرد: رگرسیون بردار پشتیبان (SVR) برای تولید پیش‌بینی‌های اولیه و جنگل تصادفی (RF) به عنوان یک فرا-یادگیرنده مجموعه‌ای برای ترکیب و پالایش این پیش‌بینی‌ها.

نوآوری اصلی در استفاده از RF نه برای پردازش داده‌های هواشناسی خام، بلکه برای انجام پس‌پردازش یا ترکیب پیش‌بینی‌ها است. مجموعه RF، پیش‌بینی‌های حاصل از چندین مدل SVR (با استفاده از پیش‌بینی‌های حال و گذشته) را همراه با داده‌های هواشناسی مرتبط دریافت کرده و یک پیش‌بینی روز‌آیند خورشیدی یکپارچه و برتر تولید می‌کند. این رویکرد فراتر از میانگین‌گیری یا ترکیب ساده داده‌های هواشناسی رفته و هدف آن درک تعاملات پیچیده و غیرخطی بین جریان‌های پیش‌بینی مختلف است.

چالش اصلی

کاهش نوسانات توان خورشیدی برای پایداری شبکه.

راه‌حل پیشنهادی

مجموعه ترکیبی SVR + جنگل تصادفی برای پس‌پردازش پیش‌بینی.

معیار کلیدی

بهبود دقت پیش‌بینی‌های روز‌آیند.

2. روش‌شناسی و چارچوب فنی

2.1 مدل‌های هسته‌ای یادگیری ماشین

رگرسیون بردار پشتیبان (SVR): از SVR به عنوان پیش‌بین پایه استفاده می‌شود. این روش با یافتن تابعی به شکل $f(x) = w^T \phi(x) + b$ کار می‌کند که حداکثر به اندازه مقدار $\epsilon$ (لوله اپسیلون-حساس) از مقادیر واقعی هدف $y_i$ انحراف دارد، در حالی که تا حد ممکن تخت باقی می‌ماند. این امر به صورت یک مسئله بهینه‌سازی محدب فرمول‌بندی می‌شود که آن را در برابر بیش‌برازش، به ویژه با داده‌های با ابعاد بالا مانند ویژگی‌های ترکیبی هواشناسی و توان تاریخی، مقاوم می‌سازد.

جنگل تصادفی (RF): از RF به عنوان ترکیب‌کننده مجموعه‌ای استفاده می‌شود. عملکرد آن با ساخت تعداد زیادی درخت تصمیم در طول آموزش و خروجی دادن میانگین پیش‌بینی (برای رگرسیون) تک تک درخت‌ها است. قابلیت ذاتی آن در مدیریت روابط غیرخطی، رتبه‌بندی اهمیت ویژگی‌ها و ارائه مقاومت در برابر نویز، آن را برای تشخیص اینکه کدام پیش‌بینی‌های SVR (و تحت چه شرایطی) قابل اعتمادتر هستند، ایده‌آل می‌سازد.

2.2 معماری مجموعه ترکیبی

معماری پیشنهادی یک مجموعه چیده‌شده است:

سطح 1 (پیش‌بین‌های پایه): چندین مدل SVR آموزش داده می‌شوند که به طور بالقوه از ابرپارامترها، مجموعه‌های ویژگی ورودی (مانند توان با تاخیر، دما، تابش) یا پنجره‌های آموزشی متفاوت استفاده می‌کنند. هر کدام یک پیش‌بینی روز‌آیند تولید می‌کنند.
سطح 2 (فرا-یادگیرنده): یک مدل جنگل تصادفی آموزش داده می‌شود. ورودی‌های (ویژگی‌های) آن، پیش‌بینی‌های تمام مدل‌های SVR سطح 1 برای گام زمانی هدف، همراه با داده‌های هواشناسی واقعی (خروجی‌های NWP) برای آن دوره است. خروجی (هدف) آن، توان خورشیدی مشاهده‌شده واقعی است. RF یاد می‌گیرد که پیش‌بینی‌های SVR را بر اساس شرایط هوایی حاکم بهینه وزن‌دهی و ترکیب کند.

این روش پیچیده‌تر از میانگین‌گیری مدل سنتی است، زیرا RF می‌تواند وزن‌های وابسته به زمینه را یاد بگیرد و به طور موثر انتخاب و تصحیح هوشمندانه پیش‌بینی را انجام دهد.

3. تنظیمات آزمایشی و نتایج

3.1 مجموعه داده‌ها و معیارهای ارزیابی

احتمالاً این مطالعه از یک سال داده تاریخی یک سیستم فتوولتائیک خورشیدی استفاده می‌کند که شامل خروجی توان و متغیرهای هواشناسی متناظر (تابش خورشیدی، دما، پوشش ابر) است. داده‌های پیش‌بینی عددی وضع هوا (NWP) به عنوان ورودی اولیه برای پیش‌بینی‌های روز‌آیند عمل می‌کنند. عملکرد با استفاده از معیارهای خطای استاندارد مانند ریشه میانگین مربعات خطا (RMSE)، میانگین خطای مطلق (MAE) و احتمالاً میانگین درصد خطای مطلق (MAPE) ارزیابی می‌شود و مدل ترکیبی در برابر مدل‌های SVR منفرد و سایر تکنیک‌های ترکیبی معیار (مانند میانگین‌گیری ساده، رگرسیون خطی وزنی) مقایسه می‌شود.

3.2 تحلیل عملکرد و مقایسه

مقاله گزارش می‌دهد که مجموعه RF-SVR عملکرد بهتری دارد نسبت به هر دو مدل SVR تشکیل‌دهنده آن و سایر روش‌های ترکیبی در طول دوره ارزیابی سالانه. این نشان می‌دهد که استراتژی ترکیب غیرخطی RF با موفقیت تعاملاتی را درک می‌کند که ترکیب‌کننده‌های خطی از دست می‌دهند. نتایج، فرضیه‌ای را تأیید می‌کند که ترکیب پیش‌بینی از طریق یک فرا-یادگیرنده قدرتمند می‌تواند سیگنال پیش‌بینی اضافی را از مجموعه‌ای از پیش‌بینی‌های متنوع اما همبسته استخراج کند.

توضیح نمودار (مفهومی): یک نمودار میله‌ای مقادیر RMSE/MAE را برای موارد زیر نشان می‌دهد: الف) مدل تداوم، ب) بهترین مدل SVR منفرد، ج) میانگین مدل‌های SVR، د) ترکیب رگرسیون خطی، ه) مجموعه پیشنهادی RF-SVR. میله مربوط به RF-SVR کوتاه‌ترین خواهد بود که دقت برتر را نشان می‌دهد. یک نمودار خطی تکمیلی می‌تواند پیش‌بینی در مقابل توان واقعی را برای یک هفته نمونه نشان دهد و نقاطی را برجسته کند که مجموعه، خطاهای ایجادشده توسط مدل‌های منفرد را تصحیح می‌کند.

4. تحلیل انتقادی و دیدگاه صنعتی

بینش اصلی: کار ابوعلا و چودری یک اقدام عملی و مهندسی‌محور است، نه یک پیشرفت نظری. این کار تصدیق می‌کند که در دنیای آشفته واقعی پیش‌بینی خورشیدی، یک مدل «بهترین» منفرد وجود ندارد. به جای جستجوی یک تک‌شاخ، آنها یک «کمیته از متخصصان» (چندین SVR) و یک «رئیس هوشمند» (جنگل تصادفی) را مستقر می‌کنند تا بهترین پاسخ ممکن را ترکیب کنند. این کمتر مربوط به اختراع هوش مصنوعی جدید است و بیشتر مربوط به هماهنگی هوشمندانه ابزارهای موجود و آزموده‌شده است - نشانه‌ای از بلوغ در یادگیری ماشین کاربردی برای سیستم‌های انرژی.

جریان منطقی و نقاط قوت: منطق آن مستحکم است و بهترین شیوه‌ها در مسابقات یادگیری ماشین (مانند GEFCom2014 ذکرشده) را منعکس می‌کند. نقطه قوت آن در سادگی و قابلیت تکرارپذیری است. SVR و RF به طور گسترده در دسترس، به خوبی درک شده و نسبت به جایگزین‌های یادگیری عمیق نسبتاً آسان برای تنظیم هستند. فرآیند دو مرحله‌ای همچنین قابلیت تفسیرپذیری ارائه می‌دهد: اهمیت ویژگی‌های RF می‌تواند نشان دهد که کدام مدل SVR (یا متغیر هواشناسی) تحت شرایط خاص تأثیرگذارتر است و بینش‌های عملیاتی ارزشمندی فراتر از یک عدد پیش‌بینی جعبه‌سیاه ارائه می‌دهد.

نقاط ضعف و محدودیت‌ها: صریح بگوییم: این یک رویکرد سال 2017 است. معماری ذاتاً ترتیبی و ایستا است. مدل‌های SVR قبل از آموزش RF ثابت هستند و فرصت بهینه‌سازی سرتاسری که مجموعه‌های یادگیری عمیق مدرن (مانند استفاده از شبکه‌های عصبی هم به عنوان یادگیرنده‌های پایه و هم فرا-یادگیرنده) می‌توانند ارائه دهند را از دست می‌دهند. همچنین احتمالاً به مهندسی ویژگی قابل توجهی نیاز دارد و ممکن است با داده‌های با فرکانس بسیار بالا یا درک وابستگی‌های پیچیده مکانی-زمانی در ناوگان‌های فتوولتائیک توزیع‌شده - چالشی که در آن شبکه‌های عصبی گرافی (GNN) اکنون نویدبخش هستند، همانطور که در ادبیات اخیر از مؤسساتی مانند آزمایشگاه ملی انرژی تجدیدپذیر (NREL) دیده می‌شود - دست و پنجه نرم کند.

بینش‌های عملی: برای تیم‌های پیش‌بینی شرکت‌های برق، این مقاله همچنان الگویی برای یک موفقیت سریع باقی می‌ماند. قبل از شیرجه زدن در یادگیری عمیق پیچیده، این مجموعه RF روی SVR را پیاده‌سازی کنید. این یک پروژه کم‌خطر با پتانسیل بازدهی بالا است. بینش واقعی این است که لایه «ترکیب پیش‌بینی» را به عنوان یک مؤلفه حیاتی سیستم در نظر بگیرید. در ایجاد یک مجموعه متنوع از پیش‌بینی‌های پایه (با استفاده از الگوریتم‌ها، منابع داده و مدل‌های مبتنی بر فیزیک مختلف) سرمایه‌گذاری کنید و سپس یک ترکیب‌کننده غیرخطی قدرتمند مانند RF یا گرادیانت بوستینگ اعمال کنید. این رویکرد ماژولار سیستم شما را آینده‌پذیر می‌کند؛ می‌توانید مدل‌های پایه جدیدتر (مانند LSTM یا ترنسفورمر) را به محض اثبات ارزششان جایگزین کنید، در حالی که چارچوب ترکیبی مستحکم را حفظ می‌کنید.

5. جزئیات فنی و فرمول‌بندی ریاضی

فرمول‌بندی SVR: با توجه به داده‌های آموزشی ${(x_1, y_1), ..., (x_n, y_n)}$، SVR مسئله زیر را حل می‌کند: $$\min_{w, b, \xi, \xi^*} \frac{1}{2} ||w||^2 + C \sum_{i=1}^n (\xi_i + \xi_i^*)$$ با قیود: $$y_i - (w^T \phi(x_i) + b) \le \epsilon + \xi_i,$$ $$(w^T \phi(x_i) + b) - y_i \le \epsilon + \xi_i^*,$$ $$\xi_i, \xi_i^* \ge 0.$$ در اینجا، $\phi(x)$ به یک فضای با ابعاد بالاتر نگاشت می‌شود، $C$ پارامتر تنظیم است و $\xi_i, \xi_i^*$ متغیرهای شل هستند.

پیش‌بینی جنگل تصادفی: برای رگرسیون، پیش‌بینی RF به نام $\hat{y}_{RF}$ برای یک بردار ورودی $\mathbf{z}$ (که شامل پیش‌بینی‌های SVR و داده‌های هواشناسی است) میانگین پیش‌بینی‌های $B$ درخت منفرد است: $$\hat{y}_{RF}(\mathbf{z}) = \frac{1}{B} \sum_{b=1}^{B} T_b(\mathbf{z})$$ که در آن $T_b$ درخت تصمیم $b$-ام است.

6. چارچوب تحلیل: یک مطالعه موردی مفهومی

سناریو: یک اپراتور شبکه منطقه‌ای نیاز به ادغام پیش‌بینی‌های 50 سیستم فتوولتائیک سقفی توزیع‌شده دارد.

کاربرد چارچوب:

لایه پایه (مدل‌های SVR): سه مدل SVR برای هر سایت (یا یک مدل سراسری) آموزش داده می‌شود:
- SVR_Phys: از داده‌های NWP (تابش، دما) به عنوان ویژگی‌های اولیه استفاده می‌کند.
- SVR_TS: بر ویژگی‌های سری زمانی (توان با تاخیر، روز هفته، ساعت روز) تمرکز می‌کند.
- SVR_Hybrid: از یک مجموعه ویژگی ترکیبی استفاده می‌کند.
لایه فرا (جنگل تصادفی): برای یک ساعت هدف فردا، ورودی به RF یک بردار است: $\mathbf{z} = [\hat{P}_{SVR\_Phys}, \hat{P}_{SVR\_TS}, \hat{P}_{SVR\_Hybrid}, GHI_{NWP}, Temp_{NWP}, CloudCover_{NWP}]$. RF که بر روی داده‌های تاریخی آموزش دیده است، پیش‌بینی نهایی یکپارچه $\hat{P}_{Final}$ را خروجی می‌دهد.
خروجی: یک پیش‌بینی دقیق‌تر و مستحکم‌تر. تحلیل اهمیت ویژگی‌های RF ممکن است نشان دهد که در روزهای ابری، وزن مدل سری زمانی (SVR_TS) کمتر می‌شود، در حالی که مدل مبتنی بر فیزیک (SVR_Phys) و داده‌های پوشش ابری از اهمیت بالایی برخوردار می‌شوند.

این چارچوب یک راه سیستماتیک و خودکار برای بهره‌گیری از تنوع مدل ارائه می‌دهد.

7. کاربردهای آتی و جهت‌های پژوهشی

اصول این کار فراتر از پیش‌بینی خورشیدی گسترش می‌یابد:

پیش‌بینی توان بادی: کاربرد مستقیم با استفاده از مجموعه‌ای از مدل‌های پیش‌بینی سرعت باد مختلف.
پیش‌بینی بار: ترکیب پیش‌بینی‌های حاصل از مدل‌های بار اقتصادسنجی، سری زمانی و یادگیری ماشین.
پیش‌بینی احتمالاتی: تکامل ترکیب‌کننده RF برای خروجی دادن بازه‌های پیش‌بینی (مانند استفاده از جنگل‌های رگرسیون چندک) به جای فقط پیش‌بینی‌های نقطه‌ای، که برای عملیات شبکه آگاه از ریسک حیاتی است.
ادغام با یادگیری عمیق: جایگزینی SVR با LSTM یا ترنسفورمرهای ادغام زمانی به عنوان یادگیرنده‌های پایه و استفاده از یک شبکه عصبی به عنوان فرا-یادگیرنده که به صورت سرتاسری آموزش دیده است. پژوهش در این جهت فعال است، همانطور که در مقالات کنفرانس‌های سطح بالایی مانند NeurIPS و ICLR دیده می‌شود.
رایانش لبه برای فتوولتائیک توزیع‌شده: استقرار نسخه‌های سبک‌وزن از این چارچوب مجموعه‌ای برای پیش‌بینی بلادرنگ در سطح اینورتر یا تجمیع‌کننده.

آینده در گرو مجموعه‌های پویا و سازگار است که می‌توانند به طور پیوسته یاد بگیرند و وزن‌های ترکیب را تقریباً بلادرنگ با جریان یافتن داده‌ها و عملکردهای مدل جدید به‌روز کنند.

8. مراجع

Abuella, M., & Chowdhury, B. (2017). Random Forest Ensemble of Support Vector Regression Models for Solar Power Forecasting. In Proceedings of Innovative Smart Grid Technologies, North America Conference.
Hong, T., Pinson, P., & Fan, S. (2016). Global Energy Forecasting Competition 2014. International Journal of Forecasting, 32(2), 896-913.
National Renewable Energy Laboratory (NREL). (2023). Solar Forecasting. Retrieved from https://www.nrel.gov/grid/solar-forecasting.html
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.
Smola, A. J., & Schölkopf, B. (2004). A tutorial on support vector regression. Statistics and Computing, 14(3), 199-222.
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV). (ذکرشده به عنوان نمونه‌ای از چارچوب‌های یادگیری غیرخطی پیشرفته).
مطالعات اخیر در مورد شبکه‌های عصبی گرافی برای پیش‌بینی مکانی-زمانی در سیستم‌های قدرت (به عنوان مثال، از مجموعه مقالات IEEE PES GM).