Калибрация и валидация на глобален климатичен модел с локални измервания | Морска Перла, Обзор
Този анализ сравнява данните от локалната метеостанция с ERA5 — глобален атмосферен реанализ на ECMWF (Европейски център за средносрочни прогнози). ERA5 комбинира милиони метеорологични наблюдения с физичен модел на атмосферата, генерирайки хомогенен набор от данни с резолюция ~25 km и почасова стъпка от 1940 г. до днес.
Обзор е черноморски курортен град на границата между Варненска и Бургаска област, на 58 км южно от Варна и 70 км северно от Бургас. Станцията е разположена непосредствено на брега — открита към морето от изток и север, без естествени прегради от тези посоки.
Хистограмите показват колко често ERA5 греши и с колко. Идеалният случай: висок връх около нулата (малки грешки са чести) и бързо спадане към краищата (големи грешки са редки).
μ = -0.88°C, σ = 1.94°C
μ = -0.8%, σ = 8.6%
μ = -1.43 m/s, σ = 1.62 m/s
| Източник | R² | Bias | Бележка |
|---|---|---|---|
| Ecowitt pressure_absolute | 0.989 | -0.82 hPa | ✅ Отлично съвпадение с ERA5 MSL |
| Относително налягане | 0.286 | -5.42 hPa | Не съвпада с ERA5 MSL |
| Анализ | R² | Корелация | Bias | Подобрение |
|---|---|---|---|---|
| Всички посоки | 0.346 | 0.588 | -1.43 m/s | — |
| Открити посоки (350°-70°) | 0.693 | 0.833 | -1.14 m/s | +100% R² |
Валежите са най-трудният параметър за сравнение между глобален модел и точково измерване. Докато температурата и налягането варират плавно в пространството, валежите са силно локализирани — може да вали интензивно на едно място и да е сухо на 2 км.
Общата статистика (R², MAE) дава усреднена картина, но крие важни детайли. Грешките на ERA5 не са случайни — те следват систематични модели във времето. Разбирането на тези модели позволява по-прецизна корекция и интерпретация.
ERA5 може да показва сезонна зависимост на грешките. Например, ако моделът систематично подценява летните температури (морски бриз охлажда локално), но е точен през зимата — общият bias ще изглежда малък, но реално имаме два различни режима. Месечният анализ разкрива тези сезонни модели.
Денонощният цикъл разкрива дали ERA5 греши в определени часове. Типични примери: подценяване на нощното охлаждане (модел не улавя локални инверсии), или надценяване на дневния максимум (липса на морски бриз в модела). Това е важно при анализ на исторически екстремуми — например колко слани е имало през даден период или какви са били пиковите температури.
Вместо една обща формула за цялата година, можем да използваме сезонно-зависими корекции за по-висока точност. Топъл сезон (апр-сеп) и студен сезон (окт-мар) имат различни характеристики.
| Сезон | Период | N | R² | Bias | MAE | Формула |
|---|---|---|---|---|---|---|
| ☀️ Топъл | Апр-Сеп | 4,350 | 0.932 | -1.04°C | 1.52°C | 0.9955×ERA5 -0.9545 |
| ❄️ Студен | Окт-Мар | 5,910 | 0.860 | -0.75°C | 1.67°C | 1.0529×ERA5 -1.2286 |
| Сезон | Период | N | R² | Bias | MAE | Формула |
|---|---|---|---|---|---|---|
| ☀️ Топъл | Апр-Сеп | 4,350 | 0.544 | +0.2% | 7.3% | 0.6655×ERA5 +24.7662 |
| ❄️ Студен | Окт-Мар | 5,910 | 0.645 | -1.5% | 5.9% | 0.8949×ERA5 +6.8789 |
Ако bias-ът се различава значително между сезоните (напр. >0.5°C за температура), сезонните формули ще дадат по-точни резултати. Ако разликата е малка, общата годишна формула е достатъчна.
Първоначално анализирахме 8 месеца данни (само топлите месеци). След разширяване до 15 месеца, покриващи пълен годишен цикъл, резултатите се подобриха значително:
| Променлива | 8 месеца R² | 15 месеца R² | 8 мес. Bias | 15 мес. Bias | Промяна |
|---|---|---|---|---|---|
| Температура | 0.915 | 0.941 | -0.80°C | -0.08°C | 10× по-малък bias |
| Точка на оросяване | 0.848 | 0.934 | -0.80°C | +0.41°C | +10% R² |
| Слънчева радиация | 0.854 | 0.897 | +4.7 W/m² | -4.1 W/m² | +5% R² |
| Влажност | 0.566 | 0.605 | -0.25% | +1.95% | +7% R² |
За правилна интерпретация на резултатите е важно да се разбира какво измерва всяка метрика:
| Метрика | Формула | Отговаря на въпроса |
|---|---|---|
| Линейна регресия | y = a·x + b |
Има ли системно изместване или скалиране? |
| Pearson r (корелация) | r ∈ [-1, 1] | Движат ли се стойностите заедно (синхрон)? |
| R² (детерминация) | R² = r² | Каква част от вариацията се обяснява? |
| Bias | mean(модел - станция) | Постоянно ли греши в една посока? |
| MAE | mean(|модел - станция|) | Колко голяма е грешката средно? |
| RMSE | √mean((модел - станция)²) | Колко е грешката, наказвайки големите отклонения? |
| Източник | Описание | Резолюция |
|---|---|---|
| ECOWITT WS2320 | Метеостанция в Морска Перла, Обзор | Почасови данни (~10,350 часа) |
| ERA5 (ECMWF) | Реанализ данни чрез Open-Meteo API | ~25 km / 1 час |
ERA5-Land е версия с по-висока резолюция (~9 km вместо ~25 km), оптимизирана за сухоземни повърхности. Въпреки по-добрата резолюция, избрахме ERA5 поради:
За локации във вътрешността на страната ERA5-Land би бил по-подходящ избор.
Станцията измерва UV индекс (налични са данни), но ERA5 не включва UV радиация.
corrected = slope × ERA5 + interceptПреди анализа проверяваме данните за потенциални проблеми:
| Параметър | Общо точки | Outliers (>3σ) | Замръзнали | Чисти данни |
|---|---|---|---|---|
| Температура | 10,343 | 4 | 2 | 99.9% |
| Влажност | 10,343 | 60 | 47 | 99.0% |
| Вятър | 10,343 | 212 | 0 | 98.0% |
| Радиация | 0 | 0 | 0 | 100% |
| Налягане | 0 | 0 | 0 | 100% |
Outliers (>3σ): Стойности извън 3 стандартни отклонения от средното. Може да са реални екстремуми или грешки на сензора.
Замръзнали: Идентични стойности за 6+ последователни часа. Възможен проблем със сензора или комуникацията.
Станцията е частично защитена от сгради, терен и растителност при ЮЗ, З и СЗ вятър.
ERA5 моделира вятъра на 10м височина в открити условия. Корелацията се подобрява при филтриране по посока (350°-70°).
За сравнение с ERA5 MSL е необходимо абсолютно налягане (не относително).
С правилни данни (pressure_absolute) корелацията достига R² = 0.99.
| Променлива | Надеждност | Бележка |
|---|---|---|
| Температура | Отлична (R² = 0.94) | Bias почти 0, отлично съвпадение |
| Точка на оросяване | Отлична (R² = 0.93) | Висока корелация |
| Слънчева радиация | Отлична (R² = 0.90) | Добро съвпадение |
| Влажност | Умерена (R² = 0.60) | Крайбрежен микроклимат влияе |
| Налягане | Отлична (R² = 0.99) | При абсолютно налягане |
| Вятър (всички) | Слаба (R² = 0.29) | Защитена локация |
| Вятър (север 350°-70°) | Умерена | Открита посока към морето |
След калибрация с 10,343 часа локални данни, вече разполагаме с ясна картина къде ERA5 е надежден за нашата локация и къде се разминава с реалността.
Въпреки че ERA5 предлага данни от 1940 г. насам с глобално покритие, локалните измервания остават незаменими. Причините са в самата природа на атмосферата и ограниченията на глобалните модели:
За параметрите с висока надеждност (температура, радиация, налягане) вече можем да извлечем данни назад до 1940 г. за нашата локация. Това позволява анализ на климатични тенденции, екстремни събития и сезонни модели за последните 85 години.
За всеки параметър разполагаме с линейна регресия (corrected = slope × ERA5 + intercept),
която позволява подобряване на ERA5 данните специално за нашата точка.
При пропуски в станционните данни можем да ги попълним с коригирани ERA5 стойности.
Не по-малко важно — вече знаем къде ERA5 не е надежден (очаквано) за тази локация. За вятър и валежи моделът не може да замести локални измервания. Това предпазва от грешни заключения при бъдещи анализи.
С натрупване на повече данни (2, 3, 5 години) корекционните формули ще стават по-прецизни. Може да се разработят сезонно-зависими корекции или машинно обучение за по-точно "превеждане" на ERA5 към локалните ни условия.
ERA5 използва един и същ модел (IFS Cycle 41r2) за целия период 1940–2025. Но качеството зависи от входните наблюдения — колкото повече измервания са налични, толкова по-надежден е реанализът.
| Период | Наблюдения | Качество |
|---|---|---|
| 2000–днес | Много сателити + метеобалони + морски буйове | Най-високо |
| 1979–2000 | Сателитна ера — глобално покритие | Високо |
| 1950–1979 | Повече станции, но без сателити | Умерено |
| 1940–1950 | Много оскъдни, предимно Зап. Европа/САЩ | Висока несигурност |
За България: До 1950-те има минимални наблюдения в региона. От 1979 г. сателитите "виждат" и Черноморието. Днес: SYNOP станции (Варна, Бургас) + сателити + модел.
ECMWF публикува uncertainty estimates — оценки колко сигурни са данните. Това се изчислява чрез 10 паралелни симулации (ERA5 EDA) с леко различни начални условия. Ако всички дават сходен резултат — ниска несигурност. Ако варират много — висока.
| Период | Температура | Влажност | Вятър |
|---|---|---|---|
| 2000–2025 | ±0.3–0.5°C | ±3–5% | ±0.5–1.0 m/s |
| 1979–2000 | ±0.5–0.8°C | ±5–8% | ±1.0–1.5 m/s |
| 1950–1979 | ±1.0–1.5°C | ±8–12% | ±1.5–2.5 m/s |
| 1940–1950 | ±1.5–2.5°C | ±10–15% | ±2.0–3.5 m/s |
Практически извод: Нашата калибрация е с данни от 2024–2025. Прилагането към 1979–2025 е надеждно (сателитна ера). За 1950–1979 работи, но с по-голяма несигурност. Преди 1950 — може да се използва, но с повишено внимание.
ERA5 е мощен инструмент, но не е универсално решение. За крайбрежна локация като Обзор моделът е отличен за температура, радиация и налягане — тези данни могат да се използват с висока степен на доверие, включително исторически назад до 1940 г.
Близкият до нула годишен температурен bias всъщност е резултат от сезонна компенсация — морето затопля брега зимата и го охлажда лятото, като двата ефекта се изравняват през годината.
За влажност локалните измервания са важни — разлика от 10% при висока температура лятото или при силен вятър зимата се усеща значително. За вятър и валежи локалната станция остава единственият надежден източник — тези явления се променят драстично на разстояние от стотици метри, а ERA5 работи при резолюция от 25 km.