Google открывает Groundsource — глобальная база историй о наводнениях из 150 стран

Строева Марина

Google Research опубликовала открытый датасет Groundsource — крупнейшую на сегодняшний день автоматизированную выборку событий наводнений, извлечённых из новостных источников. С помощью инструментов обработки текста и модели Gemini исследователи проанализировали свыше 5 млн новостных материалов из более чем 150 стран и выделили более 2.64 млн уникальных записей о зафиксированных в СМИ случаях затоплений.

Датасет уже размещён на платформе HyperAI и доступен для онлайниспользования: Groundsource на HyperAI. Описание проекта — в репозитории EarthArXiv: paper.

Что такое Groundsource и зачем он нужен

Наводнения входят в число наиболее частых и разрушительных природных катастроф. При этом официальные гидрологические сети и станции покрывают территорию мира фрагментарно: многие локальные и мелкомасштабные события остаются незаписанными в централизованных реестрах.

Groundsource пытается заполнить этот пробел, автоматически извлекая и верифицируя сведения о наводнениях из неструктурированных источников — газет, местных сайтов и публикаций власти — и сводя их в стандартизированную, геопривязанную базу.

Как строили датасет — ключевые этапы

Сбор текстов: вебскрейпинг новостей с 2000 года; первичная фильтрация по релевантности тематики с использованием WebRef. Было отобрано около 9,5 млн страниц, из которых ~7,5 млн прошли дальнейшую очистку и нормализацию.

Перевод и предобработка: тексты на языках, отличных от английского, переводились в англоязычную канву через Cloud Translation; удалялись служебные элементы страниц, оставалась только основная статья и метаданные.

NER и привязка гео: извлечение географических сущностей и нормализация названий (геокодирование до координат или пространственных границ).

Инструментальная валидация через LLM: для структуризации событий использовали Gemini с специально разработанными подсказками. Модель выполняла четыре последовательных шага — определить, описывает ли статья реальное событие наводнения; извлечь и нормализовать дату; выделить пострадавшие места; сопоставить топонимы с географическими идентификаторами.

Кластеризация и агрегирование: множественные упоминания одного инцидента в нескольких источниках времяпространственно агрегировали в единичное событие; применялась фильтрация и контроль качества.

Масштаб и качество

Объём: >5 млн проанализированных статей → ~500 млн кандидатных упоминаний → итоговый набор — 2 640 000+ уникальных записей о наводнениях.

Оценка точности: автоматическая детекция событий — приблизительно 75% точности и ~90% полноты (recall) по валидационной выборке; при ручной проверке 60% записей признаны «строго точными» (95% CI ±5%), если учитывать записи с незначительными погрешностями, то около 82% являются годными для аналитики.

Пространственное разрешение: средняя площадь покрытия события ≈142 км²; 82% записей имеют радиус <50 км², что позволяет фиксировать локальные и квартальные наводнения — ниши, часто пропускаемые глобальными реестрами.

Временная и пространственная смещённость: ~64% записей относятся к периоду 2020–2025 гг., 2025 год — ≈15% выборки (эффект роста цифровых новостей, а не однозначный рост числа происшествий). Более плотные записи отмечены в регионах с развитой медиаинфраструктурой (Европа, Южная и ЮгоВосточная Азия).

Сравнение Groundsource с GDACS и Dartmouth Flood Observatory показало хорошие показатели: с 2020 года recall относительно GDACS достигает 85–100%; в США совпадение с GDACS/DFO в тестах — 96%/91% соответственно для значимых событий. И всё же полное покрытие по миру остается недостижимым изза неравномерности медиапокрытия и языковой поддержки.

Возможные применения

Дополнение традиционных гидрологических наборов для калибровки и тестирования моделей предсказания паводков.

Построение историй воздействия на локальном уровне — для оценки уязвимости отдельных районов и планирования инфраструктуры.

Поддержка городского планирования: интеграция с картами дренажа и цифровой топографией помогает моделировать уязвимость на уровне кварталов.

Актуализация экстренных систем: оперативная аналитика по СМИ может служить дополнением к датчикам в регионах с ограниченной инфраструктурой.

Ограничения и предостережения

Медийный уклон: датасет коррелирует с интенсивностью локальных новостных потоков — регионы с бедной цифровой медиасредой будут недопредставлены.

Ошибки геолокации и времени: нерешённые двусмысленности топонимов и относительные временные выражения («вчера», «на прошлой неделе») приводят к части пространственновременных ошибок (~18% в проверочной выборке).

Не заменяет, но дополняет: Groundsource не снимает потребности в наземных измерениях и дистанционном зондировании — он даёт дополнительный «журнал наблюдений» с высокой плотностью локализаций там, где СМИ пишут о наводнениях.

Методика показала, что LLMопорная автоматизация извлечения событий из неструктурированного текста жизнеспособна и масштабируема. Исследовательские команды уже используют такие данные совместно со спутниковыми наблюдениями и данными городских систем: пример — интеграция новостной выборки в платформы прогнозирования риска (вектор прикладных разработок — Hydrology Copilot и прочие пилоты).

Работы MIT и NUS демонстрируют, что дальнейшая локальная калибровка и включение гидрологических дат повышают точность датировки и локализации событий.

Groundsource — важный шаг к созданию глобальной, высокодетализированной истории наводнений на основе медиаповодной информации. Он не лишён систематических ограничений, но в сочетании с дистанционными и наземными измерениями способен значительно расширить возможности анализа локальных и младших по масштабу событий, улучшая прогнозы, оценку уязвимости и принятие решений в области адаптации к климату.

НОВЫЕ СТАТЬИ

22 октября, 2024

Автоматизация аналитики продаж на маркетплейсах:…

22 октября, 2024

Как анализ отзывов и оценок…

22 октября, 2024

Анализ динамики цен и стратегии…

22 октября, 2024

Интеграция данных о продажах с…

БОЛЬШЕ ИНФОРМАЦИИ

Email

sms_systems@inbox.ru

Телефон

+ 7 (985) 982-70-55