Google Research опубликовала открытый датасет Groundsource — крупнейшую на сегодняшний день автоматизированную выборку событий наводнений, извлечённых из новостных источников. С помощью инструментов обработки текста и модели Gemini исследователи проанализировали свыше 5 млн новостных материалов из более чем 150 стран и выделили более 2.64 млн уникальных записей о зафиксированных в СМИ случаях затоплений.
Датасет уже размещён на платформе HyperAI и доступен для онлайниспользования: Groundsource на HyperAI. Описание проекта — в репозитории EarthArXiv: paper.
Что такое Groundsource и зачем он нужен
Наводнения входят в число наиболее частых и разрушительных природных катастроф. При этом официальные гидрологические сети и станции покрывают территорию мира фрагментарно: многие локальные и мелкомасштабные события остаются незаписанными в централизованных реестрах.
Groundsource пытается заполнить этот пробел, автоматически извлекая и верифицируя сведения о наводнениях из неструктурированных источников — газет, местных сайтов и публикаций власти — и сводя их в стандартизированную, геопривязанную базу.
Как строили датасет — ключевые этапы
Сбор текстов: вебскрейпинг новостей с 2000 года; первичная фильтрация по релевантности тематики с использованием WebRef. Было отобрано около 9,5 млн страниц, из которых ~7,5 млн прошли дальнейшую очистку и нормализацию.
Перевод и предобработка: тексты на языках, отличных от английского, переводились в англоязычную канву через Cloud Translation; удалялись служебные элементы страниц, оставалась только основная статья и метаданные.
NER и привязка гео: извлечение географических сущностей и нормализация названий (геокодирование до координат или пространственных границ).
Инструментальная валидация через LLM: для структуризации событий использовали Gemini с специально разработанными подсказками. Модель выполняла четыре последовательных шага — определить, описывает ли статья реальное событие наводнения; извлечь и нормализовать дату; выделить пострадавшие места; сопоставить топонимы с географическими идентификаторами.
Кластеризация и агрегирование: множественные упоминания одного инцидента в нескольких источниках времяпространственно агрегировали в единичное событие; применялась фильтрация и контроль качества.
Масштаб и качество
Объём: >5 млн проанализированных статей → ~500 млн кандидатных упоминаний → итоговый набор — 2 640 000+ уникальных записей о наводнениях.
Оценка точности: автоматическая детекция событий — приблизительно 75% точности и ~90% полноты (recall) по валидационной выборке; при ручной проверке 60% записей признаны «строго точными» (95% CI ±5%), если учитывать записи с незначительными погрешностями, то около 82% являются годными для аналитики.
Пространственное разрешение: средняя площадь покрытия события ≈142 км²; 82% записей имеют радиус <50 км², что позволяет фиксировать локальные и квартальные наводнения — ниши, часто пропускаемые глобальными реестрами.
Временная и пространственная смещённость: ~64% записей относятся к периоду 2020–2025 гг., 2025 год — ≈15% выборки (эффект роста цифровых новостей, а не однозначный рост числа происшествий). Более плотные записи отмечены в регионах с развитой медиаинфраструктурой (Европа, Южная и ЮгоВосточная Азия).
Сравнение Groundsource с GDACS и Dartmouth Flood Observatory показало хорошие показатели: с 2020 года recall относительно GDACS достигает 85–100%; в США совпадение с GDACS/DFO в тестах — 96%/91% соответственно для значимых событий. И всё же полное покрытие по миру остается недостижимым изза неравномерности медиапокрытия и языковой поддержки.
Возможные применения
Дополнение традиционных гидрологических наборов для калибровки и тестирования моделей предсказания паводков.
Построение историй воздействия на локальном уровне — для оценки уязвимости отдельных районов и планирования инфраструктуры.
Поддержка городского планирования: интеграция с картами дренажа и цифровой топографией помогает моделировать уязвимость на уровне кварталов.
Актуализация экстренных систем: оперативная аналитика по СМИ может служить дополнением к датчикам в регионах с ограниченной инфраструктурой.
Ограничения и предостережения
Медийный уклон: датасет коррелирует с интенсивностью локальных новостных потоков — регионы с бедной цифровой медиасредой будут недопредставлены.
Ошибки геолокации и времени: нерешённые двусмысленности топонимов и относительные временные выражения («вчера», «на прошлой неделе») приводят к части пространственновременных ошибок (~18% в проверочной выборке).
Не заменяет, но дополняет: Groundsource не снимает потребности в наземных измерениях и дистанционном зондировании — он даёт дополнительный «журнал наблюдений» с высокой плотностью локализаций там, где СМИ пишут о наводнениях.
Методика показала, что LLMопорная автоматизация извлечения событий из неструктурированного текста жизнеспособна и масштабируема. Исследовательские команды уже используют такие данные совместно со спутниковыми наблюдениями и данными городских систем: пример — интеграция новостной выборки в платформы прогнозирования риска (вектор прикладных разработок — Hydrology Copilot и прочие пилоты).
Работы MIT и NUS демонстрируют, что дальнейшая локальная калибровка и включение гидрологических дат повышают точность датировки и локализации событий.
Groundsource — важный шаг к созданию глобальной, высокодетализированной истории наводнений на основе медиаповодной информации. Он не лишён систематических ограничений, но в сочетании с дистанционными и наземными измерениями способен значительно расширить возможности анализа локальных и младших по масштабу событий, улучшая прогнозы, оценку уязвимости и принятие решений в области адаптации к климату.
sms_systems@inbox.ru
+ 7 (985) 982-70-55