Generating Realistic Images of Oil and Gas Infrastructure in Satellite Imagery Using Diffusion Models
- Authors: Lobanov V.K.1, Kondrashina M.S.1, Gadzhiev S.M.1, Sokibekov M.S.1
-
Affiliations:
- RUDN University
- Issue: Vol 26, No 3 (2025)
- Pages: 266-272
- Section: Articles
- URL: https://journals.rudn.ru/engineering-researches/article/view/47077
- DOI: https://doi.org/10.22363/2312-8143-2025-26-3-266-272
- EDN: https://elibrary.ru/YICUJW
- ID: 47077
Cite item
Full Text
Abstract
This study investigated the feasibility of applying machine learning methods, specifically generative models, for semantic editing of satellite imagery. The research focused on an architecture based on diffusion models capable of generating desirable objects directly on satellite images. However, significant shortcomings were identified in the standard model with regard to realism and relevance to the surrounding context, given the specific nature of the chosen subject area, namely the generation of realistic images of oil and gas infrastructure objects (such as pipelines). To address this limitation, fine-tuning of the neural network was performed. The objective of the fine-tuning was to enhance the quality of visualizing pipeline-related design solutions. A methodological approach for creating training dataset was proposed and described in detail. Based on actual pipeline routes, spatially referenced vector layers were created in QGIS, and a set of satellite image tiles with precise pipeline boundary annotations was generated. The results of the experimental fine-tuning demonstrated a significant improvement in the quality of generated images depicting oil and gas infrastructure objects in satellite imagery compared to the original, non-adapted model. The developed fine-tuned model enables highly realistic pipeline generation, effectively integrating them into the existing landscape within the image. Visual comparison of results before and after fine-tuning confirms the elimination of artifacts and the achievement of the required level of detail. This work demonstrates the effectiveness of the approach involving the creation of specific datasets and fine-tuning for solving specialized visualization tasks in remote sensing.
Full Text
Введение Использование космических снимков позволяет решать многие задачи. Поэтому разработка моделей и методов обработки изображений является чрезвычайно актуальной. Цель исследования - оценка использования нейронных сетей для визуализации прокладки трубопроводов. Для решения поставленной нами задачи изучены возможности модели, предложенной авторами статьи “Tackling Few-Shot Segmentation in Remote Sensing via Inpainting Diffusion Model” [1]. Применение данной модели для прокладки трубопровода показало ее недостаточную эффективность. Для улучшения результатов использования модели провели дообучение на основе сформированного обучающего набора. Актуальность подхода связана с применением современных нейронных сетей и решаемой проблемы визуализации нефтегазовой инфраструктуры на космических снимках. 1. Методы 1.1. Архитектура нейронной сети Проанализируем принцип работы модели, предложенной в [1] и состоящей из нижеперечисленных «блоков». Stable Diffusion - это генеративная диффузионная модель, предназначенная для создания высококачественных изображений из текстовых описаний или на основе других изображений. Модель работает с пространством скрытых признаков, за счет этого способна достигать высокой эффективности при работе с изображениями. Обучение модели происходит на задаче «обратного шума» - она учится постепенно восстанавливать изображение из шума. При генерации Stable Diffusion «двигается в обратном порядке» от случайного шума к содержательному изображению [2; 3]. Основные компоненты Stable Diffusion: 1. Автокодировщик (VAE - Variational Autoencoder) - используется для перевода изо-бражений в пространство признаков и обратно и состоит из кодировщика (encoder), который сжимает изображение до латентного представления и декодировщика (decoder), восстанавливающего изображение из полученного кодировщиком представления [4]. Использование автокодировщика позволяет значительно ускорить обучение и генерацию по сравнению с работой с обычными пиксельными изображениями за счет снижения размерности данных и извлечения признаков. 2. UNet - это основной модуль, обрабатывающий скрытое пространство признаков. Архитектура UNet: симметричная сеть с блоками downsampling (понижающей дискретизации) и upsampling (повышающей дискретизации) [5]. В каждом блоке используются следующие составляющие: остаточные связи (residual), внимание (attention) и нормализация (group normalization). На вход модуля поступает зашумлённое пространство признаков, время шага в процессе диффузии (timestep) и текстовая подсказка (через cross-attention). 3. Text Encoder (CLIP Text Encoder) - разработанный OpenAI текстовый кодировщик CLIP (Contrastive Language - Image Pretraining) (ViT-B/32), преобразующий текстовую подсказку в вектор признаков. Эти признаки используются в UNet через cross-attention механизмы, чтобы направлять генерацию изображения [6]. 4. Scheduler (DDIM/DDPM) - управляет процессом добавления и удаления шума. Во время генерации работает в режиме «обратного процесса»: начиная со случайного шума, модель постепенно приближает его к изображению. Принцип работы этого метода заключается в следующем: 1. Текст → Вектор признаков: текст обрабатывается кодировщиком CLIP. 2. Латентное пространство: генерация на-чинается со случайного шума в латентном про-странстве. 3. Процесс диффузии: UNet итеративно очищает шум, направляясь вектором признаков текста. 4. VAE Decoder: финальное латентное пред-ставление декодируется обратно в изображение. RemoteCLIP - использовалась для обработки спутниковых и аэрофотоснимков (дистанционного зондирования) [7] и представляет собой адаптированную версию CLIP [6]. Модель обучается сопоставлять спутниковые изображения с текстовыми описаниями. Изображения и тексты кодируются в общее признаковое пространство, где близкие по смыслу пары находятся рядом. RemoteCLIP содержит следующие основные компоненты: 1. Кодировщик изображения (image en-coder) обычно используют ResNet [8] или Vision Transformer (ViT) [9]. Кодировщик преобразует изображение в векторные представления, с целью уменьшения объема данных для передачи используется квантование или компрессия. 2. Текстовый кодировщик (Text Encoder) (на сервере / в облаке) - использует трансформер (Transformer) для получения вектора признаков текстовой подсказки. 3. Коммуникационный интерфейс передает векторы признаков от клиента к серверу. Важными задачами являются сжатие, безопасность и стабильность передачи. 4. Fusion Module (на сервере) - сопоставляет визуальный и текстовый вектор признаков, вычисляя косинусное сходство. Взаимодействие: Stable Diffusion + RemoteCLIP. На первом этапе Stable Diffusion используется в режиме дорисовки (inpainting) для заполнения области изображения (с заданной маской) синтетическим объектом. Вместо текстового запроса подается визуальный образец (изображение с примером объекта нужного класса). На следующем этапе RemoteCLIP применяется в качестве кодировщика изображения, чтобы получить вектор признаков объекта из референсного изображения. Полученные векторы признаков передаются в Stable Diffusion как условие генерации, т.е. модель понимает, какой объект необходимо «нарисовать» в области маски. 1.2. Формирование обучающего набора По маршрутам существующих трубопроводов в QGIS (свободная бесплатная географическая информационная система с открытым кодом) были построены векторные слои. Затем для формирования обучающей выборки для маршрутов трубопроводов были получены космические снимки и векторные данные с точным расположением труб, которые использовались для дообучения модели. Формирование обучающего набора начинается с подготовки слоев в QGIS и преобразования координат. Загружается векторный линейный слой (маршрут трубопровода) и растровая подложка, после чего определяется необходимость перехода между системами координат. Если требуется, то все линейные объекты из слоя преобразуются к системе координат подложки. Далее выполняется создание фрагментов карты (тайлов) - квадратных зон с центрированием вдоль линейного объекта. Количество и расположение рассчитывается с учетом процента перекрытия соседних тайлов. Каждый полученный участок добавляется в память в виде полигона с уникальным идентификатором. После этого для каждого полученного полигона проверяется, пересекает ли его хотя бы одна из трубопроводных линий. Если пересечение обнаружено, вычисляются прямоугольные границы (bbox) в пиксельных координатах относительно тайла. Координаты полигонов bbox сохраняются в текстовых файлах в формате YOLO для дальнейшего использования в задаче обнаружения объектов. На этапе сохранения для каждого фрагмента карты формируется временный файл GeoTIFF в пределах границ тайла, который затем преобразуется в формат JPEG с помощью инструментов GDAL с последующим удалением исходного файла. Файл с текстовыми координатами bbox сохраняется под тем же названием, что и изображение. Полученный набор для дообучения имеет следующую рекомендованную структуру [10], представленную на рис. 1. Рис. 1. Структура обучающего набора данных: bbox - вектор объекта; images - соответствующее изображение И с т о ч н и к: выполнено Ш.М. Гаджиевым Figure 1. Training dataset structure: bbox - object bounding box coordinates; images - corresponding image S o u r c e: by Sh.M. Gadzhiev 2. Результаты и обсуждение 2.1. Дообучение Дообучение требовалось провести из-за отсутствия в начальном обучающем наборе класса с трубами. Следовательно, модель была не способна их генерировать. Для генерации необходимы изначальное изображение, маска области и непосредственно объект, который мы будем вставлять. При подаче в качестве референса участка трубопровода созданная труба выглядела как белая линия (рис. 2, a, б). Во время дообучения можно заметить, как с каждой эпохой модель справлялась с задачей генерации труб лучше и лучше. В качестве метрики была выбрана сглаженная ошибка валидации (экспоненциальное среднее). Приведем сравнение величины на 5-й и 9-й итерации, где значение уменьшилось с 0,86 до 0,77 (рис. 3 и 4). После дообучения модели на основе обучающей выборки с учетом вектора координат трубы на новый класс - «трубы» модель стала лучше встраивать трубопровод в космический снимок. Результат представлен на рис. 5. a б Рис. 2. Применение оригинальной модели для генерации трубопровода: a - подаваемые параметры; б - полученный результат И с т о ч н и к: выполнено Ш.М. Гаджиевым Figure 2. Application of the original model for pipeline generation: a - input parameters; б - obtained result S o u r c e: by Sh.M. Gadzhiev Рис. 3. Значение потерь на 5-й эпохе И с т о ч н и к: выполнено Ш.М. Гаджиевым Figure 3. Loss value at epoch 5 S o u r c e: by Sh.M. Gadzhiev Рис. 4. Значение потерь на 9-й эпохе И с т о ч н и к: выполнено Ш.М. Гаджиевым Figure 4. Loss value at epoch 9 S o u r c e: by Sh.M. Gadzhiev a б Рис. 5. Применение дообученной модели для генерации трубопровода: a - подаваемые параметры; б - полученный результат И с т о ч н и к: выполнено Ш.М. Гаджиевым Figure 5. Application of the fine-tuned model for pipeline generation: a - input parameters; б - obtained result S o u r c e: by Sh.M. Gadzhiev Заключение В исследовании рассматривалась проблема визуализации объектов нефтегазовой индустрии на снимках дистанционного зондирования Земли. В ходе работы был изучен и доработан подход на основе диффузионных моделей. Для улучшения результатов изучаемой модели было осуществлено дообучение на основе сформированного набора данных. После нашего дообучения модели повысилось качество снимков, полученных в ходе генерации реалистичных изображений нефтегазовой инфраструктуры на космических снимках по сравнению с моделью, в референсной статье.About the authors
Vasily K. Lobanov
RUDN University
Email: lobanov_vk@pfur.ru
ORCID iD: 0000-0001-8163-9663
SPIN-code: 7266-5340
Senior Lecturer of the Department of Mechanics and Control Processes, Academy of Engineering
6 Miklukho-Maklaya St, Moscow, 117198, Russian FederationMariia S. Kondrashina
RUDN University
Author for correspondence.
Email: 1132236536@rudn.ru
ORCID iD: 0009-0008-8526-9143
Master student of the Department of Mechanics and Control Processes, Academy of Engineering
6 Miklukho-Maklaya St, Moscow, 117198, Russian FederationShamil M. Gadzhiev
RUDN University
Email: 1132236511@rudn.ru
ORCID iD: 0009-0006-1570-4133
Master student of the Department of Mechanics and Control Processes, Academy of Engineering
6 Miklukho-Maklaya St, Moscow, 117198, Russian FederationMaksad Sh. Sokibekov
RUDN University
Email: 1032185455@rudn.ru
ORCID iD: 0009-0009-0261-7374
Master student of the Department of Architecture, Restoration and Design, Academy of Engineering
6 Miklukho-Maklaya St, Moscow, 117198, Russian FederationReferences
- Immanuel SA, Cho W, Heo J, Kwon D. Tackling Few-Shot Segmentation in Remote Sensing via Inpainting Diffusion Model. ICLR 2025 Machine Learning for Remote Sensing (ML4RS) Workshop. 2025. https://doi.org/10.48550/arXiv.2503.03785
- Rombach R, Blattmann A, Lorenz D, Esser P, Ommer B. High-Resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR); 2022 June 18-24; New Orleans, LA, USA. IEEE. 2022:10674-10685. https://doi.org/10.1109/CVPR52688.2022.01042
- Panboonyuen T, Charoenphon C, Satirapod C. SatDiff: A Stable Diffusion Framework for Inpainting Very High-Resolution Satellite Imagery. IEEE Access. 2025;13:51617-51631. https://doi.org/10.1109/ACCESS.2025.3551782
- Kingma DP, Welling M. Auto-Encoding Variational Bayes (Version 11). International Conference on Learning Representations (ICLR). 2014. https://doi.org/10.48550/ARXIV.1312.6114
- Ronneberger O, Fischer P, Brox T. U-Net: Convo-lutional networks for biomedical image segmentation. Medical Image Computing and Computer-Assisted Inter-vention MICCAI. 2015;9351;234-241. https://doi.org/10.48550/arXiv.1505.04597
- Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, et al. Learning Transferable Visual Models from Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR. 2021;139:8748-8763. https://doi.org/10.48550/ARXIV.2103.00020
- Liu F, Chen D, Guan Z, Zhou X, Zhu J, Ye Q, et al. RemoteCLIP: A Vision Language Foundation Model for Remote Sensing. IEEE Transactions on Geoscience and Remote Sensing. 2024;62:1-16. https://doi.org/10.1109/TGRS.2024.3390838
- He K, Zhang X, Ren S, Sun J. Deep Residual Learning for Image Recognition. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016;770-778. https://doi.org/10.48550/ARXIV.1512.03385
- Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). https://doi.org/10.48550/ARXIV.2010.11929
- Immanuel SA, Cho W, Heo J, Kwon D. Tackling Few-Shot Segmentation in Remote Sensing via Inpainting Diffusion Model. ICLR 2025 Machine Learning for Remote Sensing (ML4RS) Workshop. 2025. https://doi.org/10.48550/arXiv.2503.03785
Supplementary files










