<?xml version="1.0"?>
<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Vestnik AGGE</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Vestnik AGGE</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Вестник АГГИ</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="online">3034-6703</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">115476</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>Автоматизация и цифровизация процессов нефтегазодобычи</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>Automation and digitalization of oil and gas production processes</subject>
    </subj-group>
    <subj-group>
     <subject>Автоматизация и цифровизация процессов нефтегазодобычи</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Identification of invalid data based on modernized cross-validation analysis</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Выявление некондиционных данных на основе модернизированного анализа методом кросс-валидации</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Булдаков</surname>
       <given-names>Кирилл Андреевич</given-names>
      </name>
      <name xml:lang="en">
       <surname>Buldakov</surname>
       <given-names>Kirill Andreevich</given-names>
      </name>
     </name-alternatives>
     <email>pyxlik23@mail.ru</email>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Шадрин</surname>
       <given-names>Арсений Олегович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Shadrin</surname>
       <given-names>Arseniy Olegovich</given-names>
      </name>
     </name-alternatives>
     <xref ref-type="aff" rid="aff-2"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">Образовательный центр г. Когалым (филиал Пермского национального исследовательского политехнического университета)</institution>
     <city>Когалым</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">Kogalym Educational Center (branch of Perm National Research Polytechnic University)</institution>
     <city>Kogalym</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-2">
    <aff>
     <institution xml:lang="ru">(ООО «ЛУКОЙЛ-Инжиниринг»</institution>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">LUKOIL Engineering</institution>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2026-03-31T00:00:00+03:00">
    <day>31</day>
    <month>03</month>
    <year>2026</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2026-03-31T00:00:00+03:00">
    <day>31</day>
    <month>03</month>
    <year>2026</year>
   </pub-date>
   <issue>1</issue>
   <fpage>36</fpage>
   <lpage>49</lpage>
   <history>
    <date date-type="received" iso-8601-date="2026-02-21T00:00:00+03:00">
     <day>21</day>
     <month>02</month>
     <year>2026</year>
    </date>
   </history>
   <self-uri xlink:href="https://agge-vestnik.ru/en/nauka/article/115476/view">https://agge-vestnik.ru/en/nauka/article/115476/view</self-uri>
   <abstract xml:lang="ru">
    <p>Точность геологических моделей во многом зависит от качества скважинных данных, которые часто являются некондиционными из-за инструментальной погрешности или неправильных замеров. В статье проанализированы возможные методы обнаружения некондиционных данных на основании геостатистических приемов и методов машинного обучения, разработан алгоритм определения выбросов. На практическом примере работы алгоритма приведены результаты анализа, сделаны выводы о характеристиках скважин, влияющих на их некондиционность.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>The reliability of geological models largely depends on the quality of well data, which is often incorrect due to instrument error or incorrect measurements. The article analyzes possible methods for detecting incorrect data based on geostatistical techniques and machine learning methods, and develops an algorithm for determining outliers. Using a practical example of the algorithm in action, the results of the analysis are presented and conclusions are drawn about the characteristics of wells that affect their inaccuracy.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>Python</kwd>
    <kwd>программирование</kwd>
    <kwd>исходные данные</kwd>
    <kwd>скважина</kwd>
    <kwd>моделирование</kwd>
    <kwd>точность построений</kwd>
    <kwd>статистика</kwd>
    <kwd>геостатистика</kwd>
    <kwd>машинное обучение</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>Python</kwd>
    <kwd>programming</kwd>
    <kwd>source data</kwd>
    <kwd>well</kwd>
    <kwd>modeling</kwd>
    <kwd>accuracy of constructions</kwd>
    <kwd>statistics</kwd>
    <kwd>geostatistics</kwd>
    <kwd>machine learning</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p>ВведениеНа этапе моделирования месторождений важную роль играют исходные данные, от качества которых зависит точность построенной модели. Одними из основных выступают скважинные данные, которые зачастую содержат некондиционные замеры, обусловленные инструментальной погрешностью или ошибками при интерпретации. Модель с такими данными имеет искаженный результат, некондиционные значения обнаруживаются только после ее построения и влекут за собой последовательное их удаление или исправление в выборке. Это требует многократного перестроения модели и занимает много времени.Данная проблема освещена многими работами, среди которых [1], рассматривающая, как зависит достоверность структурных построений от точности инклинометрии скважин, а также предлагающая методику по расчету поправок в структурные построения с учетом инструментальных и субъективных факторов. В работе [2] рассматривался вопрос о важности качественных исходных данных для построения точной геологической модели, влияющей на все дальнейшие этапы разработки месторождения. Есть и другие работы, затрагивающие вопросы на анализируемую тему.Существующие методы обнаружения некондиционных данных (выбросов) обладают определенными недостатками для анализа пространственных данных. Традиционные статистические методы не учитывают пространственную корреляцию и локальную изменчивость параметра, что в условиях неоднородного распределения скважин приводит к ложным выводам. Геостатистические подходы учитывают пространственную структуру, но могут быть чувствительны к наличию самих выбросов, искажающих расчет вариограмм и интерполяцию [4, 5, 6].Таким образом, данная проблема является актуальной, особенно для месторождений Западной Сибири, поэтому мы считаем целесообразным применить современные методы статистического анализа и машинного обучения для решения задачи идентификации некондиционных скважинных данных для повышения точности геологических моделей.Целью работы является разработка методики обработки первичных скважинных данных.Для достижения цели поставлены следующие задачи:Проанализировать существующие методы выявления выбросов, выбрать наилучшие решения для рассматриваемой задачи.Сформулировать основные параметры исходных данных для использования в разрабатываемом алгоритме.Выбрать оптимальный язык программирования для реализации алгоритма, ознакомиться с библиотеками и возможностями языка.Разработать алгоритм, сочетающий статистический анализ и пространственные характеристики скважин.Интегрировать в алгоритм метод интерполяции с целью проверки достоверности рассчитанных и фактических данных.Визуализировать результаты работы алгоритма для удобства интерпретации.МетодологияВ ходе анализа существующей литературы были сформулированы основные проблемы, которые возникают при подготовке исходных скважинных данных для построения модели, и возможные пути их решения.Основной сложностью анализируемых параметров является неравномерное распределение скважин по площади, зависящее от геологического строения объекта. В большинстве случаев скважины разбуриваются в наиболее перспективных местах, а не по правильной геометрической сетке, вследствие чего требуется:Необходимость структурирования исходных данных по координатам X, Y — использование алгоритмов KD-Tree, разбивающие 2D-­плоскость на определенные области.Определение кластеров скважин в пространстве с помощью полигонов Вороного — геометрически обоснованный подход определения соседей скважин путем разбиения плоскости на полигоны [3].Учет неравномерности плотности сетки скважин — алгоритм должен адаптироваться к плотности данных через определенные стратегии для каждой области.Приемы машинного обучения направлены на точечный анализ определенного признака для небольших наборов данных, при работе с большим массивом значений со значительной неоднородностью точек в пространстве данные алгоритмы теряют анализируемый параметр, что влечет за собой ложные заключения о рассматриваемом признаке. Методы геостатистики показывают корректные результаты при условии, что они используют точную модель вариограммы, которую можно получить только при исключении всех выбросов из выборки. Статистические методы определения аномальности основаны на отклонении среднего значения на три и более стандартных отклонения, что зачастую дает ложные результаты, так как краевые скважины могут иметь отличные от основной выборки значения, более того, для правильного анализа характеристик также требуется очищенная выборка.Основываясь на вышесказанном, приходим к следующим решениям:Методы машинного обучения используют небольшие массивы данных, вследствие чего они неприменимы для месторождений Западной Сибири — использование метода кросс-валидации для оценки ошибки предсказания как критерия оценки аномальности скважин [7].Неустойчивость геостатистических методов к наличию выбросов в выборке — использование методов интерполяции для построения собственной модели и анализа расхождений между фактическими и рассчитанными значениями [6].Константные критерии выделения выбросов влекут ошибочные выводы — необходимы динамические пороги определения выбросов для каждой области.Результаты алгоритма должны быть наглядными и понятными — вывод рассчитанных параметров в таблице Excel, а также визуализация итогов работы алгоритма.Учитывая предложенные пути решения выделенных проблем, на языке Python написан алгоритм для выявления точек-выбросов — «Сигма_view», который имеет структуру, представленную на рисунке 1.Рисунок 1. Блок-схема разработанного алгоритмаВ качестве исходных данных для работы алгоритма будут использоваться таблицы РИГИС, содержащие координаты скважин (X, Y), значения анализируемого параметра («Основная выборка») и, опционально, параметр (t0), который может выступать в качестве объясняющей переменной для анализа.После загрузки данных автоматически строится k-мерное дерево KD-Tree для разделения выборки скважин в пространстве по координатам X, Y, а также полигоны Вороного для геометрического разбиения площади на блоки с целью определения кластеров скважин.Модуль анализа скважинных данных состоит из двух принципиально новых алгоритмов.Алгоритмы являются независимыми и предназначены для оценки аномальности точки на основе ее локального окружения.Первый — гибридный, он предназначен для оценки аномальности точки на основе ее локального окружения. Его ключевой особенностью является адаптивность к плотности данных и локальной изменчивости точек. На рисунке 2 приведен принцип работы алгоритма.Рисунок 2. Принцип работы гибридного анализаОсновным этапом анализа является расчет параметра Zi_localZ_\text{i_local}, так как в зависимости от его значения принимается решение об отнесении скважины к числу нормальных или аномальных:Zi_local=vi-μwσwZ_\text{i_local}= \frac{v_i-μ_w}{σ_w},где viv_i — значение в анализируемой точке i;μwμ_w  — взвешенный средний вес точек-соседей;σwσ_w — взвешенное стандартное отклонение.Далее полученное значение Zi_localZ_\text{i_local} сравнивается с порогом для каждой зоны и принимается итоговое решение:isoutlier_hybrid=|Zi_local|&gt;thresholdstratis_\text{outlier_hybrid}= |Z_\text{i_local}| &gt; threshold_{strat},где thresholdstratthreshold_{strat} — порог для соответствующей стратегии (например, thresholddense=2.0threshold_{dense}=2.0 и т. д.).Второй анализ — парный, он представляет собой модернизированный алгоритм кросс-валидации, основанный на принципе пространственной согласованности локального поля данных и коллективного свидетельства точек. Принцип работы парного анализа представлен на рисунке 3. Рисунок 3. Принцип работы парного анализаКлючевым этапом работы алгоритма является сбор свидетельств аномальности с помощью интерполяции методом обратных взвешенных расстояний и кросс-валидации:Интерполяция без исключения — для точки-свидетеля k рассчитывается ожидаемое значение методом интерполяции по всем ее соседям, вычисляется ошибка (модуль разности между измеренным и предсказанным значением) и приводится к безразмерному виду.Интерполяция с исключением анализируемой точки — из множества соседей точки k исключается точка i. Интерполяция повторяется, давая новое предсказание и новую нормированную ошибку. Рассчитывается улучшение точности интерполяции, если улучшение значимое, то фиксируется свидетельство.Интерполяция с исключением пары точек — аналогичная процедура выполняется для одновременного исключения пары точек (i, j). Если улучшение при исключении пары больше, чем при исключении любой из точек по отдельности, это фиксируется как более весомое парное свидетельство.Система баллов в анализе позволяет избежать ложных срабатываний и повышает надежность получаемых результатов.Объединение результатов гибридного и парного анализов необходимо, так как они эффективны для разных зон: парный анализ — плотные и средние, гибридный — разреженные. В качестве итоговых выбросов выбирается пересечение решений анализов.Итогом анализа является визуализация, которая представлена набором графических приложений и таблицей Excel с основными статистическими параметрами. На рисунке 4 показан пример выводимых результатов. Рисунок 4. Пример визуализации результатовРезультаты работы алгоритма и их анализРазработанный алгоритм тестировался на массиве скважинных данных с более чем 10 тысячами значений для одного из месторождений Западной Сибири.Для анализа результатов была построена структурная карта, представленная на рисунке 5.Рисунок 5. Структурная карта, построенная по скважинным даннымДля рассматриваемой ситуации алгоритм выдает следующие результаты:общая статистика: всего точек — 13557;выбросы гибридного анализа: 2234;выбросы парного анализа: 3284;итоговые выбросы: 1367.При беглом анализе построенной карты явно выделяются выбросы, приведенные на рисунке 6. Выделенные скважины резко отличаются по абсолютному значению от соседних скважин на 30–70 метров, что нашим детектором помечается как выброс. Всего на карте в районе 250–300 очевидных выбросов, подобные типы аномалий алгоритм идентифицировал верно.Однако в категорию итоговых алгоритмом отнесено 1367 скважин, а это означает, что помимо очевидных выбросов выделены скважины, которые относятся к типу наибольшей степени опасности, так как их некондиционность не очевидна при беглом анализе, что может повлиять на то, что подобная скважина будет учтена при построениях и снизит точность нашей модели. Скважины по типу 1848Н и 1332Н также идентифицируются как аномальные, так как при незначительном расстоянии между точками разница абсолютных отметок не может составлять несколько метров (рис. 7).Рисунок 6. Явные выбросыРисунок 7. Неочевидные выбросыВ научной литературе существует предположение о том, что сложная конструкция скважины является потенциальным маркером некондиционных данных [1].Проанализировав полученные статистические характеристики для всей выборки (таб. 1) и для скважин-выбросов (таб. 2), приходим к тому, что предположение не подтвердилось, так как удлинение и углы входа в пласт не имеют значимых отличий. Соответственно — большое удлинение или в целом сложная конструкция скважин не является потенциальным маркером некондиционных данных (рис. 8).Таблица 1. Описательная статистика для всей выборки скважинных данныхТаблица 2. Описательная статистика для скважин-выбросовРисунок 8. Сопоставление гистограмм распределения значений удлиненияЗаключениеТаким образом, точность геологических моделей напрямую зависит от качества скважинных данных, которые зачастую содержат некондиционные замеры. Модели, построенные с учетом подобных значений, имеют неверные результаты и являются менее достоверными для дальнейших решений.В настоящее время нет алгоритма, который бы учитывал локальную статистику и пространственные характеристики скважин. Поэтому разработка нового алгоритма выделения выбросов является актуальной задачей.Разработанный алгоритм основан на современных методах статистического анализа и машинного обучения. Он является эффективным инструментом при подготовке скважинных данных, так как обеспечивают комплексный учет всех возможных факторов аномальности скважин и предоставляет достоверные и интерпретируемые результаты.Тестирование алгоритма для выборки из более чем 10 тысяч скважин показало, что он способен обнаруживать выбросы разного характера.Опровергнуто предположение о том, что удлинение или сложная конструкция скважин является потенциальным маркером некондиционных данных.Данный алгоритм может быть интегрирован в программное обеспечение для моделирования, например в Isoline GIS или Golden Surfer, с целью выделения аномальных значений на этапе загрузки скважинных данных в модель или предложения выбора их игнорирования при построении структурных поверхностей.Следующим этапом доработки алгоритма является разработка автоматической настройки параметров алгоритма на основе машинного обучения в зависимости от плотности сетки скважин и геологического строения объекта, а также полноценная интеграция сейсмических данных в анализ для повышения достоверности результатов. </p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Щергина Е. А. Практика оценки инклинометрии скважин в моделировании нефтегазовых объектов / Е. А. Щергина, А. Б. Сметанин, В. Г. Щергин, А. С. Мартынов // Геология, геофизика и разработка нефтяных и газовых месторождений. — 2022. — № 12(372). — С. 31–41. — https://doi.org/10.33285/2413-5011-2022-12(3712)-31-41.</mixed-citation>
     <mixed-citation xml:lang="en">Shchergina E. A. The practice of evaluating well inclinometry in the modeling of oil and gas facilities / E. A. Shchergina, A. B. Smetanin, V. G. Shchergin, A. S. Martynov // Geology, geophysics, and development of oil and gas fields. — 2022. — No. 12(372). — P. 31–41. — https://doi.org/10.33285/2413-5011-2022-12(3712)-31-41 (in Russ.).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Карамурзаева А. Б. Анализ достоверности скважинных данных, заложенных в геологическую модель месторождений Бузачинского свода / Карамурзаева А. Б. // Науки о Земле и смежные экологические науки. — 2022. — С. 95–99. — https://doi.org/10.56525/FYEE6657.</mixed-citation>
     <mixed-citation xml:lang="en">Karamurzaeva A. B. Analysis of the reliability of well data used in the geological model of the Buzachinsky arch deposits / Karamurzaeva A. B. // Earth Sciences and Related Environmental Sciences. — 2022. — P. 95–99. — https://doi.org/10.56525/FYEE6657 (in Russ.).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Забоева А. А. Декластеризация исходных данных при построении и контроле качества трехмерных геологических моделей / А. А. Забоева, А. С. Предеин, И. С. Никитин. // Нефть и газ. — 2011. — № 3. — С. 15–21.</mixed-citation>
     <mixed-citation xml:lang="en">Zaboeva A. A. Declustering of source data in the construction and quality control of three-dimensional geological models / A. A. Zaboeva, A. S. Predein, I. S. Nikitin. // Oil and Gas. — 2011. — No. 3. — Pp. 15–21 (in Russ.).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Нехороших Д. С. Стохастическое моделирование пространственно-распределенных данных по окружающей среде / Нехороших Д. С., Демьянов В. В., Каневский М. Ф., Чернов С. Ю., Савельева Е. А. — Москва: Институт проблем безопасного развития атомной энергетики РАН, 2000.</mixed-citation>
     <mixed-citation xml:lang="en">Nekhoroshikh D. S. Stochastic modeling of spatially distributed environmental data / Nekhoroshikh D. S., Demyanov V. V., Kanevsky M. F., Chernov S. Yu., Savelyeva E. A. —Moscow: Institute for Problems of Safe Development of Nuclear Energy, Russian Academy of Sciences. — 2000 (in Russ.).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Демьянов В. В. Геостатистика: теория и практика / В. В. Демьянов, Е. А. Савельева. — М.: Наука, 2010.</mixed-citation>
     <mixed-citation xml:lang="en">Demyanov V. V. Geostatistics: Theory and Practice / V. V. Demyanov, E. A. Savelyeva. — Moscow: Nauka, 2010 (in Russ.).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Шарапов И. П. Применение математической статистики в геологии / Шарапов И. П. — М.: Недра, 1971.</mixed-citation>
     <mixed-citation xml:lang="en">Sharapov I. P. Application of mathematical statistics in geology / Sharapov I. P. — Moscow: Nedra, 1971 (in Russ.).</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Кросс-валидация. — Текст: электронный. — https://education.yandex.ru/handbook/ml/article/kross-validaciya.</mixed-citation>
     <mixed-citation xml:lang="en">Cross-validation [Electronic resource]. — https://education.yandex.ru/handbook/ml/article/kross-validaciya (in Russ.).</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
