В наиболее общем виде разметка данных может проводиться на основании:
А. Информации об имеющейся целевой патологической находке, представленной на изображении в виде пиксельной маски (оконтуренной области изображения). Дополнительно может содержаться в метаданных (аннотации).
B. Информации об имеющейся целевой патологической находке, представленной в виде координат. Может помещаться в метаданных (в аннотации, в сводном табличном сопроводительном файле) и/или присутствовать на изображении в виде отметки области расположения простой геометрической фигурой.
С. Информации о наличии/отсутствии целевой патологической находки, содержащейся в метаданных (то есть в аннотации – сопроводительных файлах) и отсутствующей на изображении.
Классификация A, B, C для уровня 3 (обнаружение находки) предполагает вовлечение врачей-экспертов с целью поиска (наличие/отсутствие – С), локализации (В) и сегментации (А)[13 - Willemink M. J., Koszek W. A., Hardell C., et al. Preparing medical imaging data for machine learning // Radiology. 2020. Vol. 295, №1. P. 4—15].
В случае локализации врачу необходимо обозначить координаты области интереса простой геометрической фигурой, в случае сегментации – обвести контур области интереса, т.е. создать пиксельную маску. Для уровня 2 (классификация находки) необходимо классифицировать находку, используя общепринятые шкалы (например, BI-RADS[14 - BI-RADS – Breast Imaging Reporting and Data System – стандартизированная шкала оценки результатов маммографии, УЗИ и МРТ по степени риска наличия злокачественных образований молочной железы. Breast Imaging Reporting & Data System | American College of Radiology [Internet]. [cited 2023 Apr 8]. Available from: https://www.acr.org/Clinical-Resources/Reporting-and-Data-Systems/Bi-Rads.], ASPECTS[15 - ASPECTS (Alberta Stroke Program Early CT Score) – шкала качественной топографической оценки изменений, выявляемых при КТ у пациентов с инсультом головного мозга; Pexman J. H., Barber P. A., Hill M., et al. Use of the Alberta Stroke Program Early CT Score (ASPECTS) for assessing CT scans in patients with acute stroke // AJNR Am J Neuroradiol. 2001. Vol. 22, №8. Р. 1534—1542.]). Для уровня 1 (подтвержденный диагноз) необходимы данные медицинской карты, позволяющие поставить диагноз.
Классификация отображает взаимосвязь:
– объемов и качества исходных данных;
– трудозатрат на подготовку;
– методик разметки и работы с первичными данными;
– диагностической ценности.
Стоит отметить, что данная классификация применима в случае поиска патологических находок. Для некоторых НД, например, при задаче сегментации анатомической структуры, подтверждение диагноза неприменимо, соответственно данную классификацию использовать нельзя.
Также разметку данных можно разделить на проспективную и ретроспективную, т.е. по времени их получения.
Проспективная разметка аналогично ретроспективной разметке представляет собой сбор элементов в соответствии с поставленной целью, при этом обязательным условием является проведение дополнительных манипуляций с элементами (например, постановка метки начала и окончания события, меток обнаружения признаков, обозначений патологий и т.п.). Этот вид разметки проводят с участием обученного медицинского персонала (зачастую квалифицированного врача в субспециализации размечаемого набора данных) путем ручного аннотирования содержания данных или их частей.
Ретроспективная разметка данных представляет собой сбор элементов в соответствии с метаданными, которые отбираются по поставленной цели. Такую разметку проводят путем минимальных трудозатрат: выгрузка данных происходит из медицинской информационной системы, которую может провести инженер (аналитик) без участия врача. При этом для каждого элемента (изображение, сигнальные данные и т.д.) набора данных устанавливают соответствие с медицинской информацией (диагноз, результаты лабораторного тестирования и т.п.).
Также разметка характеризуется следующими параметрами:
1. Уровень разметки: пациент, серия, набор изображений, изображение.
Примеры:
– на уровне пациента: у пациентки с диагнозом злокачественного новообразования (ЗНО) молочной железы разметка проводится на основании маммографии и гистологического исследования;
– на уровне серии (у той же пациентки): маммография, прямая и боковая проекции;
– на уровне изображения: прямая проекция правой молочной железы.
2. Тип разметки: бинарная, мультикласс, мультилейбл.
Примеры:
– бинарная разметка: норма/патология;
– мультиклассовая разметка: норма/патология/технический дефект;
– мультилейбл разметка: лейбл «Признаки эмфиземы легкого», лейбл «Процент поражения легкого».
3. Характер разметки: бинарная, категориальная, регрессионная.
Примеры:
– бинарная: наличие признаков патологии/отсутствие признаков патологии;
– категориальная: категория BI-RADS для маммографии;
– регрессионная: процент поражения легкого при COVID-19.
Контрольные вопросы
1. Какие бывают методы верификации данных?
2. Какие бывают виды разметки данных по диагностической ценности?
3. Как классифицируется разметка данных в зависимости от времени получения данных?
4. Перечислите параметры разметки.
5. Какие бывают уровни разметки данных? Приведите примеры.
Глава 2. ЖИЗНЕННЫЙ ЦИКЛ НАБОРОВ МЕДИЦИНСКИХ ДАННЫХ
Жизненный цикл – развитие системы, продукции, услуги, проекта или другой создаваемой изготовителем сущности – от замысла до вывода из эксплуатации.
Жизненный цикл данных – последовательность этапов, которую конкретная порция данных проходит от начального этапа создания или получения до момента архивации или удаления [6].
Жизненный цикл наборов данных состоит из следующих этапов:
– инициирования;
– планирования;
– формирования;
– этап регистрации и публикации;
– использования;
– смены версии;
– удаления и архивации.
Последовательность и взаимосвязь этих этапов представлена на рисунке 3.
Рисунок 3 – Жизненный цикл наборов данных