Оценить:
 Рейтинг: 0

Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие

Жанр
Год написания книги
2024
<< 1 2 3 4 5 6 >>
На страницу:
5 из 6
Настройки чтения
Размер шрифта
Высота строк
Поля

В наиболее общем виде разметка данных может проводиться на основании:

А. Информации об имеющейся целевой патологической находке, представленной на изображении в виде пиксельной маски (оконтуренной области изображения). Дополнительно может содержаться в метаданных (аннотации).

B. Информации об имеющейся целевой патологической находке, представленной в виде координат. Может помещаться в метаданных (в аннотации, в сводном табличном сопроводительном файле) и/или присутствовать на изображении в виде отметки области расположения простой геометрической фигурой.

С. Информации о наличии/отсутствии целевой патологической находки, содержащейся в метаданных (то есть в аннотации – сопроводительных файлах) и отсутствующей на изображении.

Классификация A, B, C для уровня 3 (обнаружение находки) предполагает вовлечение врачей-экспертов с целью поиска (наличие/отсутствие – С), локализации (В) и сегментации (А)[13 - Willemink M. J., Koszek W. A., Hardell C., et al. Preparing medical imaging data for machine learning // Radiology. 2020. Vol. 295, №1. P. 4—15].

В случае локализации врачу необходимо обозначить координаты области интереса простой геометрической фигурой, в случае сегментации – обвести контур области интереса, т.е. создать пиксельную маску. Для уровня 2 (классификация находки) необходимо классифицировать находку, используя общепринятые шкалы (например, BI-RADS[14 - BI-RADS – Breast Imaging Reporting and Data System – стандартизированная шкала оценки результатов маммографии, УЗИ и МРТ по степени риска наличия злокачественных образований молочной железы. Breast Imaging Reporting & Data System | American College of Radiology [Internet]. [cited 2023 Apr 8]. Available from: https://www.acr.org/Clinical-Resources/Reporting-and-Data-Systems/Bi-Rads.], ASPECTS[15 - ASPECTS (Alberta Stroke Program Early CT Score) – шкала качественной топографической оценки изменений, выявляемых при КТ у пациентов с инсультом головного мозга; Pexman J. H., Barber P. A., Hill M., et al. Use of the Alberta Stroke Program Early CT Score (ASPECTS) for assessing CT scans in patients with acute stroke // AJNR Am J Neuroradiol. 2001. Vol. 22, №8. Р. 1534—1542.]). Для уровня 1 (подтвержденный диагноз) необходимы данные медицинской карты, позволяющие поставить диагноз.

Классификация отображает взаимосвязь:

– объемов и качества исходных данных;

– трудозатрат на подготовку;

– методик разметки и работы с первичными данными;

– диагностической ценности.

Стоит отметить, что данная классификация применима в случае поиска патологических находок. Для некоторых НД, например, при задаче сегментации анатомической структуры, подтверждение диагноза неприменимо, соответственно данную классификацию использовать нельзя.

Также разметку данных можно разделить на проспективную и ретроспективную, т.е. по времени их получения.

Проспективная разметка аналогично ретроспективной разметке представляет собой сбор элементов в соответствии с поставленной целью, при этом обязательным условием является проведение дополнительных манипуляций с элементами (например, постановка метки начала и окончания события, меток обнаружения признаков, обозначений патологий и т.п.). Этот вид разметки проводят с участием обученного медицинского персонала (зачастую квалифицированного врача в субспециализации размечаемого набора данных) путем ручного аннотирования содержания данных или их частей.

Ретроспективная разметка данных представляет собой сбор элементов в соответствии с метаданными, которые отбираются по поставленной цели. Такую разметку проводят путем минимальных трудозатрат: выгрузка данных происходит из медицинской информационной системы, которую может провести инженер (аналитик) без участия врача. При этом для каждого элемента (изображение, сигнальные данные и т.д.) набора данных устанавливают соответствие с медицинской информацией (диагноз, результаты лабораторного тестирования и т.п.).

Также разметка характеризуется следующими параметрами:

1. Уровень разметки: пациент, серия, набор изображений, изображение.

Примеры:

– на уровне пациента: у пациентки с диагнозом злокачественного новообразования (ЗНО) молочной железы разметка проводится на основании маммографии и гистологического исследования;

– на уровне серии (у той же пациентки): маммография, прямая и боковая проекции;

– на уровне изображения: прямая проекция правой молочной железы.

2. Тип разметки: бинарная, мультикласс, мультилейбл.

Примеры:

– бинарная разметка: норма/патология;

– мультиклассовая разметка: норма/патология/технический дефект;

– мультилейбл разметка: лейбл «Признаки эмфиземы легкого», лейбл «Процент поражения легкого».

3. Характер разметки: бинарная, категориальная, регрессионная.

Примеры:

– бинарная: наличие признаков патологии/отсутствие признаков патологии;

– категориальная: категория BI-RADS для маммографии;

– регрессионная: процент поражения легкого при COVID-19.

Контрольные вопросы

1. Какие бывают методы верификации данных?

2. Какие бывают виды разметки данных по диагностической ценности?

3. Как классифицируется разметка данных в зависимости от времени получения данных?

4. Перечислите параметры разметки.

5. Какие бывают уровни разметки данных? Приведите примеры.

Глава 2. ЖИЗНЕННЫЙ ЦИКЛ НАБОРОВ МЕДИЦИНСКИХ ДАННЫХ

Жизненный цикл – развитие системы, продукции, услуги, проекта или другой создаваемой изготовителем сущности – от замысла до вывода из эксплуатации.

Жизненный цикл данных – последовательность этапов, которую конкретная порция данных проходит от начального этапа создания или получения до момента архивации или удаления [6].

Жизненный цикл наборов данных состоит из следующих этапов:

– инициирования;

– планирования;

– формирования;

– этап регистрации и публикации;

– использования;

– смены версии;

– удаления и архивации.

Последовательность и взаимосвязь этих этапов представлена на рисунке 3.

Рисунок 3 – Жизненный цикл наборов данных
<< 1 2 3 4 5 6 >>
На страницу:
5 из 6