<<
>>

Материалы и методы

По исследованиям омега-3 ПНЖК в базе данных MEDLINE обнаруже­но более 30,000 публикаций. Переработка такого количества материала не представляется практически возможной без разработки и использования точных и обоснованных критериев отбора публикаций, наиболее релевант­ных (т.е.

наиболее приемлемых или «интересных») для целей проводимого анализа. Хорошо известно, использование специфических ключевых слов значительно сужает поле поиска и зачастую приводит к потере ценной био­медицинской информации (Torshin, 2007). Ниже, приводится краткое опи­сание математического аппарата, использованного для высокоточного по­иска научной литературы.

Системы машинного обучения оперируют со множествами прецеден­тов, представляющих собой материал обучения алгоритма. Отдельный прецедент состоит из описания признаков, свойств объекта, подлежащего классификации и информации о принадлежности этого объекта к опреде­ленным классам объектов. Классы принадлежности объектов, как правило, задаются экспертом в проблемной области.

Если, например, прецедент - это абстракт определенной статьи по медицине, то его признаками яв­ляются входящие в абстракт медицинские термины, а классами - уста­новленные экспертом рубрики этого абстракта, такие как «доказательная медицина в неврологии», «молекулярные механизмы омега-3 ПНЖК» и т.д. В простейшем случае, все элементы множества прецедентов могут быть отнесены экспертом к одному из двух классов: «имеющие отношение к изу­чаемому вопросу» (класс К1) или «не имеющие отношения к вопросу» (класс

к,).

Очевидно, что если один и тот же прецедент отности одновременно к К1 и К0, то такое множество прецедентов - противоречиво и задача не имеет точного решения, т.е. неразрешима. Поэтому, современная алгебраичес­кая теория распознавания основана на ключевых понятиях «разрешимос­

ти» и «регулярности» задач классификации (Журавлёв Ю.И., 1978; Рудаков

К.В., 1987).

Под разрешимостью задач понимается непротиворечивость множеств прецедентов (т.е. существования решения у задачи), а под ре­гулярностью - сохранение разрешимости в определенной окрестности поставленной задачи. Анализ условий разрешимости и регулярности явля­ется фундаментальным для решения задач классификации и, в настоящем случае, для решения задачи поиска. В случае задачи поиска наиболее ре­левантных публикаций, условие разрешимости этой задачи записывается следующим образом:

У рк'-рк(ЛЛ) = Рк-2)

V к=1 У

где Рг - множество всех текстовых прецедентов, а (Л11), (Л22) - произвольные прецеденты. В прецеденте (Л,К) А обозначает полное признаковое описание текстового прецедента (т.е. абстракт, полный текст статьи, аннотация итд), К - класс, к которому принадлежит прецедент (К1 или К0), Р - множество всех значений признаков, найденных в прецедентах из Рг, рк(Л) - значение к-го бинарного признака из Рв прецеденте (Л,К)

к(Л) =1, признак содержится в прецеденте А, 0 в противном случае).

В общем случае, множество Р избыточно в том смысле, что содержит признаки или значения признаков, которые не являются необходимыми для решения задачи. Применяя эвристические функции оценки качества признаков, на множестве Р можно ввести линейный порядок что, в свою очередь, позволяет устанавливать множества признаков с максимальной информативностью (Рудаков К.В., Торшин И.Ю., 2010; Рудаков К.В., 2010). С учетом информативности признаков, условие (1) записывается как кри­терий разрешимости на линейно-упорядоченном множестве значений при­знаков:

(2) У(г,]А * ]):Кг * К ^3Рк ^ тт: Рк(Л) * Рк(Л)

р р

Принимая во внимание очевидное требование, которое можно сфор­мулировать как «абстракт имеет отношение к теме тогда и только тогда, когда он содержит соответствующие ключевые термины» (например, «оме­га-3 ПНЖК», «аритмия», «фибрилляция» и др), записываем критерий (2) в следующей форме:

(2) у (1,9',1 * ]): Л 6 К1,Л 6 К 0 ^3 Рк ^ тп-.

рк(Л ) > Рк(Л)

р р

Комбинаторное тестирование условия (2) на множестве прецедентов и лежит в основе использованного метода отбора наиболее релевантных публикаций. В целом, алгоритм выглядит следующим образом. (А) Эксперт отбирает публикации (абстракты) из множества всех имеющихся публика­ций. (Б) Все просмотренные абстракты образуют множество прецентов, отнесенных экспертом либо к К1 («имеет отношение к теме») либо к К0 («не относится к теме»). (В) В абстрактах отсеиваются общезначимые слова (в английском тексте, артикли, частицы, общие термины и т.д.) и проводится тестирование (2’) и устанавливаются наиболее информативные значения признаков (специальных терминов или «ключевых слов»). (Г) Проводится

новый поиск литературы с использованием установленных наборов ключе­вых слов.

В тестировании (2, 2’) важно принимать во внимание, что некоторые признаки могут быть избыточны, так как встречаются в устойчивых сочета­ниях слов (например, «фибрилляция предсердий»), семантически связан­ных терминов (например, «аритмия» и «фибрилляция») и др. Анализ этих взаимодействий терминов (перекрывание областей значений признаков) необходим для корректной формулировки запросов при поиске научной литературы. Для произвольного класса К, взаимодействие /-го и /-го тер­минов оценивается как коэффициент корреляции r(/, j):

(3) r(,,j) =\T, n Tjl/I T и j

где T = {A e K:p(A) = 1}, Tj = {A e K : Pj(A) = 1} . Затем про­водится кластеризация всех терминов-признаков (с использованием как параметра кластеризации либо порогового значения r(i, j), либо выражен­ности сгущений в метрических пространствах), «наиболее взаимодейству­ющие» термины объединяются и условие (2) тестируется уже на объеди­ненных признаках в зависимости от параметра кластеризации.

Используя различные комбинации этих наиболее информативных тер­минов, был проведен полный поиск среди 30,000 публикаций по омега-3 ПНЖК и был установлен список из 72 репрезентативных публикаций, рас­сматриваемых ниже более подробно.

<< | >>
Источник: Торшин И. Ю., Громова О. А.. Экспертный анализ данных в молекулярной фармаколо- Т61 гии. - М.: МЦНМО, 2012- 747 с.. 2012

Еще по теме Материалы и методы:

  1. КЛАССИФИКАЦИЯ МАТЕРИАЛОВ ПО ДИСПЕРСНОСТИ. ФРАКЦИОНИРОВАНИЕ. СМЕШИВАНИЕ СЫПУЧИХ МАТЕРИАЛОВ
  2. В.В. Миллионщикова!! (отв. ред.), П.Н. Лопанов, С.А. Полишкис. ХОСПИСЫ!.Сборник материалов.Литературный обзор.Рекомендательные,информационные и справочные материалы.Москва –2002, 2002
  3. 4. СПРАВОЧНЫЕ МАТЕРИАЛЫ
  4. 1. ЛИТЕРАТУРНЫЙ ОБЗОР И РЕКОМЕНДАТЕЛЬНЫЕ МАТЕРИАЛЫ
  5. “Шовный материал”
  6. Игровые строительные материалы
  7. Глава 52. Экспертиза по материалам дела. 52.1. Общие положения
  8. РЕФЕРАТ. МАТЕРИАЛЫ ПЕСОЧНОЙ ТЕРАПИИ2018, 2018
  9. 3. МАТЕРИАЛЫ РОССИЙСКОЙ КОНФЕРЕНЦИИ «Проблемы и перспективы развития хосписов в России»
  10. Коллектив авторов. Новые материалы для медицины / Коллектив авторов. Екатеринбург: УрО РАН, 2006, В монографии представлены данные о новых материалах медицинского назначения: диагностических и лекарственных средствах, их формах и способах получения. Сделана попытка раскрыть предмет нового направления медицинской химии - Медицинская химия твердого тела. Книга адресована специалистам некоторых областей хи­мии твердого тела, физической и медицинской химии, а также фармакологии
  11. ОБЩИЕ ПОЛОЖЕНИЯ И РЕКОМЕНДАЦИИ ПО ИСПОЛЬЗОВАНИЮ МАТЕРИАЛОВ УЧЕБНО-НАГЛЯДНОГО ПОСОБИЯ
  12. Раздел X. Судебно-медицинская экспертиза по материалам следственных и судебных дел
  13. Основные параклинические методы, используемые в системе медицинского обследования спортсменов. Электрофизиологические методы
  14. РЕФЕРАТ. “Шовный материал”2005, 2005