Вероятностные расчеты в ДНК-дактилоскопии (стр. 1 из 3)

В настоящее время в практику судебной медицины и криминалистики вошли новые методы идентификации, основанные на анализе дезоксирибонуклеиновой кислоты (ДНК). Информативность этих методов исключительно велика, так как высокий полиморфизм последовательностей ДНК делает ее неограниченным источником идентификационных признаков.

ДНК-анализ используется как в экспертизе вещественных доказательств, так и в экспертизе спорного происхождения детей.

Как и при классической дактилоскопии (исследовании папиллярных узоров), в ходе анализа ДНК не выявляются особые, свойственные только данному индивидууму, признаки. Каждый из изучаемых признаков обладает лишь групповой принадлежностью, однако в совокупности они позволяют индивидуализировать объект. Оценка идентификационного значения выявленных признаков осуществляется на основе вероятностных расчетов, базирующихся на данных о частотах встречаемости признаков у населения (в популяции). Частоты встречаемости признаков устанавливают опытным путем. Для этого исследуют определенную выборку людей, отражающую распределение признаков в популяции, и для каждого из них подсчитывают частоту встречаемости. Данные о частотах встречаемости позволяют вычислить вероятности идентификационных признаков. Вопросы, касающиеся расчета вероятности при оценке результатов ДНК-анализа, рассматриваются в ряде работ [1 - 14].

В вероятностных расчетах используют следующие обозначения и формулы.*

Основным идентификационным признаком является аллель. При популяционных исследованиях в пределах каждого локуса выявляется целый ряд аллелей; у отдельно взятого индивидуума при типировании локуса определяются один (го-мозиготная форма) или два (гетерозиготная форма) аллеля. Вероятность аллеля обозначается символом p. Символ p_kозначает вероятность того, что аллель принимает значение k. Например, символом p₂ обозначается вероятность аллеля номер 2. Сумма вероятностей всех аллелей одного локуса в популяции равна 1, т.е. если в локусе n аллелей, то:

p₁+ p₂ +...... + p_n = 1.

Вероятность встречаемости гетерозиготного профиля ДНК, состоящего из аллелей a и b (p_a,b), равна удвоенному произведению вероятностей соответствующих аллелей a и b:

p_a,b = 2 p_ap_bпри a ¹ b.

Вероятность встречаемости гомозиготного профиля ДНК, содержащего, например, аллель a (p_a,a), равна квадрату вероятности аллеля a: p_a,a = p²_а.

Вероятность p_а вычисляют на основании величины q_a, обозначающей вероятность присутствия у индивидуума в типируемом локусе (хотя бы в одной из парных хромосом) аллеля a. Вероятность q_a равна сумме всех генотипов, включающих в себя аллель a:

q_a = p_1,a+p_2,_а +... + p_a,_а +... + p_n,a = 2p₁p_a+ 2p₂p_a +... + p²_a+... + 2p_np_a = p_a(2 - p_a).

Откуда:

Вероятность q_a находят на основании данных популяционных исследований. Для этого подсчитывают q_a(N) - частоту нахождения аллеля а в данном локусе ДНК, равную отношению числа проб (N_а), в которых был выявле аллель а, к общему числу исследованных проб (N):

q_а(N) = N_a/N.

Если N велико, то, по закону больших чисел, частота q_a(N) практически совпадает с вероятностью q_a. Поэтому правомерно употребление понятий "частота" и "вероятность" почти как синонимов, так как они обозначают фактически одно и то же число.

В литературе для обозначения q_a часто используется термин "частота встречаемости аллеля а в популяции". При всей традиционности этот термин, однако, является не совсем удачным, поскольку он может быть отнесен и к величине p_a, которая меньше q_a почти в 2 раза. Число р_aесть вероятность нахождения аллеля а в одной хромосоме, а q_aесть вероятность нахождения аллеля а хотя бы в одной из двух (парных) хромосом. Необходимо различать эти понятия.

Если генетический анализ проводится по нескольким локусам, наследование по которым происходит независимо, то вероятность комплекса признаков P равна произведению вероятностей каждого из них:

Р = Р₁Р_2... Р_n.

При идентификации искомой величиной является вероятность случайного совпадения признаков, выявленных в исследуемом объекте и сравниваемых с ним образцах. Вероятность случайного совпадения означает вероятность того, что тот же вывод был бы сделан, если бы профиль ДНК исследуемого объекта сравнивался с генотипом любого случайного индивидуума. Поскольку вероятность случайного совпадения воспринимается как абстрактное понятие, в выводах целесообразно выразить вычисленную величину через вероятность (частоту) встречаемости выявленного комплекса признаков. Возможна формулировка следующего вида: "Вероятность случайного совпадения выявленных генетических признаков составляет 2 10 ^-4, т. е. данные признаки в их совокупности могут быть обнаружены в среднем у двух человек из 10 тысяч".

Необходимо помнить, что слово "вероятность", так же как и теория вероятностей в целом, может относиться лишь к математической модели, а не к реальной жизненной ситуации. Поэтому в выводах не следует использовать формулировки типа: "Кровь в следах произошла от подозреваемого С. с вероятностью...", поскольку исследуемая кровь либо произошла от подозреваемого, либо нет.

Эксперт не компетентен в определении всех обстоятельств дела, это – задача следствия. Его обязанностью является предоставление объективной информации, основанной на данных исследования вещественных доказательств. Поэтому, формулируя вывод, эксперт не должен ни преувеличивать, ни преуменьшать значение выявленных им генетических признаков. Не следует, например, указывать, что данный признак может встретиться "лишь у одного человека из 10 тысяч". Много это или мало - в каждом случае вопрос неоднозначный и, как правило, находящийся вне компетенции эксперта.

Наибольшую сложность представляют случаи позитивной идентификации личности. Как оценить, достаточна ли полученная информация для того, чтобы сделать категорический вывод об источнике происхождения следов? Иными словами, при каком значении Р эксперт может утверждать, что исследуемый объект произошел именно от данного лица?

Для понимания этого вопроса рассмотрим следующую ситуацию. Установлено, что вероятность случайного совпадения профиля ДНК крови в следах с генотипом подозреваемого П. (под "генотипом" здесь и далее условно понимается та его часть, которая изучена в процессе исследования) составляет, например, 10^-7. При тех же объективных данных вывод о вероятности случайного совпадения признаков переформулируем, заменив его математически эквивалентным: какова вероятность того, что среди N потенциальных подозреваемых найдется хотя бы один, у которого генотип также будет согласовываться с профилем ДНК исследуемого объекта? Эта вероятность равна:

Q = 1 - (1-P)^N = 1- e ^Nln(1-Р),

где e - основание натурального логарифма (e»2,718).

Если Р мало, то можно воспользоваться приближенной формулой ln(1 - P) = - P [точное неравенство - P ³ ln(1 - P) ³- P - Р², если P £ 0,5].

Пусть обстоятельства дела таковы, что число N потенциальных подозреваемых велико, например N = 5 10⁶ (скажем, все взрослое население Москвы). Тогда Q» 1 - e^-^0,5» 0,39. По всей видимости, линия защиты при оценке такого экспертного заключения будет состоять в следующем: если с вероятностью 0,39 (т.е. 39%) среди N потенциальных подозреваемых найдется хотя бы еще один (кроме П.), генотип которого также согласуется с профилем ДНК исследуемого объекта, то, исходя из принципа презумпции невиновности, данные генетического анализа не могут быть положены в основу обвинительного заключения П. Это использовалось в зарубежной адвокатской практике для оправдания обвиняемого [9].

Приведенный пример показывает, что если вероятность случайного совпадения признаков в исследуемом объекте и генотипе проходящего по делу лица является малой величиной, это, тем не менее, не означает, что такие же признаки не могут присутствовать и в генотипе еще какого-нибудь индивидуума (и даже не одного). Так, в нашем примере такой индивидуум вполне вероятно мог встретиться в том же городе. Понятно, что если бы речь шла о населении не города, а, например,страны (или всего земного шара), то эта вероятность была бы еще большей. Напротив, когда круг подозреваемых строго ограничен (например, преступление совершено на корабле), эта вероятность мала. Так, если N = 1000, при том же значении Р = 10^-⁷, что и в предыдущем примере, вероятность того, что в данной совокупности встретится хотя бы еще один индивидуум с такими же признаками, составит всего 0,0001, или 0,01%. (Если Р N £ 1, то можно пользоваться приближенной формулой Q = Р N.)

Заметим, что сама по себе возможность существования еще одного или даже нескольких индивидуумов с интересующими генетическими признаками (а она теоретически есть при любом значении вероятности Р) вовсе не лишает экспертизу доказательности. Ведь это не свидетельствует о том, что выводы эксперта относительно источника происхождения следов неверны. Это лишь показывает принципиальную возможность гипотетического существования индивидуума, характеризующегося аналогичным сочетанием аллелей. При этом речь идет о случайной выборке людей, включающей в том числе и тех, кто не мог быть участником данного преступления, например, в силу возраста, физического состояния и т. д. Значение имеет степень достоверности идентификации.

Для определения критерия достоверности идентификации мы предлагаем использовать следующий подход.

Если считать, что результаты экспертизы послужат основой обвинительного заключения по данному уголовному делу или решения суда о признании отцовства, то вероятность судебной ошибки (осуждения невиновного либо признания отцом человека, в действительности им не являющегося) равна вероятности случайного совпадения Р. Вероятность того, что ни одна из экспертиз, проведенных по N делам, не повлечет за собой судебной ошибки, равна (1-Р)^N. Если Р N мало (скажем, Р N £ 0,2), то можно пользоваться приближенной формулой (1-Р)^N» 1-Р N. Эта величина характеризует надежность метода идентификации по ДНК. Дальнейшие расчеты зависят от требований, предъявляемых к этой надежности. Если условием применения метода является требование, чтобы в течение 10 лет при его использовании не было допущено ни одной судебной ошибки, а число выполняемых в год идентификаций - порядка 1000, то получаются следующие выводы: если Р = 10^-⁵, то вероятность того, что за десять лет не будет ни одной ошибки, равна 1 - Р N = 1-10^-⁵ 10⁴ = 0,9 = 90%; при Р = 10^-⁶, Р = 10^-⁷, Р = 10^-⁸ эта вероятность составит соответственно 99; 99,9; 99,99%. Последнее число очень велико и, видимо, достаточно для того, чтобы давать положительное заключение. Таким образом, при заданном значении N=10⁴величину 10^-⁸ можно принять за верхний предел вероятности случайного совпадения, при которой вывод правомерно формулировать в виде: "Следы крови произошли от К." или "С. является биологическим отцом ребенка А.". Данное значение Р с вероятностью 99,99% обеспечивает достоверность идентификации не менее чем в 10 000 случаев. При Р = 10^-⁹ достоверность идентификации с указанной вероятностью обеспечивается не менее чем в 100 000 случаев, и т.д.