Оценка чувствительности и специфичности.
Допустим, что разработан новый метод диагностики болезни Х. Для измерения его чувствительности и специфичности отобрали группу из 156 человек, состоящую из 59 заведомо больных болезнью Х. и 97 заведомо здоровых лиц
Наличие/отсутствие этой болезни у обследуемых, устанавливалось с помощью комплекса достоверных клинических и лабораторных методов, принятых за «золотой стандарт» Первоначальная оценка здоровья испытуемых и результаты применения нового метода отражены табл. 5.1 и рис. 5.2, и 5.3.
Таблица 5.1 имеет форму так называемой таблицы «два на два», которая широко используется в эпидемиологии для представления и последующей статистической обработки результатов наблюдательных и экспериментальных аналитических исследований.
Табл. 5.1. Пример таблицы «два на два». Результаты обследования 156 лиц новым методом и комплексом достоверных методов, принятых за «золотой стандарт».
Рис. 5.2 Первоначальные результаты обследования комплексом
достоверных тестов, принятых за «золотой стандарт»
.
Рис. 5.3 Результаты обследования новым методом
Как следует из данных табл. 5.1 и рис. 5.1. и 5.2, среди 59 заведомо больных новый тест выявил 50 лиц больных болезнью Х. Доля выявленных больных (50) от общего числа больных (59) – составит величину чувствительности метода.
Чувствительность нового метода = .
Среди 97 заведомо здоровых лиц новый тест ошибочно выявил 6 больных болезнью Х, у 91 человека состояние здоровья (отсутствие данной болезни) было оценено правильно. Следовательно, специфичность нового метода =
При обсуждении чувствительности и специфичности теста неизбежно возникает вопрос о том, а какой должна быть их величина. Естественно, что идеальный метод должен обладать 100%-й чувствительностью и специфичностью. К сожалению, таким тестом располагают редко, особенно при диагностике неинфекционных болезней. В связи с этим абсолютно точная постановка диагноза многих неинфекционных болезней требует применения дорогостоящей техники и инвазивных методов.
Как показывает опыт, попытки повысить чувствительность теста, сопровождаются увеличением числа ложноположительных результатов, то есть снижением специфичности. И наоборот, повышение специфичности часто приводит к росту ложноотрицательных результатов, то есть снижению чувствительности.
Например, применяя строгие критерии диагностики стенокардии, врач получит мало ошибочных диагнозов, но велика вероятность ложноотрицательных результатов у больных в начальной стадии болезни и у больных легкой и атипичной стенокардией. Если применить менее строгие критерии, к числу больных стенокардией могут быть ошибочно отнесены больные другими заболеваниями сердца.
Высокочувствительные тесты оценки состояния здоровья целесообразно использовать, например, для выявления больных высококонтагиозными инфекциями. При этом исходят из того, что если не будет выявлено максимум источников инфекции, болезнь может быстро распространиться.
Высокочувствительные тесты необходимы и в интересах больного, особенно, когда есть риск пропустить опасные, но излечимые болезни, например, некоторые виды злокачественных опухолей, туберкулез. Тесты с высокой чувствительностью рекомендуются в случаях, когда необходимо провести дифференциальную диагностику между двумя похожими болезнями. Отрицательный ответ позволяет сделать вывод, что наличие данной болезни маловероятно. В то же время значительное число ложноположительных результатов может существенно исказить оценку риска заболеть в различных группах населения, что в свою очередь повлияет на качество выводов о факторах риска.
Методы, обладающие высокой специфичностью, используются как в клинических, так и эпидемиологических исследованиях. Возможность почти безошибочной постановки диагноза, позволяет больному избежать рискованных процедур, операций, курсов химиотерапии и др. В научных и практических эпидемиологических исследованиях, при установлении причин возникновения и распространения данной болезни, нередко необходимо опираться только на случаи, отобранные на основании высокоспецифических тестов, критериев.
Выбор между высокочувствительным и высокоспецифическим методом может превратиться в неразрешимую задачу. В таких случаях рекомендуют применять оба (несколько) методов. При этом, возможно параллельное (одновременное) и последовательное (с учетом предыдущего результата) применение нескольких тестов.
В эпидемиологических исследованиях, как правило, важна не скорость, а точность диагностических оценок, поэтому для них целесообразно параллельное применение методов. При этом дополнительные тесты назначаются в случаях, когда результаты первоначального обследования представляются сомнительными.
Кроме того, чтобы уменьшить ошибки информации, предлагается, например, на этапе сбора материала регистрировать не диагноз, а специфические проявления болезни и только на этапе обработки информации, используя строгие и менее строгие критерии поставить диагноз и проводить группировку данных.
Оценка результатов применения тестов.
Результат применения теста еще не означает возможности автоматически ставить конкретный диагноз. Вполне вероятно, что как при положительном результате (указывающем на наличие болезни), так и отрицательном результате теста существует возможность ошибочного вывода о наличии/отсутствии данного заболевания. Поэтому для характеристики тестов, кроме чувствительности и специфичности используют дополнительные определения:
· точность диагностического теста;
· прогностическая ценность положительного результата теста;
· прогностическая ценность отрицательного результата теста.
Точность диагностического теста –• (test accuracy) – доля правильных результатов теста (истинно положительных и истинно отрицательных) в общем количестве полученных результатов. Формула расчета:
По данным табл. 5.1 Точность теста =(50+91)/156*100=90,4%
Прогностическая ценность положительного результата (ППР) теста (positive predictive value) - это вероятность наличия заболевания при положительном результате теста. ППР можно рассчитать, пользуясь данными «таблицы два на два» .
По данным табл. 5.1 ППР= 50/56*100=89,3%
Прогностическая ценность отрицательного результата (ПОР) теста (negative predictive value) - это вероятность отсутствия заболевания при отрицательном результате теста. По «таблице два на два» .
Отсюда, по данным табл. 5.1 ПОР = 91/100*100 = 91,0%
Таким образом, возвращаясь к данным табл. 5.1, следует отметить, что среди 59 больных, которым диагноз был поставлен с помощью нового метода,действительно больных оказалось 89,3%. А среди тех, кого по результатам теста оценили как здоровых, действительно здоровых было 91,0%.
Выбор тестов зависит от объективных и субъективных факторов, например, от распространенности данной болезни среди населения, от особенностей данной патологии, от стоимости теста, от предполагаемой оценки воздействия факторов риска, от целей данного исследования и т.д. Поэтому более подробное обсуждение проблем выбора методов и критериев оценки состояния здоровья индивидуума, предмет отдельного обсуждения.
Воспроизводимость теста.
Воспроизводимость (repeatability) теста – это его способность одинаково измерять какие-либо явления, процессы, состояния в серии повторных измерений. Абсолютно одинаковые оценки, каких-либо параметров здоровья, при повторных обследованиях встречаются относительно редко. Причины (различий вариабельности) показателей связаны с истинной (объективной, биологической) и с субъективной вариабельностью.
Истинная вариабельность результатов связана с особенностями процесса жизнедеятельности организма обследуемого. Известно, что даже у здоровых лиц, многие показатели варьируют в течение небольшого промежутка времени между исследованиями.
Субъективная вариабельность объясняется погрешностями персонала или погрешностями теста (техники).
Как сильно могут влиять погрешности персонала на вариабельность результатов, наглядно показывает проверка умения измерять АД на специальных тренажерах, задающих определенные и постоянные параметры АД. Практически всегда, лица, не прошедшие специальную тренировку, по-разному измеряли заданные параметры АД. Даже у одного врача в серии измерений получались существенные варьирующие результаты. Еще больший разброс результатов измерения одного признака, наблюдается при применении разных технических средств, например разных аппаратов измерения АД.
Субъективная вариабельность порождает случайные и систематические ошибки измерений. Для оценки степени воспроизводимости теста проводят серию испытаний с изучением вариабельности полученных результатов.
Чтобы свести к минимуму субъективную вариабельность, соответствующий персонал, участвующий в проведении эпидемиологического исследования, должен быть тщательно подготовлен. Подготовка персонала, прежде всего, предусматривает его обучение особенностям использования соответствующих стандартизованных методов. Обучение должны проводить высококвалифицированные специалисты.
При этом следует учитывать, что многие врачи, особенно впервые привлекаемые к исследованиям, не склонны критически оценивать свои знания и умения, особенно если это касается применения знакомых им методов. Поэтому обучение рекомендуется начать с демонстрации вариабельности получаемых ими результатов измерений при использовании различных тренажеров, например, так как это было описано выше при измерении АД. Такая демонстрация лучше всяких объяснений показывает необходимость тренировки. Кроме того, для обучения персонала используются различные стандартные учебные материалы, требующие стандартного ответа.
Окончательная проверка и закрепление полученных навыков происходит при применении выбранного метода обследования в отношении специально подобранной группы лиц. «Специально подобранные» в данном случае означает, что они по набору индивидуальных характеристик будут сходны с теми, кого предстоит обследовать в планируемом эпидемиологическом исследовании.
Кроме обучения технике метода, персонал должен быть, если это необходимо, подготовлен относительно стандартных условий применения метода, например, температуры помещения, положения тела обследуемого, его физической активности и т.д.
Субъективная вариабельность бывает особенно велика, когда погрешности персонала соединяются с погрешностями метода (теста).
Рис. 5.4. Концентрация креатинина в одной порции крови по результатам 10 шведских лабораторий, проанализировавших одну и ту же пробу 16 раз.
Источник: А.Альбом, С Норелл. «Введение в современную эпидемиологию» 1996.
На рис. 5.4. продемонстрированы результаты биохимического анализа на концентрацию креатинина в крови. Как следует из представленных данных, большинство лабораторий завышают результаты по сравнению с эталоном. При этом в лабораториях № 8 и 9 отмечается большой разброс полученных результатов. Результаты проведенного исследования показывают, как важно стандартизировать методики теста и условия его проведения.
Поскольку от результатов теста зависит постановка диагноза, валидность тестов может существенно повлиять на результаты эпидемиологического исследования.
Валидность теста.
Чувствительность, специфичность и воспроизводимость теста определяют его достоверность или валидность (validity).
Достоверность или валидность отдельного теста означает:
· способность теста дать истинную оценку тех параметров организма индивидуума или окружающей среды, которые необходимо измерить; То есть достоверный (валидный) тест должен измерить то, что требуется измерить и ничего более. Это относиться не только к лабораторным исследованиям, а в равной мере касается и методов опроса, которые должны содержать только необходимые для диагностики вопросы;
· соответствие данных отдельного теста объективным симптомам болезни и данным анамнеза;
· согласованность данных одного теста с данными традиционных лабораторных тестов.
К сожалению, точная оценка составляющих валидности и ее самой в целом, чаще всего, представляет значительные трудности или невозможна. При проведении эпидемиологических исследований следует твердо придерживаться правила не изменять валидность применяемых методов. В противном случае, уменьшение или увеличение валидности приведет к значительной вариабельности результатов и, как следствие, к ошибочным выводам.
В заключение отметим, что неполная и недостоверная информация, независимо от объективных или субъективных обстоятельств ее получения, не может служить оправданием низкого качества выводов данного исследования.
Скрининг
Скрининг (просеивание, cross-sectional study, screening), - обследование (чаще всего - массовое) лиц, считающих себя здоровыми, с целью выявления у них не распознанного ранее заболевания. Скрининг также применяют для выявления у здоровых лиц факторов риска, (в основном факторов риска хозяина) например, курения, вредных пищевых привычек, пограничных результатов лабораторного обследования и т.д .
Скрининг осуществляется помощью скрининговых тестов, которые, как и любые тесты могут проводиться: в виде опроса, физикального обследования (например, осмотра кожных покровов, пальпации отдельных органов и т.д.), лабораторного исследования и других методов.
Несмотря на общность цели необходимо различать:
· скрининг как профилактическое мероприятие, и в этом случае он не имеет отношения к проведению эпидемиологических исследований
· скрининг как метод, применяемый в эпидемиологических исследованиях.
Чаще всего скрининг используется как профилактическая мера и в этом случае после выявления лиц подозрительных на заболевание, назначается их дальнейшее тщательное обследование и при необходимости лечение. В противном случае применение скрининговых тестов как профилактической меры не имеет смысла.
Во многих странах скрининг как мера профилактики предусматривает периодическое обследование людей, которое проводится преимущественно в медицинских учреждениях по возрастным показаниям, с учетом наиболее частой патологии в соответствующем возрасте и принадлежности обследуемого к определенной группе риска.
Ценность скрининга, проводимого в профилактических целях определяется его влиянием на показатели заболеваемости, временной потери трудоспособности, инвалидности, смертности и соотношением экономических затрат и экономической выгоды.
В эпидемиологических исследованиях (глава 10) скрининг является не профилактической мерой, а используется как элемент организации исследований, а именно:
· в проспективных когортных исследованиях при формировании когорты и в процессе наблюдения за ней;
· в исследованиях случай- контроль при формировании контрольной группы из здоровых лиц, или при формировании контрольной группы из больных другой - не изучаемой в данном исследовании болезни;
· в одномоментных исследованиях скрининг обеспечивает оценку распространенности какой-либо болезни.
В зависимости от численности обследуемых лиц, от их профессиональной или иной индивидуальной характеристики, в зависимости от набора используемых скрининговых тестов, различают:
· массовый скрининг – например скрининг всего населения населенных пунктов, или скрининг выборок большой численности;
· целенаправленный скрининг – оценку состояния здоровья отдельных контингентов, выделенных по индивидуальным признакам, таким как пол, возраст, раса, профессия, социальное положение и т.д., или населения, выделенного по признаку состоявшегося воздействия фактора риска среды;
· многопрофильный скрининг – оценку состояния здоровья с использованием набора скрининговых тестов, для выявления нескольких заболеваний;
· поисковый скрининг,– обследование скрининговыми тестами лиц уже имеющих известную патологию, на предмет выявления другой болезни. Поскольку, обследуются уже больные лица, такой скрининг называют оппортунистическим.
К любым скрининговым тестам предъявляются определенные требования, в частности:
· чувствительность, специфичность и воспроизводимость;
· валидность;
· простота исполнения и низкая стоимость;
· безопасность;
· приемлимость для обследуемого лица;
· эффективность (как профилактического мероприятия).
Понятия чувствительности, специфичности и валидности скрининговых тестов, аналогичны этим же понятиям, относящимся к диагностическим тестам, уже описанным в этой главе.
При проведении скрининга необходимо учитывать низкую распространенность большинства болезней. При этом, после выявления больных, среди обратившихся к врачу, распространенность данной болезни среди оставшихся здоровых лиц, становится еще меньше. Именно поэтому скрининговые тесты должны, прежде всего, иметь высокую чувствительность, чтобы не пропустить оставшиеся редкие случаи болезни. Но эти тесты должны быть и высокоспецифичны, чтобы не получить большое число ложноположительных результатов.
При повторных скринингах, особенно если они проводятся с небольшим интервалом, число выявленных больных будет снижаться, поскольку в последующих скринингах, будут, в основном, выявляться новые (свежие) случаи болезни.
Оценка достоверности (валидности) скринигового теста проводится с помощью все той же таблицы «два на два» (табл. 5.2)
Табл. 5.2. Оценка скринингового теста
Условные обозначения и рассчитываемые характеристики теста:
a – число истинно положительных результатов;
b – число ложноположительных результатов;
c – число ложноотрицательных результатов;
d - число истинно отрицательных результатов;
Чувствительность = a/(a+c);
Специфичность = d/(b+d);
Положительное прогностическое значение – вероятность обнаружения болезни у лиц с положительным результатом теста = a/(a+b);
Отрицательное прогностическое значение – вероятность отсутствия болезни у лиц с отрицательным результатом теста = d/(c+b).
Хотя формулы чувствительности, специфичности и других характеристик скринингового и диагностического теста одинаковы, оценка этих параметров для скринингового теста отличается, поскольку нет другого скринингового теста, принимаемого за «золотой стандарт».
Ориентировочная оценка скринингового теста проводится по результатам (наличие/отсутствие болезни), полученным с помощью клинического обследования, проведенного сразу же после обследования скрининговым тестом.
Окончательная оценка проводится двумя способами:
· путем наблюдения за обследованными лицами в течение определенного периода времени (например, один год). Затем при заполнении таблицы «два на два» к числу больных, выявленных во время скрининга, прибавляются случаи болезни, выявленные в течение года, у лиц с отрицательными результатами теста. Такая оценка предполагает, что эти больные были не выявлены во время скрининга, поскольку тест дал ложнопололожительные результаты;
· путем сравнения результатов скрининга с заболеваемостью среди населения, не подвергавшегося скринингу.
Идеальный скрининговый тест должен быть валидным, прост в исполнении и относительно дешев – как, например, целенаправленный опрос, или измерение артериального давления.
Дата добавления: 2015-12-10; просмотров: 2110;