Семинар 25.03.2011 Часть1.
СТЕНОГРАММА НАУЧНО-МЕТОДИЧЕСКОГО СЕМИНАРА
КАФЕДРЫ КЛИНИЧЕСКОЙ ПСИХОЛОГИИ РГПУ им. А.И. ГЕРЦЕНА
25 марта 2011 г.
Доклад кандидата психологических наук, профессора
А.А. Алексеева на тему:
«Земля круглая (p < 0,05): Байес, Фишер и другие»
КАФЕДРЫ КЛИНИЧЕСКОЙ ПСИХОЛОГИИ РГПУ им. А.И. ГЕРЦЕНА
25 марта 2011 г.
Доклад кандидата психологических наук, профессора
А.А. Алексеева на тему:
«Земля круглая (p < 0,05): Байес, Фишер и другие»
Алёхин Анатолий Николаевич (доктор медицинских наук, профессор, заведующий кафедрой клинической психологии РГПУ им. А. И. Герцена): Добрый день, уважаемые коллеги! На наш сегодняшний семинар мы пригласили в качестве докладчика профессора Анатолия Андреевича Алексеева, известного своими работами. Я, например, с удовольствием изучал редактированный им труд «Современные системы психологии». Напомню процедуру семинара: докладчик просит тридцать минут на изложение основных идей, потом мы можем задавать вопросы, но главная задача – обсуждение. А сейчас я предоставляю слово Анатолию Андреевичу.
Алексеев Анатолий Андреевич (кандидат психологических наук, профессор кафедры психологии развития и образования РГПУ им. А. И. Герцена): Спасибо. Я что хочу сказать, уважаемые товарищи: как вы могли догадаться по названию, речь пойдет о проблемах статистического вывода в нашей науке – психологии, если ее можно наукой назвать… Я не собираюсь говорить о математике как таковой, потому что я не математик, а психолог по образованию, хотя два курса технического ВУЗа у меня за плечами есть. Скорее расскажу о здравом смысле и статистике – так можно это сформулировать. Почему я выбрал эту тему для обсуждения? Ответ очень простой: у кого что болит, тот о том и говорит. Так уж сложилось, что я закончил ЛГУ по специальности «теоретическая и экспериментальная психология» и анализ данных – это в общем-то моя профессия. Я довольно давно начал консультировать людей по этим вопросам, и опыт у меня уже почти сорокалетний. К тому же я лет десять читал курс «Теория вероятности и математическая статистика» биологам. Но я не перестаю поражаться тому, что психологам это в голову «не входит». Это загадка, и если вы мне как «клиники» объясните, почему так получается, я буду очень вам благодарен.
В свое время меня задела за живое оценка, которую дала канадско-американская делегация, которая в тридцатых годах прошлого века по обмену опытом приехала в московский Институт физиологии Академии наук. Возглавлял ее, если я не ошибаюсь, Грегори Разран, пропагандист теории условных рефлексов в Америке. В своем отчете он написал: замечательные работы, интересные идеи, одна беда – авторы ограничиваются вычислением средних и процентов, другими методами они не владеют. И как-то это меня задевает… Думаю, у нынешних физиологов гораздо лучше дела обстоят с этим, но в отношении психологов я могу к этой оценке присоединиться и сегодня. Если вы меня разубедите, я буду вам благодарен.
Пример недавний: буквально месяц назад консультировал одного претендента на степень доктора психологических наук. Видимо, в диссертационном совете кого-то что-то не устроило, и он пришел ко мне с вопросами. Вся диссертация построена на ранговых коэффициентах корреляции, которые он сравнивает и делает, соответственно, выводы. Я ему задаю, как мне кажется, естественный вопрос: «А Вы проверяли как-то значимость различий? У Вас ранговые корреляции отличаются третьим знаком после запятой, а Вы выстраиваете на них систему». Он мне в ответ уверенно говорит: «Я знаю, что нужно проверять различия средних значений. А разве различия между коэффициентами корреляции проверять нужно?» Я говорю: «Два средних – два случайных числа, два коэффициента корреляции – два случайных числа, разница между ними может быть случайной, может быть закономерной. Хорошо бы проверить». А он: «Нет, я хорошо изучил пакет Statistica, пакет SPSS; там нет такой опции – «проверка различий корреляций»». А там действительно ее нет, потому что нужно преобразовывать "сырые" коэффициенты корреляции в значения Z Фишера и так далее. Там есть более сложные вещи: можно сравнить две матрицы корреляций более современными средствами, но диссертант до этой мудрости не дошел…
Таково положение дел. Уж не говорю о студентах и аспирантах… Я уже сорок лет с этим положением дел борюсь. Почему так происходит? С моей точки зрения, беда в нашем нынешнем образовании, в тяге к практическим навыкам. Потому что раньше, когда это изучали мы, все вручную считали. Я помню, когда сам учился, то делал факторный анализ вручную: накладывал кальку с осями на лист миллиметровки, поворачивал… Ясно, что если вы «изнутри» это знаете, то вы справитесь. Сейчас есть книга А.Д. Наследова «Математические методы психологического исследования», книга великолепная, с моей точки зрения. Но только это «поваренная книга». А пользуясь поваренной книгой, можно приготовить лишь те блюда, рецепты которых в ней приведены, и то надо бы знать побольше… А знать побольше не получается.
Понимаете, меня убивает отсутствие здравого смысла! Человек выполняет ритуал проверки просто потому, что это нужно: иначе оценку плохую поставят, иначе статью не примут, иначе не допустят к защите… Я говорю пришедшему ко мне соискателю: «У Вас испытуемых много, двести человек. А зачем Вы считали ранговую корреляцию?» Когда Спирмен и Кендалл придумывали свои коэффициенты, задача состояла в нахождении меры связи между малым количеством данных. В книжке Кендалла содержатся таблицы для трех случаев, для пяти, семи и так далее. А тут двести. Подумайте, какой изменчивостью должны обладать данные, чтобы вы двести случаев упорядочили от первого до двухсотого. Это же невозможно: «семь плюс минус два», в конце концов, есть у человека. Что в этом случае делать? Можно обычную корреляцию посчитать пирсоновскую, потому что это все равно аппроксимация спирменовской. Даже лучше взять и перейти на более низкую шкалу. Возьмите вы хи-квадрат и посчитайте, надежнее будет, и по крайней мере таких несуразностей не будет. Вот об этих вещах я хочу сегодня поговорить: о здравом смысле и статистике.
И первая проблема, с которой я хочу начать, – это проблема самого статистического вывода, то есть проблема проверки гипотез. Анатолий Николаевич мне сказал, что ему знакома статья Джейкоба Коэна «Земля круглая, р<0,05». Я действительно эту статью когда-то с удовольствием прочитал и, опираясь на нее, попробую сегодня эти проблемы поднять. Второй человек, на которого я ссылаться буду, – это знаменитый Пол Мил – автор известной книги «Клинический прогноз против статистического». Это один из создателей MMPI – разработчик шкалы К - шкалы дифензивности. То есть это ваш человек – клинический. Джейкоб Коэн тоже ваш человек. Он около сорока лет отработал в Администрации по делам ветеранов. Есть такая в Америке организация, которая занимается проблемами адаптации ветеранов войн, там работают клинические психологи и психиатры. Вот эти два человека задали мне эти проблемы. Не могу не процитировать хлесткую фразу Пола Мила по поводу проверки значимости нулевой гипотезы: он охарактеризовал эту процедуру как «потентного, но стерильного интеллектуального распутника, оставляющего на своем веселом жизненном пути лишь вереницу изнасилованных девиц, увы, без жизнеспособных научных отпрысков». Вот так критикуется существующее положение вещей. Чем же эта несчастная процедура, о которой вы все знаете, заслужила столь нелестные оценки? А вот чем. Прежде всего, она не отвечает на тот вопрос, на который мы с вами хотим получить ответ. Наша задача – проверить худенькую-бедненькую, но теорию, которую мы придумали. Это Н нулевое пресловутое, которое мы проверяем, что различий нет, или Н один - различия есть. Это проверка нашей теории: мы хотим знать, при полученных нами данных какова вероятность того, что Н нулевое истинно или наоборот. То есть мы хотим знать какую вероятность? Вот эту. [пишет на доске: P (H0|D)] А что нам дает тот метод, которым мы пользуемся и который в свое время разработал Рональд Фишер? Он нам дает совершенно другой ответ: при условии что Н истинно, какова вероятность получения этих данных [пишет на доске: P (D|H0)]. Известно всем, что это не равно: любой учебник статистики это подтвердит. Что мы такие глупые, что этого не понимаем? Наверное, не глупые, но нам хочется, чтобы было именно так. В психологии получается, что мы никогда не знаем Н0 до опыта. Потому что эта вероятность – апостериорная и связаны эти вероятности обычной самой теоремой Байеса, которую вы все тоже, наверное, знаете, да? [пишет на доске ] Это все формулы, которые я буду писать, больше я ничего писать не буду.
Это первая беда, с которой мы с вами сталкиваемся. Ошибку такого рода делают люди, о которых и подумать никогда бы нельзя было: Анна Анастази, например, Гилфорд. Я уж не говорю об аспирантах и студентах. «Ошибка обратной вероятности», как она называется в статистике. И проблема заключается в убеждении, что после успешного отклонения H0 весьма высока вероятность того, что повторение данного исследования также приведет к отклонению Н0. Интересная статья есть у двух знакомых вам авторов – Амоса Тверски и Даниеля Канемана. Последний был, как вы знаете, лауреатом Нобелевской премии по экономике. У них есть статья «Вера в закон малых чисел» в журнале «Psychological Bulletin» – «Психологический бюллетень» – где они убедительно показали, что эта интуитивная вера у людей практически неизживаема. Они что сделали? Они опросили на ежегодном конгрессе Американской психологической ассоциации делегатов, которые туда приехали. Туда приезжают в общем-то всегда более или менее солидные люди, хотя есть разные. Тем не менее большинство ответили, что исследование со статистически значимым результатом может быть повторено на следующей малой выборке. Откуда такая вера? Понять бы это.
Я студентам всегда привожу еще один пример. Бросаем монетку, десять раз выпал «орел». Какая вероятность, что в следующий раз выпадет «решка»? Девяносто девять процентов отвечающих уверены, что вероятность должна резко возрасти: сколько можно «орлу» выпадать? Это из разряда неизживаемых иллюзий, которые нам мешают. Подобных исследований много. В одном из них автор обследовал около 70 академических психологов – все PhD. Он давал им данные: t=2,7, степеней свободы 18, уровень значимости p < 0,01. Если еще раз повторить, получится ли сходный результат? Сорок два человека из 70 говорят: «я думаю, получится». Как это объяснить, я не знаю.
Конечно, здесь срабатывает вера в закон малых чисел, если это можно так назвать. Что если вероятность очень мала, то гипотеза не должна подтвердиться. Но мы прекрасно знаем, как говорил еще фон Мизес, что наша теория вероятности не имеет никакого отношения к вопросам типа «существует ли вероятность, что Германия вступит в войну с Либерией». Все эти вероятности относятся к выборочному пространству, при бесконечном повторении этих экспериментов все эти интервалы «накроют» это среднее или коэффициент корреляции. Но это все абстракции. Как нам с вами быть? Вот тут должен работать здравый смысл: когда вы получаете различия на грани значимости 0,05, нужно очень осторожно делать выводы. Даже когда мы противопоставляем Н1 – нашу теорию пресловутую, которую мы вынашивали долго, так сказать, годами, нулевой гипотезе, не нужно забывать, что у нас в запасе есть еще несколько теорий, есть условия эксперимента, есть еще что-то. Поэтому мы Н0 противопоставляем как сумму всех этих вещей, а не просто сравниваем результаты с одним точечным значением и доказываем, что наша теория верна.
В конце концов, есть Карл Поппер, и есть понятие фальсифицирования теорий. К сожалению, в психологии проблема воспроизводимости вообще не ставится. Я хочу у вас спросить: вы можете привести хоть один пример, когда исследователь выдвигает не Н0 с двухсторонним критерием (когда в обе стороны различия, лишь бы получились), а одностороннюю гипотезу. Я не помню ни одной такой диссертации, хотя, слава богу, я их смотрю уже лет двадцать. То есть нет исследований, в которых предположение касалось бы конкретной величины, а не нулевых различий.
По поводу нулевой гипотезы вообще смешно. Ладно, когда мы говорим о нулевой гипотезе в целом, но когда мы говорим о так называемой «нуль-гипотезе», Джейкоб Коэн ввел такой термин, ситуация становится просто глупой. Русский аналог сложно предложить, но по-английски это вот так. [пишет на доске] Если Null – это число, то Nil – это нулевой значение какого-то параметра. Они играют с этими значениями. И вообще гипотезы, что между выборками нет никаких различий – т.е. когда мы говорим, что в генеральной совокупности корреляция равна нулю, в генеральной совокупности разница средних равна нулю, в генеральной совокупности соотношение самцов и самок 0,5, коэффициент надежности экспертов равен нулю – они смешные, с моей точки зрения. Я согласен с Коэном: отсутствие различий в нашей «мягкой» психологии, это вещь несбыточная. Нет этого. Чуть увеличив выборку, получите различия.
Я хочу привести пример одного исследования Мила и Ликкена (есть у них тоже такой известный специалист по этой проблеме), а потом я расскажу про свой опыт, которым я пугаю аспирантов. Мил и Ликкен провели очень любопытное исследование. Они составили сводную таблицу из 15 социологических показателей, например, профессия отца, образование отца… ну, то что мне ближе из детской психологии… образовательные планы, отношение семьи к продолжению обучения, пол детей, порядок рождения. В общем 15 показателей, обследовали по ним 57 тысяч школьников из Миннесоты и сделали таблицу со многими входами, как это принято в социологии. Потом что они сделали? Они взяли и оценили значимость всех кросс-табулированных различий, то есть, если пятнадцать параметров, значит, около 105 показателей. И все различия оказались значимыми. Представьте! Все со всем оказалось связанным на такой выборке, причем уровень достоверности р<0,000001. О чем это говорит? О том, что все наши показатели – это не совсем те показатели, которыми нам, психологам, нужно заниматься. Кто-то может возразить: при 57 000 все будет со всем связано. Вспоминаю пример, который мне, когда я еще студентом был, приводили: что на 12000 испытуемых есть корреляция 0,12 между цветом лака для ногтей и интеллектом у девушек. Это все смешно. Но Мил и Ликкен обнаружили совсем не шуточные корреляции – 0,2 – 0,3. В общем это довольно интересно. Мил очень серьезно по этому поводу заявлял: что, вообще говоря, представление о том, что корреляция между произвольно выбранными парами переменных ничтожно мала и что ее можно отбросить – великое заблуждение. А я вам приведу свой опыт, которым я, как уже говорил, пугаю аспирантов у нас на кафедре. Я беру обычный набор данных. Можно, например, взять данные по опроснику Кеттела (хотя я его не очень люблю, потому что он никогда ничего путного не показывает). Берем две группы – 30 и 30 человек. Сравниваем – получаем различия. Это вполне предсказуемо. Потом делаем простую процедуру: все это в кучу складываем, берем таблицу случайных чисел и опять на две новые выборки, куда попадают «м» и «ж» как угодно. Еще раз проверяем – различия есть, но уже другие. Делаем процедуру третий раз, четвертый, и каждый раз получаются различия. Вот игра в статистику, очень простая и очень наглядная, которая говорит о том, что с корреляциями и статистическими различиями дело иметь опасно.
Еще одна проблема: психологи очень часто озабочены только различиями и уровнем значимости этих различий. Я не знаю, обращали ли вы на это внимание… Я наши журналы редко читаю, все больше чужие, следуя советам профессора Преображенского, и не жалею об этом в общем, но тем не менее что-то по профессиональной необходимости приходится читать, и я в последнее время обнаружил такую тенденцию, даже если брать издания нашего университета: видимо, потому что нужно сокращать объем статей из-за большого числа публикаций, все величины средних уже не указываются. Автор пишет: «получено значимое различие, а в скобках p<0,05». Чудесно. Все вроде красиво, но вы прекрасно понимаете, что слово «значимость» в языке и слово «значимость» в статистике – вещи немного разные. Потому что какова цена этой значимости, неизвестно. Возведите коэффициент корреляции в квадрат и получите цену значимости. Если вы получили коэффициент корреляции 0,3, возведите в квадрат и вы получите 9-ти процентную вариацию, объясняемую другой переменной. Это смех и грех. А остальной 91% чем объясняется? На это авторы отвечать не хотят. Просто когда мы это делаем, мы все время упускаем из виду величины. Опять-таки, есть такой известный статистик Джон Тьюки, критерий Тьюки наверное знаете. У нас книжку его издали в 1981-м году, по-моему. В библиотеке её никто не берет. Вот Наследова читают, а Тьюки – не хотят. Тьюки, вообще человек достаточно умный, говорит, что мы с вами ограничиваемся таким знанием: если за нечто потянуть, то это нечто станет длиннее, а вот насколько длиннее, мы, как правило, упускаем из виду. Проблема величин – проблема очень серьезная, на ней вся психодиагностика должна держаться, да и не только. Но, к сожалению, оценками величины мы с вами почти не занимаемся. Скажите мне, пожалуйста, давно ли вы встречали в статьях доверительный интервал? У нас в статьях не то что доверительного интервала, у нас в статьях нет полного набора данных. Если бы вы сами захотели проверить и построить доверительный интервал, вы не построите. То объем выборки не указан, то дисперсии нет – одни средние или одни коэффициенты корреляции, стандартной ошибки нет.
В общем, что об этом говорить, это все хорошо известно. И я, например, удивляюсь, почему в нашей жизни это происходит. Вот сейчас от всех диссертантов требуют, чтобы они сдавали электронную копию диссертации в ВАК. Это так или нет так? Я давно защищался, я не знаю, мои сдают там что-то. И смотрите, в чем проблема, довольно любопытная. Копию вы сдаете, ну хорошо, пусть будет, это не лишнее. Но кто-нибудь собирает банк данных, которые получают аспиранты? Почему бы не ввести такое обязательное требование. Вы сделали исследование, ваши "сырые данные", в стандартной форме – в электронную базу. Ведь в любом закордонном университете этой традиции уже десятки лет. Еще на больших машинах начали. А у нас до сих пор нет. Попробуйте использовать то, что предлагает Джейкоб Коэн, а именно - метаанализ, для того чтобы доказать различия. Да вы и двух статей не найдете, которые у нас можно метаанализировать. Беда.
Ну, наконец, еще об одном: велика ли польза от коэффициентов корреляции, которые мы с вами изучаем. Уже третью формулу писать не буду, наверное, все и так ее знают, тут люди подготовленные. Обычно коэффициент корреляции – ковариация, деленная на два стандартных отклонения. Всем это хорошо известно. Почему-то, глядя на эту формулу, никому в голову не приходит, что величина коэффициента корреляции зависит от выборки, от изменчивости выборки. А какова при этом сила влияния одного фактора на другой? Ведь меня интересует как А влияет на В. Какая мне разница в какой выборке вы получаете оценку силы влияния?! Вы берете выборку с большей изменчивостью признаков, получаете больший коэффициент корреляции, если получаете с меньшей – получаете меньший. В зависимости от того, какая выборка попадется. То есть от чистого коэффициента корреляции проку мало. К чему переходить? К коэффициенту регрессии. Много ли опять-таки у нас исследований, где применяется регрессионный анализ? У меня одна диссертантка применила, пошла на защиту. Спасибо В.Х. Манерову, который в наш совет входит, он сказал, что хорошо. Другие: зачем вы это сделали? А затем, чтобы не сталкиваться с такой глупостью.
Еще один прекрасный пример из Джейкоба Коэна: разница между коэффициентами корреляции и коэффициентами регрессии. Когда мы получаем коэффициент корреляции, то не задумываемся: есть связь и хорошо, нас это очень радует. Мы не задумываемся, что происходит, если эту ситуацию реально смоделировать. А когда мы получаем коэффициент регрессии, то мы видим, что происходит. Так вот: 14 тысяч школьников, высоко значимая корреляция между IQ и ростом. В результате, чтобы увеличился IQ со 100 до 130, нужно дорасти до 4-х метров ростом. Все очень просто, все видно. Тогда начинаешь задумываться: может, эта корреляция между ростом и интеллектом от лукавого, может быть, она чем-то опосредована? Ну, и то же самое с порядком рождения. Знаете, такая любимая тема некоторых: в каком порядке кто родился и как это все связано с личностью. Очень многое оказывается глупым, когда просвечиваешь его более серьезным методом.
Что делать? Что нам с вами остается делать? От проверки статистических гипотез нам никуда не деться. Единственная разумная вещь, пожалуй, – ориентироваться на более высокий уровень значимости, доверительный интервал использовать. Ведь почему доверительные интервалы в статьях у нас не печатаются?… Потому что не всегда доверительный интервал показывает то, что мы хотим увидеть. Вам никогда не попадались статьи, в которых автор доказывает, что у него большие, значимые на одном проценте (уровне значимости), различия между средними, а доверительные интервалы, построенные, правда, не в виде графика, а в таблице, почти целиком перекрываются при этих различиях. И тогда сразу возникают вопросы. И чтобы себя не выставлять голым королем, доверительный интервал никто не любит представлять. Хотя сейчас, по-моему, ни в одном международном журнале у вас статью не примут, если там не будут построены доверительные интервалы. Мне мои друзья американские об этом говорят.
Метаанализ – вещь хорошая. Не знаю, наступит ли когда-нибудь время, когда мы накопим такие данные… Может, вы начнете накапливать. У вас данные хорошие, у клинических психологов. Я по вашим студентам знаю. Мне они единственные из всех специализаций, которые здесь есть, нравятся. Это не комплимент. Это действительно так. Может быть, можно брать у чужих эти данные, если они вам дают. Но надо такую базу делать. Я на своей кафедре сколько об этом ни говорю, никто слушать об этом не хочет. Я хоть с вами могу своими болячками поделиться.
Есть еще один выход. Правда, я, признаюсь, раньше это критиковал, когда был таким ярым аспирантом, молодым кандидатом. Я имею в виду старую традицию: старую, еще достатистическую, скажем так. Если вы возьмете такие публикации, как «Доклады АПН» 1950-х – 40-х годов, там большие статьи с множеством таблиц, и очень интересных: там статистики нет, там действительно только среднее и проценты. Но, обратите внимание, как сделано. Я возьму опять-таки психологию развития, поскольку она мне ближе: например, вы хотите изучить, как развивается память в дошкольном детстве. Берется три группы, совершенно одинаковых, это обязательное условие, по 30 человек. Подбирается методика, которая показывает, что у четырехлеток – ноль, у пятилеток – пятьдесят процентов, у шестилеток – сто. Попробуйте оспорить, что там развития памяти нет. Никакой статистики не надо. Я это упорно критиковал. Это бог знает что. А тут мне об этом же говорит такой человек – не знаю, слышали вы или нет, потому что это из моей области, из психологии развития – Генри Уэллман, такой американец, один из авторов theory of mind – теории разума. Это теория, которая объясняет, как мы с вами понимаем намерения и мысли других. Так вот, Генри Уэллман отстаивает это дело сейчас в Штатах. Он всячески борется со статистикой таким вот способом, потому что он работает с маленькими детьми, изучает речь и ему попробуй эту статистику нормально используй. Ему никак. А вот такой процентный подход, с подбором четких заданий позволяет показать, как и что развивается. Тоже способ. Голь на выдумки хитра – можно, наверное, и таким путем идти там, где наши данные не позволяют применять сложную статистику.
Ну и, конечно, нужно стараться накапливать базы данных в исследованиях. Тогда мы сможем с вами, наверно, прийти к попперовскому способу проверки, через воспроизводимость результатов. Пока, к сожалению, нам не с чем сравнивать.
Вот, собственно, все мои проблемы. Я думаю, что я на этом могу и остановиться. И если есть ко мне какие-то вопросы или соображения, я в силу своих возможностей, может быть, отвечу, а, может быть, и нет. Потому что это такие вещи, на которые отвечать сложно.
Продолжение...