Страница 11 из 31

Очень общая метрология

Ашкинази Леонид Александрович

В психологии доизмерительная стадия — стадия определения, какие параметры описывают ситуацию (то есть человека), как эти параметры собираются в систему, какие существуют системы (или она одна), как эти системы связаны. Этот процесс шел одновременно с разработкой опросников и тестов, можно сказать, что новые величины создавались вместе с приборами для их измерения.

Что такое индекс

В технике, если речь идет об индивидуальном изделии, параметры фигурируют чаще всего по отдельности. Кажется, два основных исключения — это объем (произведение понятно чего) и мощность (тоже понятно). Реже бывает, что параметры трактуются в комплексе, например: годен — не годен. У изделия может быть много параметров, и границы пригодности чаще всего ставиться по каждому отдельно (вес от… до…, толщина не более…, частота… плюс-минус…), но иногда, особенно на стадии разработки, условия могут ставиться и хитрее. Расход топлива такой-то при режиме движения таком-то, и иной — при ином режиме. Или: попробуйте уложиться в такую-то мощность и такой-то вес, но если сэкономите мощность, то можно немного перебрать с весом — сделаем трансформатор в блоке питания легче.

В быту, а также в технике, если речь идет о применении, о комплектации, о создании чего-то из многих изделий, ситуация иная: оценивая пригодность того или иного изделия для эксплуатации, целесообразность покупки или дарения, мы почти всегда оцениваем сразу много параметров. Зум у него конечно великолепный, и стабилизация изображения, и в руки взять приятно, дороговат правда, и вес на грани того, что хотелось бы, впрочем, в этом классе ничего дешевле-то и нет… беру! Кстати, употребление слова «класс» само часто указывает на трактовку параметров в комплексе.

Но в «собственно технике», да и в физике, объединение параметров в комплексный параметр (пример — кинетическая энергия) используется не часто. Причина проста — параметры в физике и технике придумываются сначала головой, исходя либо из метрологических возможностей человека (расстояние, время, яркость), либо из теоретических моделей (радиус Шварцшильда) и лишь потом входят в практику и обретают свои приборы, свою метрологию.

В социологии и психологии ситуация иная — параметры часто создаются исходя из прибора, измеряем то, что удается измерить. Эта ситуация — следствие того, что у нас нет ни теории общества, ни теории человека, по крайней мере нет того, что физик и инженер назвали бы теорией. С другой стороны, и социология, и психология описывают ситуацию посредством человеческого языка, в котором процесс обобщения ситуаций, людей и признаков, и создания параметра уже отчасти произошел.

Приведем несколько параметров комплексных параметров из сферы социологии и психологии.

Например, аналитический центр Левады использует следующие индексы:

― «одобрение политика» — разность положительных и отрицательных оценок,

― «отношение к экономическим реформам» — отношение суммы ответов «жить можно» и «терпеть можно» к ответу «терпеть нельзя»,

― «оценка экономического положения страны» — отношение суммы ответов «хорошее» и «среднее» к сумме ответов «плохое» и «очень плохое»,

― «индекс социальных настроений». Подробнее см. http://www.levada.ru/indexi.html , при этом авторы подчеркивают прогностическую ценность некоторых их этих индексов.

Забавный пример построения системы индексов для описания читательских вкусов приведен в конце вот этого текста. Это раздел «Приложение. Попытка изучения читательских предпочтений».

Возможна попытка построения индекса красоты или шкалы «красота-уродство». Алгоритмический подход, то есть робкая попытка понять, почему красива электронная лампа, из чего вообще состоит красота техники, сделана в «Вакуумное — это прекрасно».

Но очевидно, что такую шкалу проще и логичнее строить социологическими методами, то есть извлекая интуитивное представление из социума и потом оформляя его в виде процедуры. Можно взять сто портретов женщин и предложить мужчинам ранжировать их по красоте. Получается шкала из портретов, и располагая предъявленный для измерения портрет на этой шкале, мы сразу получаем оценку. Метод может быть сделан субъективно, если и шкалу, и привязку к шкале мы делаем сами, полуобъективным, даже двух типов — когда шкала делается усреднением, а привязка — индивидуально и наоборот, и вполне объективным, когда и обе операции делаются усреднением мнений.

Поле для метрологических исследований в этой проблеме безгранично. Надо сравнить два полуобъективных метода. Надо исследовать разброс при построении шкалы, вполне возможно, что выявятся кластеры (любители блондинок, любители топ-моделей и так далее) и тогда возникнет вопрос об объективности существования кластеров (типов) женщин, отраженных в существовании соответствующих кластеров мужчин. В этом случае возникнет вопрос о процедуре подбора экспертов. Надо исследовать устойчивость оценок при изменении как самого начального набора для построения шкалы, так и его численности. Вполне может оказаться, что устойчивость оценки (внутренняя валидность) максимальна при некотором определенном значении количества делений на шкале — например, не при ста, а при тридцати. Можно исследовать историческую эволюцию и обнаружить конвергенцию кластеров, то есть взаимное приспособление вкусов и мод. Научная честность требует отметить, что всемирное дебильное шоу под видовым именем «конкурс красоты» обходилось, обходится и будет обходиться без этой гипотетической науки. Равно и тот конкурс, который происходит у вас в голове.

Следующий очевидный и широко известный индекс — это интеллект. Люди хотят знать, насколько они умнее окружающих, а еще сильнее хотят узнать, насколько окружающие глупее их. Кроме собачатины, которой завалены прилавки и инет, существует большая и серьезная литература по вопросу. Прежде всего, бытовое понятие умный/глупый не покрывает явления, ибо даже на бытовом уровне видно, что на разных наборах задач ум проявляется по-разному. Так что одна область исследований — существуют ли типы ума, что это за типы, как их измерить в лаборатории, и как они проявляются в реальной ситуации, то есть при решении не тестов, а реальных задач. На основании представления о компонентах интеллекта (простейшая одноуровневая модель с простейшим взаимодействием) можно строить (как это и сделал Айзенк) композитный тест.

Например, Терстоун считал, что интеллект состоит из способности совершать арифметические операции, способности формулировать, способности понимать речь, памяти, способности комплексно решать проблемы с учетом опыта, пространственного мышления и способности распознавать и дифференцировать импульсы.

Мейки считал, что интеллект состоит из способности увидеть в проблеме внутреннюю организацию, способности перейти от одного содержания к другому, способности к пониманию целого, видению связей и способности упорядочить части проблемы по-иному.

Айзенк считал, что интеллект состоит из арифметических способностей, в том числе способности обнаруживать закономерности, лингвистических способностей, в том числе обнаруживать смысловые закономерности в тексте и постранственного мышления.

Для более узких ситуаций есть и более узкие гипотезы, например мы считаем, что способность решать сложные школьные задачи по математике состоит из двух компонент — умения правильно выбрать направление преобразование, то есть выбора, какой шаг сделать, и умения производить быстро и без ошибок простые вычисления, то есть делать эти шаги:

Сложное — много простого?

Эта заметка — о так называемом тестировании. В сознании людей сегодня проблема тестирования переплелась с проблемой единого экзамена. С самого же начала ясно скажем, что это — разные проблемы. Провести единый экзамен без тестирования можно. Но решить вопрос, нужен ли единый экзамен (предположим, что нам имеет смысл решать этот вопрос — хотя бы для того, чтобы иметь свое мнение и этим походить на нормальных людей), можно, только оценив эффективность экзамена, а она зависит от метода. В частности, может оказаться, что при каких-то методах его проведения единый экзамен хорош, а при каких-то других — плох, да настолько, что не нужен вообще. Поэтому вопрос о методе проведения экзамена является первоочередным. Определить эффективность экзамена прямыми методами (по последующей учебной и рабочей биографии) трудно, поэтому возникает соблазн заменить этот анализ пустыми разговорами, общественной активностью и политической волей. То есть чиновничьим волюнтаризмом.

В обыденном словоупотреблении тестирование — это решение испытуемым за ограниченное время относительно большого количества относительно простых задач, причем испытуемому предъявляется несколько вариантов ответов, из которых он должен выбрать правильный. Поэтому главные признаки тестирования — это простота задач и наличие вариантов ответов. Попробуем понять, что именно проверяет, а что не проверяет такой экзамен.

Собственно обучение — по крайней мере, в естественных и точных науках — это приведение ученика в такое состояние, когда он может решать задачи, которые могут возникнуть перед ним в дальнейшей жизни (в том числе и при дальнейшем обучении). Для решения задач человек должен знать факты, приемы решения, уметь выбрать прием и применить его. Возможно, что существует еще «нечто» (вдохновение, озарение, прозрение, творческий экстаз, единое информационное поле, ноосфера, эктоплазма, фэн-шуй и т. д.), но авторы полагают, что хоть какие-то шансы разобраться в устройстве мира появятся только в том случае, если речь пойдет о проверяемых и повторяемых фактах. Тогда решение задач сводится к знаниям, приемам и их выбору, и еще — уровню адреналина в крови.

Действительно, мы знаем, что никакой эктоплазмы в компьютере нет. Представьте себе Гермеса Трисмегиста перед этим компьютером — скорее всего, он как раз и заговорит о «нечто». Возможно, что перед человеческим мозгом мы выглядим сегодня так, как великий Трисмегист — перед компьютером. Утешьтесь тем, что сегодня люди знают, как работает компьютер, а Г.Т. был для своего времени умнейший человек.

Хорошо построенные тесты проверяют знание фактов и умение применить один прием, причем распространенный. Редко применяемый, малоизвестный, экзотический прием в тест включить трудно — задача не будет простой. Умение выбрать прием тест проверяет слабо — этот выбор требует времени, тем большего, чем выбор менее очевиден. Наконец, тест почти не способен проверить умение применить несколько приемов — по той же причине. При этом тест проверяет умение выбрать прием из списка, причем малого (в действительно хорошем тесте каждый неправильный вариант ответа является результатом применения неправильного приема), в жизни же списков обычно не предъявляют.

Однако самое важное не в этом. Многие из нас слышали, что существуют сложные задачи, а некоторые даже такие задачи видели. Сводится ли сложная задача к последовательному решению простых задач? Некоторые сторонники тестов отвечают, что да, сводится. И умение быстро решать простые задачи эквивалентно умению решать сложные — за большее время. Но в Физико-математической школе при МИЭМе экспериментально показано, что это не так. В течение ряда лет мы принимаем экзамены следующим способом. Школьники сдают два экзамена, оба — письменная математика, но один — тест: 30 или 60 задач на один час, другой — обычный экзамен: шесть задач на три часа. Так вот, корреляция между результатами довольно слаба. Можно лишь сказать, что тот, кто показал очень плохой результат на одном экзамене, не покажет очень хороший на другом.