Типы и виды данных. Шкалы измерения

Применение тех или других статистических методов определяется тем, к какой статистической шкале относится полученный материал. С. Стивенс предложил различать четыре статистические шкалы:

1. шкалу наименований (или номинальную);

2. шкалу порядка;

3. шкалу интервалов;

4. шкалу отношений.

Зная типические особенности каждой шкалы, нетрудно установить, к какой из них следует отнести подлежащий статистической обработ-ке материал.

Шкала наименований. К этой шкале относятся материалы, в ко-торых изучаемые объекты отличаются друг от друга по их качеству.

При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характери-стик. В принципе, объекты можно располагать в любой последователь-ности.

Вот пример: изучается состав международной научной конференции. Среди участников есть французы, англичане, датчане, немцы и русские. Имеет ли значение порядок, в котором будут расположены участники при изучении состава конференции? Можно расположить их по алфавиту, это удобно, но ясно, что никакого принципиального значения в этом распо-ложении нет. При переводе этих материалов на другой язык (а значит и на другой алфавит) этот порядок будет нарушен. Можно расположить национальные группы по числу участников. Но при сравнении этого ма-териала с материалом другой конференции найдем, что вряд ли этот порядок окажется таким же. Отнесенные к шкале наименований объек-ты можно размещать в любой последовательности в зависимости от цели исследования.

При статистической обработке такого рода материалов нужно счи-таться с тем, каким числом единиц представлен каждый объект. Име-ются весьма эффективные статистические методы, позволяющие по этим числовым данным прийти к научно значимым выводам (напри-мер, метод хи-квадрат).

Шкала порядка. Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка -- это видно из ее названия -- именно на эту последователь-ность переключается все внимание.

К этой шкале в статистике относят такие исследовательские ма-териалы, в которых рассмотрению подлежат объекты, принадлежа-щие к одному или нескольким классам, но отличающиеся при их сравне-нии одного с другим -- «больше-меньше», «выше-ниже»- и т. п.

Проще всего показать типические особенности шкалы порядка, если об-ратиться к публикуемым итогам любых спортивных соревнований. В этих итогах последовательно перечисляются участники, занявшие соответ-ственно первое, второе, третье и следующие по порядку места. Но в этой информации об итогах соревнований нередко отсутствуют или отходят на второй план сведения о фактических достижениях спортсменов, а на первый план ставятся их порядковые места.

Допустим, шахматист Д. занял в соревнованиях первое место. Како-вы же его достижения? Оказывается, он набрал 12 очков. Шахматист Е. занял второе место. Его достижение -- 10 очков. Третье место занял Ж. с восемью очками, четвертое -- 3. с шестью очками и т. д. В сообщениях о соревновании разница в достижениях при размещении шахматистов отходит на второй план, а на первом остаются их порядковые места. В том, что именно порядковому месту отводится главное значение, есть свой смысл. В самом деле, в нашем примере З. набрал шесть, а Д. -- 12 очков. Это абсолютные их достижения -- выигранные ими партии. Если попытаться истолковать эту разницу в достижениях чисто арифме-тически, то пришлось бы признать, что 3. играет вдвое хуже, чем Д. Но с этим нельзя согласиться. Обстоятельства соревнований не всегда про-сты, как не всегда просто и то, как провел их тот или другой участник. Поэтому, воздерживаясь от арифметической абсолютизации, ограничи-ваются тем, что устанавливают: шахматист 3. отстает от занявшего пер-вое место Д. на три порядковых места.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных еди-ницах.

Вернемся к опытам, которые провел психолог с Сашей. В опытах учиты-валось, сколько точек могут поставить, работая с максимально доступ-ной им скоростью, сам Саша и каждый из его сверстников. Оценочными единицами в опытах служило число точек. Подсчитав их, исследователь получил то абсолютное число точек, которое оказалось возможным по-ставить за отведенное время каждому участнику опытов. Главная труд-ность при отнесении материалов к шкале интервалов состоит в том, что нужно располагать такой единицей, которая была бы при всех повтор-ных измерениях тождественной самой себе, т. е. одинаковой и неизмен-ной. В примере с шахматистами (шкала порядка) такой единицы вообще не существует.

В самом деле, учитывается число партий, выигранных каждым участ-ником соревнований. Но ясно, что партии далеко не одинаковы. Воз-можно, что участник соревнований, занявший четвертое место -- он выиграл шесть партий, -- выиграл труднейшую партию у самого лидера! Но в окончательных итогах как бы принимается, что все выигранные партии одинаковы. В действительности же этого нет. Поэтому при рабо-те с подобными материалами уместно их оценивать в соответствии с требованиями шкалы порядка, а не шкалы интервалов. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения.

Шкала отношений. К этой шкале относятся материалы, в которых учитываются не только число фиксированных единиц, как в шкале ин-тервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолют-ную точку, от которой и ведется отсчет. При изучении психологиче-ских объектов эта шкала практически неприменима.

Самым важным моментом, в смысле практического использования моделей систем, является установление степени соответствия между моделью и моделируемыми объектами, явлениями или процессами. Цель установления такого соответствия заключается в выяснении вопроса – является ли модель адекватной оригиналу. Самым эффективным и наиболее широко используемым методом установления истинности модели является сопоставление теоретических следствий, полученных с использованием модели, с экспериментальными данными или экспериментальными измерениями.

Результаты любого эксперимента фиксируются в той или иной форме, а затем, как правило, используются либо для проверки истинности модели, либо для создания модели исследуемого явления. В практике научных исследований обработка экспериментальных данных является важным этапом между этапами получения информации (измерения наблюдаемых свойств исследуемого объекта) и ее использования. Экспериментальные данные отображаются в определенной шкале, которая определяет допустимые методы обработки данных.

Измерение – это операция, которая данному наблюдаемому состоянию объекта, процесса или явления ставит в соответствие определенное обозначение: число, номер или символ. Такое соответствие обеспечивает то, что результаты измерений содержат информацию о наблюдаемом объекте, количество же информации зависит от степени полноты этого соответствия. Необходимая информация получается из измерений в результате их преобразования, или, как еще говорят, с помощью обработки экспериментальных данных.

Очевидно, что чем полнее соответствие между наблюдаемыми состояниями и их обозначениями, тем больше информации можно извлечь в результате обработки данных. Менее очевидно то, что степень этого соответствия зависит не только от выбора методов и способов измерений (т.е. от экспериментатора), но и от природы исследуемого явления, и что сама степень соответствия в свою очередь определяет допустимые (и недопустимые) способы обработки данных. В принципе само исследуемое явление или объект накладывают определенные ограничения на процедуру измерений.

Далее мы будем рассматривать только такие явления, процессы и объекты, про любые состояния которых можно сказать, различимы они или нет, и только такие методы измерения, которые различимым состояниям ставят в соответствие разные обозначения, а неразличимым состояниям – одинаковые обозначения. Это означает, что как состояния объекта, так и их обозначения, по крайней мере, должны удовлетворять следующим аксиомам:

Рефлексивность -

Симметричность - Если , то .

Транзитивность - Если и , то .

Здесь символ «=» обозначает отношение эквивалентности.



Для того чтобы разработать математическую модель явления или процесса необходимо в первую очередь установить типы шкал , в которых будут измерены те или иные характеристики, свойства и состояния. Тип шкалы заодно определяет группу допустимых преобразований шкалы . Допустимые преобразования не меняют соотношений между результатами измерений. При измерении расстояния переход от одной единицы измерения, например от метров к футам, не изменяет отношения между расстояниями - если объект расположен от объекта на большем расстоянии чем , то это отношение будет сохраняться, независимо от того в каких единицах будет измеряться расстояние.

Рассмотрим основные виды шкал измерения и соответствующие им группы допустимых преобразований. Прежде всего, следует отметить, что шкалы делятся на две группы: качественные и количественные. Рассмотрим качественные шкалы.

Шкала наименований илиноминальная шкала –это шкала, которая используется только для того, чтобы различать объекты.

Предположим, что число различимых состояний (число классов эквивалентности) конечно. Каждому классу эквивалентности поставим в соответствие обозначение, отличное от обозначений других классов. Теперь измерения будут состоять в том, чтобы, проведя эксперимент над объектом, определять принадлежность результата к тому или иному классу эквивалентности и записать это с помощью символа, обозначающего данный класс. Такое измерение называется измерением в шкале наименований (иногда эту шкалу называют также номинальной или классификационной). При этом множество символов, обозначающих классы эквивалентности, образует шкалу наименований.

Примерами номинальных шкал могут быть различные системы нумерации (телефонные номера, индивидуальный номер налогоплательщика и т.д.), а также название национальности, городов, стран и другие способы, позволяющие зафиксировать различия процессов, явлений или объектов или их свойств.

Допустимыми преобразованиями в номинальной шкале являются только взаимнооднозначные преобразования, например, замена числовых номеров сочетаниями букв. Примером такого взаимнооднозначного преобразования являются ІР-адреса. Пользователь использует для обозначения ІР-адреса буквы латинского алфавита и некоторые дополнительные символы, а сетевые приложения оперируют ІР-адресами, которые состоят из цифр и точек. В номинальной шкале не может использоваться ни одна из арифметических операций, а также операции отношения.

Следует подчеркнуть, что обозначения, используемые в шкале наименований это только символы, даже если для этого используются номера. Поэтому при обработке экспериментальных данных, зафиксированных в номинальной шкале, непосредственно с самими данными можно выполнять только операцию проверки их эквивалентности, а также подсчет количества измерений принадлежащих данному классу эквивалентности.

На множестве измерений в шкале наименований можно осуществлять статистическую обработку данных. Рассмотрим отдельные элементы такой обработки результатов измерений. Введем символ Кронекера следующим образом:

Тогда количество измерений принадлежащих -тому классу эквивалентности будет определяться по формуле

Здесь – общее количество измерений. Получив эти результаты можно определить относительные частоты для различных классов эквивалентности –

Порядковая шкала (также используется название ранговая шкала ) используются того чтобы задать на множестве явлений, процессов и объектов или их свойств некоторое отношение, чаще всего это отношение строгого или не строгого порядка.

Такие шкалы используются тогда, когда есть необходимость (и возможность) не только отнести результаты измерений выбранных свойств объектов или процессов к тому или иному классу эквивалентности, но сравнивать эти классы между собой по тому или иному критерию.

Отношением строгого порядка (используются обозначения , ) называется отношение обладающее следующими свойствами:

антирефлексивности -ложно;

асимметричности и -взаимоисключаются;

транзитивности : из .

Ранговая шкала, удовлетворяющая приведенным выше свойствам, называется шкалой простого или строгого порядка. Примерами такой шкалы являются воинские звания, нумерация очередности и т.д.

Примеры (принятие решений, приоритеты доступа).

Отношением нестрогого порядка (используются обозначения: , ) называется отношение, обладающее следующими свойствами:

рефлексивнности

антисимметричности

транзитивности .

Порядковая шкала, на которой выполняется отношение нестрого порядка, называется шкалой слабого порядка.

Для обработки экспериментальных данных, представленных в порядковых шкалах, используется понятие ранга. Для определения этого понятия используется ступенчатая функция вида

Тогда рангом -того измерения свойства объекта или явления называется число

где - число сравниваемых измерений.

В шкалах слабого порядка часть наблюдений может совпадать. Такие группы наблюдений называют связкой. В этом случае всем членам связки присваивается одинаковый ранг.

Следует подчеркнуть, что даже если результаты измерений в порядковой шкале представлены в виде чисел, их тем не менее нельзя обрабатывать как числа.

Примером такой порядковой шкалы является шкала твердости минералов по Моосу. Из двух минералов тверже тот, который оставляет на другом царапины или вмятины. Отношение «А тверже В» - это отношение порядка. Шкала твердости минералов – шкала слабого порядка. В ней содержится десять градаций твердости. За эталоны приняты следующие минералы с возрастающей твердостью: 1 – тальк, 2 – гипс, 3 – кальций, 4 – флюорит, 5 – апатит, 6 – ортоклаз, 7 – кварц, 8 – топаз, 9 – корунд, 10 – алмаз. Промежуточных градаций твердости в этой шкале нет. Хотя градации твердости это числа, тем не менее, нельзя говорить ни что алмаз в два раза тверже апатита, ни что разница в твердости между апатитом и кварцем такая же, как и между топазом и алмазом. Характерным примером ошибочной обработки данных, представленных в порядковой шкале, является вычисление среднего бала в бальных шкалах оценки знаний учащихся. Бальная шкала – это порядковая шкала, поэтому средний балл в такой шкале не имеет смысла. Например, по физике двух выпускников средней школы, имеющих одинаковый средний бал, могут очень сильно отличаться. В связи с этим в ответственных случаях предпочитают устраивать не конкурс документов об успеваемости, а конкурс претендентов, т.е. возвращаются к порядковому измерению, непосредственному сравнению уровня знаний по определенной дисциплине каждого претендента.

Как и в шкале наименований, взаимно-однозначное преобразование является допустимым преобразованием в этой шкале. Например, 2 – неудовлетворительно, 3 – удовлетворительно и т.д.

Наиболее широко порядковые шкалы используются в социологических и маркетинговых исследованиях, при оценке качества продукции и услуг, экспертных оценках и в других исследованиях, где возможны только качественные измерения.

Рассмотрим количественные шкалы.

Шкала интервалов . В этой шкале отсутствует естественное начало отсчета и естественная единица измерений.

Название «шкала интервалов» связано с тем, что в такой шкале имеет смысл только разность между измеренными значениями двух различных состояний объекта. Примером использования такой шкалы является разность потенциалов электрического поля системы неподвижных зарядов. Само по себе значение потенциала электрического поля в заданной точке не имеет физического смыслы. Физический смысл имеет только разность потенциалов . По определению, разность потенциалов электрического поля между точками 1 и 2 равна работе по перемещению единичного заряда из точки 1 в точку 2.

Отличительной особенностью такой шкалы является то, что она не зависит от выбора начала отсчета, а также единицы измерения. Например, для измерения температуры используются различные шкалы: абсолютная шкала, Цельсия и Фаренгейта. Все эти три шкалы отличаются выбором начала отсчета, а шкала Фаренгейта и выбором единицы измерения температуры. Например, за единицу температуры в шкале Цельсия выбрана одна сотая часть интервала между точкой таяния льда и точкой кипения воды . Тем не менее, например, разность температур между точкой замерзания и кипения воды в абсолютной шкале и шкале Цельсия одинакова и равна . В шкале Фаренгейта эта разность составляет . Для того чтобы соотнести результаты измерения температур в шкалах Цельсия и Фаренгейта используют линейные формулы преобразования:

для перехода к шкале Цельсия,

для перехода к шкале Фаренгейта.

Отсюда следует, что между измерениями температуры в рассмотренных шкалах существует линейная зависимость. Это еще одна отличительная особенность шкал интервалов, которая заключается в том, что шкалы интервалов одинаковы с точностью до линейного преобразования вида

или инвариантны относительно линейных преобразований сдвигов, растяжения или сжатия.

Любое эмпирическое научное исследование начинается с того, что исследователь фиксирует выраженность интересующих его свойств у объектов исследования как правило, при помощи чисел. Таким образом, следует различать:

1. Объекты исследования (в психологии это чаще всего люди)

2. Их свойства (то, что интересует исследователя и составляет предмет изучения)

3. Признаки, отражающие в числовой шкале выраженность свойств

В зависимости от того, какая операция лежит в основе измерения признака, различают так называемые шкалы измерений. Рассмотрим наиболее употребляемые в статистике шкалы измерений.

1. Номинальная шкала (шкала наименований, шкала классификации)используется для отнесения объектов к определённому классу. Например: пол, темперамент. Если объект может относиться только к одному из двух классов, то такая шкала называется номинальной дихотомической. Например: пол или варианты ответов на вопрос (да или нет).

2. Порядковая шкала (ранговая, ординальная), используется для отнесения объектов к определённому классу в соответствии со степенью выраженности заданного свойства изучаемого объекта. Например: оценки на экзамене или уровень тревожности.

3. Количественные шкалы имеются две разновидности количественных шкал:

· Интервальная шкала

· Абсолютная шкала (шкала отношений)

Интервальная шкала позволяет классифицировать и упорядочивать объекты, а также количественно описывать различия между свойствами объектов. Для задания этой шкалы устанавливают единицу измерения и произвольную нулевую точку отсчёта. Например: температура по шкале Цельсия ( 0 С ).

Абсолютная шкала отличается от интервальной шкалы, только тем, что в ней устанавливается абсолютная нулевая точка отсчёта соответствующее полному отсутствию выраженности измеряемого свойства. Например: температура по шкале Кельвина ( 0 К ).

Определение того, в какой шкале измерен признак, является ключевым моментом анализа данных, так как выбор необходимого статистического метода зависит именно от этого. Данные полученные в одной шкале, можно перевести в другую шкалу только в следующем направлении.

В обратном направлении, это не возможно:

Поэтому нужно стараться по мере возможности измерять в количественной шкале, так как в этом случае мы сможем перейти к любой из рассмотренных шкал.

Однако при этом происходит частичная потеря столь ценной для нас эмпирической информации об индивидуальных различиях испытуемых. Следствием этого может являться падение статистической достоверности результатов исследования.

Перевод исходных данных из количественной шкалы в порядковую, называется ранжированием . Для этого сначала, необходимо упорядочить исходную выборку, а затем каждому элементу выборки присвоить ранг. То есть, число соответствующее порядковому номеру этого элемента в упорядоченной выборке.

Конец работы -

Эта тема принадлежит разделу:

Статистические методы в психологии

Факультет философии и социальных наук.. кафедра психологии.. статистические методы в психологии лекции..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Основные этапы статистической обработки данных
1-й этап: Исходный (предварительный) анализ исследуемого реального явления. В результате этого анализа определяются: · Основные цели исследован

Способы организации выборки
Сущность статистических методов состоит в том, чтобы по некоторой части генеральной совокупности, то есть по выборке выносить суждения о свойствах генеральной совокупности в целом. Таким образом, п

Формула №6.3
после этого, в качестве требуемого количественного интервала выбирается целое число, находящееся между К1 и К2. Например: К1=7,3 и

Квантили и их интерпретация
Одним из наиболее эффективных методов обобщения исходных данных, является описание их при помощи квантилей. Квантиль – это общее, понятие частными случаями её являются: квартиль, д

Графическое представление данных
Существует 3 основных метода графического представления данных: гистограмма (столбиковая диаграмма), полигон частот, сглаженная кривая (огива). Гист

Меры изменчивости
Рассмотренные в §9 меры центральной тенденции, позволяют нам характеризовать в каком-то смысле все элементы выборки в целом. В этом случае фактически пренебрегают р

Формула №10.5
Чем больше дисперсия выборки, тем более разбросаны элементы выборки по числовой оси относительно среднего значения выборки. Пример: вычислить дисперсию следующей выборки 1,

Формула №10.6
Для нашего примера имеем: Xi

Формула №10.7
Например, если дисперсия =2,25, то стандартное отклонение будет равно, стандартное отклонение позволяет характеризовать разброс элементов выборки относительно сред

Формула №10.8
Где М и сигма константы, принимающие для соответствующей шкалы следующие значения: шкала М δ

Формула №10.9
Если β равняется нулю, то это означает, что исходная выборка (её гистограмма) является симметричной: β=0 Если β

Нормальное распределение
Значение величин представляющих исходные даны, не возможно точно предугадать, даже при полностью известных условиях эксперимента, в которых они измеряются.Мы можем лишь указать веро

Формула №11.11
Если эмпирические значения показателей асимметрии и эксцесса по абсолютной величине меньше критических значений, то делаем вывод о том, что распределение измеренного показателя не отличается от нор

Распределения, связанные с нормальным распределением
С нормальным распределением связаны многие другие распределения, среди которых в статистике чаще всего используются следующие: 1. (хи-квадрат) распределения Пирсона. 2. t-распреде


Типы статистических шкал: номинальная шкала, порядковая шкала, интервальная шкала, шкала отношений.

Номинальная шкала используется для регистрации самого низшего уровня измерений, предполагающего наличие минимальных предпосылок для измерения. При измерениях на данном уровне практически не используются числа. Здесь важно установить подобие или различие объектов по некоторому признаку, т. е. при этом имеют дело с качественными данными. Рассмотрим примеры.

Распределения учащихся по классам, по половому признаку, по месту жительства, по видам спорта, которыми они занимаются, по числу детей в семье являются примерами величин номинальной шкалы. При этом возможно распределение учащихся по двум или более признакам (двумерные или многомерные данные).

С помощью подсчета можно установить частоту той или иной категории (число мальчиков и девочек в школе; число учащихся, проживающих в каждом микрорайоне; число учащихся в каждом классе; число учащихся, занимающихся тем или иным видом спорта; количество фирм, занимающихся производством автобусов и т. д.). При этом можно определить наиболее часто встречающуюся величину (класс, в котором учится наибольшее число учащихся; вид спорта, пользующийся наибольшей популярностью у учащихся; тип автомобиля, производством которого занимается наибольшее число фирм). Категории данных номинальной шкалы обозначаются, как правило, словесно (вербально).

Порядковая , или ранговая , шкала указывает лишь последовательность носителей признака или направление степени выраженности признака.

Например, учащихся можно ранжировать по количеству правильно выполненных тестовых заданий. Пусть учащиеся А, Б, В, Г, Д правильно выполнили соответственно 21, 16, 12, 9 и 3 задания. Графически это можно изобразить так

Эта порядковая шкала имеет величины от 1 до 5, и учащиеся на ней размещены в зависимости от количества правильно выполненных заданий: А - первый, Д - пятый. Из рисунка видно, что интервалы, разделяющие места в ряду, различны по величине. По этой причине нецелесообразно складывать, вычитать, умножать и делить порядковые места.

На шкале интервалов равные интервалы отображают одинаковую меру величины измеряемого признака. Например, 1 см между 3-м и 4-м сантиметрами на шкале измерений длин имеет такой же смысл, как и 1 см между 82-м и 83-м сантиметрами. Другими словами, на шкале интервалов расстояния между соседними делениями равны. На интервальной шкале вполне осмысленным является вопрос "на сколько?". Но не всегда, пользуясь интервальной шкалой, можно формулировать вопрос "во сколько раз?". Дело в том, что на шкале интервалов устанавливаются произвольно начало отсчета (нуль шкалы), единица измерения и направление отсчета. Примером интервальной шкалы является температурная шкала по Цельсию. Разность между температурами воздуха +30 и +20 °С столь же велика, как и между -10 и -20 °С. Однако нельзя утверждать, что при температуре воздуха +30 °С в полтора раза теплее, чем при температуре +20 °С. Даже если температура воздуха равна 0 °С, нельзя утверждать, что тепла нет совсем: ведь начало отсчета выбрано произвольно.

Шкалы на большинстве физических приборов (амперметр, вольтметр и др.) являются интервальными. Шкала коэффициента интеллекта IQ является шкалой интервалов.

Шкала интервалов является метрической, с ее помощью можно выполнять сложение и вычитание. Она имеет значительные преимущества по сравнению с номинальной и порядковой шкалами.

Шкала отношений , или шкала пропорций , дает возможность устанавливать отношения значений измеряемого признака благодаря тому, что значению шкалы "0" соответствует величина, для которой измеряемый признак отсутствует. Другими словами, начало отсчета на этих шкалах выбирают непроизвольно. Примерами шкалы отношений являются меры длины (м, см и т. д.) и массы (кг, г и т. д.). Предмет длиной 100 см вдвое длиннее предмета длиной 50 см. Иногда данные нуждаются в преобразованиях. В частности, потребность в этом возникает, когда в ряду данных одно или несколько данных существенно превышают остальные. Если данные явно несимметричны, то заменяют каждое значение приведенного набора данных логарифмом этого значения с целью упростить статистический анализ. Логарифмирование преобразует "скошенные" (ассимметричные) данные в более симметричные, так как происходит "растягивание" шкалы возле нуля, малые значения, сгруппированные вместе, распределяются вдоль шкалы. В то же время логарифмирование собирает вместе большие значения на правом конце шкалы. Наиболее часто применяют десятичные и натуральные логарифмы. Равным расстояниям на логарифмической шкале соответствует на исходной шкале равные процентные увеличения, а не равные увеличения значений.

^ Проверка наличия нормального распределения.

Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.

В качестве примера рассмотрим нормальное распределение возраста, которое строится по данным исследований гипертонии (файл hyper.sav) с помощью команд меню Graphs (Графы) Histogramm... (Гистограмма) (см. рис. 5.1).

На диаграмме нанесена кривая нормального распределения (Колокол Гаусса). Реальное распределение в большей или меньшей степени отклоняется от этой идеальной кривой. Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются. Поэтому почти всегда необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно заданное распределение отличается от нормального.

Перед применением любого метода, который предполагает существование нормального распределения, наличие последнего нужно проверять в первую очередь. Классическим примером статистического теста, который исходит из гипотезы о нормальном распределении, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки. Если же данные не подчиняются нормальному распределению, следует использовать соответствующий непараметрический тест, в случае двух независимых выборок - U-тест Манна и Уитни.

Если визуальное сравнение реальной гистограммы с кривой нормального распределения кажется недостаточным, можно применить тест Колмогорова-Смирнова, который находится в меню Analyze (анализ данных) в наборе непараметрических тестов (см. раздел 14.5).

Рис. 5.1: Распределение возраста

В нашем примере с распределением возрастов тест Колмогорова-Смирнова не показывает значительного отклонения от нормального распределения.

^ Зависимость и независимость выборок.

Две выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Аналогично определяется зависимость нескольких выборок.

Чаще всего зависимые выборки возникают, когда измерение проводится для нескольких моментов времени. Зависимые выборки образуют значения параметров изучаемого процесса, соответствующие различным моментам времени.

В SPSS зависимые (также связанные, спаренные) выборки будут представляться разными переменными, которые сопоставляются друг с другом в соответствующем тесте на одной и той же совокупности наблюдений.

Если закономерное и однозначное соответствие между выборками невозможно, эти выборки являются независимыми. В SPSS независимые выборки содержат разные наблюдения (например, относящиеся к различным респондентам), которые обычно различаются с помощью групповой переменной, относящейся к номинальной шкале.

^ Обзор распространенных тестов для проверки гипотез о среднем.

В наиболее распространенной ситуации, когда требуется сравнить друг с другом разные выборки по их средних значениям или медианам, с учетом условий, описанных в разделе 5.1, обычно применяется один из восьми следующих тестов.

^ Переменные, относящиеся к интервальной шкале и подчиняющиеся нормальному распределению

^ Переменные, относящиеся к порядковой шкале или переменные, относящиеся к интервальной шкале, но не подчиняющиеся нормальному распределению

^ Вероятность ошибки.

В аналитической статистике разработаны методы вычисления так называемых тестовых (контрольных) величин, которые рассчитываются по определенным формулам на основе данных, содержащихся в выборках или полученных из них характеристик. Эти тестовые величины соответствуют определенным теоретическим распределениям (t-pacnpe-лелению, F-распределению, распределению X2 и т.д.), которые позволяют вычислить так называемую вероятность ошибки. Это вероятность равна проценту ошибки, которую можно допустить отвергнув нулевую гипотезу и приняв альтернативную.

Вероятность определяется в математике, как величина, находящаяся в диапазоне от 0 до 1. В практической статистике она также часто выражаются в процентах. Обычно вероятность обозначаются буквой р:

0
Вероятности ошибки, при которой допустимо отвергнуть нулевую гипотезу и принять альтернативную гипотезу, зависит от каждого конкретного случая. В значительной степени эта вероятность определяется характером исследуемой ситуации. Чем больше требуемая вероятность, с которой надо избежать ошибочного решения, тем более узкими выбираются границы вероятности ошибки, при которой отвергается нулевая гипотеза, так называемый доверительный интервал вероятности.

Существует общепринятая терминология, которая относится к доверительным интервалам вероятности. Высказывания, имеющие вероятность ошибки р


^ Вероятность ошибки

Значимость

Обозначение

р > 0.05

Не значимая

ns

р

Значимая

*

р

Очень значимая

**

р

Максимально значимая

***

^ Доверительный интервал вероятности.

Доверительный интервал - термин, используемый в математической статистике при интервальной (в отличие от точечной) оценке статистических параметров, что предпочтительнее при небольшом объёме выборки. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.

Доверительным интервалом параметра θ распределения случайной величины X с уровнем доверия 100p% [примечание 1] , порождённым выборкой (x 1 ,…,x n), называется интервал с границами (x 1 ,…,x n) и (x 1 ,…,x n), которые являются реализациями случайных величин L (X 1 ,…,X n) и U (X 1 ,…,X n), таких, что

Граничные точки доверительного интервала и называются доверительными пределами .

Интерпретация доверительного интервала, основанная на интуиции, будет следующей: если p велико (скажем, 0,95 или 0,99), то доверительный интервал почти наверняка содержит истинное значение θ .

^ Описательный (дескриптивный анализ).

Этот вид анализа включает описательное представление отдельных переменных. К нему относятся создание частотной таблицы, вычисление статистических характеристик или графическое представление. Частотные таблицы строятся для переменных, относящихся к номинальной шкале и для порядковых переменных, имеющих не слишком много категорий; об этом см. главы 6, 12 и 24.

Для переменных относящихся к номинальной шкале нельзя вычислить никаких значимых статистических характеристик. Наиболее часто для порядковых переменных и переменных, относящихся к интервальной шкале, но не подчиняющихся нормальному распределению, вычисляются медианы и оба квартиля (см. раздел 6.2); при небольшом числе категорий можно использовать вариант для концентрированных данных см. раздел 6.3).

Для переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, чаще всего вычисляется среднее значение и стандартное отклонение пли стандартная ошибка (см. раздел 6.2). Однако следует выбрать только одну из этих двух характеристик разброса. Для переменных, относящихся ко всем статистическим шкалам, можно построить большое разнообразных графиков, на которых представлены частоты, средние значения или другие характеристики.

^ Аналитическая статистика.

Практически любой статистический анализ наряду с чисто описательными операциями включает те или иные аналитические методы (тесты значимости), при применении которых в конечном счете определяется вероятности ошибки р (см. раздел 5.3).

Большая группа тестов служит для выяснения того, различаются ли две или более различных выборки по своим средним значениям или медианам. При этом учитывается разница между независимыми выборками (разные наблюдения) и зависимыми выборками (разные переменные; см. раздел 5.1.3). В зависимости количества выборок (две или более), от того, зависимы ли выборки или нет, относятся ли переменные к интервальной или порядковой шкале, подчиняются ли нормальному распределению - применяются специализированные тесты (см. раздел 5.2).

Очень часто встречается ситуация, когда сравниваются различные группы наблюдений или значений переменных, относящихся к номинальной шкале. В этом случае строятся таблицы сопряженности (см. главу 11). Другая группа тестов касается исследования связей между двумя переменными, то есть выявления корреляций и восстановления регрессий (см. главу 15, раздел 16.1).

Кроме этих довольно простых статистических методов существуют также более сложные методы многомерного анализа, в которых обычно одновременно используется очень много переменных. К примеру, если требуется свести большое количество переменных к меньшему количеству "пучков переменных", называемых факторами, то проводится факторный анализ (глава 19). Если же наша цель, противоположна - объединить заданные наблюдения, образовав из них кластеры, то применяется кластерный анализ (глава 20).

В определенной группе многомерных тестов вводится различие между зависимой переменной, называемой также целевой и несколькими независимыми переменными (переменными влияния или прогнозирования).


^ Зависимая переменная

Независимые переменные

Многомерный метол

Дихотомическая

Любые

Двоичная логистическая регрессия (раздел 16.4); дискриминантный анализ (глава 18)

Дихотомическая



Логит-логарифмические линейные модели

С номинальной шкалой

С номинальной или порядковой шкалой

Мультиномиальная логистическая регрессия (раздел 16.5)

С порядковой шкалой

С номинальной или порядковой шкалой

Порядковая регрессия (раздел 16.6)

С интервальной шкалой

С номинальной или порядковой шкалой

Дисперсионный анализ (раздел 17.1)

С интервальной шкалой

Любые

Ковариационный анализ (раздел 17.2); множественный регрессионный анализ (раздел 16.2)

При мультиномиальной логистической регрессии и порядковой регрессии могут также использоваться ковариации, относящиеся к интервальной шкале.

Независимые переменные, относящиеся к номинальной шкале, при двоичной логистической регрессии, дискриминантном анализе и многозначном регрессионном анализе должны быть дихотомическими либо раскладываться на набор дихотомических переменных (см. раздел 16.2). Логит-логарифмические линейные модели рассматриваются не в этой книге, а во втором томе, посвященном методам исследования рынка и общественного мнения.

Теоретическая валидизация в социологическом исследовании: Методология и методы

Благодаря Стенли Стивенсону, в нашей исследовательской практике мы оперируем несколькими типами шкал. Некоторые критикуют эту типологию, но судя по-всему никто не придумал ничего лучше.

0 Нажми, если пригодилось =ъ

Независимо от того, какой сложности анкетные вопросы или же тестовые методики вы рассматриваете, все их можно разделить на три типа в зависимости от того, к какой измерительной шкале они относятся. Речь в данном случае идет не о специфических методиках построения измерительных инструментов (например, шкала Гутмана или шкала Терстоуна), а о классификации измерительных шкал, предложенной Стэнли Стивенсом в 1946 году. Знание этой классификации имеет решающее значение с точки зрения использования количественного подхода, поскольку применение тех или иных методов математической статистики опирается, в том числе, и на измерительные шкалы, в которой отображены интересующие исследователя переменные.

Более подробно о понятии "переменная"
"Переменная" является часто употребляемым понятием в рамках научных исследований (не только в социальных и поведенческих науках) и особенно, если мы говорим о количественном подходе и применении статистических методов. Фактически переменная - это любое свойство изучаемых объектов, которое меняется от одного наблюдения к другому. Под наблюдениями в данном случае понимаются объекты изучения (люди, организации, страны или что-либо другое - зависит от самого исследования).
Если же некоторое свойство не изменяется от одного наблюдения к другому, то оно не дает никакой ценной в математическом смысле информации (большинство методов будет просто непригодно для использования).
Таким образом, в рамках количественного подхода изучаемые объекты представляются в виде набора переменных, составляющих интерес и подлежащих изучению. Нетрудно догадаться что переменные, прежде всего, делятся в зависимости от шкал, в которых они отображены. Так, можно выделить, например, номинальные, порядковые и метрические переменные. При этом, порядковые можно разделить на свернутые и непрерывные порядковые. Непрерывные порядковые переменные имеют множество численных значений и выглядят (по крайней мере, на первый взгляд), как метрические. Свернутые порядковые переменные имеют лишь несколько категорий или численных значений (не более пяти-шести). Они могут быть получены либо путем сбора данных в свернутой форме, либо сворачивания непрерывной порядковой или метрической шкалы.
Еще одним важным делением переменных является деление на зависимые и независимые. Часто в процессе анализа выдвигаются гипотезы о влиянии одних переменных на другие. В таких случаях, влияющие переменные называются независимыми, а переменные, на которые влияние оказывается, - зависимыми. Например, если мы говорим о взаимосвязи между полом студента и успешностью его обучения, то пол будет - независимой переменной, а успешность обучения - зависимой.

Согласно классификации Стивенсона, в самом общем виде, можно выделить три типа шкал:
- номинальную,
- порядковую,
- метрическую.

Номинальная шкала включает в себя класс переменных, значения которых можно разделить на группы, но невозможно проранжировать. Примерами соответствующих переменных являются пол, национальность, религия и т.д. Рассмотрим более подробно такую переменную как национальность. В данном случае респондентов можно разделить на разные группы в зависимости от того, к какой национальности они себя относят. Вместе с тем, на основе этой информации, респондентов невозможно упорядочить в смысле количественной выраженности интересующего нас параметра, ведь национальность не является измеряемым, в традиционном значении этого слова, свойством.
Порядковая шкала включает в себя класс переменных, значения которых можно не только разделить на группы, но и проранжировать в зависимости от выраженности измеряемого свойства. Классическим примером порядковой шкалы является Шкала Богардуса, предназначенная для измерения национальной дистанциированности. Ниже приведен адаптированный для населения Украины вариант (Н.Панина, Е.Головаха):

Анкетное задание
Относительно каждой национальности, приведенной ниже, выберите одно из положений, наиболее близкое для вас лично, на которое бы вы допустили представителей этой национальности.
Шкала ответов
1) как членов моей семьи;
2) как близких друзей;
3) как соседей;
4) как колег по работе;
5) как жителей Украины;
6) как поситителей Украины;
7) вообще не допускал бы в Украину.

Эта шкала позволяет упорядочить респондентов в зависимости от их отношения к той или иной национальности. Вместе с тем, она предоставляет лишь приблизительную информацию, которая не дает возможности точно оценить различия между градациями шкалы. Так, например, мы может утверждать, что респондент, готовый допустить евреев в качестве членов своей семьи будет относится к ним лучше, чем тот, кто готов допустить их лишь как соседей. Вместе с тем, мы не можем сказать "на сколько?" или "во сколько?" раз первый респондент лучше относится к представителям еврейской национальности чем второй. Другими словами, у нас нет никаких аргументов, которые бы подтверждали равенство интервалов между пунктами шкалы.
Метрическая шкала включает в себя класс переменных, значения которых можно как разделить на группы и проранжировать, так и определить их величину в точных терминах (те самые "на сколько?" и "во сколько?"). Типичными примерами соответствующих переменных являются возраст, заробтная плата, количество детей и т.д. Измерение каждой из них можно осуществить максимально точно: возраст в годах, зароботнуню плату в гривнах, количество детей в... штуках;)
Естественно, если переменная может быть потенциально выражена в метрической шкале, то эту же переменную можно выразить и в порядковой.

Например, возраст можно выразить в возрастных группах (молодежь, средний возраст, пожилой возраст), которые дают лишь приблизительную информацию о респонденте, несмотря на возможность их ранжирования.
Принадлежность переменной к метрической шкале открывает возможность использования любых статистических методов. В свою очередь принадлежность к порядковой или номинальной ограничивает выбор математических инструментов (в случае порядковой шкалы в меньшей мере, а в случае номинальной - в большой). Классификация статистических методов приведена .
Для того, чтобы сделать различия между номинальной, порядковой и метрической шкалами еще более очевидными, приведу дополнительный пример, посвященный рейтингу профессиоанальных боксеров в супертяжелом весе по версии сайта boxrec.com (информация актуальна по состоянию на 31.01.2012). При этом мы рассмотрим данные относительно боксеров первой десятки по трем переменным: этническая принадлежность боксера, его место в рейтинге и количество рейтинговых очков, которые имелись у него в активе 31.01.2012.

А) Этническая принадлежность (номинальная шкала ). Три боксера (братья Кличко и Димитренко) являются украинцами, один (Поветкин) - русским, один (Адамек) - Поляком, два (Чемберс и Томпсон) - американцами, один (Фьюри) - британцем, один (Хелениус) - фином, один (Пулев) - болгарином. Таким образом переменная "национальность" помогла нам разделить всех боксеров на 7 групп, в зависимости от их этнической принадлежности. Владея этими данными, человек далекий от бокса ничего не сможет сказать об успешности перечисленных боксеров, хотя и получит информацию об этнической принадлежности 10-ти наилучших тяжеловесов (мы и далее будет обращаться к гипотетическому эксперту):
украинцы - 30%;
американцы - 20%;
русские, поляки, британцы, фины и болгары - по 10%.
Б) Место в рейтинге (порядковая шкала ) дает приблизительную информацию об успешности боксера. Ситуация следующая:
1. Владимир Кличко
2. Виталий Кличко
3. Александр Поветкин
4. Томаш Адамек
5. Эдди Чемберс
6. Тайсон Фьюри
7. Роберт Хелениус
8. Тони Томпсон
9. Александр Димитренко
10. Кубрат Пулев
Теперь наш неосведомленный аналитик знает последовательность первой десятки боксеров супертяжелого веса. И хотя здесь уже присутствуют числа от 1 до 10, он все еще не может осуществлять никаких математических операций кроме сравнения. К примеру, он не может сказать, что Владимир Кличко лучше Эдди Чемберса на 4 единицы. Выражение "5 минус 1" в данном случае не имеет смысла. В отношении этих двух боксеров он может утверждать лишь то, что Владимир Кличко лучше Эдди Чемберса как боксер (как впрочем и всех остальных из десятки). Причина невозможности осуществления математических действий заключается в том, что между пунктами с 1-го по 10-й нет равенства интервалов. Каковы на самом деле интервалы между пунктами, можно увидеть благодаря последней переменной.
В) Количество рейтинговых очков (метрическая шкала ). Данный показатель



Поделиться