«Узловский филиал Тульского областного медицинского колледжа»
Реферат по математике на тему: «Математическая статистика и её роль в медицине и здравоохранении»
2014 г
-1-
Содержание:
Математическая статистика и её связь с теорией вероятности;
Основные задачи и понятия математической статистики;
Определение выборки и выборочного распределения;
Графическое изображение выборки;
Определение понятие полигона и гистограммы;
Санитарная (медицинская) статистика — отрасль статистической науки
-2-
1. Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называют сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.
Предмет и метод математической статистики.
Статистическое описание совокупности, с одной стороны, и описанием совокупности по ее общим свойствам, совсем не требующим ее расчленения на отдельные объекты, с другой. По сравнению с первым способом статистические данные всегда в большей или меньшей степени обезличены и имеют лишь ограниченную ценность в случаях, когда существенны именно индивидуальные данные. С другой стороны, по сравнению с данными о наблюдаемых извне суммарных свойствах совокупности статистические данные позволяют глубже проникнуть в существо дела. Например, данные гранулометрического анализа породы (т. е. данные о распределении образующих породу частиц по размерам) дают ценную дополнительную информацию по сравнению с испытанием не расчлененных образов породы, позволяя в некоторой мере объяснить свойства породы, условия ее образования и пр.
Метод исследования, опирающийся на рассмотрение статистических данных о тех или иных совокупностях объектов, называется статистическим. Статистический метод применяется в самых различных областях знания. Однако черты статистического метода в применении к объектам различной природы столь своеобразны, что было бы бессмысленно объединять, например, социально-экономическую статистику, физическую статистику, звездную статистику и т. п. в одну науку.
Общие черты статистического метода в различных областях знания сводятся к подсчету числа объектов, входящих в те или иные группы, рассмотрению распределения количественных признаков, применению выборочного метода (в случаях, когда детальное исследование всех объектов обширной совокупности затруднительно), использованию теории вероятностей при оценке достаточности числа наблюдений для тех или иных выводов и т. п. Эта формальная математическая
-3-
сторона статистических методов исследования, безразличная к специфической природе изучаемых объектов, и составляет предмет математической статистики.
Связь математической статистики с теорией вероятностей
Связь математической статистики с теорией вероятностей имеет в разных случаях различный характер. Теория вероятностей изучает не любые массовые явления, а явления случайные и именно «вероятностно случайные», т. е. такие, для которых имеет смысл говорить о соответствующих им распределениях вероятностей. Тем не менее теория вероятностей играет определенную роль и при статистическом изучении массовых явлений любой природы, которые могут не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей теорию выборочного метода и теорию ошибок. В этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а приемы их исследования.
Более важную роль играет теория вероятностей при статистическом исследовании вероятностно случайных явлений. Здесь в полной мере находят применение такие основанные на теории вероятностей разделы математической статистики, как проверка статистических гипотез, статистическое оценивание распределений вероятностей и входящих в них параметров и т. д. Область же применения этих более глубоких статистических методов значительно уже, т. к. здесь требуется, чтобы сами изучаемые явления были подчинены достаточно определенным вероятностным закономерностям. Например, статистическое изучение режима турбулентных водных потоков или флюктуаций в радиоприемных устройствах производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам в виду того, что входящее в определение стационарного процесса допущение наличия сохраняющихся в течении длительного времени неизменных распределений вероятностей в этом случае, как правило, совершенно неприемлемо.
Вероятностные закономерности получают статистическое выражение (вероятности осуществляются приближенно в виде частот, а математические ожидания – в виде средних) в силу закона больших чисел.
-4-
2.ОСНОВНЫЕ ПОНЯТИЯ СТАТИСТИКИ
Объект исследования — это область научных знаний, в пределах которой выявлена и существует изучаемая проблема, это процесс или явление, порождающее проблемную ситуацию и выбранное для изучения.
Предмет исследования — отдельная проблема определенной области знаний, которую исследователь собирается изучать и анализировать.
Цель исследования — это желаемый конечный результат исследовательской деятельности. Цель исследования определяет тактику организации научной деятельности.
Задачи исследования — это перечень проблем, которые должны быть всесторонне рассмотрены для полноценного анализа изучаемой темы.
Субъект — непосредственные исполнители медико-статистического исследования. Статистическая совокупность — группа относительно однородных элементов в конкретных условиях времени и пространства.
В зависимости от охвата единиц наблюдения статистическая совокупность может быть:
– генеральная — состоит из всех качественно однородных единиц наблюдения, которые могут быть к ней отнесены в зависимости от целей исследования;
– выборочная — часть генеральной совокупности, отобранная специальным выборочным методом и предназначенная для характеристики генеральной совокупности.
Общий обзор
В статистике популяция представляет целую группу индивидуумов, которые нас интересуют. Вообще, изучать целую популяцию довольно дорого и трудоемко, а в некоторых случаях просто невозможно, так как популяция может быть гипотетической, поэтому собирают данные по выборке индивидуумов, как предполагают, представителей этой популяции, и используют их для того, чтобы сделать выводы ( т.е. делать заключения) относительно этой популяции.
Когда берут выборку из популяции, имеют ввиду, что информация в выборке не может
-5-
полностью отражать то, что истинно в этой популяции. Возможна ошибка, обусловленная выборкой, так как изучалась только часть популяции.
Далее мы разберем, как использовать теоретическое распределение вероятности для определения величины этой ошибки.
Репрезентативная выборка
Репрезентативная выборка (representative sample) - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности.
Например, если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной.
Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов.
Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности.
Выборочная (эмпирическая) функция распределения дает при большом объеме выборки достаточно хорошее представление о функции распределения F(x) исходной генеральной совокупности.
Оценка параметров популяции: точечные оценки
Мы часто заинтересованы в оценке параметра в популяции, среднего или стандартного отклонения. Обычно обозначают среднее популяции как , а стандартное отклонение популяции как .
В статистике принято обозначать популяционные параметры (генеральные) буквами греческого алфавита, а выборочные – соответствующими им буквами латинского алфавита, например, и m , и и т. д.
Мы оцениваем значение параметра, используя данные, собранные в выборке.
-6-
Эта оценка – точечная оценка генерального параметра ( т.е. она принимает только одно значение) в отличие от интервальной оценки, которая имеет интервал значений.
Точечную оценку описывает выборочная статистика.
Выборочная дисперсия, выборочное стандартное отклонение
Если повторить извлечение выборок того же самого объема из популяции, маловероятно, что оценки параметра популяции будут точно такими же в каждой выборке. Однако все оценки должны быть близки к истинному значению параметра (генеральному параметру) в популяции и подобны друг другу.
Определяя величину вариабельности этих оценок, мы поймем, насколько они точны, и таким образом сможем оценить ошибку, обусловленную выборкой.
Обычно берут только одну выборку из популяции. Однако можно использовать знания о теоретическом распределении выборочных оценок для того, чтобы сделать выводы относительно генерального параметра популяции.
Выборочное стандартное отклонение s оценивается по наблюдаемой реализации выборки:
Стандартное отклонение отражает вариабельность в значениях данных и должно быть указано, если нужно пояснить изменчивость в наборе данных.
Выборочное распределение среднего, ошибка среднего
Предположим, что мы заинтересованы в оценке среднего популяции; можно брать много повторных выборок объема n из популяции и оценить среднее в каждой выборке.
Если объем выборки разумно большой, оценки среднего имеют нормальное распределение при любом распределении исходных данных в популяции.
Данное утверждение следует из теоремы, известной как центральная предельная теорема:
→ N (0,1) при n → ∞
-7-
Если объем выборки небольшой, оценки среднего отвечают нормальному распределению при условии, что данные в популяции также отвечают нормальному распределению;
Среднее этих оценок – несмещенная оценка истинного среднего в популяции
(генерального среднего), т.е. среднее этих оценок эквивалентно истинному среднему в популяции;
Вариабельность распределения выражается стандартным отклонением оценок, известным как стандартная ошибка среднего (часто обозначают как Standard Error Means, SEM).
Если бы мы знали стандартное отклонение популяции σ, тогда стандартная ошибка среднего описывалась бы так:
В случае если есть, как обычно, только одна выборка, нашей лучшей оценкой среднего популяции будет выборочное среднее, а так как редко бывает известно стандартное отклонение в популяции (генеральный стандарт), то стандартную ошибку среднего оценивают следующим образом:
где s – стандартное отклонение в выборке.
Стандартная ошибка среднего отражает точность нашей оценки.
Большая стандартная ошибка указывает, что оценка неточна;
Небольшая стандартная ошибка указывает, что оценка точна;
Стандартная ошибка уменьшится, т.е. мы получим более точную оценку, если:
Объем выборки увеличится;
Данные имеют небольшое рассеяние.
Итак, стандартная ошибка отображает точность выборочного среднего и должна быть указана, если интересует среднее значение набора данных.
-8-
3. Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен. Если же выбором
прецедентов можно управлять, то возникают задачи оптимального формирования выборки, см. также активное обучение, планирование экспериментов, выборочное обследование.
По каждому прецеденту собираются (измеряются) некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для статистического анализа данных, интеллектуального анализа данных, машинного обучения.
Термины выборка (sample, set) и данные (data) взаимозаменяемы; иногда они употребляются вместе как один термин выборка данных (data set). Поэтому анализ данных можно понимать также как анализ конечных выборок. Основные цели анализа данных:
проверка гипотез относительно имеющейся выборки данных;
эмпирическая индукция — выявление общих закономерностей, присущих всей генеральной совокупности, по имеющийся выборке данных;
прогнозирование — формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
Вероятностная модель порождения данных
Случайная выборка
Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом. Объём (длина) выборки считается произвольной, но фиксированной, неслучайной величиной.
Формально это означает, что с генеральной совокупностью связывается вероятностное пространство , где — множество всех
-9-
выборок длины , — заданная на этом множестве сигма-алгебра событий, — вероятностная мера, как правило, неизвестная.
Случайная выборка — это последовательность из прецедентов, выбранная из множества согласно вероятностной мере .
Однородная выборка
Выборка называется однородной, если все её прецеденты одинаково распределёны, то есть выбраны из одного и того же распределения .
myunivercity.ru
ПО САМОПОДГОТОВКЕ, САМООЦЕНКЕ И САМОКОНТРОЛЮ
тема:«Математическая статистика и ее роль в медицине и здравоохранении»Дисциплина Математика
Специальность «Сестринское дело» «Фармация»
Курс II
Рассмотренона заседании ЦМК ЕН и физвоспитания_______ ________________________________ Протокол №_____________ от «____»________2014 г. Председатель комиссии _____________ | Составлена преподавателем дисциплины Математика Бухтеевой Н.А. |
2014
Пояснительная записка
Пособие предназначено для организации самостоятельной работы студентов по специальностям: Сестринское дело, Лечебное дело, Фармация, Лабораторная диагностика.
Тематика и задания выбраны с учетом реализации ФГОС по дисциплине Математика.
В пособии включены теоретические материалы и практические задания для подготовки к занятиям, краткая теоретическая справка по каждой изучаемой теме, тестовые задания для самоконтроля, контрольно-измерительные материалы для зачета.
Содержание
1. Математическая статистика. Расчет выборочных характеристик.
2. Медицинская статистика. Медико- демографические показатели.
3. Применение математических методов в профессиональной деятельности среднего медицинского персонала.
1. Математическая статистика. Расчет выборочных характеристик.Математическая статистика – наука о математических методах систематизации и использования статистических данных для научных и практических выводов.
Поиск новых методов диагностики и лечения, выбор наилучшего из уже принятых – везде статистические соображения играют не последнюю роль. Чтобы принять полноправное участие в обсуждении этих вопросов, медицинский работник должен быть знаком с принципами и основными методами статистики.
В результате применения статистического метода мы получаем оценку вероятности того или иного предположения. Кроме того каждый статистический метод основан на собственной математической модели и результат его правильный настолько, насколько эта модель соответствует действительности.
Случайная величина- величина, которая в результате испытания может примет одно и только одно возможное значение наперед не известное и не зависящее от случайных величин, которые заранее не могут быть учтены.
Обозначение случайной величины: X,Y,Z.
Значения случайной величины :
Дискретной случайной величиной называют такую величину, множество значений которой либо конечное, либо бесконечное, но счетное.
Счетное множество- это бесконечное множество, элементы которого возможно пронумеровать натуральными числами.
Примеры дискретной случайной величины:
Примеры непрерывных случайных величин:
Таблица задает закон распределения случайной величины X, если выполняется равенство:
Генеральная статистическая совокупность- совокупность всех исследуемых объектов (бесконечное большая величина).
Выборочная совокупность или выборка - множества объектов, случайно отобранных из генеральной совокупности.
Число наблюдений в совокупности называется ее объемом.
N- объем генеральной совокупности.
n- объем выборки.
Варианта - значения случайной величины.
Частота встречаемости – означает, сколько раз встретилось значение .
Вариационный ряд - выборка, представляющая собой неубывающую числовую последовательность.
Статистическое распределение (статистический ряд) записывают в виде таблицы:
- варианты,
- частота встречаемости варианты .
Для графического изображения статистического дискретного ряда на координатной плоскости откладываются точки () и соединяются отрезками, образуя ломаную - полигон частот.
Выборочное распределение - записывают в виде таблицы.
- относительные частоты встречаемости значенияn =- объем выборки
Основные числовые характеристики случайной величины
Размах выборки - разность между максимальным и минимальным значением вариант.
Медиана (Ме)- это серединная, центральная варианта, делящая вариационный ряд пополам на две части.
Например, если число наблюдений составляет 33, медианой будет варианта, занимающая 17-е ранговое место, так как в обе стороны от нее находится по 16 наблюдений . В ряде с четным числом наблюдений за медиану принимается полусумма в центре находящихся двух величин.
Мода (Мо)- это чаще всего встречающаяся или наиболее часто повторяющаяся величина признака. При приближенном нахождении моды в простом (на сгруппированном) ряде, она определяется как варианта с наибольшим количеством частот.
Математическое ожидание (выборочное среднее)- среднее арифметическое выборки.
Если задано выборочное распределение:
Если задано статистическое распределение:
Практическое применение средних величин
1.Для оценки состояния здоровья, например, параметров физического развития (средний рост, средний вес, средний объем жизненной емкости легких и т.д.) соматических показателей (средний уровень сахара в крови, средний пульс и т.д.)
2. Для оценки организации работы лечебно-профилактических и санитарно-противоэпидемических учреждений, а также деятельности отдельных врачей и других медицинских работников (средняя длительность пребывания больного на койке, среднее число посещений на 1 ч приема).
3. Для оценки состояния окружающей среды.
Дисперсия («рассеяние») случайной величины- мера разброса случайной величины, равная математическому ожиданию квадрата отклонения случайной величины от ее математического ожидания. Чем больше разброс, тем больше дисперсия.
Если случайная величина задана статистическим рядом:
D(X)=
Если величина задана выборочным распределением:
D(X)=
Также можно воспользоваться формулой:
D(X)=M()-где M(=
Среднее квадратическое отклонение:
=
При помощи квадратического отклонения можно установить степень типичности средней, пределы рассеяния ряда, пределы колебаний вокруг средней отдельных вариант.
Применение среднего квадратического отклонения дает возможность оценки и сравнения разнообразия нескольких однородных рядов распределения, так как - величина именная, выражается абсолютным числом в единицах изучаемой совокупности (см, кг,мл/л, и т.д)
Примеры решения задач:
1.Статистическое распределение случайной величины представлено в таблице. Вычислите объем выборки и размах, моду (Мо) и медиану (Ме).
1 | 2 | 5 | 6 | 8 | 10 | 12 | 13 | 15 | |
2 | 3 | 3 | 5 | 6 | 4 | 4 | 2 | 1 |
1.Объем выборки - сумма
n=2+3+3+5+6+4+4+2+1=30
2. Размах выборки: =15-1=14.
3. Модой является варианта x=8, Мо=8.
4. Медианой является полусумма 15 и 16 вариант значит Ме=8
Ответ: n=30; Мо=8; Ме=8.
2. Случайная величина X задана законом распределения:
1 | 3 | 5 | 7 | |
0,1 | 0,3 | 0,4 | 0,2 |
Решение:
1.Вычислим математическое ожидание по формуле
=M(Х)==10,1+3
M(X)=4,4
2. Вычислим дисперсию 2-мя способами:
inf.na5bal.ru
«Узловский филиал Тульского областного медицинского колледжа»
Реферат по математике на тему: «Математическая статистика и её роль в медицине и здравоохранении»
2014 г
-1-
Содержание:
Математическая статистика и её связь с теорией вероятности;
Основные задачи и понятия математической статистики;
Определение выборки и выборочного распределения;
Графическое изображение выборки;
Определение понятие полигона и гистограммы;
Санитарная (медицинская) статистика — отрасль статистической науки
-2-
1. Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными называют сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.
Предмет и метод математической статистики.
Статистическое описание совокупности, с одной стороны, и описанием совокупности по ее общим свойствам, совсем не требующим ее расчленения на отдельные объекты, с другой. По сравнению с первым способом статистические данные всегда в большей или меньшей степени обезличены и имеют лишь ограниченную ценность в случаях, когда существенны именно индивидуальные данные. С другой стороны, по сравнению с данными о наблюдаемых извне суммарных свойствах совокупности статистические данные позволяют глубже проникнуть в существо дела. Например, данные гранулометрического анализа породы (т. е. данные о распределении образующих породу частиц по размерам) дают ценную дополнительную информацию по сравнению с испытанием не расчлененных образов породы, позволяя в некоторой мере объяснить свойства породы, условия ее образования и пр.
Метод исследования, опирающийся на рассмотрение статистических данных о тех или иных совокупностях объектов, называется статистическим. Статистический метод применяется в самых различных областях знания. Однако черты статистического метода в применении к объектам различной природы столь своеобразны, что было бы бессмысленно объединять, например, социально-экономическую статистику, физическую статистику, звездную статистику и т. п. в одну науку.
Общие черты статистического метода в различных областях знания сводятся к подсчету числа объектов, входящих в те или иные группы, рассмотрению распределения количественных признаков, применению выборочного метода (в случаях, когда детальное исследование всех объектов обширной совокупности затруднительно), использованию теории вероятностей при оценке достаточности числа наблюдений для тех или иных выводов и т. п. Эта формальная математическая
-3-
сторона статистических методов исследования, безразличная к специфической природе изучаемых объектов, и составляет предмет математической статистики.
Связь математической статистики с теорией вероятностей
Связь математической статистики с теорией вероятностей имеет в разных случаях различный характер. Теория вероятностей изучает не любые массовые явления, а явления случайные и именно «вероятностно случайные», т. е. такие, для которых имеет смысл говорить о соответствующих им распределениях вероятностей. Тем не менее теория вероятностей играет определенную роль и при статистическом изучении массовых явлений любой природы, которые могут не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей теорию выборочного метода и теорию ошибок. В этих случаях вероятностным закономерностям подчинены не сами изучаемые явления, а приемы их исследования.
Более важную роль играет теория вероятностей при статистическом исследовании вероятностно случайных явлений. Здесь в полной мере находят применение такие основанные на теории вероятностей разделы математической статистики, как проверка статистических гипотез, статистическое оценивание распределений вероятностей и входящих в них параметров и т. д. Область же применения этих более глубоких статистических методов значительно уже, т. к. здесь требуется, чтобы сами изучаемые явления были подчинены достаточно определенным вероятностным закономерностям. Например, статистическое изучение режима турбулентных водных потоков или флюктуаций в радиоприемных устройствах производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам в виду того, что входящее в определение стационарного процесса допущение наличия сохраняющихся в течении длительного времени неизменных распределений вероятностей в этом случае, как правило, совершенно неприемлемо.
Вероятностные закономерности получают статистическое выражение (вероятности осуществляются приближенно в виде частот, а математические ожидания – в виде средних) в силу закона больших чисел.
-4-
2.ОСНОВНЫЕ ПОНЯТИЯ СТАТИСТИКИ
Объект исследования — это область научных знаний, в пределах которой выявлена и существует изучаемая проблема, это процесс или явление, порождающее проблемную ситуацию и выбранное для изучения.
Предмет исследования — отдельная проблема определенной области знаний, которую исследователь собирается изучать и анализировать.
Цель исследования — это желаемый конечный результат исследовательской деятельности. Цель исследования определяет тактику организации научной деятельности.
Задачи исследования — это перечень проблем, которые должны быть всесторонне рассмотрены для полноценного анализа изучаемой темы.
Субъект — непосредственные исполнители медико-статистического исследования. Статистическая совокупность — группа относительно однородных элементов в конкретных условиях времени и пространства.
В зависимости от охвата единиц наблюдения статистическая совокупность может быть:
– генеральная — состоит из всех качественно однородных единиц наблюдения, которые могут быть к ней отнесены в зависимости от целей исследования;
– выборочная — часть генеральной совокупности, отобранная специальным выборочным методом и предназначенная для характеристики генеральной совокупности.
Общий обзор
В статистике популяция представляет целую группу индивидуумов, которые нас интересуют. Вообще, изучать целую популяцию довольно дорого и трудоемко, а в некоторых случаях просто невозможно, так как популяция может быть гипотетической, поэтому собирают данные по выборке индивидуумов, как предполагают, представителей этой популяции, и используют их для того, чтобы сделать выводы ( т.е. делать заключения) относительно этой популяции.
Когда берут выборку из популяции, имеют ввиду, что информация в выборке не может
-5-
полностью отражать то, что истинно в этой популяции. Возможна ошибка, обусловленная выборкой, так как изучалась только часть популяции.
Далее мы разберем, как использовать теоретическое распределение вероятности для определения величины этой ошибки.
Репрезентативная выборка
Репрезентативная выборка (representative sample) - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности.
Например, если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной.
Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов.
Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности.
Выборочная (эмпирическая) функция распределения дает при большом объеме выборки достаточно хорошее представление о функции распределения F(x) исходной генеральной совокупности.
Оценка параметров популяции: точечные оценки
Мы часто заинтересованы в оценке параметра в популяции, среднего или стандартного отклонения. Обычно обозначают среднее популяции как , а стандартное отклонение популяции как .
В статистике принято обозначать популяционные параметры (генеральные) буквами греческого алфавита, а выборочные – соответствующими им буквами латинского алфавита, например, и m , и и т. д.
Мы оцениваем значение параметра, используя данные, собранные в выборке.
-6-
Эта оценка – точечная оценка генерального параметра ( т.е. она принимает только одно значение) в отличие от интервальной оценки, которая имеет интервал значений.
Точечную оценку описывает выборочная статистика.
Выборочная дисперсия, выборочное стандартное отклонение
Если повторить извлечение выборок того же самого объема из популяции, маловероятно, что оценки параметра популяции будут точно такими же в каждой выборке. Однако все оценки должны быть близки к истинному значению параметра (генеральному параметру) в популяции и подобны друг другу.
Определяя величину вариабельности этих оценок, мы поймем, насколько они точны, и таким образом сможем оценить ошибку, обусловленную выборкой.
Обычно берут только одну выборку из популяции. Однако можно использовать знания о теоретическом распределении выборочных оценок для того, чтобы сделать выводы относительно генерального параметра популяции.
Выборочное стандартное отклонение s оценивается по наблюдаемой реализации выборки:
Стандартное отклонение отражает вариабельность в значениях данных и должно быть указано, если нужно пояснить изменчивость в наборе данных.
Выборочное распределение среднего, ошибка среднего
Предположим, что мы заинтересованы в оценке среднего популяции; можно брать много повторных выборок объема n из популяции и оценить среднее в каждой выборке.
Если объем выборки разумно большой, оценки среднего имеют нормальное распределение при любом распределении исходных данных в популяции.
Данное утверждение следует из теоремы, известной как центральная предельная теорема:
→ N (0,1) при n → ∞
-7-
Если объем выборки небольшой, оценки среднего отвечают нормальному распределению при условии, что данные в популяции также отвечают нормальному распределению;
Среднее этих оценок – несмещенная оценка истинного среднего в популяции
(генерального среднего), т.е. среднее этих оценок эквивалентно истинному среднему в популяции;
Вариабельность распределения выражается стандартным отклонением оценок, известным как стандартная ошибка среднего (часто обозначают как Standard Error Means, SEM).
Если бы мы знали стандартное отклонение популяции σ, тогда стандартная ошибка среднего описывалась бы так:
В случае если есть, как обычно, только одна выборка, нашей лучшей оценкой среднего популяции будет выборочное среднее, а так как редко бывает известно стандартное отклонение в популяции (генеральный стандарт), то стандартную ошибку среднего оценивают следующим образом:
где s – стандартное отклонение в выборке.
Стандартная ошибка среднего отражает точность нашей оценки.
Большая стандартная ошибка указывает, что оценка неточна;
Небольшая стандартная ошибка указывает, что оценка точна;
Стандартная ошибка уменьшится, т.е. мы получим более точную оценку, если:
Объем выборки увеличится;
Данные имеют небольшое рассеяние.
Итак, стандартная ошибка отображает точность выборочного среднего и должна быть указана, если интересует среднее значение набора данных.
-8-
3. Выборка (sample, set) — конечный набор прецедентов (объектов, случаев, событий, испытуемых, образцов, и т.п.), некоторым способом выбранных из множества всех возможных прецедентов, называемого генеральной совокупностью.
Если исследователь не имеет возможности управлять выбором прецедентов, то обычно предполагается, что выбор прецедентов случаен. Если же выбором
прецедентов можно управлять, то возникают задачи оптимального формирования выборки, см. также активное обучение, планирование экспериментов, выборочное обследование.
По каждому прецеденту собираются (измеряются) некоторые данные (data), образующие описание прецедента. Совокупность описаний всех прецедентов выборки является входной информацией для статистического анализа данных, интеллектуального анализа данных, машинного обучения.
Термины выборка (sample, set) и данные (data) взаимозаменяемы; иногда они употребляются вместе как один термин выборка данных (data set). Поэтому анализ данных можно понимать также как анализ конечных выборок. Основные цели анализа данных:
проверка гипотез относительно имеющейся выборки данных;
эмпирическая индукция — выявление общих закономерностей, присущих всей генеральной совокупности, по имеющийся выборке данных;
прогнозирование — формирование статистически обоснованных предсказаний относительно новых данных, которые ещё не наблюдались.
Вероятностная модель порождения данных
Случайная выборка
Вероятностная модель порождения данных предполагает, что выборка из генеральной совокупности формируется случайным образом. Объём (длина) выборки считается произвольной, но фиксированной, неслучайной величиной.
Формально это означает, что с генеральной совокупностью связывается вероятностное пространство , где — множество всех
-9-
выборок длины , — заданная на этом множестве сигма-алгебра событий, — вероятностная мера, как правило, неизвестная.
Случайная выборка — это последовательность из прецедентов, выбранная из множества согласно вероятностной мере .
Однородная выборка
Выборка называется однородной, если все её прецеденты одинаково распределёны, то есть выбраны из одного и того же распределения .
referat911.ru