sotrud.ru 1 2 ... 89 90

Российская академия наук
Институт экологии Волжского бассейна
В.К. Шитиков,  Г.С. Розенберг
Рандомизация и бутстреп:
статистический анализ в биологии и экологии
с использованием R.
Версия 5.5  от 29.11.2012
Тольятти  2012


2
СОДЕРЖАНИЕ
1. БУТСТРЕП И СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ВЫБОРОЧНЫХ
ХАРАКТЕРИСТИК
1.1.
Точечные и интервальные характеристики
1.2.
Непараметрические методы статистики и ресамплинг
1.3.
Складной нож и бутстреп – механизмы генерации случайных
псевдовыборок

1.4.
Оценка среднего и доверительных интервалов бутстреп-методом.
1.5.
Оценка медианы бутстреп-методом.
1.6.
Бутстрепирование индексов, характеризующих многовидовые
композиции

2.   ИСПОЛЬЗОВАНИЕ РАНДОМИЗАЦИИ ДЛЯ СРАВНЕНИЯ ВЫБОРОК
2.1.   Проверка статистических гипотез
2.2.   Использование метода рандомизации для проверки гипотез
2.3.   Сравнение статистических характеристик двух независимых выборок
2.4.   Рандомизационный тест для связанных выборок
2.5.   Проблема множественных сравнений
2.6.   Сравнение трех или более независимых выборок
2.7.   Преобразование данных
2.8.  Сравнение разнообразия систем и ограничения на рандомизацию

3.
СТАТИСТИЧЕСКИЕ ЗАВИСИМОСТИ И СВЯЗИ МЕЖДУ ПЕРЕМЕННЫМИ
3.1.
Оценка парной корреляции с использованием рандомизации
3.2.
Анализ связи между признаками в таблицах сопряженности
3.3.
Статистическая значимость регрессии от одной переменной
3.4.
Нелинейная регрессия и скользящий контроль
3.5.
Модели распределения популяционной плотности по градиенту
4.
МНОГОМЕРНЫЕ МОДЕЛИ ДИСПЕРСИОННОГО И РЕГРЕССИОННОГО
АНАЛИЗА

4.1.   Основные модели ANOVA, их ограничения и особенности реализации

4.2.   Селекция модели дисперсионного анализа с фиксированными факторами
4.3.   Смешанная модель эффектов и проблема «мнимых повторностей»
4.4.     Иерархический (гнездовой) дисперсионный анализ
4.5.   Модели множественной регрессии и генетический алгоритм селекции
4.6.   Процедуры сглаживания и генеральные аддитивные модели
4.7.      Метод случайного зондирования

5.   МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ МАТРИЦЫ ДИСТАНЦИЙ
5.1.
Меры сходства/расстояния в многомерном пространстве
5.2.
Непараметрический дисперсионный анализ матриц дистанции
5.3.
Тест Мантеля для оценки связи между многомерными структурами
5.4.
Иерархический кластерный анализ и бутстрепинг деревьев
5.5.
Алгоритмы оценки оптимальности разбиения на классы
5.6.
Использование нечетких множеств для классификации и оценки силы
связи
5.7.
Дендрограммы и оценка функционального разнообразия
Главы в процессе написания  (названия условны)
6.
МЕТОДЫ ПРОЕЦИРОВАНИЯ И СНИЖЕНИЯ РАЗМЕРНОСТИ.
ДИСКРИМИНАЦИЯ И РАСПОЗНАВАНИЕ ОБРАЗОВ
7. БАЙЕСОВСКИЙ ПОДХОД И МЕТОДЫ МОНТЕ-КАРЛО. АНАЛИЗ
ВРЕМЕННЫХ РЯДОВ


3
ПРЕДИСЛОВИЕ
Стремительное  изменение  современного  мира, связанное  с  революционными
достижениями  вычислительной  техники, информационных  технологий  и  связи,
обеспечило  возможность  быстрого, комплексного  и  точного  анализа  очень  больших
массивов данных. Высокопроизводительные компьютеры и общедоступное программное
обеспечение  позволили  представлять  результаты  графически  и  в  понятной
информативной форме способами, ранее недоступными с помощью ручки и бумаги.
Менее  очевидный  процесс  связан  с  коренным  пересмотром  основных  концепций

прикладной  статистики. В  докомпьютерный  период, когда  обработка  данных  требовала

много  времени  и  усилий, делался  акцент  на  методы, которые  позволили  бы  получить
максимум  информации  при  небольшом  объеме  вычислений. Общий  подход  был  весьма
прост: делалось  предположение, что  структура  полученных  данных «похожа» на
некоторую  распространенную  статистическую  модель (например, подчиняется
нормальному распределению), после чего выборочные параметры или отношения  между
ними оценивались по относительно простым теоретическим формулам.
Однако  для  сложных  систем (прежде  всего, экономических  и  экологических),
которые  рассматриваются  как  статистические  ансамбли, состоящие  из  большого
количества  неоднородных  компонент, в  структуре  данных  наблюдается  существенное
отличие  от  обычных гауссовых  распределений. В  частности, феномен  негауссовости
заключается в том, что в результате увеличения объема выборки некоторые оцениваемые
параметры  генеральной  совокупности (в  первую  очередь, дисперсия) начинают
монотонно  возрастать, т.е. данные  перестают  подчиняться  центральной  предельной
теореме  теории  вероятностей  (Хайтун,  1983).  В  этих  случаях  выводы,  основанные  на
предположениях о нормальности, часто не являются корректными и поэтому практически
оказываются не всегда полезными.
Появление компьютеров в корне изменило концепцию обработки данных, так как
вычисления  стали  быстры  и  необременительны, а  во  краю  угла  стало  требование
корректности  формируемых  выводов. Известный  американский  статистик, профессор
Станфордского  университета  Б. Эфрон написал  статью  под  названием «Компьютеры  и
статистика: подумаем о невероятном» (Efron, 1979а), в которой обосновал развитие нового
класса  альтернативных  компьютерно-интенсивных (computer-intensive) технологий,
включающих  рандомизацию, бутстреп  и  методы  Монте-Карло. Эти  технологии,

объединенные  общим  термином "численный  ресамплинг" (по  английски – resampling,

поэтому  в  иной  транслитерации  "ресэмплинг" или "ресемплинг"), не  требуют  никакой
априорной  информации  о  законе  распределения  изучаемой  случайной  величины  и
выполняют  многократную  обработку  различных  фрагментов  исходного  массива
эмпирических  данных, как  бы  рассматривая  их  под  различными  углами  зрения  и
сопоставляя полученные таким образом результаты.
С  учетом  этого, развитие  прикладной  статистики  пошло  различными  путями.
Первый заключается в развитии традиционного «асимптотического» направления и в его
рамках расширяется арсенал методик и новых критериев, которые могут оказаться более
предпочтительными  в  тех  или  иных  условиях  обработки  данных. Но, например, в  ходе
дисперсионного  анализа  при  различных  его  модификациях  рекомендовано  к
использованию около трех десятков «именных» критериев (Дана, Коновера, Джонкхиера-
Терпстра, Бартлетта, Кокрена, Шеффе, Дункана, Тьюки, Левене, Брауна-Форсайта,
Бхапкара, Дешпанде, Краскела–Уоллиса, Фридмана, Квейда, Пэйджа, Хотеллинга,
Джеймса-Сю, Пури-Сена-Тамура, Шейрера-Рэя-Хэйра, Уилкса, Кульбака  и  др.), для
проверки  нормальности  распределения – более  двух  десятков  критериев  согласия, а  в
непараметрической  статистике  число  методик  сравнения  выборок, представленных  в
справочниках (Гайдышев, 2001; Кобзарь, 2006), приближается  к  сорока. Области



следующая страница >>