Цитата: BomBarDir от 07.02.2018 16:17:57Прикол в том, что корреляционный анализ, насколько мне позволяет вспомнить мой склероз, это метод (или инструмент, не помню уж) позволяющий установить статистическую зависимость между какой то там выборкой, заранее подготовленной по определённому правилу. В результате построения корреляционного поля можно оценить зависимость. Она или есть (сильная или большая штоле?) или её нет. Всё.
Пирсон если "1" или "-1" то сильная корреляция (или отрицательная корреляция, тоже связь), а именно мера линейной зависимости. Если 0, то корреляции нет.
Но нужно учитывать, что из корреляции не обязательно следует причинно-следственная связь (а вот где есть связь, там часто обнаруживается корреляция). То есть существуют так называемые ложные корреляции.
В учебниках часто дают веселые примеры:
а) случайные совпадения
Например данные о количестве людей, утонувших в бассейне и количеством фильмов, в которых снялся Николас Кейдж.
Или
Затраты США на науку, космос и технологии / Суициды путем повешения и удушения. Корреляция 99,79%.
Доля разводов в штате Мэн / Среднее потребление маргарина. Корреляция 99,26%
Тут еще "Безумные корреляции":
http://rationalnumbe…rrelyacii/б) Есть корреляции объясняющихся воздействием третьего скрытого признака.
Например, количество самоубийств и кол-во радиоприемников на душу населения сильно положительно коррелировано (воздействие скрытой связи "размер города")
Или есть корреляция: чем больше продается мороженного на пляже, тем больше утопленников.
корреляция (на каком то пляжу где записывали данные) слабая 0,33, но имеется.
Можно, конечно, сразу делать вывод опровергательстких масштабов: то ли чем больше едят мороженного, тем чаще тонут от переизбытка сладости, то ли раз чаще тонут, то другие больше едят мороженное на нервной почве наблюдая праздно за шумихой. Но на самом деле есть скрытая третья переменная, через которою есть связь (температура)
Кроме этого нужно избегать других неточностей.
1. Во первых, автор сравнивает коэффициенты корреляции (как меру похожести) по отношению только к одним опорным данным (выборкой это назвать сложно, но об этом ниже ) — по Луне-16 — а не сравнивает миссии попарно.
Это аналогично тому, что при сравнении "близости" разных точек О, A и B на плоскости, сравниваются только их расстояния до одной точки О.
Чисто геометрически, даже если "расстояния" ("похожести") до основной точки будут одинаковые (т.е. расстояние OA примерно равно OB), ничего нельзя сказать о похожести AB (они могут быть как далеко друг от друга, на противоположенных сторонах окружности вокруг О, так и рядом).
2. Как указано по
ссылке (данной Выше) автор не совсем понимает, что такое корреляция и почему, например, коэффициент корреляции между измерениями:
одного ученого: 1, 2, 3
и другого: 50, 80, 150.
будет вообще аж 0.974! Но это не означает равенства (и верности, и схожести) измерений между этими данными.
Корреляция лишь отражает линейную зависимость (и возможную связь), а не равенство.
3. Не делают корреляцию вдоль разнородных данных (процентовок разных оксидов, слонов и попугаев).
Коррелируют или выборки,
а) скажем берут 10 миссий, смотрят для них корреляцию оксида Магния (10 значений) или Марганца (10 значений). Для установки зависимости между одним элементом или другим .
б) Или делают сравнение или проверку гипотез ставя те или иные вопросы.
Например, берут выборки 5 миссий (марганца) и 10 миссий (тоже марганца) и отвечают на вопрос (проверяют гипотезу) равны ли средние выборок (или же просто случайно отличаются). Для этого применяют критерии. Причем если известно распределение и его параметры то параметрические, если нет, то непараметрические критерии. И там тоже есть всякие нюансы.
(об этом ниже)
4. Дальше, если просто смотреть на цифры (понимая по предыдущему пункту, что нельзя сравнивать разнородные признаки корреляцией вдоль них), то можно заметить, что минералы со концентрациями близким к 0% практически не участвую в оценке коэффициента корреляции. (Оксиды марганца, калия, натрия)
На графике они около точки 0 и наложились друг она друга.
Они могут отличаться хоть в 10 раз (между миссиями) но сильно от этой нулевой точки не уйдут. Прямая это не "почувствует". Их изменение не влияет на вычисленный коэффициент Пирсона. Меняй хоть в 10 раз оксиды натрия или марганеца. Пирсон покажет, что образцы практически так же "похожи"
Можно это заметить, что если убрать эти оксиды из данных, то останутся точки которые сильнее разбросаны от прямой. За счет сокращения базы среднего, коэффициент уменьшится.
И наоборот, если добавить оксиды "серебра" золота" (нулевые точки причем хоть одинаковые, хоть отличающиеся в 10 раз, но они при этом все равно малые, около нуля), то КП увеличится (кол-во точек будут уменьшать среднее "отличий")
6) Чтоб обрабатывать задачу желательно
- сделать визуальное представление данных о чем речь (обзор)
- похожесть сравнивать попарно
- нормировать данные (при вычислении похожести)
- для сравнения попарно нужно выбрать измерение "похожести". Коэффициент корреляции не единственный, можно применять другие метрики "расстоянии" (например cosine или евклидово)
- попробовать представить на плоскости (понижение пространства) чтоб посмотреть, кто более с кем похож визуально, кластеры и выбросы.
- проверять те или иные гипотезы по тем или иным признакам.
В качестве примера. (И для небольшой разминки)
Воспользовавшись исходными данными автора из
05 февраля 2018,i
| mission
| type
| SiO2
| Al2O3
| TiO2
| FeO
| MgO
| CaO
| Na2O
| K2O
| MnO
|
1
| Л16
| Море
| 41.70
| 15.33
| 3.39
| 16.64
| 8.78
| 12.49
| 0.34
| 0.10
| 0.21
|
2
| Л20
| Горы
| 44.20
| 22.90
| 0.56
| 7.03
| 9.70
| 15.20
| 0.55
| 0.10
| 0.12
|
3
| Л24
| Море
| 43.30
| 15.20
| 1.13
| 16.30
| 8.69
| 13.10
| 0.42
| 0.04
| 0.22
|
4
| A11
| Море
| 41.90
| 13.55
| 7.56
| 15.94
| 7.82
| 12.08
| 0.40
| 0.13
| 0.21
|
5
| A12
| Море
| 45.90
| 12.50
| 2.81
| 16.40
| 10.00
| 10.40
| 0.41
| 0.25
| 0.22
|
6
| A14
| Горы
| 47.20
| 17.20
| 1.79
| 10.40
| 9.37
| 11.00
| 0.66
| 0.58
| 0.14
|
7
| A15
| Море
| 47.07
| 14.17
| 1.75
| 14.92
| 10.44
| 8.95
| 0.39
| 0.20
| 0.18
|
8
| A16
| Горы
| 45.17
| 26.71
| 0.59
| 5.57
| 6.03
| 15.61
| 0.44
| 0.12
| 0.08
|
9
| A17
| Море
| 40.37
| 11.60
| 8.99
| 17.01
| 9.79
| 10.98
| 0.32
| 0.08
| 0.23
|
Понятно, что сами исходные данные агрегированы (то есть уже усреднены) и нтересней было бы иметь больше данных, чтоб делать открытия (не в кавычках).
Тем не менее для небольшого урока и разминки:
Общая картинаРазбивка по типу (Суша или море)
Так как оксиды с низким содержанием плохо видны, то отобразим их отдельно
Черный отрезок визуализирует средне квадратичное отклонение.
Справа
Violin_plot аналог Бокс-Плота (
ящики с усами) только с KDE
Так как автор пытался осмыслить корреляцию концентраций, посмотрим их попарное соотношение визуально.
(
Примечание:
делать выборку разнородных величин, как указано выше, не верно, но посмотреть можно) Столбцы и строки на графике соответствую миссиям.
В ячейках правого верхнего угла нарисовано распределение оксидов соответствующей пары миссий
В нижнем левом углу тоже самое с вычисленными коэффициентами Пирсона, и вычисленная линейная регрессия (не имеет к Пирсону прямого отношения, например она не обязательно проходит через точку 0).
Отдельно по морям
Отдельно по материкам
Корреляционная матрицаНа попарных графиках выше мы посмотрели на данные, но они в данном случае разбросаны и не информативны (а вот в реальных задачах с выборками уже могут появиться идеи и наблюдения как обрабатывать дальше), за деревьями леса не видно.
Поэтому отдельно посмотрим на корреляционную матрицу.
Опять же примечание: что "выборка" по разнородным данным, но мы тут исправляем "недочет" автора не использующего попарное сравнение коэффициента корреляции.
В цифрах:
mc_corr_pearson_all.csv (Собственно, автор смотрел только на одну строку из этой матрицы)
Матрица симметричная (относительно диагонали) и цвет ячеек соответствует коэффициентам корреляции между миссиями.
Чем темнее ячейки, тем больше коэфф. Пирсона между соответствующими парами.
(опять замечание, что между разнородными кучами попугаев и ежей)
Тем не менее тут уже кое что можно заметить.
Например, Луна-20 больше всего "совпадает" с Аполлон-16.
Все они сильно "коррелируют" (левая картинка темная), самые непохожие пары имеют коэффициент 0,861
К слову, кроме Пирсона можно использовать и ранговые корреляции (они меньше чувствительны к выбросам)
Спирмена и
КенделаСоответствующие корреляционные матрицы
Теперь отобразим отдельно Горы и Моря
(можно было бы сгруппировать автоматически по данным матрицам, то есть кластеризовать, с тем или иным параметром число групп)
Внутри каждой из этих групп пары коррелируют сильнее, нет пар с коэффициентом корреляции меньше 0,9773 и 0,9603 соответственно, тогда как на общей корр. матрице минимум 0,8681.
Визуально это заметно тем, что на левой части практически нет таких светлых ячеек как на общей матрице.
Это собственно то, что должен был корректно продемонстрировать автор по своему методу (исправлена ошибка не попарного сравнения).
Проверка гипотез.(в качестве примера, что можно сравнивать однородные данные) вернемся к графику:
Видно, что для некоторых оксидов есть подозрение на статистическое отличие между материками и морями
Проверим это формально
на примере SiO2.Содержание SiO2
В морях: 41.7 , 43.3 , 41.9 , 45.9 , 47.07, 40.37
На суше: 44.2 , 47.2 , 45.17
Можно было бы применить критерий Стьдента для проверки гипотезы значимого отличия средник, но перед этим мы должны проверить, а нормальное ли распределение.
Для этого сначала визуально проверим вероятностные графики, а потом применим критерий
Шапиро-Уилка.
На прямой точки лежат не близко, уже подозрения.
Критерий
Шапиро-Уилка- H0: Кол-во SiO2 (в выборках суша и море) распределены нормально
- H1: не нормально.
Задаем уровень значимости alpha 0.05 (95.0% уровень доверия)
Проверка Shapiro-Wilk 'Море': W-statistic: 0.92456138134, p-value: 0.538803696632
Отвергаем гипотезу
H0
Тоже самое для Гор:
Проверка Shapiro-Wilk 'Море': W-statistic: 0.92456138134, p-value: 0.538803696632
Отвергаем гипотезу
H0
Гипотезу о нормальности выборок отвергаем, так как p-value большое (больше 0.05)
Критерий Стьюдента применить нельзя.
Поэтому применяем непараметрический критерии [ например
U-критерий Манна — Уитни]
MannwhitneyuResult(statistic=4.0, pvalue=0.1226390584033864)
pvalue больше уровня значимости
Гипотезу о том, что выборки (SiO2 для гор и морей) не отличаются, отвергнуть нельзя.
Теперь тоже самое на примере
оксида алюминия Al2O3.
Критерий
Шапиро-Уилка. Гипотезы
- H0: Уровень Al2O3 (в выборках суша и море) распределены нормально
- H1: не нормально.
Задаем уровень значимости alpha 0.05 (95.0% уровень доверия)
Проверка Shapiro-Wilk 'Море': W-statistic: 0.937569320202, p-value: 0.639681518078
Отвергаем гипотезу
H0
Проверка Shapiro-Wilk 'Море': W-statistic: 0.937569320202, p-value: 0.639681518078
Отвергаем гипотезу
H0
Так как p-value большое (больше 0.05) отвергаем гипотезу о нормальности.
Критерий Стьюдента применить нельзя.
Поэтому применяем непараметрический критерии [
U-критерий Манна — Уитни]
MannwhitneyuResult(statistic=0.0, pvalue=0.014092901073953692)
Гипотеза о том, что выборки не отличаются можно отвергнуть в пользу гипотезы что
средние концентрации Al2O3 отличаются.
Это можно заметить (подозревать) и визуально и на выше приведенном графике.
Замечание:
При больших объемах, например когда проверяют гипотезы и сравнивают влияние генов и
очень большого ко-во гипотез, то проводят
множественную проверку.
Например, если тестировать отличия по большому объему данных и
очень много гипотез, то рано или поздно возможно случайное отклонения измерений.
Один из примеров (другие по ссылке). Американский психолог и парапсихолог Джозеф Райн, который занимался исследованиями экстрасенсорных возможностей разных людей, проводил следующие эксперименты. На первом этапе он делал предварительный отбор.
Испытуемому давали 10 карт, и он должен был угадать их
цвета.
Оказалось, что два человека все 10 карт угадали, еще девять человек угадали 9 из 10 карт.
Но по этим данным нельзя делать выводы, что экстрасенсорные способности проявились, так как число испытаний было большим 1000 человек.
Из такого кол-ва рано или поздно кто-то из людей угадает случайно.
После того как Джозеф Райн отобрал этих людей, угадавших цвета карт, как экстрасенсов, он предложил им еще раз пройти этот эксперимент . Ни один не подтвердил свои способности.
Отсюда Джозеф Райн сделал вывод, что если человека объявить экстрасенсом, то его способности сразу пропадают.
Можно посмотреть на график вероятности, что хотя бы один угадает цвета 9 из 10 карт в зависимости от количества испытуемых
Видно, что вероятность растет быстро, уже при 100 испытуемых вероятность найти одного экстрасенса больше 0,5, а при больших количествах испытуемых вплотную приближается к 1, очень вероятно что кто-то угадает.
Для нивелирования эффекта множественности и вероятности ошибки "хорошего промаха" (ошибки
первого рода), при проверке множественных гипотез можно уменьшать уровень значимости 0.05 пропорционально кол-ву в группе (Поправка Бонферрони), но есть и другие методы.
Вот такое короткое замечание...
Понижения размерностиДля кластеризации данных мало, но можно посмотреть как соотносится состав грунта от миссии к миссии.
Формально будем считать, что у каждой миссии есть несколько признаков (в данном случае вещественных) как концентрации 9 оксидов.
Представим эти 9 признаков в пространстве размерности 2 (для визуализации на плоскости).
В первою очередь проведем нормализацию данных (т.е. отмасштабируем или стандартизируем) мелкие концентрации повысим, и выравним масштаб и смещение, чтоб все были с одинаковым СКО).
Для начала используем ранговый метод
tSNEНа этапе визуализации подсветим сушу и море разными цветами.
(Этот график не единственное точное отображения, так как определяется случайностью)
Ничего тут особо не скажешь, Луны разбросаны и Аполлоны тоже.
Теперь MDS.
Для него в качестве вспомогательной метрики (отличие между признаками) можно использовать "расстояния".
Вот одним из вариантов этой метрики и может выступать
матрица корреляции (но уже по стандартизированным данным вдоль миссий )
Для больших данных часто применяют cosine расстояния между признаками, или евклидово:
Вот по всем этим метрикам можно заметить зачатки двух кластеров: моря и суши. (А то и три)
Но как писалось выше, когда мало данных, то не очень интересно. Можно было бы делать и другие картины, считать (обнаруживать), ставить вопросы и их делать оценки, есть ли выбросы, которые могут быть примечательными особенностями, естественные, интересные или обнаружить открытия.
ВыводыРекомендация автору: чем изобретать велосипед применяя чистый разум (т.е. не отягощенный знаниями) и путаться в трех соснах в бесплодных попытках опровергать полеты не вставая в дивана, сначала полезней ознакомиться с тем, что давно до него изобрели умные люди, и вообще со статистикой.
http://baguzin.ru/wp…chnye-kri/ (всю книгу)
Или по профилю:
Биостатистика и язык R: Понижение размерности: PCA, MDS, t-SNE Цитата: BomBarDir от 07.02.2018 16:17:57pmg, как любой опровергаст, прикручивает к, прости хоспади, ращёту заранее сформулированный тезис представляя его как вывод из ращёта, который он, якобы, в поте лица намастырил. Похожей методой пользуется электросекс Коновалов, который долго и нудно рассказывает как бы он снял ту или иную сцену (попёртую, кста, с фотографий НАСА, а не плод его креатива,) а в конце объявляет, что на основании его постановки, все фотки сняты в павильоне. Бггг...
У меня сложились очень похожие впечатления.