本文首發(fā)于微信公眾號【生物狗窩】,歡迎關(guān)注!

寫這篇文章的靈感,來自于知識星球【真知拙見】的一組討論(評論區(qū)有折扣鏈接,別著急著付全款就進(jìn)去了……):

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

其中一個(gè)核心內(nèi)容,是理解“圖表與統(tǒng)計(jì)量的產(chǎn)生原理”。這是什么意思呢?

讓我們來模擬一組數(shù)據(jù),用Excel來生成一些“隨機(jī)”(并不)數(shù) [滑稽]:

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

每一列,是同一組數(shù)據(jù),每組有2400+個(gè)數(shù)據(jù)點(diǎn)。然后我們來開始作圖,描述這些數(shù)據(jù)。

首先是含有誤差線的柱狀圖(barplot):

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

看起來,每一組的均數(shù)都差不多,誤差也差不多一樣大。

這時(shí)候有人舉手說:不對,如果數(shù)據(jù)不是正態(tài)分布的,我們就不能用均數(shù)和標(biāo)準(zhǔn)差來描述數(shù)據(jù)。要用中位數(shù)和分位數(shù)來作圖。

好的~那我們就用箱式圖(boxplot)吧:

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

橋豆麻袋?。?!

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

腫么所有組看起來都一樣???我讀書少你不要騙我?。?!

如果我們把原始的數(shù)據(jù)點(diǎn),一個(gè)一個(gè)反映在圖上,就變成了這樣:

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

原來,這5組數(shù)據(jù)的分布是完全不一樣的。

Left組的數(shù)據(jù),分布偏左;Right組的數(shù)據(jù),分布偏右;Normal組的數(shù)據(jù),是正態(tài)分布,中間多兩邊少;Split組的數(shù)據(jù),是兩邊多中間少;而Lines組,則是呈多簇分布。

從這個(gè)例子中,我們需要掌握一個(gè)重要觀點(diǎn):描述數(shù)據(jù),或者解讀數(shù)據(jù)的時(shí)候,不能只關(guān)注其“集中性”和“離散性”指標(biāo)(如均數(shù)、中位數(shù)、標(biāo)準(zhǔn)差、四分位數(shù)等),還得關(guān)注原始數(shù)據(jù)的分布形式。

以上數(shù)據(jù),其實(shí)是來自這篇統(tǒng)計(jì)學(xué)論文(我稍微調(diào)整了一下):

autodeskresearch.com/pu

而在那篇文章中,還用了一個(gè)動(dòng)畫來展示這個(gè)大坑:

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

看到了吧:7組不同數(shù)據(jù),無論其分布怎么改變,用boxplot做出來,都是一模一樣的。

但有時(shí)候,直接展示原始數(shù)據(jù)點(diǎn),又不是很方便。因?yàn)閿?shù)據(jù)點(diǎn)一多,數(shù)據(jù)就容易擠在一起,很難看出分布關(guān)系。這時(shí)候,我們就要引入violin plot(小提琴圖)來展示數(shù)據(jù)。

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

小提琴圖那個(gè)充滿曲線的軀體,展示的是數(shù)據(jù)的分布形式。如果你把它切掉一半,那就是跟密度圖(density plot)或者直方圖(histogram)一樣了。而小提琴的身體內(nèi)部,還可以塞進(jìn)箱式圖,展示中位數(shù)、四分位間距,甚至95%置信區(qū)間。

因此,小提琴圖,可以認(rèn)為是密度圖 + 箱式圖 + 其他特性的合體。如果你還不能理解的話,就看下面這個(gè)圖:

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

其實(shí)就是把上面那個(gè)密度圖,和下面的箱式圖,給懟到一起了。這樣就充分發(fā)揮了兩種圖的優(yōu)勢。

小提琴圖還有一個(gè)進(jìn)化版,叫Beanplot,姑且叫它豆莢圖好了:

你被柱狀圖騙了好多年!統(tǒng)計(jì)圖表中的大坑!-肽度TIMEDOO

Beanplot的R包原生支持許多小提琴圖沒有的特性,上面那張圖一眼就看清楚了,不需要解釋太多。如果你不需要這些features,也可以當(dāng)成小提琴圖來使。

Beanplot的R包地址在這里:

cran.r-project.org/web/

具體的示例也可以從該頁面的Vignettes中找到。

本文首發(fā)于微信公眾號【生物狗窩】,歡迎關(guān)注!