正文

04 大數(shù)據(jù)時代,統(tǒng)計學(xué)火了(2)

看穿一切數(shù)字的統(tǒng)計學(xué) 作者:(日)西內(nèi)啟


弗明漢研究針對5 000余名對象定期進行檢查與詢問,調(diào)查頻率是每兩年1次。

如此大規(guī)模而且徹底的調(diào)查研究,為什么不每年進行呢?實際上當時的研究者也非??释軌蜃龅?年1次。但是,由于當時的技術(shù)能力所限,每兩年進行一次就已經(jīng)是調(diào)查頻率的極限了。

至于限制調(diào)查頻率的原因,則是數(shù)據(jù)輸入、管理以及采集所花費的時間和精力。

弗明漢研究小組在最初進行數(shù)據(jù)采集時所使用的設(shè)備,據(jù)說只有一臺大型穿孔卡片機。

說起穿孔卡片,可能很多人連實物都沒有見過吧。簡單來說就是在一個厚紙片上利用物理手段打孔,根據(jù)打孔的位置記錄數(shù)據(jù)。

首先,人工記錄5 000人的生活習(xí)慣和血液檢查的結(jié)果,再將數(shù)值轉(zhuǎn)換為穿孔卡片進行保存,檢查是否有錯誤,然后對各個調(diào)查項目的平均值和比例進行綜合統(tǒng)計。進行這樣的工作,每兩年一次的頻率已經(jīng)是極限了。

至于弗明漢研究的目標“找到心臟病的成因”,需要對各個變量和多樣的調(diào)查項目之間的關(guān)聯(lián)性進行分析,這就需要用到邏輯回歸的分析方法(實際上,邏輯回歸分析本身就是因弗明漢研究而誕生的方法)。但是,對5 000名研究對象的數(shù)據(jù)進行分析,就相當于使用5 000個質(zhì)數(shù)的矢量,進行包括對數(shù)變換在內(nèi)的非常繁雜的矩陣計算,只有這樣才能夠得出最終答案。

一直到20世紀60年代國際商業(yè)機器公司(IBM)發(fā)明了大型通用計算機,并且將其應(yīng)用到研究中之后,弗明漢研究才能夠?qū)?0年間的調(diào)查數(shù)據(jù)進行分析。

無聊的“紙和筆的統(tǒng)計學(xué)”已經(jīng)過時了

從那以后的計算機技術(shù)進步,可以說是突飛猛進。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.stefanvlieger.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號