Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
數據分析及表達 楊良河博士 香港大學統計及精算學系 香港統計學會 展開統計研究的主要步驟 大功告成 撰寫報告, 數據分析 製作海報 資料搜集 確立主題 選擇研究主題的要訣 腦震蕩(brainstorming)得出一些有興趣的 題材 同學分組或個別搜集可能有用的數據 對每個題材,同學提出批評及比較 數據足夠嗎? 題目太廣泛? 題目太高深? 擬定研究主題及目的 擬定工作時間表及分工 數據分析 將所得的數據以統計數字、圖表的形 式表達出來。 統計數字、圖表亦可利用文字加以綜 合分析。 製作圖表 利用不同的圖表,找出資料之間的關係: 棒形圖:易於看出各部分頻數之間的差異 折線圖:顯示數據的變化情況,幫助推測變化 趨勢 圓形圖:較清晰的表明部分佔整體的百分數 堅尼系數 Gini Coefficient 按行業劃分的工作人口百分比分布 來源:香港的發展(1967-2007)-統計圖表集 人口金字塔 來源:香港的發展(1967-2007) -統計圖表集 折線圖 俱小學/學位程度佔十五歲以上人口百分比 25% 20% 15% 10% 5% 學位課程 小學 0% 2002 2003 2004 來源:香港統計年刊 2008年版 2005 2006 2007 誤導性的統計圖 誤導性的統計圖 3.5 Frequency 3 2.5 2 1.5 1 0.5 Temperature 12 Frequency 10 8 6 4 2 0 0 30 60 Temperature More More 60 56 52 48 44 40 36 32 28 24 20 16 12 8 4 0 圓形圖 按年齡組別劃分的年中人口 2008 2036 15 歲以下 13% 13% 15 歲以下 12% 15–34 歲 35–64 歲 65 歲及以上 15–34 歲 35–64 歲 26% 65 歲及以上 23% 28% 46% 39% 簡單的數據描述方法 數據描述方法 集中趨勢 其他位置 Mean Median Mode 離散程度 Range Percentiles Interquartile Range Quartiles Variance Standard Deviation 集中趨勢 集中趨勢 平均值 Mean 中位數 Median n x x i1 i n N x i1 N i 眾數 Mode 分布形狀 Shape of a Distribution 描述數據如何分布 對稱(symmetric) 或偏歪(skewed) Left-Skewed Symmetric Right-Skewed Mean < Median Mean = Median Median < Mean (Longer tail extends to left) (Longer tail extends to right) 其他位置測量 Other Location Measures 其他位置測量 百分位數 Percentiles The pth percentile in a data array: p% are less than or equal to this value 四分位數 Quartiles 1st quartile = 25th percentile (Q1) 2nd quartile = 50th percentile (Q2) = median 3rd quartile = 75th percentile (Q3) (100 – p)% are greater than or equal to this value (where 0 ≤ p ≤ 100) 框線圖 Box and Whisker Plot Left-Skewed Q1 Q2 Q3 Symmetric Q1 Q2 Q3 Right-Skewed Q1 Q2 Q3 框線圖 Box and Whisker Plot 離散程度 離散程度 Range Interquartile Range Variance Standard Deviation Population Variance Population Standard Deviation Sample Variance Sample Standard Deviation 離散程度 測量數據的變異 四分位數間距 Interquartile Range 例子: X minimum Q1 25% 12 Median (Q2) 25% 30 25% 45 X Q3 maximum 25% 57 Interquartile range = 57 – 30 = 27 70 小心運用統計數據 例如根據香港撒瑪利亞防止自殺會2008年報,在 2008年,香港的自殺死亡數字總數是1001人, 其中的319人年齡是在60歲或以上。 若果我們單從上述數字作表面分析,超過三成 的自殺者是60歲或以上的老人,很可能會認為 老人自殺的情況已到了非常嚴重的地步! 若以「年齡組別自殺率」來看,在該年齡組別 的自殺人數只是每萬名人口中約有2.6個,並非 如數字表面般嚇人。當然,老人自殺的情況仍 是值得關注。 小心合併兩組數據 假設今有甲、乙兩所高中,甲校參加大學入學考試 的學生中,文科生有400人、理科生100人;乙校參 加大學入學考試的學生中,文科生有100人、理科 生400人。 考慮兩校的大學取錄率, 甲校的大學取錄率文、理科生依序為40%、60% 乙校的大學取錄率文、理科生依序為30%、50% 乍看之下,乙校整體的大學取錄率似乎較低,但經 過仔細計算: 甲校的大學取錄率為 (400x0.4 + 100x0.6)/500 = 44% 乙校的大學取錄率為 (100x0.3 + 400x0.5)/500 = 46% 反而乙校整體的大學取錄率比甲校高。 小心合併兩組數據 那麼讀那學校入大學最好呢? 辛普森悖論(Simpson's Paradox) 即在某個條件下的兩組數據,分別討論時都會滿足 某種性質,可是一旦合併考慮,卻可能導致相反的 結論。 Garbage In Garbage Out No Copy!!! Talent wins games, but teamwork and intelligence wins championships 記住參加中學生統計習作比賽