資料科學入門

資料科學入門

原課程名為"當統計學遇到程式"。




案例1:最近天氣好熱,今年是不是會比往年還熱?我可以用歷史溫度來預測今年的氣溫嗎?還是說可以用賣冰的量、歷史的用電量、甚至利用北/南極冰帽的面積?但,我如何建立模型?簡單線性回歸?還是現在最夯的機器學習?那,模型的預測效果如何?能解釋觀察到的現象嗎?甚至,我能相信模型預測結果嗎?
案例2:生育率這麼低,到底是什麼樣的因素造成的?是因為家計所得影響生育的意願嗎?是不是教育程度越高越不願意生呢?
案例3:工時越長,國家的經濟成長就越高嗎? link
案例4:唸書的時間越多,考試就考得越高分嗎?有研究指出台灣的課堂時數這麼高,但是成績不是成正比,到底是怎麼樣得到這個結論的呢?

我們有很多疑問需要被解答,但是我們缺乏嚴謹的統計訓練和程式基礎。本課程將結合統計資訊的跨領域課程,嘗試讓學員們可以開始自問自答,而且也能夠這資料爆炸的時代裡辨識出有意義的資訊,從而踏入資料科學的新世界。讓數據與程式幫你說故事!

# 預備知識
-- 四則運算、代數運算
-- 日常生活經驗與公民道德

# 學習目標
(1) 統計學 (70%)
-- 了解統計工具與計算
-- 正確解釋統計結果
-- 合理預測未來的趨勢
-- 排除統計謬誤
(2) 程式能力 (30%)
-- 掌握資料處理流程
-- 學習創造自己的工具

註0:本課程可作為機器學習、資料科學或者金融資料分析的入門課程。機率與統計是分析資料的基礎,本課程嘗試讓學員能掌握這些應用學科的理論基石。
註1:本課程著重於將統計學的理論跟程式結合,程式碼的部分會提供給學員使用,透過解釋程式碼對應的數學,讓學員可以從程式去理解 (進而喜歡) 數學,而不再是只會下指令的碼農。

課程大綱

0. Python程式基礎
1. 資料擷取與視覺化
2. 機率論導論與常見的機率模型
3. 統計檢定
4. 點估計與區間估計
5. 大數法則與中央極限定理
6. 回歸模型
7. 時間序列分析
8. 貝氏機率
9. 機器學習簡介
10. 統計實務 (optional)

-----

0. Crash course for Python
1. Data acquistion and visualization
2. Probability theory and common models
3. Hypothsis testing
4. Point estimation and interval estimation
5. Regression
6. Law of large numbers and central limit theorem
7. Time series analysis
8. Bayesian theorem
9. Introduction to Machine Learning

註0:更新於 2021-09-07。
註1:課程內容仍會按照講師的偏好與學員的需要而更動。
註2:本課程非 Python 程式語言課,也允許學員使用自己擅長的程式語言,故僅用第一堂課的時間替對 Python 語言不熟的學員快速掌握課程中需要的語法。

適合對象

1. 欲學習使用統計方法量化研究的大專院校生、研究生或者是數據分析相關之研究人員。
2. 國高中生可,已學習過基礎統計學者佳 (108 課綱的高二的機率與統計I與高三的機率與統計II)。
3. 準備轉進資料科學領域之初學者。

開發環境

主要開發環境為 Python on Google Colab;MATLAB、R的使用者或者 Excel 的使用者亦可,課程會提供範例程式碼供學員使用。

實體課程注意事項

本班為實體課程,常見QA詳情連結

校園防疫措施詳情連結

公務員全程參與課程學習後可於課程結束後申請登錄公務人員學習時數

課程影片觀看期限至課程結束後一週關閉

(一)退費期限:開課日後⅓時數內,詳情連結

(二)查詢結業狀況:結業名單連結

近期班次

  • 第416期 招生中

    課程類別:線上課程

    開課日期:2024.05.08 ~ 2024.07.03

    學費:新生新台幣4500元整

  • 講師介紹

    • 國立臺灣大學資訊工程學 博士候選人

    • 交通大學電信工程研究所 碩士

    • 中央大學電機工程學系 學士

    (一) 服務經驗

    • 國立臺灣大學 腦與心智科學研究所 兼任研究助理 (2014.8--present)
    • 中國信託商業銀行 全球金融商品交易處 期貨自營部 實習研究員 (2014.1--present)
    • 國立臺灣大學 資訊工程學系 資訊系統訓練班 講師 (2014.1--present)
    • 國立臺灣大學 資訊工程學系 課程助教:計算理論、離散數學、財務演算法 (2012.9--present)

    (二) 研究興趣

    • Financial computing
    • Analysis and design of algorithms
    • Quantitative finance, econometrics, and algorithmic trading
    • Statistics and machine learning
    • Computing theory and programming language design

    (三) 程式語言

    • MATLAB, Java, C, C++, Python, C#

    (四) 教學特色

    • 中文授課,課程教材以英文為主。適合規劃出國求學或對科學/技術理論有興趣的學員。
    • 2014年至本班教學,累計授課時數至2024年3月1日為11,100小時。