KU Data Science Syllabus 1
๐KU Data Science Syllabus
๐ IDS501-00 ๊ณ ๋ ค๋ํ๊ต ๋ํ์ ์ผ๋ฐ๊ณตํต <๋ฐ์ดํฐ๊ณผํ> ์ค๋ผ๋ฒ์ค | 2021๋ ๋ดํ๊ธฐ
IDS501-00Professor: ์ฃผ์ค์ | Dr. Yoonjung Joo
Lecture: 2:00-3:15pm, Mon/Weds
Online office hours: 11:00am-01:00pm, Tue
๐ก Appointment only, can be one-on-one or a small group
Email: [email protected]
๐ก I try to stay on top of email, but donโt expect me to reply at all hours. If I havenโt replied back after 3 days, feel free to ping me again.
TA: TBA
Office hours: TBA
Email: TBA
๐ Course Description๊ธฐ๋ณธ์ ์ธ ๋ฐ์ดํฐ๊ณผํ์ ์์ ์์ด๋ ์ด์๋จ๊ธฐ ์ด๋ ค์ด ์ธ์์ด๋ค. 4์ฐจ ์ฐ์ ํ๋ช ์๋๊ฐ ๋๋ํจ์ ๋ฐ๋ผ ๋ถ์ผ๋ฅผ ๋ง๋ก ํ๊ณ ๋น ๋ฐ์ดํฐ๊ฐ ๋ฒ๋ํ๊ณ , โ์ง์งโ ์ ๋ณด๋ฅผ ๊ตฌ๋ถํ๊ณ โ๊ฐ๊ด์ ์ธโ ์์ฌ๊ฒฐ์ ์ ์ํ ๋ฐ์ดํฐ๊ณผํ์ด ๋๊ตฌ์๊ฒ๋ ํ์ํ๋ค. ๋ฐ์ดํฐ๊ณผํ์ ๋จ์ํ ํต๊ณ์ ์ปดํจํฐ ํ๋ก๊ทธ๋๋ฐ์ ์ ๋ชฉ์ด ์๋, ํ๋์ <๊ธฐ์ >์ด ์๋๋ผ ์ธ์์ ์๋ง์ ๋ฌธ์ ๋ค์ ํฉ๋ฆฌ์ ์ผ๋ก ํ์ด๊ฐ <์๋จ>๊ณผ ๊ฐ์ ํ์ ์์์ด๋ค. ๋ณธ ์์ ์์๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ, ๋ถ์, ํ์ฉ์ ํ๊ธฐ ์ํ ์ด๋ก ์ ํ์ตํ๊ณ , ์ฃผ๊ธฐ์ ์ธ ์ ๋๋ฆฌ๋ทฐ๋ฅผ ํตํด ๋ฐ์ดํฐ๊ณผํ์ ์ต์ ํธ๋ ๋๋ฅผ ์ตํ๋ฉฐ, ์ค์ํ ์๋ฃ๋ฅผ ์ด์ฉํ R programming ์ค์ต์ ์งํํ๋ค. 2021๋ 3์์ด ํ์ฌ ์ ์ฒด ์จ๋ผ์ธ ์์ ์ผ๋ก ๊ธฐํ๋์ด ์์ง๋ง, ์ถํ ํ์๋ค์ ์๊ฒฌ์ด ์๋ค๋ฉด ์จ/์คํ๋ผ์ธ ์ ํ๋ ๊ณ ๋ ค๊ฐ๋ฅํ๋ค.
Prerequisite: None. Welcome everyone without prior statistical/programming knowledge.
KU Data Science Syllabus 2
๐ Goal of the Class์ธ๋ฌธ๊ณ/์์ฐ๊ณ ๊ตฌ๋ถ์์ด ๋ชจ๋ ๋ถ์ผ์ ํ์ฉํ ์ ์๋ ๋ฐ์ดํฐ๊ณผํ์ ๊ฐ๋ , ์ ์ฐจ, ๊ธฐ๋ฒ์ ๋ฐฐ์ฐ๋ ์ ๋ฌธ์์ .
์ค์ํ์ ๋๋ฆฌ ๋ถํฌํด์๋ ๋ฐ์ดํฐ๊ณผํ์ ์ํฅ๋ ฅ์ ํ์ธํ๊ณ , ๊ทธ์ค์ ๊ฐ์น์๋ โ์ง์งโ ์ ๋ณด๋ฅผ ํ์ ํ๊ณ ์๋ชป๋ ์ค๋ฅ๋ฅผ ๋ถ๋ณํ๋ ๋นํ์ ์ธ ๋ฐ์ดํฐ๊ณผํ์ ์ฌ๊ณ ๊ด์ ํจ์ํ๋ค.
๋ฐ์ดํฐ๋ฅผ ์์ ๋ง์ ๊ฐ์ค๋ก ํ ์คํธํ๊ณ , ์๋ฏธ์๊ณ , ํฉ๋ฆฌ์ ์ธ ๊ฒฐ๋ก ์ ๋์ถํ๋ ๋ฐ์ดํฐ๊ณผํ์ ์์ฌ๊ฒฐ์ ์ ๋ฐฐ์ด๋ค.
๊ฐ์ข ๋ถ์ผ์ ๋ฐ์ดํฐ๋ถ์ ํ์ดํผ๋ฅผ ์ฝ๊ฒ ํด์ํ๊ณ , ์ดํดํ ์ ์๋ ๊ธฐ๋ณธ๊ธฐ๋ฅผ ๋ค์ง๋ค.
ํด๋น ์์ ์๊ฐ(75๋ถ)๋ด์ ๋๋ด๋ in-class ์ฝ๋ฉ์ธ์ ์ ์ฐธ์ฌํด๋ด์ผ๋ก์, ๋ค์ํ ์ค์ํ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ๋ฐ์ดํฐ๋ถ์์ ์ค๋ฌด๋ฅ๋ ฅ์ ๋ฐฐ์ํ๋ค.
The goal of this course is to teach students how to answer questions with data. The course will introduce several important concepts and necessary skills to manage and analyze data including exploratory data analysis, statistical inference and modeling, basic machine learning techniques, high-dimensional data analysis, data wrangling, reproducible research, and interdisciplinary communication. All class material will be motivated with real life examples involving data. We will use the R programming language. As with most things in life, you will get out what you put in.
Course Schedule
๐ The syllabus/schedule is subject to change based on the needs of the class.
Schedule
Name Dates Type Topic Contents
๐Week01Class01
๐ Lecture ๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์๋น ๋ฐ์ดํฐ ์๋, ์ ์ฐ๋ฆฌ๋ ๋ฐ์ดํฐ๊ณผํ์๊ฐ ๋์ด์ผํ๋๊ฐ? | Why DataScience? + Class Overview
๐Week02Class02
๐ Lecture ๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์ ์ข์ ๋ฐ์ดํฐ๊ณผํ์๊ฐ ๋๊ธฐ ์ํด ํ์ํ ์กฐ๊ฑด
๐Week02Class03
๐ Lecture๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์
๋ฐ์ดํฐ๋ถ์๋ฒ์ด๋ป๊ฒ ๋ฐ์ดํฐ๊ณผํ์ ์คํ์ ๋์์ธํ๋๊ฐ? | Experimental design
๐Week03Class04
๐ Lecture๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์
๋ฐ์ดํฐ๋ถ์๋ฒ
์ธ์์ ์ด๋ค ๋ฐ์ดํฐ๊ฐ ์ด๋ค ์์ผ๋ก ์กด์ฌํ๋๊ฐ? | ํ์์ ๋ฐ์ดํฐ๋ถ์ |Explanatory data analysis
๐ปWeek03Class05
Lab๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์
๋ฐ์ดํฐ๋ถ์๋ฒ
๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ๋ชจ์ผ๊ณ ๊ด๋ฆฌํ ๊ฒ์ธ๊ฐ? | Data collection andmanagement
๐Week04Class06
๐ Lecture ๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์๋ฐ์ดํฐ ์ดํด์ ์ ํ๋ฅ /๋ถํฌ๊ฐ ํ์ํ ๊น? | Foundation forinference/probability
๐ปWeek04Class07
Lab Introduction to R ์ฝ๋ฉ์ด๋ ๋ฌด์์ธ๊ฐ? | Introduction to R
๐Week05Class08
๐ LectureStatistics
๋ฐ์ดํฐ๋ถ์๋ฒ๋ฐ์ดํฐ ์ดํด์ ํ์ํ ๊ธฐ๋ณธํต๊ณ | Basic Statistics for Data Science
๐Week06Class09
๐ LectureStatistics
๋ฐ์ดํฐ๋ถ์๋ฒ๋ฐ์ดํฐ ์ดํด์ ํ์ํ ๊ธฐ๋ณธํต๊ณ | Basic Statistics for Data Science
๐ปWeek06Class10
LabStatistics
๋ฐ์ดํฐ๋ถ์๋ฒ๋ฐ์ดํฐ ๋ถ์๊ฒฐ๊ณผ๋ฅผ ์ดํดํ๋ ํต๊ณ๋ฒ | ํ๊ท๋ถ์ ๋ชจ๋ธ ๋ง๋ค์ด๋ณด๊ธฐ
@Mar 3, 2021
@Mar 8, 2021
@Mar 10, 2021
@Mar 15, 2021
@Mar 17, 2021
@Mar 22, 2021
@Mar 24, 2021
@Mar 29, 2021
@Mar 31, 2021
@Apr 5, 2021
KU Data Science Syllabus 3
Name Dates Type Topic Contents
๐Week06Class11
๐ LectureMachine Learning
๋ฐ์ดํฐ๋ถ์๋ฒ
๊ฐ๋จํ ๋จธ์ ๋ฌ๋ ์ตํ๊ธฐ (์ง๋ํ์ต๊ณผ ๋น์ง๋ํ์ต) | Introduction toMachine learning - Supervised/Unsupervised learning
๐Week07Class12
๐ LectureMachine Learning
๋ฐ์ดํฐ๋ถ์๋ฒ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํ๋ ๊ฐ์ฅ ์ข์ ๋ชจ๋ธ์ ์ฐพ๋๋ฒ | Model evaluation
๐ปWeek07Class13
LabMachine Learning
๋ฐ์ดํฐ๋ถ์๋ฒ๋ฐ์ดํฐ๋ก ์์ธก๋ชจ๋ธ ๋ง๋ค์ด๋ณด๊ธฐ
๐Week08Class14
๐ Lecture Data Visualization ๋ฐ์ดํฐ๋ฅผ ์ํตํ๋ ๋ฐฉ๋ฒ + ๋ฐ์ดํฐ๊ณผํ ์ ๋์ฝ๋๋ฒ
๐ปWeek09Class15
Lab Data Visualization ๋ฐ์ดํฐ ์๊ฐํ ๋ฐ ๊ณต๊ฐ์ง๋ ๊ทธ๋ ค๋ณด๊ธฐ
๐Week10Class16
๐ LectureText analysis
๋ฐ์ดํฐ๋ถ์๋ฒ
๋ฌธ์ํ ๋ฐ์ดํฐ๋ ์ด๋ป๊ฒ ๋ถ์ํ ๊น? | Text manipulation - NLP andregular expression
๐ปWeek11Class17
LabText analysis
๋ฐ์ดํฐ๋ถ์๋ฒ
ํ ์คํธ๋ง์ด๋๊ณผ ๊ฐ์ฑ๋ถ์ | ํธ๋ผํ์ ํธ์ํฐ๋ ๋๊ฐ ์ด๋ค ํฐ์ผ๋ก ์ผ์๊น? | Text analysis and Sentiment analysis
๐Week11Class18
๐ Lecture Data Sci in Academia์์ธ๋ํ๊ต ์ฌ๋ฆฌํ๊ณผ ์ฐจ์ง์ฑ ๊ต์๋ ๊ฐ์ฐ ("์ธ๋ฌธ/์ฌ๋ฆฌํ์์์ ๋ฐ์ดํฐ๊ณผํ")
๐Week12Class19
JournalClub
๐ LectureData Sci in Academia Special Topics in Data Science
๐Week13Class20
JournalClub
๐ Lecture
Statistics
๋ฐ์ดํฐ๋ถ์๋ฒ์๊ฐ์ฐจ๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๋ฐฉ๋ฒ | Longitudinal data analysis
๐Week13Class21
JournalClub
๐ Lecture๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์ ์ฌํ๊ฐ๋ฅํ ์คํ | Reproducible workflow
๐Week14Class22
JournalClub
๐ Lecture๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์ Debugging and defensive programming
๐Week14Class23
JournalClub
๐ Lecture
AI
๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์์ธ๊ณต์ง๋ฅ๊ณผ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ์ด์ผ๊ธฐ | AI and deep neural network
๐Week15Class24
JournalClub
๐ Lecture
AI
๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์์ธ๊ณต์ง๋ฅ๊ณผ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ์ด์ผ๊ธฐ | AI and deep neural network
๐Week15Class25
JournalClub
๐ Lecture
AI
๋ฐ์ดํฐ๊ณผํ์์ ๊ธฐ๋ณธ์์๋ฐ์ดํฐ๊ณผํ์ ๋ฏธ๋์ ํ๊ณ | Data, Ethics and Society
๐ฏWeek16Class26
๐ Assignment Data Science Conference Day - Final presentation
๐ Finalreport
๐ Assignment
@Apr 7, 2021
@Apr 12, 2021
@Apr 14, 2021
@Apr 19, 2021
@Apr 28, 2021
@May 3, 2021
@May 10, 2021
@May 12, 2021
@May 17, 2021
@May 24, 2021
@May 26, 2021
@May 31, 2021
@Jun 2, 2021
@Jun 7, 2021
@Jun 9, 2021
@Jun 14, 2021
@Jun 14, 2021
KU Data Science Syllabus 4
๐ Grading
Breakdown
์ถ์: 20์
๊ตฌ๊ธํด์ฆ ํ์. ํด๋น ์์ ์๊ฐ ๋ด ์ ์ถ์ ๋ฌด์กฐ๊ฑด Pass ์ง๋ง ๋ด์ฉ์ ๋ณด๊ณ ๋ฐ ์ด์ ์๋ฑํ ๋ต์ ์ ์ถํ๋ค๋ฉด 0์ ์ฒ๋ฆฌ. (ํ๋ฆผ์ ๋ฌด๊ฐ ์๋)
์ถ์์ฒดํฌ ๋ง๊ฐ์ ํด๋น ์์ ์ด ๋๋๋ ์คํ 3:30pm ๊น์ง์ด๋ฉฐ, ๋ง๊ฐ์ํ์ด ๋์ ์ ์ถ์ ์ ์๋ฅผ ๊ณ์ฐํ์ง ์์ต๋๋ค.
์ต๋ 2๋ฒ์ ๊ฒฐ์์ ์กฐ๊ฑด์์ด ํ์ฉ๋๋ฉฐ, ์ ์์ ๋ฐ์๋์ง ์์ต๋๋ค.
Scale
A 90%~100% B 80%~90% C 70%~80% D 60%~70% F < 60%
๊ณผ์ : 60์
[Part 1] In-class Lab ๊ณผ์ : 30์ (6์ * 5ํ)
์ด 6๋ฒ์ Lab session ์ด ์งํ๋๊ณ , ์ด์ค ๊ฐ์ฅ ์ ์๊ฐ ๋ฎ์ ๊ณผ์ 1๊ฐ๋ ์ ์์ ํฌํจ์ํค์ง ์์ต๋๋ค.
์ฝ๋ฉ์ด ์์ ๊ฒฝ์ฐ R markdown ์ด๋ pdf ํ์์ ๋ฆฌํฌํธ๋ฅผ ์ ์ถํฉ๋๋ค. (๋ง๊ฐ: 3:30pm)
[Part 2] ์ ๋๋ฆฌ๋ทฐ: 30์
์ ๋ํด์ฆ 18์ (ํ์ดํผ๋น 2์ * ๋ณธ์ธ๋ฐํ ์ ์ธํ๊ณ 9๋ฒ, Pass or Fail) + ์ ๋๋ฆฌ๋ทฐ ๋ฐํ: 10์ + ๋๋ฃํ๊ฐ 2์
๊ธฐ๋ง๊ณ ์ฌ ๋ฐํ ๋ฐ ์ ์์: 20์
ํฌ์คํฐ ๋ฐํ 5๋ถ 10์ + ํ๋ก์ ํธ ๋ณด๊ณ ์A4 3-4์ฅ ์ด๋ด 10์
๐ข Class rules ํ์ ์ ์๊ฒฉํ ๊ธ์ง๋๋ค.
No Plagiarism - Presenting someone elseโs ideas as your own, either verbatim or recast in your own words โ is a serious academic offense with serious consequences. Please familiarize yourself with the use of plagiarism check software.
๋ค๋ฅธ ๊ตฌ์ฑ์๋ค์ ์ธ๊ถ์ ์กด์คํจ๊ณผ ๋์์ ๋ณธ์ธ ์ค์ค๋ก์ ์ธ๊ถ ์ญ์ ์กด์คํ๋ค. (๋ฐฐ์์ ๊ดํ ๊ถ๋ฆฌ๋ฅผ ํผ๋ฐฉ๋์ง ์์๊ฒ)
๊ทธ๋ฃน ํ๋ก์ ํธ์ ๊ทธ๋ฃน๋ด ๋๋ฃํ๊ฐ๊ฐ ์กด์ฌํ๋ฉฐ, ์ด๋ Free rider ๋ฅผ ์ง์ํ๊ธฐ ์ํจ์ ๋๋ค.
๋ชจ๋๊ฐ ๊ณผ์ ์ 24์๊ฐ ๋ฆ์ ์ ์๋ 2๋ฒ์ ๊ธฐํ๋ฅผ ๋ฐ๋๋ค. ๊ทธ ์ด์ธ์ ๋ง๊ฐ์ํ์ด ๋์ ๊ณผ์ ๋ ๋ฐ์ง์๋๋ค. (๊ธฐ๋ง๊ณ ์ฌ ๋ฐ ์ถ์์ฒดํฌ ์ ์ธ, ์ค์ง ๊ณผ์ ์๋ง ์ ์ฉ)
All essays and papers are due in lecture (final paper due dates are listed on the schedule).
Late submissions are intended to give students flexibility: students can use them for any reason, no questions asked. Student donโt get any bonus points for not using late submissions. Also, students can only use late days for the individual homework deadlines (e.g. journal review summary) - all other deadlines are hard (e.g., Google quiz, final exam).
๊ณผ์ ์ ์ถ์ ๋ชจ๋ ํ์ผ์ either MS Words (.doc, .docx) or PDF format (.pdf) ์ ์ ์ถ์ ๋ฐ๋๋๋ค. (ํ๊ธ๊ณผ์ปดํจํฐ .hwp ์ฌ์ฉ๊ธ์ง)
๊ธฐ๋ง๋์ฒด ๋ฆฌํฌํธ์ ๊ฒฝ์ฐ, ํฐํธ๋ ์์ ์ง๋ง ํฌ๊ธฐ 10-12pt. ์ค๊ฐ๊ฒฉ Single-spaced. Layout margin normal (์ํ์ข์ฐ 1์ธ์น) ๋ฑ ๊ธฐ๋ณธ์ ์ธ ์ฌํญ ์ค์.
์ง์ ๊ต๊ณผ์๋ ์๊ณ , ๋งค ๊ฐ์ ์ฌ๋ผ์ด๋๋ KU Blackboard ์ ์์ ์ ์ ๋ก๋๋๋ค.
ํ์ฃผ๋น 3~5์๊ฐ ์ ๋์ workload ๋ฅผ ๊ธฐ๋ํ๋ค.
์ต๋ 2๋ฒ์ ๊ฒฐ์์ ์กฐ๊ฑด์์ด ํ์ฉ๋ ์ ์๋ค.
ํด๋น ์์ ์ AI ๋ชจ๋ธ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ๊น๊ฒ ๋ค๋ฃจ์ง ์๋๋ค.
Do not expect serious AI study from this course.
KU Data Science Syllabus 5
๐ง Final Examination๋ฐ์ดํฐ์ฌ๊ณ ์ ๋ฌธ์ ํด๊ฒฐํ๊ธฐ - ์ํ๋ ๋ฐ์ดํฐ(๊ณต๊ณต ๋ฐ ์ฐ๊ตฌ) ๋ฅผ ์ฐพ์์ ์์ ๋ง์ ๋ฐ์ดํฐ๊ณผํ๋ถ์ ํ๋ก์ ํธ๋ฅผ ๋์์ธ ๋ฐ ๋ถ์ํด์ ์ ์ถํ๋ค (์ถํ ์๋ด).
The final examination will consist of an essay written about your personal data analysis project. Throughout the course, try sketching what kind of problem you want to solve with real-world data and how your final product should look like.
๐ Readings
๐ There is no required textbook for this course. There are several recommended books specified below. Hover over any item and click the link to access the textbook freely available online.
Additional Learning Materials | ์จ๋ผ์ธ ์ฐธ๊ณ ๊ต๊ณผ์๋ค
Name Author Publisher Year URL
An Introduction to StatisticalLearning
Gareth James, Daniela Witten, Trevor Hastieand Rob Tibshirani
Springer 2013 https://www.statlearning.com/
Bit by Bit: Social Research inthe Digital Age
Salganik, Matthew JPrincetonUniversity Press
2017https://www.bitbybitbook.com/en/1st-ed/preface/
Mathematics for MachineLearning
Marc Peter Deisenroth, A. Aldo Faisal, andCheng Soon Ong.
CambridgeUniversity Press
2020 https://mml-book.github.io/
Recommended Preparation:
1. Try to read the reading materials beforehand.
2. Try to play with publicly available datasets.
3. Try to learn some basic programming languages. (Need a guide? Read The ten commandments for learning how to code, Nature, 2019)
์ํ์ฝ๋ฉ R programming ๊ฐ์ข | ๊ตญ๋ฌธ
R programming
๋ฐ์ดํฐ ๋ถ์ ์คํ์์ค๋ก ์์ฃผ ์ธ๊ธ๋๊ณ ์๋ R ์ธ์ด๋ฅผ ์๊ฐํด ๋๋ฆฝ๋๋ค. ๋ฐ์ดํฐ ๋ถ์์ Programming์ ์ ๋ชฉ์์ผ ํจ์จ์ ์ผ๋ก ํ๊ธฐ
https://opentutorials.org/course/2070
Coursera Data Science courses | ์๋ฌธ
Data Science Online Courses | Coursera
Choose from hundreds of free Data Science courses or pay to earn a Course or Specialization Certificate. Data science
https://www.coursera.org/browse/data-science
๋ค์ด๋ฒ ์ปค๋ฅํธ์ฌ๋จ ์๋์๋ | ๊ตญ๋ฌธ
์๋์ผ์ด์ ์๋ : edwith
์๋์๋(edwith)๋ ๋ค์ด๋ฒ(NAVER)์ ๋ค์ด๋ฒ ์ปค๋ฅํธ์ฌ๋จ(NAVER Connect)์ด ์ ๊ณตํ๋ ์จ๋ผ์ธ ๊ฐ์ข(MOOC : Massive Online Open
https://www.edwith.org/
ํ๋ฒ๋ ์ ๊ณต ์จ๋ผ์ธ R courses | ์๋ฌธ
Online R Courses
Browse the latest online R courses from Harvard University, including "Data Science: R Basics" and "Data Science:
https://online-learning.harvard.edu/subject/r
Top Related