2. Data Collection
3. Tables(Dataframe = observations * variables)
表格是由觀察樣本跟變數組成的,大家可以先看看每一個變數的定義。
4. Sort by each columns(variables)
from … to …
將連續變數由小到大排序,看看整個範圍區間是否符合預期。
5. Sampling 100 observations to check the portion of category in each variables.
隨機抽取100筆樣本,看看資料筆數。例如抽樣的100筆中,有15筆是台北市。大概可以算
出台北市的占比大約是15%。
6. Drop the useless data.(totally same values/ totally different values )
如果一個變數內的值完全一樣/完全不一樣,代表這個變數無法對資料做出差異。
7. Observe each variables.
• Discrete variables = Bar chart
• Continuous variables = Hist chart
8. Observe the correlation
•Discrete variables * Discrete variables = Stacked bar chart / Cross table
• Discrete variables * Continuous variables = Boxplot
• Continuous variables * Continuous variables = Scatter