2018年5月25日 星期五

數據分析步驟分享 EDA Exploratory Data Analysis



2. Data Collection
 
3. Tables(Dataframe = observations * variables)
    
    表格是由觀察樣本跟變數組成的,大家可以先看看每一個變數的定義。
 
4. Sort by each columns(variables)
       from … to …
 
    將連續變數由小到大排序,看看整個範圍區間是否符合預期。
 
 
5. Sampling 100 observations to check the portion of category in each variables.
 
    隨機抽取100筆樣本,看看資料筆數。例如抽樣的100筆中,有15筆是台北市。大概可以算
 
    出台北市的占比大約是15%。
 
6. Drop the useless data.(totally same values/ totally different values )
  
    如果一個變數內的值完全一樣/完全不一樣,代表這個變數無法對資料做出差異。
 
 
7. Observe each variables.
• Discrete variables = Bar chart
• Continuous variables = Hist chart
 
8. Observe the correlation
•Discrete variables * Discrete variables  = Stacked bar chart / Cross table
• Discrete variables  *  Continuous variables  =  Boxplot
• Continuous variables *  Continuous variables = Scatter