frontpage

frontpage

2015年7月19日 星期日

ModelOff攻略 - 問題篇(1)

  以下要分析的是2014年第1輪的題目 - Dealing With Data,在問題篇中主要分析命題的目的與解釋題目中所提供的資訊,而在解答篇中才會分析如何構思模型與提供解決的手段。

命題目的


  由於目前趨勢上越來越多企業需要資料分析的技術,而在埋頭建立模型前很重要的步驟之一就是數據清理(Data Cleaning/Cleansing),例如過濾、聚集、轉換與填空,以便在面對龐大的數據時能提升待處理資料的品質。甚至在Advanced Data Mining Techniques一書中更指出,在有些分析案例中,數據清理所需的時間可能超過整體資料探勘程序的50%。

  因此,本題主要希望作答者能模擬資料分析時的實際流程,將原始資料整理成方便操作的狀態再進行模型分析。


題目資訊


  題目描述如下,問題為計算用電量與各計價方案下的電費,最終作出節省電費開銷的最佳決策。問題假設未來用電量模式與歷史資料的模式完全相同。



  問題的順序同時是引導作答者作出最終決策依據的分析順序。

  首先,所有的問題可分為2種類別。

一、數據清理


  問題1~4屬於第1種類別的問題,都在詢問用電狀況,但所提供的時間、日期與用電量等數據皆合併在同一儲存格,且由於許多數據目前可能仍為人工輸入或系統紀錄異常,題目為了模擬此情境而故意出現多餘的間隔符號(如空格或底線)以及資料格式(如日期或星期)缺漏或不一致的狀況。

  基於上述狀況,作答者無法直接使用原始資料進行分析而需要先準備數據,因此,數據清理才是此類別問題的主要測驗目的。解決上述狀況後應可得到在不同時間區間下的用電量,同時也代表幾乎完成了第1種類別的問題。

  值得注意的是,所提供的數據有8760( = 365 * 24)筆,剛好等於1年總共的小時數,暗示應該沒有缺少或重複的用電數據。


二、模型建立


  問題5~7屬於第2種類別的問題,其目的皆在分析電費成本。電費計價方案共分3種:
  1. 每小時皆同一費率(No Flex);
  2. 各月份的費率獨立計價(Monthly Flex);以及
  3. 每天各小時的費率獨立計價(Hourly Flex)。
  利用之前所得到的用電量分布,配合不同計價方案的費率,可得到不同方案下的電費金額,再以此判斷出最低成本的電費合約為何。



  延伸:也許問題可與物連網技術結合,例如將即時用電量的數據送至伺服器,配合歷史用電量與電費計價方案的數據來分析,可算出當下建議的用電量、電器使用量指示,或送出用電過量警示等訊息。

沒有留言: