發表於2024-12-19
《大數據時代小數據分析》可幫助你學會通過數據分析解決以下問題:
使用手機,用定製機包月還是自費機月付,哪個更省錢?選擇哪個電話套餐更適閤自己更劃算?
為什麼齣口産品被退運?
如何運用已有的銷售數據來確定未來進貨,進設備,擴充門麵?
雞兔同籠問題原來還可以這樣解決?
假設某傢工廠生産某係列3種型號的産品。這3種産品的使用原材料相同,但材料消耗量和産品市場銷售價格有所不同,那麼如何安排生産能使利潤更大化?
某産品如何選擇5種原有原料進行配比可以使得産品滿足質量要求的情況下成本更小?
如何測算投資更大收益化?
如何做一個精明的老闆,如何決定各種産品生産的數量以獲取更大的利潤?
如何根據今年的銷售確定明年進貨纔能使利潤更大化?
公司如何搬傢又省力又省錢,還能照顧所有人情緒?
吃海參能讓人變聰明嗎?
用戶調查當中如何知道支齣與收入有什麼關係?
如何配比各種原料使産品的用戶體驗更佳?
咖啡商如何添加輔料,既可以改善口感,又可以降低咖啡因含量?
如何選擇適閤自己的早餐?
海拔是否影響血壓?
哪些熊貓已足夠強壯到可以適應野外生活?
如何找男友?
《大數據時代小數據分析》是一本大數據時代下進行小數據分析的入門級教材,通過數據分析的知識點,將各類分析工具進行串聯和對比,例如:在進行綫性規劃的時候可以選擇使用Excel或LINGO或Crystal Ball。工具的應用難易結閤,讓讀者循序漸進地學習相關工具。JMP和Mintab用來分析數據,分析的結果使用Excel、LINGO、Crystal Ball來建立數據模型,最後使用Xcelsius來動態展示數據分析的結果。《大數據時代小數據分析》中以兩個人的對話為敘述方式,場景描寫多,容易進入學習狀態,完全是用生動的故事和實用的案例盡可能地貼近生活和工作,讓數據分析生動有趣,基本上有高中數學知識就可以理解綫性規劃等數據分析內容。
《大數據時代小數據分析》不僅介紹Excel而且介紹使用其他工具軟件進行數據分析,可用來拓展互聯網公司、傳統企業、電商企業、管理谘詢公司等各行各業從事數據分析工作的分析師和管理者對數據分析的認知,也適閤初中級數據分析師或者想進入數據分析行業的有誌之士參考閱讀。
屈澤中,化工專業,數據分析愛好者,愛好使用工具探索數據背後的秘密,略懂Excel、LINGO、Crystal Ball、JMP、Minitab、Xcelsius,工作十餘年,一直從事將數據分析與各類業務相結閤的研究和學習。
第1章 知己知彼,百戰不殆――風險與預測分析 1
1.1 預測從世界杯開始 2
1.2 手機綁定消費的秘密 5
1.3 筆記本電腦齣國冒險記 25
1.4 慧眼識分布 36
1.5 分布72變 47
1.6 做最優秀的麵包店長 74
第2章 運籌帷幄,決勝韆裏――效益最大化 101
2.1 換個思路來數雞 102
2.2 做一個精明的農場主 128
2.3 見識LINGO與Crystal Ball的威力 146
第3章 圖個明白,精彩展現――JMP精彩圖錶 192
3.1 圖個明白――常用圖形 194
3.2 圖個明白――樹圖 208
3.3 圖個明白―― SPC圖 214第4章 抽絲剝繭,明察鞦毫――相關分析 227
4.1 假設檢驗――大膽假設,小心求證 228
4.1.1 小心求證―均值檢驗 235
4.1.2 小心求證―比例檢驗 252
4.1.3 小心求證―非參數檢驗 261
4.2 相關與迴歸分析 272
4.2.1 相關性與第三方變量 272
4.2.2 收入與支齣關係―簡單綫性迴歸 280
4.2.3 最佳口感食品配方―多元綫性迴歸 283
4.2.4 咖啡好喝,不能多喝―非綫性迴歸 290
4.2.5 預防心血管疾病從減肥開始―二值Logistic迴歸分析 295
4.3 人以類聚,物以群分――聚類分析 300
4.3.1 美好一天從早餐開始―觀測值聚類分析 302
4.3.2 海拔是否影響血壓―變量聚類分析 305
4.3.3 為熊貓分類―K均值聚類分析 307
第5章 要裏子,也要麵子――數據展現的藝術 311
5.1 哪種水果更好賣 314
5.2 書店利潤最大化 327
5.3 非誠勿擾――最佳男友模型 337
做最優秀的麵包店長
花小姐的麵包店是一傢位於上海浦東區且迅速增長的麵包店,它設立於2007年3月。花小姐是一個非常細心的店長,從開業以來一直在Excel工作簿中仔細記錄店內3種主要産品的銷售數據,即法式麵包、意大利式麵包和匹薩。經過幾年的經營積纍,她的門店已經小有規模。現在她想改進,但是受庫存地點限製必須預測未來的産品市場,並依此對人員和庫存等進行戰略性和長遠的決策。決策的依據基於她所做的數據積纍,即通過分析數據中的規律來改進。
花小姐預測的最初目的是要保持足夠的原料,以滿足店內生産的要求。以往麵包原材料會定期嚮供應商購買,並在大量購買時得到摺扣。如果店內産品銷售過旺,原材料就會緊缺;反之會有多餘庫存。所以必須保持庫存和産品的平衡,以保證産品始終用最新鮮的配料來進行生産。
3種産品需要的原料大緻一樣,主要是麵粉、酵母和食鹽。如果不預測市場,就會導緻原材料的需求量忽高忽低。原材料供應商也有可能會因此提高價格,所以預測産品市場不僅僅能保證材料的新鮮度,還能最大程度地降低成本。
有瞭對産品市場的預測,花小姐需要購買原材料時也能保證其産品的質量,因此需要有效地預測未來的銷售收入。她在Excel電子錶中記錄瞭每種産品從2007年3月份開始至今的日常銷售數據並保存在“麵包店經營”工作簿的“銷售數據”工作錶中。
花小姐以錶中的原始數據為基礎,將自2007年以來的原始數據整理為3種産品以周為時間周期的數據。周産品銷售數據保存在“運營”工作錶中,並且注明瞭原料的名稱。通過創建這個數據錶花小姐想對未來幾周的産品的銷售情況進行預測,周銷售數據錶如圖1-110所示。
該麵包店已經收到這個月的訂貨,花小姐必須要在這個月確定本月和下個月的原材料訂單,因此必須預測未來兩個月內的銷售。她現在有173 周的銷售數據,需要預測未來8周的銷售數據。
(1)建立Excel模型
在未來兩個月花小姐沒有調整産品價格的計劃,每種産品的單位質量和單價不變,因此預測原料的需求量首先要知道3種商品的銷售量。建立該數學模型的思路為:商品銷售預測→商品重量預測→原材料預測。
說明如下。
單元格B39:E213區域為2007年3月份以來3種産品每周的銷售數據。
C9單元格用於統計預測的未來4周內法式麵包的銷售收入,在其中輸入“=SUM(INDEX($B$41:$E$299,$C$3,2):INDEX($B$41:$E$299,$C$3+3,2))”。
在C3單元格內輸入開始的周數,初始設置為174,即最後一周。
C10單元格用於統計預測未來4周內意大利式麵包的銷售收入,C11單元格用於統計預測未來4周內匹薩的銷售收入。
D9:D11單元格區域內為每種商品的銷售單價,這樣用銷售收入除以單價即可知道銷售數量。
在E9單元格內輸入公式“=C9/D9”,其他依此類推;F9:F11單元格為每種商品的單位重量,數量乘以單位重量可以知道每種商品的重量;在G9單元格內輸入公式“=E9*F9”,其他依此類推。
B14:E27單元格區域計算每種商品需要的原料,按照每種商品需要的原料組成計算;在C15單元格內引用G9單元格數據;在E16單元格內輸入公式“=$C$15*D16”計算法式麵包需要的原料麵粉的數量,其他原料成分計算依此類推;在D31單元格內輸入公式“=SUM(E16,E20,E24)”將3種商品的麵粉原料求和,這是需要供應商提供的原料采購的數據。
(2)預測設置
選擇B39:E213單元格區域內的任一單元格,選擇Crystal Ball菜單中的【Predictor】選項。
係統自動選擇數據錶格所在的位置,單擊【Next】按鈕,選擇【Data Attributes】選項。
保留係統默認值,單擊【Next】按鈕,顯示【Methods】視圖。
該視圖主要用於設置數據預測的方法,有時間序列的數據選擇【Non-seasonal Methods】和【Seasonal Methods】選項。
(3)查看分析結果
在【View】下拉菜單中選擇有關選項查看各産品的銷售情況,法式麵包明顯有趨勢而無周期;意大利式麵包既有周期,也有趨勢性。為瞭預測準確,選擇所有預測方法,由係統來確定最佳的方案。選擇【ARIMA】復選框,單擊【Run】按鈕。
每種産品的預測數據不同,使用的方法也不同。在預測周期【Periods to forecast】微調框中設置8,即預測8個周期。【Method】下拉列錶框中顯示最佳的分析方法,單擊【Paste】按鈕保存預測結果。
在【Location】選項組中選擇將預測數據放在原曆史數據的後麵或指定單元格區域,選擇【At end of historical data】單選按鈕。單擊【OK】按鈕,3組預測數據復製到“運營”工作錶中的數據錶中。
3種商品的預測重量及原料的采購數量在數據模型中均已完成計算。
根據在模型中預測計算齣未來兩個月的原材料需求量,此時一定會根據現有的庫存和原材料的新鮮程度來指定最佳的訂貨數量。
現金流對於門店經營的重要性不言而喻,花小姐也會詳細記錄每個月的現金流。這樣不僅可以幫助她管理預估庫存,並且用它來預測門店的收入使她的現金流動情況變得更好,更好地瞭解麵包店的現金流量會幫助其更好地控製主要資本支齣。如果花小姐想在門店內新增設備或倉庫等,則必須要瞭解接下來幾個月的現金流情況。
簡單來講,現金流就是除去開支每月的剩餘資金。如果用公式來解釋,就是銷售收入-門店成本和其他開支。門店成本主要包括商品成本和稅賦成本,商品成本中又包括固定成本和變動成本。這需要我們建立數據模型,其他開支是花小姐擴大規模帶來的那些支齣。
花小姐認為主要有兩個方麵的支齣,即麵粉和運費。她想開始在7月份囤積一些油,為此需要增加一個筒倉。並且在8月份購買一輛新的麵包車以方便在附近社區送貨,她需要預測何時可以實施這些項目計劃或是否需要再等一段時間。
在“現金流”工作錶中給齣瞭麵包店從2007年以來的現金流量情況,並且花小姐將3種主要商品的銷售數據按照月份為周期製作瞭一個數據透視錶。當然以月份為周期的銷售數據也是基於日銷售錶的基礎上計算齣來的,可見原始數據的積纍是多麼重要。現在她需要預測未來3個月的收入來計算現金流的情況後決定費用的支齣,並且為瞭保證門店的正常運營,每月末店內的淨現值必須大於20 000美元。
操作步驟如下。
(1)建立Excel數據模型
確定現金流首先要確定各成本,成本由商品與稅費成本組成。每類成本又由固定成本與可變成本組成,兩類成本的固定成本均已知。隻有變動成本不知,而它均與銷售收入有關,因此該數學模型的思路為收入預測→計算成本→每月現金流→決策。
在Excel中的“現金流”工作錶中建立模型。
現金流的Excel模型說明如下。
單元格B33:AP36區域為2007年3月開始以月度為時間周期的曆史銷售收入數據。
E4:G4單元格區域為預測未來3個月的銷售收入數據。
B8:G16單元格區域為每個月店內的成本。
成本包括商品成本和間接成本,商品成本主要指原料的采購成本。其中的固定成本指店麵租金等,為$6707/月。商品可變成本與銷售收入有關,按照經驗估計可變成本占銷售收入的23%。在E10單元格內輸入公式“=$D10*E$4”,即7月份的商品可變成本。其他月份商品的可變成本依次類推;間接成本主要包括設備摺舊等費用,為$8924/月。按照經驗間接可變成本占銷售收入的比例約為18%。稅收比例為5%,增值稅比例為17%。
在E13單元格內輸入公式“=$D10*E$4”錶示7月間接可變成本費用。
在E14單元格內輸入公式“=E$4*$D14”錶示7月份的稅收費用。
在E15單元格內輸入公式“=E$4*$D15”錶示7月份增值稅的費用。
在E16單元格內輸入公式“=SUM(E8:E15)”錶示7月份店內的總費用。
其他月份的間接成本計算依此類推。
7月份計劃囤油需要筒倉,需投資$50 000,數據輸入至E20單元格;8月份新購麵包車及新增倉庫施工的一次性投資為$35 000,數據輸入至F21單元格。每月的現金流=銷售收入?總費用?投資。在E24單元格內輸入公式“=E4-E16-SUM(E20:E21)”錶示7月份的現金流。假設7月初的淨現值為$42 941,則輸入至E26單元格。在E27單元格內輸入公式“=E26+E24”錶示7月末的淨現值,其他月份依此類推。
(2)預測設置
由於現金流的預測依然按照時間序列分析方法進行,因此在Crystal Ball中設置預測器的方法與上麵案例相同。操作步驟與庫存控製相同,如圖1-120所示。
此時預測周期為3,即隻需要預測未來3個月的銷售收入。預測完成後將預測數據放置在錶格最後。
預測完成未來3個月的銷售收入。按照Excel的數學模型,如果7月份需要投資$50 000,8月份需要投資$35 000且7月份的月初淨現值$42 941計算,則每月月末的淨現值。
從計算結果來看,9月末的淨現值$35 452滿足最低現金目標$20 000的需求。但8月末的淨現值$11 833不能滿足最小現金目標,7月末的淨現值$19 536也與最小現金目標接近。這些數據均是Excel中單個數據的計算結果,不能代錶現金流的風險。門店管理者要知道的是風險的概率、因此需要設置假設變量。
(3)設置假設變量
在現金流中的主要不確定因素有商品成本中的可變成本的比率、間接成本中的可變成本的比率及稅收的比率;另外,還有一個重要的不確定因素是預測的銷售收入。該輸入也是一個數據概率,而不僅僅是一個數值,因此我們需要設置以上假設變量。在Crystal Ball預測結束後可以直接將預測結果設置為假設變量,並使用時間序列分析的預測值序列。CB Predictor 默認會得到一個正態分布的假設。
在預測運行之後單擊【Paste】按鈕粘貼數據時選擇【Paste Forecasts as Crystal Ball assumptions】復選框,預測值自動設置成以單元格數據為均值的正態分布。
將商品成本中的可變成本、稅賦中的可變成本及增值稅率設置為假設變量。
D10單元格設置最小值為13%,最大值為26%,最可能值為20%的三角形分布;D13單元格設置成均值為12%,標準差為1%的正態分布;D14單元格設置成均值為5%,標準差為1%的正態分布;D14單元格設置成均值為22%,標準差為2%的正態分布。
……
筆者自2008年的一個偶然機會第1次接觸“數據挖掘”(DataMining)這個新名詞以來,在數據挖掘應用相關領域度過瞭6年。筆者的專業是化工,整天應該與塔、釜、換熱器、化學反應和物料守恒等打交道。開始接觸這個專業的目的是為瞭利用數據分析的一些功能來優化生産運營,讓企業以更高的效率、更低的成本和更好的質量運營,為此需要數據積纍、數據分析和數據模型。
2008年,國內企業在數據挖掘應用中摸索起步,遠不如現在大數據火熱。如今大數據最火的商業應用主要集中在互聯網、銀行和電信等領域。基於行業應用限製,筆者無法接觸到真正的大數據挖掘,但是幸運的是還是碰到瞭職業和興趣的重閤點。
這幾年的摸索是筆者職業生涯中很重要的一段時光,因此有必要將自己一路走來的心得與體會、感悟和挫摺整理齣來,一則是對自己的這段職業生涯做一個交代,特彆是對一路引導、鼓勵和支持筆者的師友和傢人;二則是閤理地引導類似筆者半道齣傢的學習者,對數據分析有興趣卻沒有深厚的統計學知識和IT功底人士,筆者相信本書的內容對於廣大對數據分析應用感興趣的初學者來說都是一種寶貴經驗。在學習數據分析的道路上筆者深刻認識到一個道理,即一個成功的數據分析實踐的核心因素不是數據分析技術,而是對業務理解和分析思路。這也是當初學習數據分析的初衷,初學者切不可為數據分析而分析數據。
大數據挖掘需要精通數據庫、計算機編程和深厚的統計學基礎,有的甚至涉及運籌學範疇,是一門復閤型的應用科學。大數據的案例現在是一抓一大把,如國外典型的“啤酒與尿布”的案例,在瞭解數據分析之前不妨來看看幾個有趣的應用案例。
(1)數據新聞讓英國撤軍
2010年10月23日《衛報》利用維基解密的數據做瞭一篇“數據新聞”,即將伊拉剋戰爭中所有的人員傷亡情況均標注於地圖之上,地圖上一個紅點代錶一次死傷事件。用鼠標單擊紅點後彈齣的窗口則有詳細的說明,包括傷亡人數、時間和造成傷亡的具體原因。密布的紅點多達39萬個,顯得格外觸目驚心,此新聞一經刊齣立即引起朝野震動,推動英國最終做齣撤齣駐伊拉剋軍隊的決定。
(2)大數據與喬布斯癌癥治療
喬布斯是世界上第1個對自身所有DNA和腫瘤DNA進行排序的人,為此他支付瞭高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數據文檔。醫生按照所有基因按需下藥,最終這種方式幫助喬布斯延長瞭幾年的生命。
(3)Google成功預測鼕季流感
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯將其和美國疾病中心在2003—2008年間季節性流感傳播時期的數據進行比較。並建立瞭一個特定的數學模型,最終成功預測瞭2009鼕季流感的傳播,甚至可以具體到特定的地區和州。
(4)奢侈品銷售
PRADA在紐約的旗艦店中每件衣服上都有RFID碼,每當一個顧客拿起一件PRADA進入
試衣間,RFID會被自動識彆;同時數據會傳至PRADA總部。每一件衣服在哪個城市、哪個旗艦店、什麼時間被拿進試衣間和停留多長時間,數據都被存儲起來加以分析。如果一件衣服銷量很低,以往的做法是直接收迴;如果RFID傳迴的數據顯示這件衣服雖然銷量低,但進試衣間的次數多,則說明這件衣服的下場會截然不同,或者在某個細節的微小改變就會重新製造齣一件非常流行的産品。
除瞭國外這些經常用於商業培訓課程的案例外,數據分析其實並不遙遠,在國內也不乏應用。例如,共和國的開國元帥林彪就曾經依靠敏銳的數據嗅覺和軍事天賦成功搗毀敵營總部。
目前國內的大部分高校還沒有開設數據挖掘這門專業課程,大數據分析需要依靠龐大的數據庫,即需要各專業的人士通力閤作,是一個團隊作業。類似筆者這種半道齣傢的個人學習者在不具備團隊協作的條件下,可以在樣本數據的分析下工夫,樣本數據也可以稱為“小數據”,因此本書的名稱定為《大數據時代的小數據分析》。
本書主要介紹應用數據分析的一係列工具,如:Excel、LINGO、Crystal Ball、JMP、Minitab和Xcelsius等,涉及的分析有預測、風險分析、優化求解、假設檢驗、相關分析、迴歸分析和聚類分析等。但所有這些軟件都不是最新版本,如Excel使用2010版;Minitab使用的V15版。在使用軟件時最重要的不是版本的最新,而是理解其功能和特點,靈活地運用。即使是Excel 2003版本,隻要運用得當,同樣能發揮強大的功能。很多不同功能的軟件都可以完成,本書主要結閤不同軟件的不同 大數據時代小數據分析 下載 mobi epub pdf txt 電子書 格式
大數據時代小數據分析 下載 mobi pdf epub txt 電子書 格式 2024
大數據時代小數據分析 下載 mobi epub pdf 電子書裏麵都是實用性的知道 很喜歡很喜歡很喜歡
評分買瞭一堆書,有用的沒幾本。。。
評分嗯,閱讀中。應該還可以吧
評分活動的時候買的,非常實惠
評分到貨神速,從微觀角度講數據挖掘,事例形象,貼近實際,值得認真讀!
評分好好好好好好好好好好好好好好好
評分京東發貨快,服務好,書不錯,值得推薦
評分需要補習擴一下眼界大數據。
評分很好的一次購物體驗,一直信賴京東
大數據時代小數據分析 mobi epub pdf txt 電子書 格式下載 2024