Python技巧|機器學習方向企業(yè)面試題（二）

來源：千鋒教育

發(fā)布人：小千

時間： 2021-04-13 09:59:00 1618279140

機器學習方向的企業(yè)面試題昨天我們分享了第一期，今天我們繼續(xù)分享第二期，還是老規(guī)矩喜歡記得收藏分享給小伙伴~~

1.什么是偏差與方差？

泛化誤差可以分解成偏差的平方加上方差加上噪聲。偏差度量了學習算法的期望預測和真實結果的偏離程度，刻畫了學習算法本身的擬合能力，方差度量了同樣大小的訓練集的變動所導致的學習性能的變化，刻畫了數(shù)據(jù)擾動所造成的影響，噪聲表達了當前任務上任何學習算法所能達到的期望泛化誤差下界，刻畫了問題本身的難度。偏差和方差一般稱為bias和variance，一般訓練程度越強，偏差越小，方差越大，泛化誤差一般在中間有一個最小值，如果偏差較大，方差較小，此時一般稱為欠擬合，而偏差較小，方差較大稱為過擬合。

2.采用 EM 算法求解的模型有哪些，為什么不用牛頓法或梯度下降法？

用EM算法求解的模型一般有GMM或者協(xié)同過濾，k-means其實也屬于EM。EM算法一定會收斂，但是可能收斂到局部最優(yōu)。由于求和的項數(shù)將隨著隱變量的數(shù)目指數(shù)上升，會給梯度計算帶來麻煩。

3.SVM、LR、決策樹的對比？

模型復雜度：SVM支持核函數(shù)，可處理線性非線性問題;LR模型簡單，訓練速度快，適合處理線性問題;決策樹容易過擬合，需要進行剪枝

損失函數(shù)：SVM hinge loss; LR L2正則化; adaboost 指數(shù)損失

數(shù)據(jù)敏感度：SVM添加容忍度對outlier不敏感，只關心支持向量，且需要先做歸一化; LR對遠點敏感

數(shù)據(jù)量：數(shù)據(jù)量大就用LR，數(shù)據(jù)量小且特征少就用SVM非線性核

4.GBDT 和隨機森林的區(qū)別

隨機森林采用的是bagging的思想，bagging又稱為bootstrap aggreagation，通過在訓練樣本集中進行有放回的采樣得到多個采樣集，基于每個采樣集訓練出一個基學習器，再將基學習器結合。

隨機森林在對決策樹進行bagging的基礎上，在決策樹的訓練過程中引入了隨機屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性的時候是在當前節(jié)點屬性集合中選擇最優(yōu)屬性，而隨機森林則是對結點先隨機選擇包含k個屬性的子集，再選擇最有屬性，k作為一個參數(shù)控制了隨機性的引入程度。

另外，GBDT訓練是基于Boosting思想，每一迭代中根據(jù)錯誤更新樣本權重，因此是串行生成的序列化方法，而隨機森林是bagging的思想，因此是并行化方法。

5.xgboost怎么給特征評分？

在訓練的過程中，通過Gini指數(shù)選擇分離點的特征，一個特征被選中的次數(shù)越多，那么該特征評分越高。

6.什么是OOB？隨機森林中OOB是如何計算的，它有什么優(yōu)缺點？

bagging方法中Bootstrap每次約有1/3的樣本不會出現(xiàn)在Bootstrap所采集的樣本集合中，當然也就沒有參加決策樹的建立，把這1/3的數(shù)據(jù)稱為袋外數(shù)據(jù)oob（out of bag）,它可以用于取代測試集誤差估計方法。

袋外數(shù)據(jù)(oob)誤差的計算方法如下：

對于已經(jīng)生成的隨機森林,用袋外數(shù)據(jù)測試其性能,假設袋外數(shù)據(jù)總數(shù)為O,用這O個袋外數(shù)據(jù)作為輸入,帶進之前已經(jīng)生成的隨機森林分類器,分類器會給出O個數(shù)據(jù)相應的分類,因為這O條數(shù)據(jù)的類型是已知的,則用正確的分類與隨機森林分類器的結果進行比較,統(tǒng)計隨機森林分類器分類錯誤的數(shù)目,設為X,則袋外數(shù)據(jù)誤差大小=X/O;這已經(jīng)經(jīng)過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。

7.什么是機器學習？

機器學習是為了應對系統(tǒng)程序設計，屬于計算機科學類的學科，它能根據(jù)經(jīng)驗進行自動學習和提高。例如：一個由程序操縱的機器人，它能根據(jù)從傳感器搜集到的數(shù)據(jù)，完成一系列的任務和工作。它能根據(jù)數(shù)據(jù)自動地學習應用程序。

8.機器學習與數(shù)據(jù)挖掘的區(qū)別

機器語言是指在沒有明確的程序指令的情況下，給予計算機學習能力，使它能自主的學習、設計和擴展相關算法。數(shù)據(jù)挖掘則是一種從非結構化數(shù)據(jù)里面提取知識或者未知的、人們感興趣的圖片。在這個過程中應用了機器學習算法。

9.什么是機器學習的過度擬合現(xiàn)象

在機器學習中，當一個統(tǒng)計模型首先描述隨機誤差或噪聲，而不是自身的基本關系時，過度擬合就會出現(xiàn)。當一個模型是過于復雜，過擬合通常容易被發(fā)現(xiàn)，因為相對于訓練數(shù)據(jù)類型的數(shù)量，參數(shù)的數(shù)量過于五花八門。那么這個模型由于過度擬合而效果不佳。

10.過度擬合產(chǎn)生的原因

由于用于訓練模型的標準并不等同于判斷模型效率的標準，這導致了產(chǎn)生過度擬合的可能性。

11.如何避免過度擬合

當你使用較小的數(shù)據(jù)集進行機器學習時，容易產(chǎn)生過度擬合，因此使用較大的數(shù)據(jù)量能避免過度擬合現(xiàn)象。但是，當你不得不使用小型數(shù)據(jù)集進行建模時，可以使用被稱為交叉驗證的技術。在這種方法中數(shù)據(jù)集被分成兩節(jié)，測試和訓練數(shù)據(jù)集，測試數(shù)據(jù)集只測試模型，而在訓練數(shù)據(jù)集中，數(shù)據(jù)點被用來建模。

在該技術中，一個模型通常是被給定有先驗知識的數(shù)據(jù)集（訓練數(shù)據(jù)集）進行訓練，沒有先驗知識的數(shù)據(jù)集進行測試。交叉驗證的思想是：在訓練階段，定義一個數(shù)據(jù)集用來測試模型。

12.什么是感應式的機器學習？

感應機器學習涉及由實踐進行學習的過程，能從一組可觀測到的例子的嘗試推導出普遍性規(guī)則。

13.什么是機器學習的五個流行的算法？

1. 決策樹2. 神經(jīng)網(wǎng)絡（反向傳播）3. 概率網(wǎng)絡4.最鄰近法5. 支持向量機

14.機器學習有哪些不同的算法技術？

在機器學習不同類型的算法技術是：