免费可以看的无遮挡av无码|国产在线拍揄自揄视频网站|在线无码精品视频播放在|欧美亚洲国产成人精品,国产成人久久77777精品,亚洲欧美视频在线观看,色偷偷色噜噜狠狠网站久久

千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  應聘面試  >  Python面試題  > Python技巧|機器學習方向企業(yè)面試題(二)

Python技巧|機器學習方向企業(yè)面試題(二)

來源:千鋒教育
發(fā)布人:小千
時間: 2021-04-13 09:59:00 1618279140

      機器學習方向的企業(yè)面試題昨天我們分享了第一期,今天我們繼續(xù)分享第二期,還是老規(guī)矩喜歡記得收藏分享給小伙伴~~

1

      1.什么是偏差與方差?

      泛化誤差可以分解成偏差的平方加上方差加上噪聲。偏差度量了學習算法的期望預測和真實結果的偏離程度,刻畫了學習算法本身的擬合能力,方差度量了同樣大小的訓練集的變動所導致的學習性能的變化,刻畫了數(shù)據(jù)擾動所造成的影響,噪聲表達了當前任務上任何學習算法所能達到的期望泛化誤差下界,刻畫了問題本身的難度。偏差和方差一般稱為bias和variance,一般訓練程度越強,偏差越小,方差越大,泛化誤差一般在中間有一個最小值,如果偏差較大,方差較小,此時一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。

      2.采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?

      用EM算法求解的模型一般有GMM或者協(xié)同過濾,k-means其實也屬于EM。EM算法一定會收斂,但是可能收斂到局部最優(yōu)。由于求和的項數(shù)將隨著隱變量的數(shù)目指數(shù)上升,會給梯度計算帶來麻煩。

      3.SVM、LR、決策樹的對比?

      模型復雜度:SVM支持核函數(shù),可處理線性非線性問題;LR模型簡單,訓練速度快,適合處理線性問題;決策樹容易過擬合,需要進行剪枝

      損失函數(shù):SVM hinge loss; LR L2正則化; adaboost 指數(shù)損失

      數(shù)據(jù)敏感度:SVM添加容忍度對outlier不敏感,只關心支持向量,且需要先做歸一化; LR對遠點敏感

      數(shù)據(jù)量:數(shù)據(jù)量大就用LR,數(shù)據(jù)量小且特征少就用SVM非線性核

      4.GBDT 和隨機森林的區(qū)別

      隨機森林采用的是bagging的思想,bagging又稱為bootstrap aggreagation,通過在訓練樣本集中進行有放回的采樣得到多個采樣集,基于每個采樣集訓練出一個基學習器,再將基學習器結合。

      隨機森林在對決策樹進行bagging的基礎上,在決策樹的訓練過程中引入了隨機屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性的時候是在當前節(jié)點屬性集合中選擇最優(yōu)屬性,而隨機森林則是對結點先隨機選擇包含k個屬性的子集,再選擇最有屬性,k作為一個參數(shù)控制了隨機性的引入程度。

      另外,GBDT訓練是基于Boosting思想,每一迭代中根據(jù)錯誤更新樣本權重,因此是串行生成的序列化方法,而隨機森林是bagging的思想,因此是并行化方法。

      5.xgboost怎么給特征評分?

      在訓練的過程中,通過Gini指數(shù)選擇分離點的特征,一個特征被選中的次數(shù)越多,那么該特征評分越高。

1

      6.什么是OOB?隨機森林中OOB是如何計算的,它有什么優(yōu)缺點?

      bagging方法中Bootstrap每次約有1/3的樣本不會出現(xiàn)在Bootstrap所采集的樣本集合中,當然也就沒有參加決策樹的建立,把這1/3的數(shù)據(jù)稱為袋外數(shù)據(jù)oob(out of bag),它可以用于取代測試集誤差估計方法。

      袋外數(shù)據(jù)(oob)誤差的計算方法如下:

      對于已經(jīng)生成的隨機森林,用袋外數(shù)據(jù)測試其性能,假設袋外數(shù)據(jù)總數(shù)為O,用這O個袋外數(shù)據(jù)作為輸入,帶進之前已經(jīng)生成的隨機森林分類器,分類器會給出O個數(shù)據(jù)相應的分類,因為這O條數(shù)據(jù)的類型是已知的,則用正確的分類與隨機森林分類器的結果進行比較,統(tǒng)計隨機森林分類器分類錯誤的數(shù)目,設為X,則袋外數(shù)據(jù)誤差大小=X/O;這已經(jīng)經(jīng)過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。

      7.什么是機器學習?

      機器學習是為了應對系統(tǒng)程序設計,屬于計算機科學類的學科,它能根據(jù)經(jīng)驗進行自動學習和提高。例如:一個由程序操縱的機器人,它能根據(jù)從傳感器搜集到的數(shù)據(jù),完成一系列的任務和工作。它能根據(jù)數(shù)據(jù)自動地學習應用程序。

      8.機器學習與數(shù)據(jù)挖掘的區(qū)別

      機器語言是指在沒有明確的程序指令的情況下,給予計算機學習能力,使它能自主的學習、設計和擴展相關算法。數(shù)據(jù)挖掘則是一種從非結構化數(shù)據(jù)里面提取知識或者未知的、人們感興趣的圖片。在這個過程中應用了機器學習算法。

      9.什么是機器學習的過度擬合現(xiàn)象

      在機器學習中,當一個統(tǒng)計模型首先描述隨機誤差或噪聲,而不是自身的基本關系時,過度擬合就會出現(xiàn)。當一個模型是過于復雜,過擬合通常容易被發(fā)現(xiàn),因為相對于訓練數(shù)據(jù)類型的數(shù)量,參數(shù)的數(shù)量過于五花八門。那么這個模型由于過度擬合而效果不佳。

      10.過度擬合產(chǎn)生的原因

      由于用于訓練模型的標準并不等同于判斷模型效率的標準,這導致了產(chǎn)生過度擬合的可能性。

      11.如何避免過度擬合

      當你使用較小的數(shù)據(jù)集進行機器學習時,容易產(chǎn)生過度擬合,因此使用較大的數(shù)據(jù)量能避免過度擬合現(xiàn)象。但是,當你不得不使用小型數(shù)據(jù)集進行建模時,可以使用被稱為交叉驗證的技術。在這種方法中數(shù)據(jù)集被分成兩節(jié),測試和訓練數(shù)據(jù)集,測試數(shù)據(jù)集只測試模型,而在訓練數(shù)據(jù)集中,數(shù)據(jù)點被用來建模。

      在該技術中,一個模型通常是被給定有先驗知識的數(shù)據(jù)集(訓練數(shù)據(jù)集)進行訓練,沒有先驗知識的數(shù)據(jù)集進行測試。交叉驗證的思想是:在訓練階段,定義一個數(shù)據(jù)集用來測試模型。

      12.什么是感應式的機器學習?

      感應機器學習涉及由實踐進行學習的過程,能從一組可觀測到的例子的嘗試推導出普遍性規(guī)則。

      13.什么是機器學習的五個流行的算法?

      1. 決策樹2. 神經(jīng)網(wǎng)絡(反向傳播)3. 概率網(wǎng)絡4.最鄰近法5. 支持向量機

      14.機器學習有哪些不同的算法技術?

      在機器學習不同類型的算法技術是:

2

      15.在機器學習中,建立假設或者模型的三個階段指的是什么?

      1.建模 2.模型測試 3.模型應用。

      16.什么是訓練數(shù)據(jù)集和測試數(shù)據(jù)集?

      在類似于機器學習的各個信息科學相關領域中,一組數(shù)據(jù)被用來發(fā)現(xiàn)潛在的預測關系,稱為“訓練數(shù)據(jù)集”。訓練數(shù)據(jù)集是提供給學習者的案例,而試驗數(shù)據(jù)集是用于測試由學習者提出的假設關系的準確度。

      17.請列出機器學習的各種方法?

      機器學習的各種方法如下:

      概念與分類學習(Concept Vs Classification Learning)。

      符號與統(tǒng)計學習(Symbolic Vs Statistical Learning)。

      歸納與分析學習(Inductive Vs Analytical Learning)。

      18.什么是非監(jiān)督學習的功能?

      求數(shù)據(jù)的集群

      求出數(shù)據(jù)的低維表達

      查找數(shù)據(jù)有趣的方向

      有趣的坐標和相關性

      發(fā)現(xiàn)顯著的觀測值和數(shù)據(jù)集清理

      19.什么是監(jiān)督學習的功能?

      分類

      語音識別

      回歸

      時間序列預測

      注釋字符串

      20.什么是算法獨立的機器學習?

      機器學習在基礎數(shù)學領域獨立于任何特定分類器或者學習算法,被稱為算法獨立的機器學習。

      以上就是這一期的Python機器學習面試題介紹了,同學們在面試之前多看看一定會有幫助的,最后如果你對Python開發(fā)感興趣的話不妨來跟在線老師了解一下我們的Python培訓課程。

tags:
聲明:本站稿件版權均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
10年以上業(yè)內(nèi)強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內(nèi)將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
【Python面試題】談談你對“猴子補丁”(monkey patching)的理解

“猴子補丁”是動態(tài)類型語言的一個特性,代碼運行時在不修改源代碼的前提下改變代碼中的方法、屬性、函數(shù)等以達到熱補?。╤ot patch)的效果。詳情>>

2022-08-23 10:29:17
【Python面試題】使用Python代碼實現(xiàn)遍歷一個文件夾的操作

Python標準庫os模塊的walk函數(shù)提供了遍歷一個文件夾的功能,它返回一個生成器。import os g = os.walk('/Users/Hao/Downloads/') for path, dir...詳情>>

2022-08-23 10:29:09
【Python面試題】如何理解python中的封裝,繼承,多態(tài)的

封裝:封裝就是把對象的屬性和行為結合成一個獨立的整體,把內(nèi)部的實現(xiàn)細節(jié)隱藏起來,不能被外界所看見,調(diào)用的人只能執(zhí)行,而看不到實現(xiàn)的細節(jié)...詳情>>

2022-08-23 10:29:06
【Python面試題】運行下面的代碼是否會報錯

擴展:如果不希望代碼運行時動態(tài)的給對象添加新屬性,可以在定義類時使用__slots__魔法。例如,我們可以在上面的A中添加一行__slots__ = ('__va...詳情>>

2022-08-23 10:29:03
【Python面試題】閱讀下面的代碼說出運行結果。

在沒有多重繼承的情況下,向?qū)ο蟀l(fā)出一個消息,如果對象沒有對應的方法,那么向上(父類)搜索的順序是非常清晰的。如果向上追溯到object類(所...詳情>>

2022-08-23 10:29:00