谷歌微軟等科技巨頭數據科學(xué)面試的真題:你能答出多少

發(fā)布時(shí)間:2017-3-22 14:48    發(fā)布者:eechina
關(guān)鍵詞: 招聘 , 面試 , 試題
文/機器之心

  來(lái)自 Glassdoor 的最新數據可以告訴我們各大科技公司最近在招聘面試時(shí)最喜歡向候選人提什么問(wèn)題。首先有一個(gè)令人惋惜的結論:根據統計,幾乎所有的公司都有著(zhù)自己的不同風(fēng)格。由于 Glassdoor 允許匿名提交內容,很多樂(lè )于分享的應聘者向大家提供了 Facebook、谷歌、微軟等大公司的面試題。我們把其中的一部分列出以供大家參考。另外,如果你想轉行成為一名數據科學(xué)家,這里也有一份實(shí)踐指南(如何轉行成為一名數據科學(xué)家?)

  通用問(wèn)題

  蘋(píng)果

  1、如果你有幾百萬(wàn)用戶(hù),每個(gè)用戶(hù)都會(huì )發(fā)生數百筆交易,這些交易存在于數十種產(chǎn)品中。你該如何把這些用戶(hù)細分成有意義的幾類(lèi)?

  微軟

  1、 描述一個(gè)你曾經(jīng)參與的項目,以及它的優(yōu)點(diǎn)。

  2、如何處理具有高基數(high-cardinality)的類(lèi)屬特征?

  3、如果想要給 Twitter feed 寫(xiě) summarize,你要怎么辦?

  4、在應用機器學(xué)習算法之前糾正和清理數據的步驟是什么?

  5、 如何測量數據點(diǎn)之間的距離?

  6、請定義一下方差。

  7、請描述箱形圖(box plot)和直方圖(histogram)之間的差異,以及它們的用例。

  Twitter

  1、你會(huì )使用什么功能來(lái)為用戶(hù)構建推薦算法?

  Uber

  1、選擇任何一個(gè)你真正喜歡的產(chǎn)品或應用程序,并描述如何改善它。

  2、如何在分布中發(fā)現異常?

  3、如何檢查分布中的某個(gè)趨勢是否是由于異常產(chǎn)生的?

  4、 如何估算 Uber 對交通和駕駛環(huán)境造成的影響?

  5、 你會(huì )考慮用什么指標來(lái)跟蹤 Uber 付費廣告策略在吸引新用戶(hù)上是否有效?然后,你想用什么辦法估算出理想的客戶(hù)購置成本?

  領(lǐng)英(LinkedIn)

  1、(對大數據工程師)請解釋 REST 是什么。

  機器學(xué)習問(wèn)題

  谷歌

  1、 為什么要使用特征選擇(feature selection)?

  2、 如果兩個(gè)預測變量高度相關(guān),它們對邏輯回歸系數的影響是什么?系數的置信區間是什么?

  3、 高斯混合模型(Gaussian Mixture Model)和 K-Means 之間有什么區別?

  4、 在 K-Means 中如何拾取 k?

  5、 你如何知道高斯混合模型是不是適用的?

  6、 假設聚類(lèi)模型的標簽是已知的,你如何評估模型的性能?

  微軟

  1、 你有哪些引以為豪的機器學(xué)習項目?

  2、 隨便找一個(gè)機器學(xué)習算法,然后描述它。

  3、 請解釋 Gradient Boosting 是如何工作的。

  4、(對數據挖掘工程師)請解釋決策樹(shù)模型。

  5、(對數據挖掘工程師)什么是神經(jīng)網(wǎng)絡(luò )?

  6、 請解釋偏差方差權衡(Bias-Variance Tradeoff)。

  7。 如何處理不平衡二進(jìn)制分類(lèi)?

  8.L1 和 L2 正則化之間有什么區別?

  Uber

  1、 你會(huì )通過(guò)哪種特征來(lái)預測 Uber 司機是否會(huì )接受訂單請求?你會(huì )使用哪種監督學(xué)習算法來(lái)解決這個(gè)問(wèn)題,如何比較算法的結果?

  領(lǐng)英

  1、 點(diǎn)出及描述三種不同的內核函數,在哪些情況下使用哪種?

  2、 隨意解釋機器學(xué)習里的一種方法。

  3、 如何應付稀疏數據?

  IBM

  1、 如何防止過(guò)擬合(overfitting)?

  2、 如何處理數據中的離群值?

  3、 如何評估邏輯回歸與簡(jiǎn)單線(xiàn)性回歸模型預測的性能?

  4、 監督學(xué)習和無(wú)監督學(xué)習有什么區別?

  5、 什么是交叉驗證(cross-validation),為什么要使用它?

  6、 用于評估預測模型的矩陣的名稱(chēng)是什么?

  7。 邏輯回歸系數和勝算比(Odds Ratio)之間存在什么關(guān)系?

  8。 主成分分析(PCA)和線(xiàn)性和二次判別分析(LDA 和 QDA)之間的關(guān)系是什么?

  9。 如果你有一個(gè)因變量分類(lèi),又有一個(gè)連續自變量的混合分類(lèi),你將使用什么算法,方法或工具進(jìn)行分析?

  10。(對行業(yè)分析師)邏輯與線(xiàn)性回歸有什么區別?如何避免局部極小值?

  Salesforce

  1、 你會(huì )使用哪些數據和模型來(lái)測量損耗/流失?如何測試模型性能?

  2、 假設我是一名非技術(shù)人員,請向我解釋一種機器學(xué)習算法。

  Capital One(一家美國銀行)

  1、 如何構建一個(gè)模型來(lái)預測信用卡詐騙?

  2、 如何處理丟失或不良數據?

  3、 如何從已存在的特征中導出新的特征?

  4、 如果你試圖預測客戶(hù)的性別,但只有 100 個(gè)數據點(diǎn),可能會(huì )出現什么問(wèn)題?

  5、 在擁有兩年交易歷史的情況下,哪些特征可以用來(lái)預測信用風(fēng)險?

  6、 請設計一個(gè)用來(lái)下井字棋的人工智能程序。

  Zillow

  1、 請解釋過(guò)擬合,以及如何防止過(guò)擬合。

  2、 為什么 SVM 需要在支持向量之間最大化邊緣?

  Hadoop

  Twitter

  1、 如何使用 Map/Reduce 將非常大的圖形分割成更小的塊,并根據數據的快速/動(dòng)態(tài)變化并行計算它們的邊緣?

  2、(對數據工程師)給定一個(gè)列表:123, 345234, 678345, 123…其中第一列是粉絲的 ID,第二列是被粉者的 ID。查找所有相互后續對(上面的示例中的對是 123,345)。當列表超出內存時(shí),如何使用 Map / Reduce 來(lái)解決問(wèn)題?

  Captial One

  1、(對數據工程師)什么是 Hadoop 序列化(serialization)?

  2、 解釋一個(gè)簡(jiǎn)單的 Map / Reduce 問(wèn)題。

  Hive

  領(lǐng)英

  1、(對數據工程師)請編寫(xiě)返回情感分數的 Hive UDF。例如,假如好=1,壞=-1,平均數=0,那么對餐廳做評價(jià)時(shí)因為‘食物好,服務(wù)差’,你的分數可能為 1 - 1 = 0

  Spark

  Captial One

  1、(對數據工程師)用 Scala 語(yǔ)言,RDD 在 Spark 中是如何工作的?

  統計和概率問(wèn)題

  谷歌

  1、 假設我是一名非技術(shù)人員,請向我解釋一下交叉驗證(Cross-validation)。

  2、 請描述一下非正態(tài)概率分布,隨后告訴我們它該如何應用?

  微軟

  1、(對數據挖掘)請解釋異方差(heteroskedasticity)是什么,以及如何解決它。

  Twitter

  1、 在給定 Twitter 用戶(hù)數據的情況下,你該如何衡量參與度?

  Uber

  1、 時(shí)間序列預測技術(shù)有什么不同?

  2、 解釋原理組件分析(Principle Component Analysis,PCA)和 PCA 使用的方程。

  3、 如何解決多重共線(xiàn)性(Multicollinearity)?

  4、(對分析師)請寫(xiě)一個(gè)方程,優(yōu)化我們在 Twitter 和 Facebook 上的廣告費用支出。

  Facebook

  1、 在一副牌中抽取兩張,出現同一花色的概率是多少?

  IBM

  1、 什么是 p-value 和置信區間?

  Capital One

  1、(對數據分析師)如果你有 70 個(gè)紅色彈珠,綠色和紅色彈珠的比例是 2 比 7,有多少綠色彈珠?

  2、 紐約市的通勤數據看起來(lái)應該遵從什么分布?

  3、 一個(gè)骰子,在扔 6 次的情況下出現 1 個(gè) 6 的幾率,與扔 12 次的情況下出現至少兩個(gè) 6 的幾率,和扔 600 次出現至少 100 次 6 的幾率相比哪個(gè)大?

  Paypal

  1、 什么是中心極限定理(Central Limit Theorem),如何證明它?它的應用方向是什么?

  編程和算法

  谷歌

  1、(對數據分析師)請寫(xiě)一個(gè)程序可以判定二叉樹(shù)的高度。

  微軟

  1、 請創(chuàng )建一個(gè)函數檢查一個(gè)詞是否具有回文結構。

  Twitter

  1、 請構建一個(gè)冪集(power set)。

  2、 請問(wèn)如何在一個(gè)巨大的數據集中找到中值?

  Uber

  1、(對數據工程師)編寫(xiě)一個(gè)函數用來(lái)計算給定數字的平方根(2 個(gè)小數點(diǎn)精度)。隨后:避免冗余計算,現在使用緩存機制優(yōu)化你的功能。

  Facebook

  1、 假設給定兩個(gè)二進(jìn)制字符串,寫(xiě)一個(gè)函數將它們添加在一起,而不使用任何內置的字符串到 int 轉換或解析工具。例如:如果給函數二進(jìn)制字符串 100 和 111,它應該返回 1011、你的解決方案的空間和時(shí)間復雜性如何?

  2、 編寫(xiě)一個(gè)函數,它接受兩個(gè)已排序的列表,并在排序列表中返回它們的并集。

  領(lǐng)英

  1、(對數據工程師)請編寫(xiě)一些代碼來(lái)確定字符串中的左右括號是否是平衡的?

  2、 如何找到二叉搜索樹(shù)中第二大的元素?

  3、 請編寫(xiě)一個(gè)函數,它接受兩個(gè)排序的向量,并返回一個(gè)排序的向量。

  4、 如果你有一個(gè)輸入的數字流,如何在運行過(guò)程中找到最頻繁出現的數字?

  5、 編寫(xiě)一個(gè)函數,將一個(gè)數字增加到另一個(gè)數字,就像 pow()函數一樣。

  6、 將大字符串拆分成有效字段并將它們存儲在 dictionary 中。如果字符串不能拆分,返回 false。你的解決方案的復雜性如何?

  Captial One

  1、(對數據工程師)如何‘拆散’兩個(gè)數列(就像 SQL 中的 JOIN 反過(guò)來(lái))?

  2、 請創(chuàng )建一個(gè)用于添加的函數,數字表示為兩個(gè)鏈表。

  3、 請創(chuàng )建一個(gè)計算矩陣的函數。

  4、 如何使用 Python 讀取一個(gè)非常大的制表符分隔的數字文件,來(lái)計算每個(gè)數字出現的頻率?

  Paypal

  1、 請編寫(xiě)一個(gè)函數,讓它能在 O(n)的時(shí)間內取一個(gè)句子并逆向打印出來(lái)。

  2、 請編寫(xiě)一個(gè)函數,從一個(gè)數組中拾取,將它們分成兩個(gè)可能的數組,然后打印兩個(gè)數組之間的最大差值(在 O(n) 時(shí)間內)。

  3、 請編寫(xiě)一個(gè)執行合并排序的程序。

  SQL 問(wèn)題

  微軟

  1、(對數據分析師)定義和解釋聚簇索引和非聚簇索引之間的差異。

  2、(對數據分析師)返回表的行計數有哪些不同的方法?

  Facebook

  1、(對數據工程師)如果給定一個(gè)原始數據表,如何使用 SQL 執行 ETL(提取,轉換,加載)以獲取所需格式的數據?

  2、 如何編寫(xiě) SQL 查詢(xún)來(lái)計算涉及兩個(gè)連接的某個(gè)屬性的頻率表?如果你想要 ORDER BY 或 GROUP BY 一些屬性,你需要做什么變化?你該怎么解釋 NULL?

  領(lǐng)英

  1、(對數據工程師)如何改進(jìn) ETL(提取,轉換,加載)的吞吐量?

  智力游戲

  谷歌

  1、 假設你有 10 包彈球,每包里面都是 10 個(gè)彈球。如果其中一包的重量和其他的不同,但你只能進(jìn)行一次稱(chēng)重,你該用什么辦法?

  Facebook

  1、 你打算坐飛機去西雅圖,想知道是不是需要帶傘,于是你分別打電話(huà)給三位在西雅圖的朋友。每個(gè)朋友都有 2/3 的幾率說(shuō)真話(huà),1/3 的幾率在騙你。如果他們都說(shuō)‘會(huì )下雨’,西雅圖下雨的概率是多少?

  2、 假如在一個(gè)等邊三角形的三個(gè)角上都有一只螞蟻,每只隨機選擇方向然后直走一直到另一個(gè)邊緣,三只螞蟻互相不交匯的幾率是多少?如果有 n 只螞蟻在 n 角形中,概率又是多少?

  3、 在 100! 的結果里有多少個(gè)零?

  Uber

  1、 想象一下你在一家醫院工作;颊邅(lái)就診的頻率符合泊松分布,而醫生照顧患者的頻率符合均勻分布。請寫(xiě)一個(gè)函數或一段代碼來(lái)輸出患者的平均等待時(shí)間和醫生在某日的參與度。

  領(lǐng)英

  1、 你正在攀爬一個(gè) n 階的樓梯,你可以采取任何數量的 k 個(gè)步驟。你到達樓梯頂部有多少不同的方式?(這是樓梯問(wèn)題的修改版)

  選自learndatasci機器之心編譯
本文地址:http://selenalain.com/thread-358016-1-1.html     【打印本頁(yè)】

本站部分文章為轉載或網(wǎng)友發(fā)布,目的在于傳遞和分享信息,并不代表本網(wǎng)贊同其觀(guān)點(diǎn)和對其真實(shí)性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問(wèn)題,我們將根據著(zhù)作權人的要求,第一時(shí)間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關(guān)于我們  -  服務(wù)條款  -  使用指南  -  站點(diǎn)地圖  -  友情鏈接  -  聯(lián)系我們
電子工程網(wǎng) © 版權所有   京ICP備16069177號 | 京公網(wǎng)安備11010502021702
快速回復 返回頂部 返回列表
午夜高清国产拍精品福利|亚洲色精品88色婷婷七月丁香|91久久精品无码一区|99久久国语露脸精品|动漫卡通亚洲综合专区48页