了解最新公司動態及行業資訊
編譯:米卡
市場對數據工作者的要求很多:需要掌握機器學習、計算機科學、統計學、數學、數據可視化、深度學習等知識。要掌握所有這些方面,至少需要學習數十種語言、框架和技術,這顯然是困難的。
那么,數據工作者應該如何合理分配時間,掌握哪些技能?
在本文中,我們搜索了工作網站,以找到數據相關工作(例如數據科學家)所需的技能。我分別分析了一般數據相關的技能和特定的語言和工具。
我們專門搜索了 、 、 和這些求職網站。
下表顯示了每個網站上發布了多少相關工作。
我分析了許多職位列表和調查,列出了最常見的技能要求。像“管理”這樣的詞不包括在內,因為許多職位發布都包括它。
所有搜索均針對美國地點、關鍵字中包含“數據科學家”的職位發布,并且使用完全匹配搜索來減少結果數量。但是,這種方法可確保結果與數據科學家的職位相關并影響所有搜索詞。
提供于
是招聘數據科學家的公司數量,而不是職位數量。我將排除這兩種分析,因為它的搜索算法是 OR 的邏輯搜索,并且不能修改為 AND。如果您搜索“數據科學家”“”之類的關鍵字,還不錯,但如果您搜索“數據科學家”“react.js”,它也會返回不雇用數據科學家的公司。
也被我排除在外。該網站稱,目前美國發布了 26,263 個“數據科學家”職位,但實際上顯示的職位不到 900 個。此外,發布的數據科學家職位不太可能是其他主流平臺的三倍。
最終分析使用通用技能分析400多個職位信息和特定技能分析200多個職位信息。有一些重復,結果記錄在Sheet中。
我下載了 .csv 文件并將其導入。然后我計算了每個百分比,并對工作現場的數字進行平均。
此外,我將結果與上半年發布的數據科學家工作研究進行了比較,并結合了調查信息。可以看出,一些技能對數據科學家來說越來越重要,而另一些則逐漸變得不那么重要。我們稍后會詳細看到。
交互式圖表和分析可以在我的 .我用它來進行可視化,在寫這篇文章的時候,使用and有一些困難,在最終文檔中有說明
文檔
1.一般技能
以下是雇主最希望數據科學家具備的一般技能。
結果表明,數據分析和機器學習等通用技能是數據科學家工作的核心。從數據中收集分析見解是數據科學的主要功能。機器學習是關于開發能夠產生預測性能的系統,它是一項非常流行的技能。
數據科學家需要統計和計算機科學技能也就不足為奇了。統計學、計算機科學和數學也是大學專業,這也可能增加這些技能的使用頻率。
有趣的是,近一半的工作要求都提到了溝通技巧。數據科學家需要能夠交流自己的見解并與他人協作。
人工智能和深度學習并不像其他術語那樣頻繁出現。它們是機器學習的一個子集,深度學習用于越來越多的機器學習任務it技能服務,以前主要使用其他算法。今天,大多數用于自然語言處理問題的最佳機器學習算法都是深度學習算法。我預計深度學習技能在未來的職位發布中會越來越明確,機器學習會越來越類似于深度學習。
那么雇主希望數據科學家使用哪些特定的軟件工具?接下來,我們來看看問題。
2.技術技能
以下是雇主最希望數據科學家掌握的前 20 種特定語言、庫和技術工具。
讓我們簡要介紹一下最常見的技術技能。
是最流行的語言。這種開源語言已經變得非常流行。對于初學者來說,該語言很容易上手,并且有很多支持資源。絕大多數數據科學工具都與它兼容。它是數據科學家使用的主要語言。
R 語言也不甘落后。它曾經是數據科學的主要語言,R 的需求量仍然很大。這種開源語言源于統計學,很受統計學家的歡迎。
或者說,R 語言是從事數據科學工作的必備語言。
SQL 的需求量也很大。 SQL 代表查詢(結構化查詢語言),是與數據庫交互的主要方式。 SQL 在數據科學領域有時會被忽視,但如果您正在尋找數據科學領域的工作,這項技能很重要。
接下來是 Spark,兩者都是大數據的開源工具。
是一個開源軟件平臺,用于分布式存儲和分布式處理大型數據集,這些數據集是用商用硬件構建的計算機集群。
Spark 是一個快速的內存數據處理引擎,具有強大且富有表現力的開發 API,使數據工作者能夠在需要快速迭代訪問數據集的情況下高效地執行流式處理、機器學習或 SQL。
與 R 和 SQL 相比,很少有求職者具備這些技能。如果您有使用 Spark 的經驗,那么您更有可能在求職中取得成功。
接下來是 Java 和 SAS。我驚訝地發現,這兩種語言在職位描述中也出現得非常頻繁。一般來說,Java 和 SAS 在數據科學界沒有受到太多關注。
接下來是。這個分析平臺和可視化工具功能強大、易于使用且越來越受歡迎。它有一個免費的公共版本,但如果您想保持數據的私密性,則需要花錢。如果您不熟悉,強烈推薦 Udemy 的 10 A-Z。
下面的技能列表顯示了更多的語言、框架和其他數據科學軟件工具。
根據我們的分析和調查,R 和 SQL 是最受歡迎的技能。根據局方開發者調查分析,近年來R、Java、SAS的使用量呈下降趨勢,呈明顯上升趨勢。
3.建議
根據這些分析的結果,以下是給數據科學家的一些建議。
當雇主在尋找熟練的數據科學家時,他們還希望候選人掌握常用的數據科學庫:numpy、-learn 和 .如果您正在學習這些工具,我建議您使用以下資源:
如果你想學習深度學習,我建議先學習 Keras,然后再學習 or。 Deep with 這本書是學習 Keras 的絕佳資源。
除此之外,我建議您了解自己感興趣的內容,盡管這里需要考慮時間分配等因素。
如果您正在通過工作網站尋找數據科學家的工作it技能服務,我建議您嘗試一下,它提供最多的工作信息。
同時,我建議您創建一個在線作品集,以很好地展示您的數據科學技能。還建議您在個人資料中注明您的技能。