发布网友 发布时间:2022-02-28 14:39
共3个回答
热心网友 时间:2022-02-28 16:09
Data Scientist:属于R&D,主要是新模型/算法的开发。我们会读paper,会写research proposal(只是一部分,也有一部分是下级子公司交上来的),主要绩效是internal publication(technical report),external publication(journal/conference papers),transfering(提出的方法在实际操作端被使用的频率,操作者即为analyst,待会说)。除此外,也会写R/Python/MATLAB等等的 package。但只是为实现自己提出的方法,不是工作的重心,且用什么都无所谓,顺手就行,不过为了能跟同一个project的同事们协调,基本上面说的那几个都得会。
Data Engineer:Scientist不做代码优化,也止步于简单的程序(R/Python/MATLAB/Eviews/JAVA,公司内部都有在用)。当有些算法实现很复杂,需要优化和更高级的程序语言如C++时,就变成data engineer的任务了。所以engineer要读scientist写出的report还要帮助优化代码,但这个需求量很小,公司的engineer也很少。此外,当涉及到更深一层的计算加速如最新的高性能计算(HPC)的时候,工作会返到R&D里专做HPC的scientist。
Data Analyst:公司也是用于基于Google,MS(还有别的,忘记了)的服务平台,HIVE,PIG等,Analyst主要是任务就是把scientist和engineer发来的代码整合到这个系统中去,他们基本不读technical report,只看其使用说明,知道干什么用的就行了。当业务需求使用某些方法的时候,他们就是一线操作者,出最终的分析报告一类的。他们同时管理公司数据库(其实应该归Data architect 管,但我们公司把好像把这俩职务合并了)。当scientist要数据,他们要收集清理,当客户或者子公司要数据,他们也要收集清理。所以从这个角度讲,analyst翻译成分析员就足够了。
热心网友 时间:2022-02-28 17:27
从我的观察来看,不同企业对于data scientist这个title的定义其实是有分歧的,偏向于data reseacher的有,多见于大型IT企业,百度大脑的data scientist们多属于这一类型,他们搞的是比较前沿的深度学习,平常会读大量paper可能自己也会发;偏向于data creative的有,各种企业都会储备,会ETL,懂模型、懂行业,会展示沟通,比较能够创造直接的价值。偏向于data developer的也有但是很少,他们不懂模型,只要给他们算法公式,他们就能用编程语言帮你实现,实现算法是重要的技能,但是这种不懂模型不懂行业的,现在大多企业都不太会给这样的人data scientist的title了。用最常用的数据分析软件R来做个比喻,通常是:
data reseacher:发明/改进模型算法然后给R写package的。
data creative:用R作分析的。
data developer:觉得R太简单不屑于用的+偶尔帮data reseacher给R写package的。
很多时候,data scientist这个title对于企业来说只是众多title的一个,并没什么特别的,员工从Jr. Data Analyst、Sr. Data Analyst一路干上来,需要升职,公司需要激励员工,恰好data scientist这个title又比较sexy一点,那就叫data scientist好了!这就是多数企业的逻辑,无非是提供一个能和Associate、MD、VP这种管理层晋升路线相比拟的技术晋升路线罢了。
2、数据科学家应该是什么样?
这个问题其实大家都在摸石头过河,以下提供一点个人的浅见,欢迎交流。
“能够独立完成一条龙的完整分析过程”是数据科学家身上独有的重要价值。O'Relly那篇报告把数据分析分成三个阶段,数据提取、整合;数据统计、复杂分析;可视化诠释,并把这些任务交由开发人员、分析师和设计师担当,这在理论上是没有错的。但是在实际中企业的很多问题并不能清晰定义,像这样如流水线般精确地分配工作往往是不可能的——企业的问题很多时候只是老板脑中闪现的一个idea,面对这样的问题,回答的思路都还有待讨论,更遑论去找什么样的数据,去哪里找数据、怎样去找数据、以及后续怎样分析这样的问题了。
这个时候,数据科学家的价值就体现出来了,一个理想的data scientist应该是data developer、data creative、data researcher、data businessperson的结合,Ta往往能够领导一个没有被清晰定义的问题的回答过程,在这期间,data scientist对于完整分析过程的把控能力能够帮助Ta主导项目的方向,整合各方资源,data scientist并不一定需要亲身参与到技术开发过程中,但是Ta知道什么样背景的人能够胜任这些工作,知道怎样组建适当的团队,也知道什么样的模型或分析方法能够适用,它们的优缺点都是什么,怎样改进,必要时懂得去查找学术界最新的研究成果并转化;以及知道老板想要什么,始终牢牢把握问题的核心,及时纠偏。最后,把这一套回答此类问题的方法流程化,以应付以后出现类似问题。
热心网友 时间:2022-02-28 19:01
O'Relly那篇文章我也读过,里面说“ Data Scientists往往可以独立完成一条龙的完整分析过程:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。” 这句话其实我是同意的,剑指斜阳其实也有类似观点。但是现在排名第一的答案给出了一个“Data Researcher 更符合一个科学家的形象——专注地研究”的结论,我实在不能苟同。难道只有研究data才叫研究,研究企业就不叫研究吗?
另外,Levin菠萝说“数据分析师和数据科学家,如果非要进行分类的话我认为区分在于初级的Date Creative和高级的Date Creative。例如初级的进行基础的相关、回归、聚类等统计分析,高级的进行机器学习、神经网络等高级挖掘分析”,这点就更加误人子弟,把回归、聚类归入初级分析,机器学习、神经网络归入高级分析,这本身在学术上就是错的。回归、聚类、神经网络都是机器学习的范畴——不要以为回归就是OLS,还有很多technic,优化方法如MCMC、MLE、Gradiant Descent、Gradient Boosting,取样如bootstrapping, bagging, ensemble,还可以修改cost function加penalty,从更广阔的角度来看,回归其实是神经网络的一个special case。