发布网友 发布时间:2022-03-24 18:46
共3个回答
热心网友 时间:2022-03-24 20:15
数据科学家应该是什么样?“能够独立完成一条龙的完整分析过程”是数据科学家身上独有的重要价值。O'Relly那篇报告把数据分析分成三个阶段,数据提取、整合;数据统计、复杂分析;可视化诠释,并把这些任务交由开发人员、分析师和设计师担当,这在理论上是没有错的。但是在实际中企业的很多问题并不能清晰定义,像这样如流水线般精确地分配工作往往是不可能的——企业的问题很多时候只是老板脑中闪现的一个idea,面对这样的问题,回答的思路都还有待讨论,更遑论去找什么样的数据,去哪里找数据、怎样去找数据、以及后续怎样分析这样的问题了。
热心网友 时间:2022-03-24 21:33
数据科学和数据分析之间看起来只有微妙的差异,但是实际上两者可能对公司产生很大的影响。一开始,数据科学家和数据分析师就有不同的背景,履行不同的职责,所以能正确使用这些术语有助于公司聘请合适的人员来处理各自的任务。数据分析和数据科学可以用来找到不同的东西,对于企业来说这些都是有用的,两者都不能单独应用于所有情况。数据分析常用于如医疗保健,游戏和旅游等行业,而数据科学常用于互联网搜索和数字广告中。虽然存在差异,但数据科学和数据分析都是未来工作和数据的重要组成部分。这两个术语应该被希望理解数据,并能引领技术变革的公司所接受。
热心网友 时间:2022-03-24 23:08
Levin菠萝说“数据分析师和数据科学家,如果非要进行分类的话我认为区分在于初级的Date Creative和高级的Date Creative。例如初级的进行基础的相关、回归、聚类等统计分析,高级的进行机器学习、神经网络等高级挖掘分析”,这点就更加误人子弟,把回归、聚类归入初级分析,机器学习、神经网络归入高级分析,这本身在学术上就是错的。回归、聚类、神经网络都是机器学习的范畴——不要以为回归就是OLS,还有很多technic,优化方法如MCMC、MLE、Gradiant Descent、Gradient Boosting,取样如bootstrapping, bagging, ensemble,还可以修改cost function加penalty,从更广阔的角度来看,回归其实是神经网络的一个special case。而且我还是头一次见到人把神经网络和机器学习并列起来谈的——前者明明从属于后者的范畴。
不同企业对于data scientist这个title的定义其实是有分歧的,偏向于data reseacher的有,多见于大型IT企业,百度大脑的data scientist们多属于这一类型,他们搞的是比较前沿的深度学习,平常会读大量paper可能自己也会发;偏向于data creative的有,各种企业都会储备,会ETL,懂模型、懂行业,会展示沟通,比较能够创造直接的价值。偏向于data developer的也有但是很少,他们不懂模型,只要给他们算法公式,他们就能用编程语言帮你实现,实现算法是重要的技能,但是这种不懂模型不懂行业的,现在大多企业都不太会给这样的人data scientist的title了。用最常用的数据分析软件R来做个比喻,通常是:data reseacher:发明/改进模型算法然后给R写package的。