定义

数据科学家

数据科学家是一个专业的负责收集,分析和解释极大的数据。这数据科学家的作用是几种传统技术角色的分支,包括数学家,科学家,统计名和计算机专业人士。这项工作需要使用高级分析技术,包括机器学习和预测建模

数据科学家需要大量的数据来进行假设、推断、分析客户和市场趋势。基本职责包括收集和分析数据,使用各种类型的分析和报告工具来检测数据集中的模式、趋势和关系。

在商业中,数据科学家通常在团队中工作矿山大数据用于预测客户行为和识别新的收入机会的信息。在许多组织中,数据科学家还负责制定收集数据、使用分析工具和解释数据的最佳实践。

近年来,随着企业希望从数据科学领域收集有用信息,对数据科学技能的需求显著增长大数据,庞大的结构化,非结构化和半结构化数据,即大型企业或物联网产生和收集。

为什么数据科学如此重要?

数据科学是一个高度跨学科的实践,涉及大量信息范围,通常考虑到其他分析领域的大图片。在业务中,数据科学的目标是为消费者和竞选提供智能,并帮助公司创造强烈计划,以吸引他们的受众并销售其产品。

数据科学家必须依赖于使用大数据的创造性见解,通过各种收集过程收集的大量信息,如数据挖掘。

在更基本的层面上,大数据分析可以帮助品牌了解客户,这些客户最终决定了一个业务或计划的长期成功。除了针对正确的受众,数据科学还可以用来帮助企业控制其品牌的故事。

因为大数据是一个快速发展的领域,不断有新的工具可用,而这些工具需要能够快速学习其应用程序的专家。数据科学家可以帮助公司创建一个商业计划基于研究实现目标,而不仅仅是直觉。

数据科学在安全和欺诈检测中扮演着非常重要的角色,因为海量的信息允许挖掘出数据中的轻微违规,这些违规可能暴露安全系统的弱点。

数据科学是通过个性化和定制创造的高度专业化用户体验之间的驱动力。分析可以让客户觉得被公司看到和理解。

角色和职责

数据科学家的概念来自一些最重要的主要技术现代领域,包括科学,数学,统计,化学计量学和计算机科学。这种角色所需的人格特质,经验和分析技能的组合是罕见的,因此对合格数据科学家的需求处于向上摇摆状态。

数据科学家在2016年,2016年,2016年,2018年和2019年,2016年,2016年,2018年,2019年,基于工作满意度,职位开放数量和中位数基础薪水。数据科学家工作也可以被广告为机器学习架构师。

基本职责包括分析大型数据集定量和定性数据。这些专业人员负责开发数据分析的统计学习模型,并且必须使用统计工具的经验。他们还必须拥有所需的知识来创建复杂的预测模型。

一些可能从事数据科学工作或成为全职数据科学家的专业人士包括计算机科学家,数据库和软件程序员,纪律处专家,策展人和专家注释者和图书馆员。数据科学家的招聘帖子还可以将开场作为“机器学习架构师”或“数据策略架构师”。

数据科学家属性
此图像说明了数据科学家的个人和专业属性。

特征

软技能此作用所需的内容包括智力好奇心,结合怀疑和直觉,以及创造力。人际交往技能是角色的关键部分,因为它涉及定期在许多团队中工作。许多雇主希望他们的数据科学家成为强大的讲故事者,他们知道如何在组织各级的人们展示对人的数据见解。他们还需要领导技能来转向数据驱动的决策组织中的进程。领导力,商业娴熟和预测风险的能力也是处理预测分析所需的大量数据的重要特征。

资格和所需技能

数据科学家通常需要足够的教育或经验背景,实时完成各种极其复杂的规划和分析任务。虽然特定的工作可能会呼叫特定资格,但大多数数据科学角色都需要最低在技术领域的学士学位。

数据科学需要了解许多大数据平台和工具,包括Hadoop,Pig,蜂巢、Spark和MapReduce;编程语言包括SQL,python,scala和perl;和统计计算语言,如R.

硬技能该工作要求包括数据挖掘,机器学习,深度学习以及集成结构化和非结构化数据的能力。统计研究技术经验,如建模,聚类,数据可视化和分割,以及预测分析也是角色的重要组成部分。

在招聘帖子中,必要的技能通常包括以下内容:

  • 通过清洁,模型选择,验证和部署的初始发现,从初始发现中的所有阶段都在所有阶段的专业知识;
  • 了解常用数据仓库结构;
  • 有使用统计方法解决分析问题的经验;
  • 熟练熟练的公共机器学习框架;
  • 有公共云平台和服务经验;
  • 熟悉多种数据源,包括数据库,公共或私人API和标准数据格式,如JSON,YAML和XML;
  • 能够识别新机会,将机器施加到业务流程以提高其效率和效力;
  • 能够设计和实现能够跟踪关键业务指标并提供可行见解的报告仪表板;
  • 具有定性和定量分析的技术经验;
  • 能够以观众将理解的方式分享定性和定量分析;
  • 熟悉机器学习技术,如K.最近的邻居,天真的贝叶斯,随机森林和支持向量机;
  • 设计和实施验证测试的能力;
  • 高级学位,具有专业化统计,计算机科学,数据科学,经济学,数学,运营研究或其他量化领域;
  • 可视化工具的经验,如Tableau和Power Bi;
  • 编码技巧,如r,python或scala;
  • 能够将数据从不同来源汇总;和
  • 能够进行特别分析,并以清晰的方式给出结果。

教育,培训和认证

数据科学家的教育要求通常包括统计数据科学,数据科学或数学的高级学位。有许多认证机会对于此角色,包括Dell EMC Deca-DS,MCSA:各种SQL /数据工程选项,Microsoft MCSE数据管理和分析以及认证的分析专业人员。

数据科学家的薪水

额外的责任和预期,以大规模的额度计算到数据分析师的薪水超过两倍。根据Glassdoor,美国的平均数据科学家薪水是2019年10月的117,345美元。

数据科学家与公民数据科学家

数据科学家与数据之间的差异公民数据科学家包括以下这些:

教育。数据科学家通常至少拥有数学、数据分析、计算机科学或统计学方面的学士学位。另一方面,公民数据科学家可能有各种各样的教育背景,但有使用分析工具和软件的经验,这使他们能够更好地创建模型和执行复杂的分析,而无需接受上述领域的正规教育。

代码。公民数据科学家通常依赖软件工具,包括预建的建模工具、拖放功能和用户友好的算法来执行标准分析。这些工具并不妨碍公民数据科学家发现重要的模式或数据点。专业的数据科学家能够创建复杂的自定义算法,并以创造性的新方式进行数据分析。

的薪水。数据科学家是支付最高的职称之一,对能够完成角色各种职责的专业人士有很高的需求。另一方面,公民数据科学家可能是业余爱好者或志愿者,或者可能会收到他们为主要公司所做的工作的少量赔偿。

数据科学的六个主要领域是什么?

数据科学的六大范畴包括:

  • 多学科调查。考虑到具有互连件的大型复杂系统,数据科学家使用不同的方法来收集大量数据。
  • 数据的模型和方法。数据科学家需要依靠经验和直觉来决定哪种方法最适合建模他们的数据,并且他们需要连续调整这些方法,以磨练他们寻求的见解。
  • 教育学.在收集和分析有关客户和产品的信息时,数据科学家需要与公司和客户合作,确定应用的最佳意识形态。
  • 计算与数据。所有数据科学项目最大的共同点是,必须使用工具和软件来分析相关的算法和统计数据,因为他们所处理的信息池的规模是如此之大。
  • 理论。数据科学理论是一个不断发展和复杂的专业领域,有无数的应用。
  • 工具评估。数据科学家可以使用许多工具来处理和研究大量数据,重要的是要总是评估这些工具的有效性,并在它们可用时不断尝试新的工具。

依赖数据科学的行业

受数据科学家专业人员严重影响的行业和部门包括但不限于:

  • 农业
  • 大数据
  • 数字经济
  • 经济学
  • 欺诈识别
  • 医疗保健
  • 人力资源
  • 营销分析
  • 营销优化
  • 公共政策
  • 风险管理
  • 机器人
  • 机器翻译
  • 制造业
  • 医学信息学
  • 社会科学
  • 语音识别
  • 旅行

数据科学史

数据科学很大程度上是计算机科学的一个分支。1960年,计算机科学的先驱彼得·诺尔(Peter Naur)首次使用这个术语。他在他1974年的书中描述了数据科学中使用的技术和方法的基本方面,简要调查计算机方法。

1996年,国际分类协会联合会在会议中使用了第四节数据科学。一位名叫威廉S.克利夫兰的计算机科学家将数据科学引入了他的文章中的一个学科,“数据科学:扩大统计技术领域的行动计划,”在2001年在国际统计审查中发表。多年来,它变成了现代技术最追求的最高节奏的研究技术。

最近,美国政府机构的人事管理办公室(OPM)为美国政府机构授权机构使用括号(数据科学家)以及执行数据科学作为工作主要部分的职位的职业头衔。OPM确定了数据科学工作可以在各种职业系列中找到,包括但不限于流行病学,精算科学,运营研究,统计和信息技术的工作。优化和数据科学中心支持人口普查局的数据科学家,并促进其在适应设计,数据分析和其他政府机构的机器学习中的领导。

挑战

虽然被认为是一致的年度民意调查中最好的工作之一,但数据科学家们仍然体验了一些统计学家和类似角色的挫折。虽然他们经常被雇用来理解大型信息系统,但它们并不一定总是给出具体问题来询问或指示进行研究。许多公司要求员工完成数据科学工作,而无需在完整的数据科学团队中投入资金。他们还有时会经历不正确或杂乱的数据,称为肮脏的数据这可能会不正当地扭曲他们模型的结果。

数据科学家与数据分析师

数据科学家的角色常常与数据分析师的角色相混淆。但是,尽管许多技能有重叠之处,但也有一些显著的差异。

虽然数据分析师的作用因公司而异,但总的来说,这些专业人员收集数据,使用标准统计工具和技术进行数据并进行统计分析。分析师还确定模式并在数据集中进行相关性,以确定新的业务流程,产品或服务的改进机会。在某些情况下,数据分析师还设计,构建和维护大数据和关系型数据库系统。根据Glassdoor的数据,截至2019年10月,美国数据分析师的平均工资为67377美元。

数据科学家对这些任务负责,还有更多。这些专业人员都配备了使用高级分析工具分析大数据,预计将有研究背景为特定问题开发新算法。他们也可以在没有特定问题的情况下探索数据。在那种情况下,他们需要了解数据和业务,足以制定问题并向商业管理人员提供有识,以改善业务运营,产品,服务或客户关系。

结构化数据和非结构化数据的区别

将数据科学家与传统统计学家和数学家区分开来的一个主要因素是他们分析非结构化数据的能力。结构化数据是可以分析、映射和加载到数据库、电子表格和组织系统中的信息。另一方面,非结构化数据更加有机,采用了一些创造性的方法,比如编码,来加载到分析模型中。

例如,如果天气频道在一个月内在网站上发布45个天气相关的视频,则结构化数据可能包括它们上传的次数,每个视频的长度和每个视频的长度和每个视频都包含的关键字。非结构化数据,通常在性质上进行定性,可以从情感分析中 - 提供者的语气是否乐观 - 视频支持天气渠道的品牌。

该信息可能在a中映射图形数据库,但也可以分配代码并将其视为可量化的数据。同样,如果其中包括某种阳性度量,则基于人们对每个视频的反应方式,可能很容易得到可量化的结果,如收藏夹按钮。但要收集有关公众反应的数据,超出了那些给出反馈的人,数据科学家需要深入研究一些定性研究。

半结构化数据位于结构化和非结构化数据之间的某个位置。半结构化为可以落入非常特定的类别和子类别的数据,但尚未组织成易于操纵的隔间。

数据科学中使用的常用方法

  • 机器学习或统计学习。机器学习和统计学习是形式人工智能这涉及在随着时间的推移而没有人工程序员的输入时随着时间的推移变得更加准确和高效的系统等系统的能力。
  • 信号处理。信号处理是用来分析和改善数字信号的任何方法。
  • 数据挖掘。数据挖掘是将关于网站、用户、软件或其他利益相关者的大量信息在数字化过程中收集到数据库的过程,其目的往往是了解客户或产品用户,以改善商业实践和销售。
  • 数据库。数据库是为了组织和分析数据而创建的大量信息集合。
  • 工程数据.数据工程与数据科学类似,是以各种方式处理数据的实践,目的是发现见解或改进操作。
  • 可视化。可以组织大量数据,以便观察者快速理解的图表或模型,而不需要将它们涉及分析的粒度方面。
  • 数据准备。数据准备是用于将,收集,组织和结构数据组合成视觉上吸引人或易消化的格式的任何过程。
  • 预测建模。预测性建模是创建图表和模型来测试不同场景的过程,并通过应用统计学和数学,尝试对最有可能的结果做出最合理的猜测。
这是最后更新的2019年10月

继续阅读数据科学家

深入挖掘人工智能领域的职业

搜索商业分析
搜索CIO.
搜索数据管理
搜索ERP
关闭