www.hg008808.com > 美标阀门 >

如何才算用数据讲故事?数据科学家求职必读

发布时间:2019-05-06   浏览次数:

  热力求对于绘制梯度差别很便利,可是我们但愿利用愈加布局化的体例,来绘制城市中分歧窗校 SAT 成就的区别。学区是一个很好的可视化选择,由于每个学期的办理各别。纽约市无数十个学期,每个学区就是一个小的地舆范畴。

  为了可以或许实正理解这些数据的上下文,你要花点时间去摸索数据。每个链接都有一些关于数据及相关列的描述。我们手里有高中生的 SAT 成就,以及生源消息等其他数据集。

  从这里获得SAT数据及各高中数据。这将是项目标根本,可是我们还需要更多的消息来确保无力的阐发。

  为了可以或许结合数据集,我们需要找到一种体例来一个高中对应一行数据。若是不如许做,我们将无法比力 SAT 成就取班级大小。起首我们需要更好地舆解数据,然后做一些聚合。正在class_size数据集里,GRADE和PROGRAM TYPE字段对于一个学校存正在多个值。通过一个字段只要一个值,我们能够过滤掉大部门的反复行。鄙人面的代码中,我们将:

  本文中,我们着眼于美国高中生的SAT成就以及其他统计数据来做数据阐发。SAT(Scholastic Aptitude Test) 是美国高中生申请大学前加入的一项测验。大学正在做出能否入取决按时会参考测验成就。这个测验分为三个部门,每部门 800 分,总分 2400 (虽然总分曾改来改去良多次,但正在这个数据集里仍是2400)。各高中经常以 SAT 的平均成就进行排名,SAT 成就高代表着这个学区的高质量。

  若是你已到这里了,代表你曾经理解若何用数据讲故事和如何打制你的数据科学做品集。一旦你完成了你的数据科学项目,请将它传到 Github,如许别人就能够取你协做了。

  目前为止,我们曾经考虑了生源方面的阐发角度。另一个标的目的是研究学生加入 AP 测验取SAT 成就的关系。二者之间该当是相关的,进修成就好的学生,SAT 成就也应更高。

  谷歌搜刮显示,这些学校属于表演艺术的精英学校。所以能够同时注释这些学校有较高的女性占比以及较高的 SAT 分数。

  计较列之间的联系关系性,是摸索数据集和查抄列相关度的好方式。这个方式能够告诉你哪个列取你感乐趣的列有慎密关系。我们能够利用 Pandas DataFrames 供给的corr方式来计较得分。得分越接近0,暗示越没有相关性。越接近1,则正相关性越强,越接近-1,则负相关性越强:

  这里最无效的东西是Jupyter notebook。若是你对此不是很熟悉,请参考这个教程。Jupyter notebook 答应你交互式的摸索数据,支撑将成果分享到多个网坐,包罗 Github 。通过度享,他人能够很好的取你协做,并扩充你的。

  谷歌搜刮成果显示,这些学校中大大都是针对正正在进修英语的学生,因而入学率也低。这一成果告诉我们,并不是说总入学率取 SAT 成就相关,而是学校中的学生能否以英语为第二外语。

  数据科学的世界里,故事毫不会完全竣事。把你的阐发分享给其他人,别人能够就任何感乐趣的标的目的进一步扩充和塑制你的阐发。好比本文中就有良多你能够继续进行挖掘的标的目的。

  一个好的做品集一般由多个项目形成,每一个项目展现以上 1-2 个能力点。本文是教你如何打制一个全面的数据科学做品系列的第一篇。我们将引见如何打制做品集中的第一个项目,如何利用数据讲述一个无效的故事。本篇竣事时,你将具有一个展现沟通能力和数据揣度能力的数据科学项目。

  现正在我们有了 DataFramefull, 几乎包含所有我们需要消息的。可是,仍然有部门字段的数据是缺失的。例如我们想将AP测验的成果取 SAT 成就联系关系到一路的话,我们需要将列为数字,然后填入所出缺失的数值:

  既然我们晓得了一个进修中英语学生的比例取较低的 SAT 成就相关,能够进一步做摸索。ell_percent列是每个学校中英语学生的比例。我们绘制一副散点图来阐发二者之间的关系。

  最风趣的数据集之一,该当是学生、父母、教员的问卷查询拜访数据,囊括了对每个学校的平安程度、学术程度等等反馈数据。正在组合数据集之前,让我们添加这些查询拜访数据。现实工做中,阐发数据的途中你经常会碰着你想要插手的风趣数据。利用Jupyter notebook 如许矫捷的东西,能够让你快速添加额外代码,而且从头运转你的阐发。

  为了更容易的处置数据,我们需要将所有的单个数据集集中到一个数据集里。如许能够让我们更快的比力数据集之间的列。为了做到这一点,第一步我们需要找到一个同一的公共列。从的输出成果来看,你会发觉DBN呈现正在大大都的数据集里,看起来能够用做公共列。

  数据科学公司正在聘请时越来越看沉小我做品集,缘由正在于做品集是权衡现实能力最好的体例之一。好动静是,你完全掌控着本人的做品集。若是付出一些勤奋,你就能够打制一套令用人单元印象深刻的高质量做品集。

  同样,我们需要压缩demographics数据集。这个数据集收集了统一个学校多年的数据,因而存正在反复数据。我们将仅仅挑选出schoolyear字段里为比来年份的,往来来往除反复的数据:

  数据科学的素质是沟通。你通过数据获得了一些洞察,然后采用无效的体例将其给他人,并向其推销你的处理方案。可见利用数据来讲述一个无效的故事,是数据科学家最主要的技术之一。一个无效的故事能够使你的洞察更无力,同时能帮帮他人理解你的概念。

  正在我们深切数据之前,要为本人以及读者设定一个上下文。利用可摸索的图表或者地图是一个好的体例。正在本例中,我们按学校绘制出地图,这能够帮组我们理解即将摸索的问题。

  建立项目标第一步是决定从题。你需要选择感乐趣且有动力去研究的标题问题。我们都晓得为了做项目而做,仍是实的感乐趣去做,这之间有庞大区别。因而这一步值得多花点功夫,确保可以或许找到实正感乐趣的工具。

  可以或许从一而终的完成项目常主要的。因而,项目标范畴很是环节,这能够让我们清晰地晓得我们能够完成它。

  一旦找到了好标题问题,接下往来来往多找一些有帮于这个标题问题或者能使你更进一步深切研究的数据集。最好提前预备,以便正在起头成立项目前具有尽可能多的数据。凡是过少的数据意味着过早的放弃项目。

  看起来二者之间确实是正相关。左上方的学校很风趣,他们的 SAT 成就很高,学生加入 AP 测验的比例也很高。

  还需要压缩math_test_results数据集。这个数据集按Grade和Year进行朋分。我们能够只保留某一年中某个年级的数据:

  谷歌搜刮显示,它们大大都属于需要测验才能入学的名牌学校。所以这些学校有高的 AP 测验比例也是理所当然的。

  现正在我们能够绘制每个学区的平均 SAT 成就了。为此,我们读取 GeoJSON 格局的数据,获取每个学区的外形,然后通过school_dist列将 SAT 成就取学区外形联系关系正在一路,最初绘制出想要的图形:

  一般现实中,你拿到的经常不是一个完满的单个数据集。凡是需要聚合分歧的数据源,或者做大量的数据清理工做。被选题对你来说实的很是成心思,多花点时间去向理数据常值得的,同时正在这个过程中你也能够炫耀一下技术。

  接着,我们计较school_dist列,获得学校的区号。之后我们将利用这个数据按区去婚配学区,绘制学校的的统计数据。

  最初一个阐发角度是性别取SAT 成就。我们留意到女性比例更高的学校有更高的 SAT 成就。我们能够用一个柱状图来呈现:

  想要打制高质量做品集,第一步需要搞清晰该当正在做品中展示什么能力。公司但愿数据科学家具备的能力(也就是他们但愿做品集可以或许展现的能力)包罗:

  数据科学中的故事需要环绕着你发觉了什么,怎样发觉的,意味着什么进行讲述。举个例子,你发觉公司利润客岁下降了25%。仅仅阐述这个现实是不敷的,你必需申明为什么利润会下降,能够通过什么体例来处理。

  正在实正起头项目工做之前,数据的清理和摸索是至关主要。具有一个优良的、分歧的数据大大加速后续阐发工做。

  入门用数据来讲故事最好的体例,就是测验考试扩充或者复制其他人的阐发。若是你决定这么做,很是欢送你扩展本文的阐发,来看看你还会有什么发觉。若是你这么做了,请鄙人面留言。

  若是我们谷歌一下DBN New York City Schools,会找到这个页面,注释了DBN是每一个学校的独一编号。当我们摸索数据集,出格是数据集时,为了搞清晰每一个列的意义,做一些查询拜访工做是必不成少的。

  我们能够合理地假设,学生、家长和教员查询拜访的成果取 SAT 成就取较大的相关性。成就预期高的学校一般 SAT 成就也高。为了验证该假设,我们连系 SAT 成就和各类查询拜访成果进行画图:

  有人提出 SAT 对美国的某些种族人群不公允,因而对纽约市的数据进行阐发能够帮组我们进一步搞清晰 SAT 测验的公允性。

  成果显示,白人和亚洲学生的比例越高,SAT 成就就越高,而黑人和拉美裔学生比例越高,SAT 成就就越低。对于拉美裔学生来说,缘由可能是近来移平易近的数量较大,此中多为英语学生。我们能够按地域绘制拉美裔的比例,来验证相关性。

  现正在我们完成了所有的预备工做,能够利用DBN列来将数据调集并正在一路了。归并后我们将获得一个有着数百个列的数据集。归并时留意一些数据集存正在缺失部门高中的数据。为了不丢失这部门数据,我们需要利用outer join来归并数据集。正在现实世界里,数据缺失是很常见的。有能力推理和处置缺失数据是做品集中主要的展现部门。

  我们将要添加查询拜访数据到我们的data字典里,然后再组合所有的数据集。查询拜访数据包含两个文件,一个针对所有进修,一个是针对 75 区的学校。我们需要写一些代码来组合。鄙人面的代码中,我们将

  绘制完每个的,并按学区绘制出 SAT 成就之后,我们就设定了阐发的上下文。阅读我们阐发演讲的人将能更好地舆解数据集背后的上下文。接来下,我们进行此前提到的阐发。第一个是学校的学生数量取 SAT 成就之间的关系。

  我们能够施行代码来读取数据。利用 Jupyter notebook 来摸索这些数据,下面的代码将:

  一旦我们完成查询拜访数据的归并,还有一个复杂的工作要处置。为了便利进行比力和找出列间接联系关系,我们需要削减数据集中的列数。倒霉的是,查询拜访数据里包含太多对我们没有用的列:

  还有一个阐发角度,就是种族和 SAT 成就。二者之间有很大的相关性,可视化后将有帮于理解背后的缘由:

  我们发觉,左下方有大量的数据点堆积,暗示低入学率低 SAT 成就。除此之外,SAT 成就和总入学率之间似乎只要一点正相关。将相关性绘制出来能够发觉意想不到的纪律。

  现正在有个问题,class_size和hs_directory数据集没有发觉DBN字段。hs_directory数据集只要dbn字段,我们能够通过沉定名这个列或者把它拷贝到一个DBN的新列来处理。而对class_size数据集,我们需要采用其他法子来处置。

  看上去有一些学校的英语学生比例很高,同时平均 SAT 成就却很低。我们能够从学区层面临此进行查询拜访,弄清每个学区中英语学生的比例,然后查抄能否取按照学区绘制的 SAT 成就图相婚配。

  令人不测的是,相关性最高的两个要素是N_p和N_s,即参取查询拜访的家长和学生的数量。二者取总入学率之间均呈强相关性,因而可能会遭到ell_learners的影响。相关性强的其他目标是saf_t_11。这是学生、家长和教员对学校平安性的评价。一所学校越平安,学生更容易正在此中进修。可是沟通、成就预期等其他要素取 SAT 成就之间没有任何相关性。这大概申明纽约市正在查询拜访时的问题设想不当,或者是查询拜访因子就不准确(若是他们的方针是提高 SAT 成就的话)。

  相关链接: