本文收集整理关于谈谈如何成为一个数据科学家的相关议题,使用内容导航快速到达。
内容导航:
Q1:如何从程序员成为一名数据科学家 巫银良
人工智能听起来好像很酷炫,说白了在金融上的应用主要就三件事:
第一,是对于金融数据的高级统计学的应用和分析。比如说,对于传统的线性回归没有办法进行有效的分析归纳的,通过AI、机器学习的算法可以对同样的一组数据用不同纬度去做分析,从而在中间找出它的规律。这个数据在机器学习的算法下可以变成是一个可以支持你决策的东西。
第二,是机器自我学习演变的能力。人每天也会接触到大量的信息,但是人很难对每天接触到的信息都做一个归纳、并对自己今天做的决定基于新的信息做一个复盘,因为这种学习的能力需要大量的计算,但机器可以做到这个。
第三,是对数据的及时处理。传统银行也会对一些高级客户做资产配置推荐,就是所谓的“银行观点”。这个观点的更新频次是固定的,比较常见的情况是三个月更新一次。在这三个月之中,客户任意时间点进来,得到的建议都是一样的,这个就很成问题。及时性的风控建议将成为贷款业务中后期的关键。
wWW.YIJ★ITao.cOm
Q2:如何成为一名数据科学家
一、数据科学家的起源
"数据科学"(DataScience)起初叫"datalogy ".最初在1966年由Peter Naur提出,用来代替"计算机科学"(丹麦人,2005年图灵奖得主,丹麦的计算机学会的正式名称就叫Danish Society of Datalogy,他是这个学会的第一任主席.Algol 60是许多后来的程序设计语言,包括今天那些必不可少的软件工程工具的原型.图灵奖被认为是“计算科学界的诺贝尔奖”.)
1996年,International Federation of Classification Societies (IFCS)国际会议召开.数据科学一词首次出现在会议(Data Science,classification,and related methods)标题里.
1998年,C.F.Jeff Wu做出题为“统计学=数据科学吗?的演讲,建议统计改名数据的科学统计数据的科学家.(吴教授于1987年获得COPSS奖,2000年在台湾被选为中研院院士,2004年作为第一位统计学者当选美国国家工程院院士,也是第一位华人统计学者获此殊荣.)
2002年,国际科学理事会:数据委员会科学和技术(CODATA)开始出版数据科学杂志.
2003年,美国哥伦比亚大学开始发布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用.
2005年,美国国家科学委员会发表了"Long-lived Digital Data Collections:Enabling Research and Education in the 21st Century",其中给出数据科学家的定义:
"the information and computer scientists,database and software and programmers,disciplinary experts,curators and expert annotators,librarians,archivists,and others,who are crucial to the successful management of a digital data collection"
信息科学与计算机科学家,数据库和软件工程师,领域专家,策展人和标注专家,图书管理员,档案员等数字数据管理收集者都以可成为数据科学家.它们主要任务是:"进行富有创造性的查询和分析."
2012年,OReilly媒体的创始人 Tim OReilly 列出了世界上排名前7位的数据科学家.
Larry Page,谷歌CEO.
Jeff Hammerbacher,Cloudera的首席科学家和DJ Patil,Greylock风险投资公司企业家.
Sebastian Thrun,斯坦福大学教授和Peter Norvig,谷歌数据科学家.
Elizabeth Warren,Massachusetts州美国参议院候选人.
Todd Park,人类健康服务部门首席技术官.
Sandy Pentland,麻省理工学院教授.
Hod Lipson and Michael Schmidt,康奈尔大学计算机科学家.
Q3:如何成为全栈数据科学家
各方面的技术,各方面的技术架构。比如,关卡编辑器里面的图层该怎么搭,如何定义?美工PS出来的图片应该是什么规格?这些都是技术架构,都是工程师要去做的。工程师应该帮美术做好图,做好动画;帮策划做好关卡,填好数据;这才是工程师。所有跟技术相关的东西,包括Photoshop的使用细节,3dmax的使用细节,都是工程师需要去搞定的。美术只是在工程师做好的基础上让它更漂亮更好看,策划让它更好玩。
否则,你就只是程序员,而不是工程师。否则,你就会很被动,美术扔过来一堆动画你没法倒进游戏,或者弄进去了也看起来很渣;策划扔过来一堆数据到了上线的时候才发现不对头;到时候,最吃力不讨好的仍然是程序员。
Q4:如何成为一名数据科学家?
这几年,围绕大数据和数据科学有许多炒作。其实要理解某样东西,有时需要清楚的了解它不是什么;数据科学家,不是统计学家,不是数据分析师,不是软件工程师,不是业务分析师,他们对这些领域都有一些了解,但又不完全精通于这些领域。
所以正确的做法是抓住大数据行业的中点,摒弃过时的手法。比如,你需要了解的知识虽然有统计学、计算机科学、机器学习。但你并不需要对其无所不知,也没有必要纠结那些极其复杂的算法。
数据科学家在商业分析、统计学和计算机科学领域是通才,他们可以开发数据、收集策略并使用数据发现一些可操作的商业见解。也就是说,数据科学家要具有创造性,能根据分析业务,通过数据,制定分析,提出方案,推动增长。
所以现在你发现了,数据科学包含的知识非常广泛,既不像网络上说的各种算法那样高深莫测,也不是三言两语就能解释清楚如何成为数据科学家这个问题那么简单。
首先,要理解数据科学,基本数学知识包括:
代数,基本矩阵论;
微积分入门课程;要掌握的理论不多。只需要理解计算复杂度,了解特殊函数
统计与概率论基础入门课程;可以挑一本基础统计学书籍阅读掌握
从技术的角度出发,要掌握的技能和知识有:
R语言;
Python(或Perl);了解基本网络爬虫知识,有助于获取互联网上能找到的非结构化数据
Excel;PowerPiviot插件可以用来处理大数据集但是掌握一门专业知识最好的方法还是系统性的阅读书籍。如果想进一步了解数据科学家的工作或者如何提升自己的数据科学技能,我推荐以下这几本书籍:《数据天才》、《敏捷数据科学》、《数据科学家养成手册》、《Python大战机器学习》