2020年12月10日星期四Tel:,python怎么做数据分析

怎么做 3
72020年12月10日星期四Tel:(010)62580723 书评 主编/李芸编辑/袁一雪校对/何工劳E-mail押yli@
“我们生逢信息社会,需要对信息有所了解。
”吴军在《信息传:决定我们未来发展的方法论》(以下简称《信息传》)开篇如此说道,“我们虽然人人生活在信息时代,却很少有人能道得清、说得明信息是什么,它又是如何决定和影响我们的生活的。
这便是促使我写《信息传》一书的原因。
” 吴军认为,理解信息可以从以下三个维度入手:什么是信息、信息技术的本质、信息的历史。
前两个维度大致可以归结为“信息科学”和“信息技术”,前者从理论上理解信息,后者从技 术实践层面理解信息。
在第一个维度,吴军援引了美国数学家、信 息论创始人克劳德·艾尔伍德·香农的信息论思想,认为信息的内容和样式都是表象,其本质就是对不确定性的度量。
在信息论的世界观中,这个世界无非是由能量和信息构成的,而人类文明的各种创造发明,无非就是对能量或对信息的开发和利用。
对于信息技术的维度,吴军认为,“可以概括成信息的传输、处理和储存技术”。
包括电报、电话、互联网等。
这两个维度都很清晰,但是,当我们把这两个维度放在一起时,似乎就遇到了某种悖谬的境况:按照信息论的世界观,其实任何技术发明都是对确定性或不确定性的某种控制方式。
且不说文字、纸张、乐器、绘画等事物明显可以算作前信息时代的信息技术,诸如斧子、弓箭、房屋等,在广义上也可以说是处理信息的技术。
斧子以木和铁的材质储存了一种确定的形状,这种形状指引出一种确定的动作,而这种动作以确定的方式限制了肌肉力量的释放,以至于完成确定的目的———劈开某些确定的材料。
斧子的本质就是在混沌中开辟出一种确定的秩序。
人类的技术活动,乃至一般生物的生命活动,都是局部的负熵化,在这个意义上,斧子、文字和磁盘一样,都是信息的载体,所有技术都是“信息技术”。
但很显然,当我们谈论“信息技术”时,这种“信息”并不是在信息论科学的意义上谈论的, 而是以一个更狭义的方式谈论的,因此就算电报、电话之类,也只能勉强挤进“信息技术”的行列,而只有互联网兴起之后的各种数字技术才是“信息技术”的主要所指。
如果我们认为语词的定义是精确且固定的,那么上述现象的确构成了一种悖论,那就是:我们很难将信息科学所定义的“信息”与“技术”相组合,直接推演出“信息技术”的定义。
但是,语词和概念本身并不是绝对固定的,它们有各自的语境和历史,一旦认识到概念的历史性,矛盾就消失了。
所以,吴军给出的前两个维度,最终都要放 从 创 业 者 的■ 胡 角 翌霖 度 看 信 息 “纵观历史“,信息技术”并不完全是“信息科学”的“应用”,并不是科学家给定了一个一劳永逸的“信息”定义之后,信息技术才发展起来。
相反,信息科学对信息的理解,倒是从日益崛起的“信息技术”中获取灵感的。
2020 的 年 方法 ︽信 论︾ 息 月传 出吴 版军决 著定 定我 价中们 信未 出来 元版发 社展 ,,:99 :,10 在第三个维度下才能理解通畅,那就是历史的维度。

纵观历史,“信息技术”并不完全是“信息科学”的“应用”,并不是科学家给定了一个一劳永逸的“信息”定义之后,信息技术才发展起来。
相反,信息科学对信息的理解,倒是从日益崛起的“信息技术”中获取灵感的。
吴军把信息技术的发展史划分为两个时代,一是“自发时代”,从摩尔斯电码诞生开始,到20世纪上半叶;二是“自觉时代”,以香农的信息论为标志,直至今天。
之所以以电报为起点,是因为电报“和我们今天理解的信息有较大的相关性”,这个相关性 究竟是什么,吴军似乎并没有说得非常清楚。
在我看来,电报是第一项能够把一般的“信 息”与“信使”分离开来的技术。
在古代,除了极个别的例外,“信”和信使的运动都是一致的。
烽火台是一个例外,但它也只能在非常有限的场合下传递非常特定的信息(信号)。
而电报使得信息脱离了具体的信使,自此之后,无形无相的“信息本身”才成为一个大众也可以理解的概念。
换言之,自电报出现之后,“信息是什么”这样一个问题才有可能被提出来。
香农信息论不可能出现在电报之前,因为“信息”这个词压根就没有出现,更谈不上追究信息的本质了(information这个单词当然很早就有,但意思是指导的行为或被指导的知识)。
因此,所谓“自发时代”,就是技术超前于科 学的时期,借助新的技术,“信息”在传输时已经获得了“独立”,但在科学理论的视野下尚没有获得突出的地位。
而香农之后,科学终于后来居上,开始引领信息技术的进一步发展。
计算机和互联网,不只是技术史自发发展的产物,更是在英国数学家、“计算机科学之父”图灵,美国应用数学家、控制论创始人维纳和香农等一代理论家的指引下发展起来的。

不过科学和技术从来都没有完全成为一体,科学家、发明家、工程师和企业家等各种立场始终相对独立,但又相互交叠,共同推动着信息技术的发展。
科学、技术与市场之间的关系,并不能用一个简单的公式一劳永逸地概括清楚,而是只能从历史中体会。
在历史中,科学与技术的张力最终都要融于社会大众之中,因为无论是科学还是技术,最终都要通过企业家或创业者的消化和发扬,形成新产品推向市场,最终改变人们的生活方式和思维方式。
因此,吴军并不需要纠结于科学定义和技术定义的冲突,因为他本来就不是从逻辑学家或语言学家的立场出发来讨论信息的定义的,他的立场也不是科学家或发明家的立场,而是更接近于企业家或创业者。
他特别关注在各个历史故事中总结创业者的得失,例如美国画家、电报之父莫尔斯的成功除了依靠运气之外也受益于思想的无羁,塞尔维亚裔美籍发明家、物理学家特斯拉晚年失意是因为“性格决定命运”,等等。
另外,吴军对于创新者的贡献,并不是基于流俗的意见,即追究“第一发明人”,而是更重视“最后发明人”。
因为任何一种技术都不是凭空出现的,在某一技术相对定型并在市场流行开来之前,往往要经历较长的酝酿发展过程,涉及到许多科学原理和技术条件,很难确定究竟哪一个人是第一人。
被历史铭记的“发明家”往往指的是最终完成整合,让这一技术基本定型的“最后一人”。
从历史上看,作为发明家的最后一人,往往是作为企业家或创业者的第一人,所以历史上最著名的发明家往往都是商业化最成功的企业家,也就是实际推出改变世界的畅销产品的第一人。
瓦特、莫尔斯、爱迪生、贝尔等都是如此。
我作为技术史与技术哲学专业的学者,从哲学角度或科技史角度看来,这部《信息传》从概念辨析和资料征引方面都是较弱的,但从这个立场出发批评这本书是不公正的。
因为就创业者的立场而言,吴军显然比我更懂得创业者的需求。
历史或许无法给出一个保证成功的创业公式,但多少能够启发我们的思路,并且帮助我们规避一些弯路。
:,,:80 凡 有 所学 皆 ■孙小 成琪 性 格 版著 定价 中 ︽大 国科 历 学史 元 技术 从 大学 宇宙 出起 版源 社到 人 类 文 年明 ︾ 月徐出鸣 ,20204 幼时戴着红领巾,每每右手高举,五指并拢,行少先队队礼时,心里想的是:时刻准备着,为共产主义事业奋斗终生!那愿景多么辽阔深邃。
及至岁月流逝,渐渐长大,世界变得纷繁起来、复杂起来,知道口号不是空洞的,要有内容填充,其中有你对周围环境的知晓度,有你对更广阔的世界的知晓度,更有对历史溯源乃至人类起源的知晓度,当然,还有你自己的日常琐碎日子的填充,还有你与之对话的能力。
半个多世纪过去,今天回想那意气风发的一幕,觉得其内在力量的支撑,首先应来源于科学知识。
摆在我面前的《大历史:从宇宙起源到人类文明》,是一本“胃口”很大的书,囊括了人类迄今为止,从宇宙起源到人类文明的所有认知和解读,罗列各种自成一体的已经形成影响有文字记载的“解”。
作者徐鸣经历丰富,兴趣广泛,业余时间常常撰写科普文章,曾著有《前沿科技热点学习笔记》。
他的这本新书以时间为轴线,从宇宙大爆炸到生命发生、生物进化、人猿分道、人类文明发展,追溯和定格从宇宙起源到人类文明繁衍,直至今日“现代的世界“”现代的文化”,137亿年蹒跚进程中的“精彩瞬间”,描绘出一幅幅由宇宙学、物理学、地质学、生物学、人类学、考古学、哲学等诸多学科经典知识组成的历史画卷。
“我们从哪里来,要到哪里去?”35万字的容量,想要一网打尽,但不得不精简浓缩,择其要,成为案头可查阅检索的大历史科普方面的百科全书,这是给予读者的初步印象。
如作者在前言中所说,“我们总要选择一个时间点,将我们已有的认识做一个梳理,将我们现时的思想成果进行归纳,为未来新的探索厘清基本的思路……这 里最困难的是,我们如何在对前沿科技了然于胸、融会贯通的基础之上,深刻阐发科学技术进步与人类社会发展之间的相互关系,从科学与技术发展的趋势去认识人类社会、人类文明发展的规律,真正把握人类社会前进的正确方向”。
这是一个宏大的目标,或许作者竭力要摆脱以往对有文字记载的几千年历史的冗长繁复的解说窠臼,将目光投向更大更远的空间和时间,引出“人类命运共同体”的辉煌命题。
这对于开阔心胸开阔视野,都是重要的。
这又是一本很通俗的书,一本平实的百科全书式的大历史的科普读物。
“宇宙的起源”“生物的进化”“人类的演变”“文明的发展”等,每一篇都讲述了很多故事,记录下当时发生转折的瞬间、起到关键的重要作用的人和事。
记录中,作者对大历史故事的热情和好奇、对各个章节的概括,有时有浪漫的吟诵,有时是认定的急切,往往从占篇幅不多的文字中流露出来。
“地球是一个充满生命活力的星球,一个活跃着亿万生灵的星球,一个散发着智慧光芒的星球。
现代生物学家告诉我们,在地球这个具有生命和生物的独特星球上,所有的微生物、植物和动物不仅都是一个大家庭的成员,而且拥有共同的生命起源、共同的生命密码。
生命之树,枝繁叶茂;追根溯源,根却是在一处。
” 当今世界变化万千,尤其新冠疫情以来,人生活的范围内,各种人类生命遭遇的惨烈,颠覆了以往既有的认知,正重塑着新的方法和应对。
地球是我们共同的家园,爱护地球,就是爱护我们的家。
在这样的时候,读到这些文字,会有更深的感触。
正如中国科学院院士、南京大学原校长陈骏所说,“这本大历史作品就是一本很好的通识课读本”。
另一种生活的展现 ■高维生 当下难得读到一部好的长篇小说,读到少数民族创作的作品更难。
近日读到的家乡朝鲜族作家崔国哲著、郑风淑翻译的《南大川》是其中的佳作,这部小说是“中国少数民族文学发展工程”中的一本。
南大川是一个地名,在全国地图上很难找到。
崔国哲选择它作为创作背景,为的是展现朝鲜族在这片土地上的悲欢离合,以及祖先漂泊的历史踪迹。
他冷静地写道“:南大川简易驿,日复一日地上演着真人‘活报剧’,时常令人哭笑不得。
国道上,一天到晚通不了几辆机动车,仅有的几趟客车,也仿佛大旱天的豆苗般稀稀拉拉的,显得无比寂寥。
”这样的描写看上去简单,平常人说的话一般,没有夸大的形容词。
每天来往的几趟客车,如同大旱天的豆苗般,语言直白,交代了南大川的地理环境和人的生存状态。
崔国哲清楚地认识到,南大川发生的人与事,是一出活报剧。
它是社会文化的产物,反映社会政治、历史、时代脉络。
作家通过人的悲欢离合、典型的细节、重大的社会问题,描绘了普通人在社会、经济和政治环境下面临的紧迫问题。
小说以第一人称的视角,关注南大川人几十年来的欢乐与悲哀,写出了人的精神麻木、灵魂的麻木。
作家写的苦难不是空喊口号、发几句牢骚的感慨。
贫困的生活压得人们透不过气,人们还是顽强地活着,寻找自己的幸福和快乐。
人性的展现,令人深深震撼。
“大队部的广场前黑压压地聚了一大帮村里人。
难道不是‘福童阿迈’家的风铃声?但风铃声为啥在这儿响起了?我急忙跑过去,在大人们的缝隙间钻来钻去,挤到了最里边,却被眼前情景吓呆了。
只见披头散发的‘福童阿迈’像个鬼似的,脖子上挂着风铃,右手握着柳树杆子的一端,另一端被张瞎子抓着,脖子上挂着用麻绳拴着的一只黑色破胶鞋,就是土城倒下的废墟上,随处扔的破鞋子。
” 在那个特殊年代,一个残疾人,看不到世界的色彩,命运把他和善良的福童阿迈牵在一起。
他反抗命运的不公平,情感中爆发的激情,促使他追求自己的幸福。
然而,并不是所有的反抗都能如愿以偿,反倒是悲剧的开始。
人是幸福的制造者,也是悲剧的制造者。
维克多·雨果指出:“就像他的命运一样,人也是二元的,在他身上,有兽性,也有灵性,有灵魂,也有肉体。
”一条生命披着耻辱、带着爱恨在尘世消失,埋葬在南大川的荒山野岭,人们逐渐淡忘。
这段文字展现的细节,使人震撼,写出那个年代的历史。
“过了十年以后,谁承想,又重新听到了风铃声!只可惜,风铃声不是从房檐下传来的,而是在‘姜酒鬼’二儿子达三家的黄牛脖子下响着。
直到这时候,人们才猜到这是谁的‘鬼把戏’。
其实,风铃的确另有‘铁铃铛’(朝鲜语的铁和牛发音一样)的叫法,他们似乎是把‘铁铃铛’(风铃)当成了‘牛铃铛’。
” 一只普通的风铃,挂在不同的地方,其中发生的事情,背后深藏一个民族的苦难史。
作家写了一出悲剧,这不仅是个人的,也是民族的。
作家带着极复杂的心情,对这个风铃既爱又恨,既同情又不想再听见。
作家 :42 定版国 价 社 哲著 ︽ , 201911 南 元 年 郑风 大川 淑 ︾︵ 译朝 月出 , 作 鲜族 版家︶ 出崔 , , 小说以第一人称的视角,关注南大川人几十年来的欢乐与悲哀,写出了人的精神麻木、灵魂的麻木。
作家写的苦难不是空喊口号,人性的展现令人深深震撼。
没有发表任何评价,他只是如实地写出特殊年代人们的一举一动,通过典型的细节写出内心的世界。
作家写村子里的人过日子,怎么生病、怎么偷情、怎么死亡。
通过这些平常日子、平常事情,写出生与死、情与爱,体现作家的人生感触。
比如书中写了一只公牛被割了“雄物”,在乡村不过是小事情,却是一种象征,暗喻人本性的丧失,使作品的含量扩大,主题深刻和丰富。
空气中的血腥味散发着恐惧与痛苦,作者写得真切,任何人读后都会产生难以磨灭深刻的印象。
在此特别要提到的是本书译者郑风淑,也是朝鲜族,对于小说内容及其中生活的习俗理解更为透彻。
因此,在译文中读者没有夹生饭的感觉,也没有看到翻译腔。
应了老一辈翻译家傅雷所说,“译文必须为纯粹之中文,无生硬拗口之病”。
俄罗斯哲学家别尔嘉耶夫指出:“首先,人应该爱自己的土地,尽管它充满着矛盾、罪孽与缺失。
没有对自己土地的爱,人就不可能创造,不可能控制土地。
没有土地的自然力,阳性的精神是虚弱的。
但人对土地的爱,不是人受土地奴役,不是被动地面对它,不是沉溺和溶解于它的自然力中。
人对土地的爱应该是阳刚的。
阳刚的爱才是自然主义倚赖的出路。
”热爱土地不是空话,爱自己的土地,使情感融汇大地中时,塑造一种精神的塑像,人才有战胜一切困难的力量。
崔国哲笔下的南大川,一个个人物发生的故事,展现的是一幅风俗画卷,写出人的尊严、文学的尊严。
这个南大川没有过多的华丽装饰,但黑土地上的人与事,已经在读者心灵扎根。
域外 匈牙利人的数学很棒,所以我对这两位匈牙利人撰写的数据分析教材充满期待。
2021年1月,英国剑桥大学出版社即将推出一本教材,题目是 (本文作者译为“面向经管和政策应用的数据分析”)。
本书有两位作者。
GáborBékés是中欧大学(由美国纽约州教育局授权、纽约州大学董事会管理的教育机构,它有两个校区,分别位于奥地利首都维也纳和匈牙利首都布达佩斯,其颁发的学历同时被美国、奥地利和匈牙利三国所认可)经管系副教授,也是匈牙利科学院经济研究所的资深研究
本 接 地 气 ■武 的 夷山 数 据 分 析 教 程 员。
他给研究生讲授数据 分析和经济地理学课程已 有8年。
他还为欧盟做过政策咨询,为金融企 业、商务智能企业和房地产企业做过咨询。
另一位作者GáborKézdi曾在中欧大学 担任经济学教授14年,现为美国密歇根大学 社会研究所的科研副教授。
2002年以来,他
直讲授从本科生层次到博士生层次的数据分 析、计量经济学和劳动经济学课程,还指导过 多名硕士生和博士生。
他也有为政府部门和非 政府部门进行咨询的经历。
匈牙利人的数学很棒,所以我对这两位匈 牙利人撰写的数据分析教材充满期待。
本书为未来的数据分析师提供了工具、方 法和技巧,帮助他们回答现实生活中的相关问 题,也帮助他们在回答相关问题时选择适当的 方法,并对分析结果给予可视化展示和解释, 以更好地支撑工商管理、经济和公共政策领域 的决策。
教材全面介绍了数据整理和探索、回 归分析、基于机器学习的预测和因果分析,也 叙述了相关方法何时管用、为何管用及如何管 用,交代了各种方法的相互关系。
传授数据分析方法的最有效方式是案例, 故本书呈现了47个案例。
每个案例都是先提 一个具有产业意义的问题,然后利用现实生活 中的数据和本书介绍的工具和方法来回答该 问题。
为了巩固学习效果,本书提供了360多个 实际问题,还有110个数据练习题。
配合书中 内容有一个专门的网站,那里提供了本书所有 分析用到的原始数据和清洗过的数据,以及为 清洗数据、获得分析结果、制图制表而采用 Stata、R和Python软件所撰写的代码。
这样,读 者可以尝试各种软件代码,比较不同软件的运 行结果有何差异。
两位作者强调,数据分析是一个多步骤的过 程。
第一步是形成问题,收集合适的数据,或是评 估现成的数据是否有助于回答问题。
下一步是数 据清洗和组织,这一步很乏味但是至关重要。
笔者对这一看法举双手赞成,我曾多次说 过,“做文献计量研究,数据清洗怎么强调都不 过分!”而文献计量研究就是一种特殊的数据 分析。
本书作者说,数据清洗和组织这一步对分 析结果的影响,抵得上数据分析过程其他任何 步骤的作用。
探索性数据分析的任务是给最终 结果提供语境,帮助确定所用分析方法的细 节。
主体分析的任务是,选定回答问题所需方 法并加以实施,并开展鲁棒性检验。
再往后,对 结果的正确解释和有效展示是至关重要的。
仔细 设计的数据可视化有助于概括数据分析的发现, 传递关键信息。
最后一步是回答最初提出的问 题,指出潜在的限定条件和未来的探究方向。
本书分为四个部分,共24章。
第一部分, 数据探索。
数据来源;为分析而准备数据;探索 性数据分析;比较与相关性;根据数据进行外 推;检验假说。
第二部分,回归分析。
简单回归;复杂模式 和混乱数据;回归结果的推广;多重线性回归; 为概率建模;基于时间序列数据的回归。
第三部分,预测。
预测框架;面向预测的建 模;回归树;随机森林和提升方法;概率预测与 分类;基于时间序列数据的预测。
第四部分,因果分析。
因果分析框架;实验 之设计与分析;基于观察数据进行回归与匹 配;双重差分法;面板数据方法;面板数据的合 适对照组。
作者认为,本书对于修习应用统计学和经 济计量学、定量方法、数据分析等课程的研究 生是特别合适的。
本科生也可利用此书,但该 教材要求的作业量超出多数本科生的日常工 作负荷。
本书亦可作为数据分析实践者的操作 手册来使用。
在大数据时代,我们特别需要像本书这样 接地气的数据分析教程。

标签: #程序 #奥迪 #人少 #没了 #掌上 #中文翻译 #服务器 #空格