找回密码
 立即注册
搜索
查看: 55|回复: 0

思维架构高手

[复制链接]

225

主题

8

回帖

711

积分

高级会员

积分
711
发表于 2013-12-5 14:13:11 | 显示全部楼层 |阅读模式
                                                                                            思维架构高手      王礼志


目录




01课做一个多模型思考者
要想成为一个有智慧的人,你必须拥有多个模型。而且,你必须将你的经验, 无论是间接的,还是直接的,都放到构成这些模型的网格上。
查理 · 芒格 (Charlie    Munger)
这是一本关于思维架构的书。我在书中用简洁的语言描述了几十个思维模型, 并解释该如何应用它们。模型是用数学公式和图表展现的形式化结构,它能够帮  助我们理解世界。掌握各种模型,可以提高你的推理、解释、设计、沟通、行动、  预测和探索的能力。
本书提倡多模型思维方法,应用模型集合理解复杂现象。本书的核心思想是: 多模型思维能够通过一系列不同的逻辑框架“生”智慧。不同的模型可以将不 同的力量分别突显出来,它们提供的见解和含义相互重叠并交织在一起。利用多 模型框架,我们就能实现对世界丰富且细致入微的理解。本书还包括了一些正式 的论证,阐述了如何对现实世界应用多模型框架。
本书非常实用。多模型思维具有十分重要的实用价值。运用这种思维方式, 你就能更好地理解复杂现象,就能更好地推理。你将会在职业生涯、社区活动和 个人生活中表现出更小的差距,做出更加合理的决策。是的,你甚至还可能会变 得更有智慧。
25年前,像本书这样讲解模型的著作主要是供教授们和研究生们研究商业、 政策和社会科学所用的,金融分析师、精算师和情报界人士也是潜在的读者。这 些人都是应用模型的人,他们也是与大型数据库关系最密切的人,这并不是偶然。 不过到了今天,关于模型的书已经拥有了更多的读者:广大的知识工作者们。由 于大数据的兴起,他们现在已经把模型作为日常生活的一部分了。
如今,用模型组织和解释数据的能力,已经成了商业策略家、城市规划师、 经济学家、医疗专家、工程师、精算师和环境科学家等专业人士的“核心竞争力”。 任何人,只要想分析数据、制订业务发展策略、分配资源、设计产品、起草协议  就必须应用模型,哪怕是做出一个简单招聘决策,也要运用模型思维。因此,掌


握本书的内容,特别是那些涉及创新、预测、数据处理、学习和市场准入时间选 择的模型,对许多人都有非常重要的实际价值。
使用模型来思考能够带给你的,远远不仅仅是工作绩效的提高。它还会使你 成为一个更优秀的人,让你拥有更强的思考能力。你将更擅长评估层出不穷的经 济事件和政治事件,更能识别出自己和他人推理中的逻辑错误。有了这种思维方 式,你将懂得辨识什么时候意识形态取代了理性思考,并对各种各样的政策建议 有更丰富、更有层次的洞见,无论是扩建城市绿地的建议,还是强制药物检测的 规 定 。
所有这些好处都来自与多种多样模型的“亲密接触”,幸运的是,我们用不 着一下子掌握千百种模型,而只需先掌握几十种就足够了。本书给出的这些模型 就为你提供了一个很好的出发点。它们来自多门学科,其中包括许多人耳熟能详 的囚徒困境博弈模型,逐底竞争 (Race  to  the  Bottom) 和关于传染病传播的SIR  模型,等等。所有这些模型都有一个共同的形式:它们都假设一些实体,通常是 人或组织,并描述他(它)们是如何相互作用的。
本书所讨论的模型可以分为三类:对世界进行简化的模型、用数学概率来类 比的模型以及人工构造的探索性模型。无论哪一种形式,模型都必须是易处理的。 模型必须足够简单,以便让我们可以在模型中应用逻辑推理。例如,我们讨论了 一种传染病模型,这个模型由易感者、感染者和痊愈者组成,可以给出传染病的 发生概率。利用这个模型,我们可以推导出一个传染阈值,也就是一个临界点, 超过这个临界点,传染病就会传播。我们还可以确定,为了阻止传染病传播,需 要接种疫苗人数的比例。
尽管单个模型本身可能就已经相当强大了,但是一组模型可以实现更多的功 能。在拥有多个模型的情况下,我们能够避免每个模型本身所固有的局限性。多 模型方法能够消除每个单个模型的盲点。基于单一模型的政治选择可能忽略了世 界的一些重要特征,如收入差距、身份多样性以及与其他系统的相互依赖关系。 有了多个模型,我们可以达成对多个流程的逻辑推理,可以观察不同因果过程是 如何重叠和相互作用的,也拥有了理解经济、政治和社会世界复杂性的可能。而 且,我们在这样做的时候并不需要放弃严谨性,因为模型思维能够确保逻辑的一 致性。由此,推理将建立在扎实的证据基础之上,因为模型需要用数据检验、改 进和精炼。总而言之,当我们的思维得以在多个逻辑上一致、处在通过了经验验


证的框架中时,我们更有可能做出明智的选择。
大数据时代的模型
在当今这个大数据时代,像本书这样一本讨论模型的书可能看上去有些不合 时宜。现在,数据正以前所未有的维度和粒度急速地涌现出来。过去,消费者的 购买数据只能以每月汇总表的形式打印出来,而现在却可以与空间、时间信息及 消费者“标签”一起实时传输。学生的学习成绩数据,现在也包括每一份作业、 每一篇论文、每一次测验和考试的分数,而不再仅仅是一个期末总成绩了。过去, 农场工人也许只能在每月一次的农场会议上提出土壤过于干燥的问题,而现在, 他们却能够用拖拉机自动传输以平方米为单位的关于土壤肥力和水分含量的实 时数据了。投资公司要跟踪数千只股票的数十种比率和趋势,并使用自然语言处 理工具来解析文档。医生则可以随时提取包括相关遗传标记在内的患者记录。
仅仅在25年以前,大多数人获得的知识只能来自书架上的几本书。也许你  工作的地方有一个小型图书馆,或者你家里有全系列的百科全书和几十本参考书。 学术界、政府和私营部门的研究者则可以利用大型图书馆的馆藏资料,但是他们  也经常不得不亲身前往查阅。就在20世纪末21世纪初,为了获得必要的信息,  学者们仍然不得不在卡片目录室、缩微胶片阅览室、图书馆书架以及私人收藏家  “宝库”之间来往穿梭。
现在,这一切都发生了颠覆性的变化。几个世纪以来一直受到纸张束缚的知 识内容,今天已经以数据包的形式在“空中”自由流动了。关于此时此地的实时 信息也是如此。以前,新闻是刊载在报纸上的,最高以每天一次的频率送到我们 手上;而现在,新闻却是以连续的数字流形式流入我们的个人设备。股票价格、 体育赛事比分、关于政治经济事件和文化事件的新闻,全都可以实时查询、实时 访
然而,无论数据给我们留下的印象如何深刻,它都不是灵丹妙药。我们也许 可以通过数据了解到已经发生了什么和正在发生什么,但是,由于现代世界是高 度复杂的,我们可能很难能理解为什么会发生这种情况。更何况,经验事实本身 也可能是误导性的。例如,关于计件工资制的统计数据往往会显示,工人每生产 一件产品获得的报酬越高,他们生产的产品就会越少。对此,用一个薪酬取决于


工作条件的模型可以很好地解释相关数据。如果工作条件很差,导致很难生产出 产品,那么每单位产品的工资可能很高;如果工作条件很好,那么每单位产品的 工资就可能会很低。因此,并不是更高的计件工资导致了更低的生产率,而是更 加糟糕的工作条件导致了这种结果。
此外,我们社会中的大多数数据,也就是关于经济、社会和政治现象的数据, 都只是时间长河上的瞬间或片断的记录。这种数据是不能告诉我们普遍真理的。 我们的经济、社会和政治世界并不是固定不变的。在这个十年内,男孩在标准化 考试中的成绩超过了女孩,但是下个十年就有可能变为女孩的成绩好于男孩。人 们今天投票的原因,可能与未来几十年投票的原因截然不同。
我们需要模型,不然就无法理解计算机屏幕上不断滑过的数据流。因此,这 个时代,可能恰恰因为我们拥有如此多的数据,也可以被称为多模型时代。纵观 学术界、政府、商界和非营利部门,你基本上无法找到任何一个不受模型影响的 研究领域,甚至可以说根据不存在不需要模型的决策领域。麦肯锡(McKinsey)    和德勤 (Deloitte) 等咨询业巨头要通过构建模型来制订商业策略;贝莱德集团 (BlackRock) 和摩根大通集团(JPMorgan  Chase)等金融业大公司要利用模型来 选择投资,州立农业保险公司 (State Farm) 和美国好事达保险公司 (Allstate) 等公司的精算师要借助风险校正模型来给保险单定价。谷歌公司的人力资源部门 要利用预测分析模型来为超过300 万求职者进行评估。各大学和学院的招生人员 也要建立模型,以便从成千上万的申请入学者当中选出合格的新生。
美国行政管理和预算局(Office of Management and Budget)通过构建经济模  型预测税收政策的影响。华纳兄弟公司通过数据分析模型评估观众对电影的反应。 亚马逊公司开发机器学习模型向消费者推荐商品。由美国国家卫生研究院    (National  Institutes  of  Health)资助的研究团队建立了人类基因组学的数学模型,  用于寻找和评估癌症潜在的治疗方法。盖茨基金会使用流行病学模型设计疫苗接   种策略。甚至运动队也都使用模型来预测选秀结果和交易机会,并制订比赛策略。  例如,芝加哥小熊队(Chicago Cubs)之所以能够在经历了一个多世纪的失败后  赢得世界职业棒球联赛的冠军,就是因为很好地利用了模型去选择球员、设计比   赛策略。
对于使用模型的人来说,模型思维的兴起还有一个更简单的解释:模型能够 让我们变得更聪明。如果没有模型,人们就会受到各种认知偏差的影响:我们会


对近期发生的事件赋予过高的权重、会根据“合理程度”分配概率、会忽略各种 基本比率。如果没有模型,我们处理数据的能力就会受到极大的限制。有了模型, 我们就能澄清相关假设且更有逻辑地进行思考,还可以利用大数据来拟合、校准、 检验因果关系与相关性。总之,有了模型,我们的思考会更有效。有证明表明, 如果让模型与人面对面直接“竞争”,模型将会胜出。
为什么需要多模型
在本书中,我们主张在给定情况下不仅使用一个模型,而要使用多个模型。 多模型方法背后的原理基于这样一个古老的思想,那就是“管中窥豹需多管齐下”。 这个思想至少可以追溯至亚里士多德,他强调了将许多人的优点集中起来这个做  法的价值。呈现视角和观点的多样性,也是美国历史上“名著运动”(great-books
movement)   背后的一大动力。在这个运动中涌现出来的《伟大的思想:西方世 界名著中伟大的思想观念合集》(The  Great  Ideas  :ASyntopicon  of  Great  Books  of the Western World)一书,就收集了102个重要的可永世流传的思想。
现在,这种方法也在汤亭亭所著的《女勇士》(The    Women    Warrior) 一 书 中得到了回响,她这样写道:“我已经学会了如何让我的思想变得博大;因为宇 宙很大,所以给悖论留下了存在的余地。”这种方法也构成了现实的商业和政治 世界有实际意义的行动基础。最近的一些论著指出,如果我们想要理解国际关系, 就不能只将世界建模为一组具有明确目标的自利国家,也不能只将世界建模为跨 国公司和政府间组织之间的联系枢纽,而应该把世界同时建模为这两者。
尽管多模型方法看上去似乎很平常,但请注意,它其实是与我们讲授模型和 构建模型的传统方法相悖的。传统的方法,那些在高中时老师教授的方法,依赖 一对一的逻辑,也就是说一个问题需要一个模型。比如,老师会告诉我们,在这 种情况下,我们应该运用牛顿第一定律;在那种情况下,我们应该运用牛顿第二 定律;在第三种情况下,则应该运用牛顿第三定律。又或者,在这里,我们应该 使用复制因子方程(replicator equation)来说明下一期兔子种群的大小。在这种 传统的方法中,目标是确定一个适当的模型并正确应用这个模型。而多模型思维 所要挑战的,恰恰正是这种传统方法。多模型方法主张尝试多个模型。如果你在 九年级时就使用过多模型思维,你可能会被阻止,但是现在使用多模型思维,你 将会取得很大进步。


大部分学术论文也遵循传统的一对一的方法,尽管有时它们是在使用单一的 模型去解释复杂的现象。例如,有人声称,在美国2016 年选举中投票给特朗普 的那些人,都是经济上的失败者。又或者,小学二年级时老师的素质决定了孩子 长大成人后能够取得经济成就的大小。不过,近年来, 一系列畅销的非虚构作品 的诊断,使这种基于单个模型的传统思维方式的弊端呈现在人们面前:教育成功 只取决于毅力;资本集中导致不平等;糖消耗导致民众健康状况不佳……这些单 个模型中的每一个都可能是正确的,但没有一个是全面的。面对各种复杂的挑战, 创造一个包容更广泛教育成就的世界,我们需要的不是单个模型,而是多个模型 构成的格栅。
通过学习本书中的模型,你就可以着手构建自己的格栅模型。这些模型来自 多个学科,涉及各种现象,例如收入不平等的原因、权力的分配、传染病和流行 风尚的传播、社会动乱的前置条件、合作的发展、秩序的涌现,以及城市和互联 网的结构等。
模型的假设和结构各不相同。有些模型描述了少量理性的、自私的行为主体 之间的互动,有些模型则描述了大量的遵循规则的利他主义者的行为。 一些模型 描述了均衡过程,还有一些模型讨论路径依赖性和复杂性。这些模型的用途也各 不相同。一些模型是用来帮助预测和解释的, 一些模型是用来指导行动、推动设 计或促进沟通的,还有一些模型则创造了有待我们去探索的虚拟世界。
所有模型都有三个共同特征。第一,它们都要简化,剥离不必要的细节,抽 象掉若干现实世界中的因素,或者需要从头重新创造。第二,它们都是形式化的, 要给出精确的定义。模型通常要使用数学公式,而不是文字。模型可以将信念表 示为世界状态的概率分布,可以将偏好表示为各备选项之间的排序。通过简化和 精确化,模型可以创造易于处理的空间,我们可以在这些空间上进行逻辑推理、 提出假说、设计解决方案和拟合数据。模型创建了我们能够以符合逻辑的方式进 行思考的结构。正如维特根斯坦在《逻辑哲学论》(Tractatus Logico -Philosophicus)    一书中所写的:“逻辑本身就能解决问题,我们所要做的,就是 观察它是如何做到的。”是的,逻辑有助于解释、预测、沟通和设计。但是,逻 辑也不是没有代价的,这就导致模型的第三个共同特征是:所有模型都是错误的, 正如统计学大师乔治 · 博克斯(George  Box)所指出的那样。所有模型概莫能外, 即使是牛顿提出的那些定律和法则,也只是在特定的条件下成立。所有模型都是 错误的,还因为它们都是简化的,它们省略掉了细节。通过同时考虑多个模型,


我们可以实现多个可能情况的交叉,从而克服单个模型因严格而导致的狭隘性。
只依靠单个模型其实是过于狂妄自大的表现,这种做法会导致灾难性的后果。 相信只凭一个方程,就可以解释或预测复杂的现实世界现象,会使真理成为那种  很有“魅力”的简洁的数学公式的牺牲品。事实上,我们永远不应指望任何一个  模型能够准确预测1万年后的海平面将上升多少,甚至也不应该指望任何一个模  型能够准确预测10个月后的失业率。我们需要同时利用多个模型才能理解复杂  系统。政治、经济、国际关系或者大脑等复杂系统永远都在变化,时刻都会涌现  出介于有序和随机之间的结构和模式。当然,根据定义,复杂现象肯定是很难解  释或预测的。
因此在这里,我们面临着一个严重的脱节。一方面,我们需要模型来连贯地 思考。另一方面,任何只具有少数几个活动部件的单个模型都无法解释高维度的 复杂现象,例如国际贸易政策中的模式、快速消费品行业的发展趋势或大脑内部 的适应性反应。即便是牛顿,也无法写出一个能够解释就业水平、选举结果或犯 罪率下降趋势的三变量方程。如果我们希望了解传染病的传播机制、教育成效的 变化、动植物种类的多样性、人工智能对就业市场的冲击、人类活动对地球气候 的影响,或者社会动乱的可能性,就必须通过多个模型去了解它们:机器学习模 型、系统动力学模型、博弈论模型和基于主体的模型等。
智慧层次结构
为了论证多模型思维方式的优点,我们先从诗人和剧作家T.S.艾略特的一个 疑问入手:“我们迷失于知识中的智慧到哪里去了?我们迷失于信息中的知识到 哪里去了?”在这里,我们还可以加上一句:我们迷失于数据中的信息到哪里去 ?
我们可以把艾略特的这个疑问形式化为一个智慧层次结构 (wisdom     hierarchy),   如图1-1所示。在这个智慧层次结构的最底部是数据,也就是原始的、 未编码的事件、经历和现象。出生、死亡、市场交易、投票、音乐下载、降水、 足球比赛,以及各种各样的(物种)发生事件等。数据既可以是一长串0和1, 也可以是时间戳,或是页面之间的链接等。数据是缺乏意义、组织或结构的。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps856.png
1-1智慧层次结构
信息用来给数据命名并将数据归入相应的类别。为了说明数据与信息之间的 区别,看看这几个例子:落在你头上的雨是数据,佛蒙特州伯灵顿市和安大略湖 7月份总降水量则是信息;威斯康星州麦迪逊市国会大厦旁边周六市场上的鲜 红辣椒和金黄玉米是数据,而农民的总销售额则是信息。
我们生活在一个信息极大丰富的时代。 一个半世纪以前,掌握信息可以带来   很高的经济和社会地位。英国小说家简 · 奥斯汀(Jane    Austen)笔下的爱玛就曾   问过,弗兰克 ·丘吉尔(Frank   Churchill)是不是“一个拥有着很多信息的年轻人”。  如果放到今天,她肯定不会在意这个问题。如果穿越到现在,那么弗兰克 ·丘吉   尔会和其他人一样有一部智能手机,问题只在于他有没有能力很好地利用这些信   息。正如陀思妥耶夫斯基在《罪与罚》 一书中所写的那样:“他们说,我们已经   得知了事实。但事实不是一切,至少有一半的分歧就出在人们怎样利用事实上!”


柏拉图将知识定义为合理的真实信念。更现代的定义则认为知识就是对相关 关系、因果关系和逻辑关系的理解。知识组织了信息,呈现为模型的形式。市场 竞争的经济学模型、网络的社会学模型、地震的地质学模型、生态位形成的生态 学模型以及学习的心理学模型都体现了知识。这些模型能够解释和预测。化学键 模型解释了为什么金属键会使我们无法将手伸进钢制的门,为什么当我们潜入湖 水中时氢键会影响我们的体重。
层次结构的基础就是智慧。智慧就是指识别和应用相关知识的能力。智慧需 要多模型思维。有时,智慧体现在懂得如何选出最优模型,就好像将箭从箭袋中 抽出来一样。还有时,智慧可以通过求出各种模型的平均结果来实现,这是在进 行预测时的一种常见做法。采取行动时,有智慧的人都会应用多个模型,就像医 生会让病人做好几种检查来帮助诊断一样。他们使用模型来排除某些行为、选择 某些行为。有智慧的个人和团队会有意让模型之间相互“对话”,探索不同模型 之间的重叠和差异。
智慧包括选择正确的知识或模型。考虑一下这个物理问题:一个小小的毛绒 玩具猎豹从一架飞在6千米高的飞机上掉下来,当它着地时会造成多大的伤害?  学生可能已经掌握了引力模型和自由降落速度模型。这两个模型会给出不同的答 案。引力模型的预测是,这个玩具猎豹会撕裂汽车的顶棚。自由降落速度模型的 预测则是这个玩具猎豹的最高速度可以达到每小时16千米。在这个问题上,智 慧意味着,知道应该如何运用自由降落速度模型。事实上,站在地上的一个人, 完全可以将这只柔软的毛绒玩具抓在手中。在此,不妨引用进化生物学家J.B.S.   霍尔丹(J.B.S.Haldane) 的一段话来说明这个问题:“你可以将一只小鼠丢到一 口深达千米的矿井,当它坠落到井底时,只要地面是相当柔软的,那么小鼠只会 受到轻微的震荡,而且能够自行走开。但如果是大鼠的话就会摔死,人则会粉身 碎骨,马更将尸骨无存。
回到上面这个毛绒玩具的问题上来,要想得到正确的答案需要信息(这个玩 具的重量)、知识(自由降落速度模型)和智慧(选择正确的模型)。商界和政界 领袖也依靠信息和知识做出明智的选择。例如,2008年10月9日,冰岛的货币 冰岛克朗 (króna) 开始自由落体般的急剧贬值。当时的软件巨头甲骨文公司  (Oracle)  的财务主管埃里克 ·鲍尔(Eric  Ball)必须做出一个决定。就在几个星 期之前,他刚刚处理了国内住房抵押贷款危机带来的冲击。冰岛的情况引发了国 际关注,而甲骨文公司持有数十亿美元的海外资产。鲍尔先考虑了关于金融崩溃


的网络传染模型,然后他又考虑了讨论供给和需求的经济学模型(在这种模型中, 价格变化的幅度与市场冲击的大小相关)。2008年,冰岛的国内生产总值仅为120 亿美元,只相当于麦当劳公司6个月的销售收入。事后,鲍尔回忆当时的思考过 程:“冰岛的经济规模比美国弗雷斯诺市还要小呢。回去工作吧,不用多管。”
要理解这个例子,或者理解多模型思维方法,关键是要认识到鲍尔并没有去 探索过多的模型,他找到了一个模型来支持已经决定采取的行动。是的,他没有 尝试很多模型后找到一个能证明自己行为合理性的模型。相反,他只评估了两个 可能有用的模型,然后选择了一个更好的模型。鲍尔拥有正确的信息(冰岛很小), 选择了正确的模型(供需模型),并做出了一个明智的选择。
接下来,我们重新反思两个历史事件来说明如何让多个模型展开“对话”。 这两个历史事件是:2008年的全球金融市场崩溃,它使总财富(或者说至少是 人们所认定的总财富)减少了数万亿美元,进而导致了长达4年之久的全球经济 衰退;以及1961年的古巴导弹危机,它几乎引发了一场核战争。
对于2008 年全球金融市场崩溃的原因,已经出现了多种解释:外国投资过 多;投资银行过度杠杆化;抵押贷款审批过程缺乏监督;家庭消费者过分乐观的 情绪;金融工具的复杂性;对风险的误解,以及贪婪的银行家明知泡沫存在却铤 而走险并期望获得救助;等等。表面证据似乎与这些解释保持了一致:从外国流 入了大量资金;贷款发起人发放了“有毒”(低质量)的抵押贷款;投资银行的 杠杆率确实非常高;金融工具太过复杂导致大多数人无法理解;不少银行预计政 府会出台救助计划;等等。通过模型,我们可以在这些解释之间加以“裁决”,  可以分析其内在一致性:它们是否符合逻辑?我们还可以用数据进行校准、对推 断进行检验。
经济学家罗闻全运用多模型思维方法,对关于这场危机的20种不同解释进 行了评估。他发现,每一种解释都有不足之处。而且,没有理由认为投资者在明 知自己的行为会导致全球危机时还会为泡沫作贡献。因此,泡沫的严重程度一定 是出乎许多人的意料的。金融公司可能假定其他公司已经做好了尽职调查,而事 实上并没有。回想起来,明显“有毒”的抵押贷款组合也找到了买家。如果全球 金融市场崩溃成为定局,那么买家就不会存在。虽然杠杆率自2002年以来一直 在上升,但却并没有比1998年的时候高出很多。而对于政府必定会救助银行的  观点,雷曼兄弟银行的遭遇说明了一切:雷曼兄弟银行于2008年9月15日倒闭,


它的资产超过6000亿美元,这是美国历史上最大的破产案,然而政府并没有介 入 。
罗闻全认为,每种解释都包含了一个逻辑上的缺憾。从数据本身来说,没有 任何一个解释是特别有根据的。正如罗闻全所总结的:“我们应该从一开始就努 力对同一组客观事实给出尽可能多的解释,并寄希望于时间。当时机成熟的时候, 关于这场危机更细致和更一致的解释就会浮现出来”他还说:“唯有通过收集多  样化且往往相互矛盾的解释,我们才能最终实现对危机更完整的理解。”任何单 个的模型都是不足的。
在《决策的本质》(Essence of Decision)一书中,美国政治学家格雷厄姆 · 艾 利森 (Graham  Allison) 采用多模型思维方法解释了古巴导弹危机。1961年4月  17日,一支由美国中央情报局训练出来的半正规武装队伍在古巴海岸登陆,企 图推翻菲德尔 ·卡斯特罗的政权,加剧了美国与古巴的盟友苏联之间的紧张关系。 作为回应,时任苏联总理尼基塔 ·赫鲁晓夫将短程核导弹运到了古巴。而时任美 国总统约翰 · 肯尼迪则以对古巴的封锁作为回应。最终,苏联做出让步,危机结 束了。
艾利森用三个模型解释了这个事件。首先,他运用理性行为者模型  (rational-actor model)阐明,肯尼迪当时有三种可能的行动:发动核战争、入 侵古巴或者进行封锁,最终他选择了封锁。理性行为者模型假设肯尼迪为每种行 动绘制了一棵博弈树,并附上苏联可能做出的反应,然后,肯尼迪根据苏联的最 优反应来思考自己的行动。例如,如果肯尼迪选择发动核战争,那么苏联就会反 击,最终可能会造成数百万人死亡。如果肯尼迪决定封锁古巴,他就会使古巴人 挨饿,而苏联则可能选择撤退或发射导弹。考虑到这个选择,苏联应该让步。这 个模型揭示了核心策略逻辑(central strategic logic),并为肯尼迪大胆选择封锁古 巴提供了合理的理由。
然而,尽管如此,像所有模型一样,这个模型也是错误的。它忽略了一些重 要的相关细节,使它乍看起来比实际情况更好。这个模型也忽略了苏联已经将导 弹运入古巴这个事实。如果苏联是理性的,他们应该会和肯尼迪一样画出博弈树, 并认识到他们必须拆除导弹。理性行为者模型也无法解释为什么苏联没有将导弹 藏起来。


其次,艾利森用组织过程模型(organizational   process    model)解释了这些不   一致性。缺乏组织能力是苏联未能隐藏导弹的原因。这个模型也可以解释为什么  肯尼迪选择封锁古巴,因为当时美国空军不具备在一次打击中就摧毁导弹的能力。 即便只剩下一枚导弹,也会造成数百万美国人的伤亡。艾利森巧妙地结合了这两   个模型。来自组织过程模型的洞察力,改变了理性选择模型(rational-choie model)  中的结果。
最后,艾利森又使用了政府过程模型(governmental process model)。之前 的两个模型都将国家化约为它们的领导者:肯尼迪代表美国行动,赫鲁晓夫代表 苏联行动。政府过程模型则认为,肯尼迪不得不与国会抗衡,而赫鲁晓夫则必须 维持支持自己的政治基础。因此,赫鲁晓夫在古巴部署导弹是一种力量的宣示。
艾利森这本书分别展示了模型本身以及模型之间对话的威力,每一个模型都  能使思路变得更加清晰。理性行为者模型确定了导弹到达古巴后可能采取的行动, 并帮助我们看清了这些行动的含义。组织过程模型让我们注意到了是组织而不是  个人在实施这些行动。政府过程模型则突出了入侵的政治成本。在通过所有这三  个视角评估了这个事件后,我们就有了更全面、更深刻的理解。所有模型都是错  的,但是同时运用多个模型确实非常有用。
在这两个例子中,不同的模型解释了不同的因果因素。此外,多模型思维方 法也可以专注在不同的尺度上。在一个经常被人提及的故事中, 一个孩子声称地 球是驮在一头巨大的大象背上的。 一位科学家问这个孩子,那么大象又是站在什 么东西上呢。孩子回答道:“一只巨大的乌龟的背上。”然后,科学家继续问,孩 子继续答。不难预料接下来会发生的事情,孩子的回答是:“你不要再问啦!乌 龟驮乌龟, 一直驮下去!”
如果我们这个世界真的就是通过乌龟驮乌龟这样维持着的,或者说,如果这 个世界是自相似(self-similar)的,那么最顶层的模型将适用每个层面。但是经 济、政治世界和社会都不可能是这样的乌龟队列,大脑也不可能。在亚微米水平 上,大脑由构成突触的分子组成,突触组成了神经元,神经元在神经元网络中结 合。不同的神经元网络相互重叠,具体模式可以通过脑成像技术来加以研究。这 些神经元网络存在的层级低于功能性系统(如小脑)。既然大脑在每个层级都有 所不同,我们就需要多个模型,而且这些模型也各不相同。表征神经元网络稳健 性的模型与用于解释脑细胞功能的分子生物学模型几乎没有任何相似之处,而后


者又与用于解释认知偏差的心理学模型有所不同。
多模型思维的成功取决于一定程度的可分离性。在分析2008 年金融危机的  成因时,我们需要依赖外国人购买资产模型、资产组合模型、金融杠杆模型等多 个模型。艾利森在根据博弈论模型进行推导时,不需要考虑组织过程模型。与此  类似,在研究人体时,医生会将骨骼系统、肌肉系统、大脑系统和神经系统分开。 也就是说,多模型思维并不要求这些不同的模型将系统分割为互不相关的部分。 面对一个复杂的系统,用柏拉图的话来说,我们不能“将整个世界雕刻在关节上”。 但是,我们可以部分地将主要的因果关系分离出来,然后探讨它们是如何交织在  一起的。在这个过程中,我们将发现经济、政治和社会系统产生的数据会表现出 一致性。这样一来,社会数据就不会再像家里养的猫一样吐出令人费解的毛球序
做一个多模型思考者现在总结一下。我们生活在一个充斥着信息和数据的时 代。同时,这些数据得以产生的技术条件还极大地缩短了时间和空间上的距离。 它们让经济、政治和社会行动者变得更加敏捷,能够在一瞬间就对经济和政治事 件做出反应。它们还增加了连通性,因而也增加了复杂性。我们面临着一个由技 术引发的悖论:在我们对世界的了解变得更多、更深入的同时,这个世界也变得 更加复杂了。考虑到这种复杂性,任何单个模型都更有可能遭到失败。当然,我 们不应该抛弃模型,恰恰相反,我们应该将逻辑一致性置于比直觉更优先的位置; 我们不能满足于双重模型、三重模型甚至四重模型,我们要成为多模型思考者。
要成为一个多模型思考者,必须学习掌握多种模型,我们可以从中获得实用 的知识,需要理解对模型的形式化描述,并知道如何应用它们。当然,我们也不 一定非要成为专家不可。因此,这本书在可阅读性和论证深度之间做了一些权衡, 它既可以作为学习资源也可以作为学习指导,书中对各个模型的正式描述都放在 独立的专栏中。我还保证不会出现一行接一行都是方程式的情况,如果那样的话, 即便是最专注的读者可能也无法忍受。不过,本书还是包括了少数几处包含方程 式的论述,但它们都是容易理解的,也是应该被掌握的。构建模型是一门艺术, 只能通过不断实践才能熟练掌握,这不是一项以观赏为目的的活动,需要刻意地 练习。在建模中,数学和逻辑扮演着专家教练的角色,它们会纠正我们的缺漏。
本书其余各章安排如下。第2章和第3章讨论了多模型思维方法,第4章讨  论了对人类建模的挑战。接下来的20几章,每章分别讨论一个模型或一类模型。


由于一次只讲解一个模型,所以可以非常方便地将模型的假设、含义和应用厘清。 这种章节结构也意味着,我们既可以阅读纸质书,也可以阅读电子书,而且可以 直接去阅读与自己感兴趣的模型相关的章节每一章,我们都会应用多模型思维方 法去解决各种各样的问题。本书最后给出了两个深度分析: 一是针对类药物流行 的现象,另外一个则涉及收入不平等问题。


02课模型的7大用途
了解现实就意味着构建转换系统,这些转换系统或多或少都必须与现实相对 应。
让 · 皮亚杰(Jean Piaget)
在本章中,我们定义了模型的类型。人们通常认为,模型就是对世界的简化。 是的,模型可以是对世界的简化,但是模型也可以采用类比的形式,或者,模型  本身可能就是为探索思想和总结观点而构建的虚拟世界。在本章中,我们还描述  了模型的7大用途。在学校里,我们应用模型来解释数据。在现实世界中,我们  应用模型来预测、设计和采取行动,也可以使用模型来探索新思想和新的可能性, 还可以利用模型来交流思想、增进理解。
模型的价值还体现在,它们能够把特定结果所需要的条件清晰地揭示出来。 我们所知道的大多数结论都只是在某些情况下成立。例如,三角形最长边的平方  等于另两边平方之和这个结论,只有当最长边是直角的对边时才成立。模型还可  以揭示直觉结论可能成立的条件。我们可以分析传染病在什么情况下会传播、市  场在什么条件下能正常运行、投票在什么环境下能够得到好的结果、群体在什么 条件下能够给出准确预测……。这些都不是确定的事件。
本章分为两部分。在第一部分,我们描述了构建模型的3种方法。在第二部 分,我们介绍了模型的7大用途:推理(reason)、解 (explain)、设 (design)、 沟通 (communicate)、行 (act)、 (predict)   和探索 (explore) 。这些用 途的首字母,构成了一个缩略词 “REDCAPE"。这个缩略词的字面含义为“红色 披风”,提醒我们:多模型思维可以赋予我们强大的力量。
3
要构建一个模型,我们可以在如下所述的3种方法中选择一种。
构建模型的第一种方法是具身法(embodiment approach)。用这种方法构建


的模型包括重要部分,同时对于不必要的维度和属性,要么剥离,要么将它们整 合在一起考虑。生态沼泽模型、关于立法机构和交通系统的模型都是用这种方法 构建的,气候模型和大脑模型也是如此。
构建模型的第二种方法是类比法(analogy     approach),可以对现实进行类比 与抽象。我们可以将犯罪行为传播类比为传染病传播,将政治立场的选择类比为 在一个左-右连续线段上的选择。球形牛是类比方法的一个最直观的例子:为了 估计一头牛身上牛皮的面积,我们会假设那头牛的形状是球形的。之所以要这样 做,是因为微积分教科书所附积分表中的公式,会出现 tan(x)和cos(x),  但是不 会出现类似cow(x)这样的东西。
相比而言,具身法更强调现实主义,而类比法则致力于刻画过程、系统或现 象的本质。当一位物理学家假设不存在摩擦,同时又以其他方式做出符合现实的 假设时,他所采用的就是体现法。当一位经济学家将相互竞争的公司视为不同的 物种并在此基础上定义产品利基时,就是在做类比,用一个模型来表示不同的系 统。但是,在具身法与类比法之间并没有一条明确的界限。例如,关于学习的心 理学模型,在给不同的备选项分配权重时,往往会合并考虑多巴胺反应与其他因 素,这种模型还会用我们在不同备选项之间进行权衡的方案做类比。
构建模型的第三种方法是另类现实法(alternative reality approach),也 就 是 有意不去表征、不去刻画现实。这类模型可以作为分析和计算的“演练场”,我 们可以利用这类模型探索各种各样的可能性。这种方法使我们能够发现适用于物 理世界和社会世界之外的一般结论。这类模型有助于我们更好地理解现实世界中 各种约束条件的含义,比如如果能够通过空气安全有效地传输能量,那么将会怎 ?这类模型还允许我们进行现实世界中不可能的(思想)实验:如果我们能够 加快大脑的进化,那么将会怎样?本书包含了不少这种类型的模型,其中一个是 “生命游戏”(Game of Life),它是一个很大的棋盘,棋盘上的每一个方块要么 是活的(黑色),要么是死的(白色),并根据某个特定规则在生死之间切换。虽 然这个模型与现实世界并不一致,但是它能够帮助我们加深对自组织、复杂性现 象的认识,甚至是许多关于生命本身的洞见。
无论是表征更复杂的现实世界、创造一个类比,还是建立一个用来探索思想 的虚拟世界,任何一个模型都必须是易于处理且便于交流的。我们能够用形式化 的语言对模型编码,比如数学符号或计算机代码。在描述模型时,我们不能在不


给出正式描述的情况下直接抛出诸如信念或偏好之类的东西。信念通常可以表示 为一系列事件或先验的概率分布。而偏好则可以用多种方式来表示,比如用对一 组备选项的排序或者一个数学函数来表示。
易于处理则是指适合分析的性质。在以往,分析依赖于数学运算或逻辑推理, 因此建模者必须能够证明论证中的每一个步骤。这个约束条件导致了一种崇尚极  致简约模型的“审美倾向”。神学家、哲学家奥卡姆的威廉 (William  of Ockham)   提出了流传至今的“奥卡姆剃刀”原则:如无必要,勿增实体(Plurality  must  never   be   posited   without   necessity)。爱因斯坦则把“奥卡姆剃刀”原则进一步阐释为: 事情应该力求尽可能简单,但是不可过于简单化。不过到了今天,当遇到用解析  方法难以处理的问题时,我们还可以求助计算方法,可以构建由许多不断变化的  组件的精细模型,而无须考虑解析上是否易于处理。科学家在构建全球气候模型、 大脑模型、森林火灾模型和交通模型时,就采用了这种方法。当然,他们仍然不  会忘记“奥卡姆剃刀”原则,只不过已经认识到“尽可能简单”还会要求很多不  断变化的组成部分。
模型的7大用途
模型有几十种用途,不过在这里,我们只专注讨论其中的7种用途:推理、 解释、设计、沟通、行动、预测和探索。
模型的7大用途(REDCAPE)
推理:识别条件并推断逻辑含义。
解释:为经验现象提供(可检验的)解释。
设计:选择制度、政策和规则的特征。
沟通:将知识与理解联系起来。
行动:指导政策选择和战略行动。


预测:对未来和未知现象进行数值和分类预测。
探索:分析探索可能性和假说。
R  EDCAPE:
在构建模型时,我们要先确定最重要的行为人(行动者)、实体以及相关特 征。然后,描述这些组成部分如何互动和聚合,我们能够推导出一些东西,并说 明原因何在。这样一来,也就提高了我们的推理能力。虽然,能够推导出的东西 取决于我们的假设,但是我们通过模型发现的绝不仅仅是重言式(tautology)(2)。
因为我们很少能仅凭检验推断出假设的全部影响,我们需要形式逻辑。逻辑还可 以揭示不可能性和可能性。利用模型进行推理,我们可以得到精确的,甚至是令 人出乎意料的关系。我们可以发现自身直觉的制约性。
阿罗定理(Arrow's  Theorem)就是一个可以说明逻辑如何揭示不可能性的极 佳例子。这个模型解决了个人偏好是否集结为集体偏好的问题。在这个模型中,
偏好表示为各备选项之间的排序。以对餐馆进行排名为例,假设有5家意大利餐 馆,分别用字母A 到 E 表示,这个模型允许120种排序中的任何一种。阿罗要求 集体排序是单调的(如果每个人都将A 排 B 之前,那么集体排序也是如此)、
独立于无关的备选项(在其他备选项的排名发生了变化的情况下,如果任何人对  A和 B的相对排名都没有发生变化,那么A 和 B 在集体排名中的顺序也不会改变), 且是非独裁的(没有任何一个人能够决定集体排序)。然后阿罗证明,如果允许  任何偏好都存在,那么就不存在集体排序。
逻辑也可以揭示悖论。利用模型,我们可以证明,每个亚种群中的女性人口 比例大于男性,但是在整个种群中却是男性人口的比例更高,这种现象被称为“辛 普森悖论”(Simpson's paradox)。在现实世界中,这种情况已经发生过了:1973 年,加州大学伯克利分校的绝大多数院系都录取了更多的女生,但是从总体上看, 它却录取了更多的男生。模型还表明,两个没有胜算的赌局,当交替轮流进行时, 是有可能带来正的预期回报的,这就是人们熟知的“帕隆多悖论”(Parrondo's
更新微信ipip515.
paradox)。通过模型,我们可以证明,在向网络中添加节点的同时,是可以减少 连接所有节点所需边的总边长的。


需要注意的是,我们不能把上面这些模型的例子简单地视为数学上的新奇事 物。事实上,每一个模型都有很大的实际应用价值:提高女性在人口中比例的努 力可能会适得其反;将没有机会赢利的投资适当地组合起来可能会带来收益;电 线、管道网、以太网线路或道路网的总长度可以通过增加更多的节点来减少等。
逻辑也可以揭示数学关系。根据欧几里得定理,三角形可以由任意两个角和 一条边,或任意两条边和一个角唯一确定。根据对消费者和公司行为的标准假设, 当市场上有大量的相互竞争的企业时,价格等于边际成本。但是,这里也会出现 一些出乎意料的结果,其中一个是所谓的“友谊悖论”(friendship paradox),它  说的是,在任何一个由友人组成网络中,平均而言, 一个人的朋友拥有的朋友要 比这个人更多。
“友谊悖论”之所以会出现,是因为非常受欢迎的那些人有更多的朋友。图 2-1显示的是扎卡里(Zachary)    的空手道网络。在图中,黑色的圆圈所代表的人 6个朋友,这些朋友用灰色圆圈表示,他的朋友们平均每个人有9个朋友。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps857.png
2-1 友谊悖论:朋友拥有的朋友比自己多
在整个网络中,34人中有29人拥有比他们自己更受欢迎的朋友。稍后在下 文中,我们还将了解到,只要加入更多的假设,那么大多数人的朋友平均来说会 比自己更加好看、更加善良、更加富有、更加聪明。


最重要的是,逻辑还揭示了真理的条件性。政客可能会声称降低所得税会通 过促进经济增长,从而增加政府收入。但是,根据政府收入等于收入水平乘以税 率的基本模型,我们很容易就可以证明,只有当收入的百分比增幅超过了减税的 百分比时,政府收入才会增加。因此,收入税减少10%的政策,只有在它能够导 致收入增幅超过了10%时,才能带来政府收入的增加。政客的逻辑只适用于某些 特定条件,而模型就能将这些条件识别出来。
当我们将模型中推导出来的主张与叙述性主张进行比较时,这种“条件性” 的威力将会变得更加明显,即便后者有经验证据支持时也是如此。我们先来考虑   一下这个管理名言:重要的事情先做 (first   thing   first)。它说的是,在面对多项   任务时,你应该首先完成最重要的那项任务。这个原则有时也被称“大石头优   ”原则,意思是当你要将一些大小不一的石头装入一只桶中时,你应该先装入   大石头,如果你先放入小石头,那么大石头就放不下了。
“大石头优先”原则,是专家从观察中总结出来的,在许多时候确实不失为 一个很不错的原则,但是它也不是无条件的。基于模型的方法将会先对任务提出 具体的假设,然后推导出最优规则。例如,在“装箱问题”(bin   packing   problem) 中,必须将一系列不同大小或不同重量的物体装入容量有限的箱子中,目标是保 证所用的箱子尽可能少。
不妨想象这样一个场景:你准备搬家,要把家中的所有东西打好包,放入若  干个50厘米×50厘米的箱子里。把你的所有东西按大小排好序,然后将每一件 东西放入第一个有足够空间的箱子,这种方法称为“首次适应算法”(first   fit   algorithm),   事实证明相当有效。这就是说,“大石头优先”原则的效果非常不错。
但是,假设我们要考虑一个更加复杂的任务:在国际空间站上,为若干研究 项目分配空间。每个项目都对有效载荷重量、空间大小和动力有一定要求,对宇  航员的时间和认知能力也有自己的要求。而且,每个项目都有做出科学贡献的潜  在能力。在这个问题中,即便我们想出了一个衡量这种“大石头”(重要性)的  方法,对上面这些属性求加权平均值的权重,但在给定的相互依赖性的维度下, “大石头优先”原则也已经被证明是一个相当糟糕的原则。更复杂的算法以及可 能的市场机制则会更好地发挥作用。因此,在某些条件下,“大石头优先”原则 可能是一个很好的原则。但是,在另外一些条件下,“大石头优先”原则就不行  了。通过利用模型,我们可以划出一条界线:什么时候应该采用、什么时候不能


采用。
形式主义的批评者声称,说到底,模型只不过是对我们已经知道的东西进行 了重新包装而已,只不过是将旧酒倒入闪闪发亮的“数学”新瓶中而已。这些批 评者可能会说,难道我们不知道“三个臭皮匠,赛过诸葛亮”吗?难道我们不知 “三思而不行,终将无所得”吗?我们不需要模型就能知道这些道理。他们还 认为,我们可以通过阅读《荷马史诗》中奥德赛将自己绑在桅杆上的故事,懂得 承诺的价值。
但这些批评者没有认识到,从模型中得出的推论总是采用条件判断形式:如 果条件A 成立,那么可以得出结果B。例如,如果你要装箱,而大小是唯一的约 束条件,那么就先装好最大的东西。我们从经典文献和伟大思想家的名言中吸取 的教训却通常不包括任何条件。如果我们试图依据这种“原则”来生活或管理他 人,就肯定会迷失在众多意思相反的谚语海洋当中,既然有三个臭皮匠,赛过 诸葛亮”,也会有“厨子多了烧坏汤”(表2-1)!
2-1 相互对立的谚语
谚语
相反的谚语
三个臭皮匠,赛过诸葛亮
厨子多了烧坏汤
(Two heads are better than one)
(Too many cooks spoil the broth)
三思而不行,终将无所得
一针及时顶九针
(He who hesitates is lost)
A stitch in time saves nine
破釜沉舟
留条后路
(Tie yourself to the mast)
(Keep your options open)
“完美”是“优秀”之敌
要做就要尽善尽美,不然不如不做
(The perfect is the enemyof the good)
(Do it well or not at all)
事实胜于雄辩
笔尖强过干戈
(Actions speak louder than words)
(The pen ismightier than the sword)


而在模型中,我们可以在给定的假设下证明定理。相反的谚语经常共存,但 是相反的定理却不会出现。两个定理,如果对何为最优行动有不同看法,必定会 做出不同的预测;或者,给出了不同解释的定理必定有不同的假设。
RE  DCAPE:
模型为经验现象提供了清晰的逻辑解释。经济学模型解释的是价格变动和市 场份额等现象;物理学模型可以解释坠落物体的轨迹和轨迹形状的变化;生物学 模型可以解释物种的分布;流行病学模型解释了传染病传播的速度和模式;地球 物理学模型能够解释地震的大小和分布。
模型可以解释点值(point   values)和点值的变化。例如,某个模型可以解释 五花肉期货的当前价格以及过去6个月来价格上涨的原因。另一个模型可以解释 为什么美国总统会任命持温和立场的最高法院法官,以及为什么美国总统候选人 会向左翼或右翼靠拢。模型还可以解释形状:关于思想、技术和传染病传播的模 型,都会产生S 形的采用曲线(或传染曲线)。
我们在物理学中学到过不少模型,例如玻意耳定律,这个定律告诉我们,氧 气的压力乘以体积等于一个常数(pV=k),   这个定律非常完美地解释了许多现 象。如果知道了体积,就可以估计出常数k,  然后就可以解释压力p,   或 者 预 测作为V 和 k 的函数的压力p。这个模型的准确性可以归因于如下事实:气体 由大量存在的简单成分组成,而且遵循一个固定不变规则,即任何两个氧分子在 相同情况下必定遵循相同的物理定律。氧分子的数量如此之多,以至于统计上的 平均值可以抹去任何随机性。
但是,大多数社会现象都不具备这三种性质:社会行动者是异质性的、互动 是在小群体内展开的、行为人也不遵守固定的规则。此外,人还会思考。更加重 要的是,人会对社会上的风吹草动做出反应,而这就意味着行为变化可能是无法 相互抵消的。因此,社会现象要比物理现象更加难以预测。
最有效的模型既能解释简单的现象,也能解决令人费解的问题。教科书中关 于市场的经典模型能够解释为什么对于像鞋子或薯片这样正常商品需求的意外 增加,会在短期内提高它们的价格,这是一个非常直观的结果。这些模型还可以


解释,为什么从长期来看,需求增加对价格的影响会小于生产商品的边际成本的 影响。需求的增加甚至有可能会导致价格下降,这种现象在规模收益增加的情况 下确实会出现。这无疑是一个更令人惊讶的结果。这些模型还可以解释一些悖论, 例如水和钻石悖论:钻石只具有很小的实用价值,但是价格却很高;水虽然是人 类生存的必需品,但价格却很低。
有人说,模型可以解释任何东西。这种说法没有错,模型确实可以。然而, 基于模型的解释必须包括正式的假设和明确的因果链条,而且这些假设和因果链 条都要面对数据。例如,有个模型说,用低被捕概率可以解释犯罪率的居高不下, 这样的模型就是可检验的。
RED  CAPE:
模型还可以通过提供框架来帮助设计,因为只有在适当的框架内我们才可以 考虑不同选择的含义。工程师使用模型设计供应链;计算机科学家使用模型设计 Web 协议;社会科学家使用模型设计制度。
1993年7月, 一群经济学家在位于加利福尼亚州帕萨迪纳市的加州理工学 院开会,设计一种拍卖方法,拍卖对象是手机所用的电子频谱。在那之前,美国 政府一直将频谱的使用权分配给大型公司使用。1993年通过的《统一综合预算 协调法案》(Consolidated Omnibus Budget Reconciliation Act)则允许政府拍卖频 谱以筹集资金。
从一座信号塔发射的无线电信号只能覆盖一定的地理区域。因此,政府可以 出售各个特定地区的许可证,例如,俄克拉何马州西部、加利福尼亚州北部、马 萨诸塞州、得克萨斯州东部等。这就提出了一个设计问题。 一家公司所拥有的任 何一张给定的许可证的价值,取决于该公司得到的其他许可证。例如,加利福尼 亚州南部许可证对于拥有加利福尼亚州北部许可证的公司来说更有价值。经济学 家将价值的这种相互依赖性称为外部性。这里的外部性有两个主要来源:建设成 本和广告市场。持有相邻地区的许可证意味着更低的建设成本和利用重叠的媒体 市场的潜力。
这种外部性对同时举行的拍卖提出了挑战。 一家试图赢得一组许可证的公司


可能会在其中某一张许可证的拍卖中输给另一个竞标人,并因此而失去所有外部 性,也就是可以带来的收益。那样的话,这家公司就可能会希望退出其他许可证 的拍卖。然而另一方面,连续拍卖也有一个缺点。竞标人在前面的许可证拍卖中 会出低价,以对冲在后面的拍卖中竞买失败可能导致的损失。
成功的拍卖制度设计必须符合这样一些要求:不会受策略性操纵的影响、能 够产生有效率的结果,同时又容易被拍卖参与者所理解。为此,参加加州理工学 院会议的那些经济学家,利用博弈论模型分析了策略性竞标人可能会利用的各种 特征,采用计算机模拟比较了各种设计方案的效率,还通过统计模型选择了真人 实验的参数。最终,他们设计出了一种多轮拍卖方法,做到了允许参与者退出竞 标并禁止早期竞标人掩盖真实意图。事实证明,这是成功的。过去的30年以来, 美国联邦通信委员会已经使用这种拍卖方法筹集了将近600亿美元资金。
REDC APE:
由于创造了一种共同的表示方法,模型能够有效地改进交流。模型要求对相  关特征及其关系给出正式的定义,这使我们能够精确地进行交流。例如,模型F     =ma, 涉及3个可测量的量——力、质量和加速度,并将它们之间的关系用方   程式的形式表示出来。每一项都可以表示为可测量的单位,因而可以很方便地就   这个模型进行交流,而不必担心会有什么误解。相比之下,“更大、更快的东西  会产生更大的力”这种说法的准确度却要低得多。因为这需要翻译,而翻译会令   很多人“迷失方向”。“更大”指的是重量还是体积?“更快”指的是速度还是加  速度?“力”指的是能量还是力?“更大”和“更快”的结合又怎么产生“力” ?对这种说法的定义,也有不同的方向:可以将“力”写为重量与速度之和(P      =W+V )、重量与速度之积 (P=WV),      又或者写为重量与加速度之和 (P     =W+A) … …
当我们根据可复制性的要求,给像“政治意识形态”这样的抽象概念下了一 个定义之后,这些概念也就具有了与质量和加速度等物理概念等量齐观的某些特 征。我们可以通过一个模型给出这样的论断,根据他们的投票记录,某个政客比 另一个政客更“自由”(“保守”)。然后我们可以准确无误地用这种论断与他人交 流。“自由”是有明确定义的,而且是可度量的。其他人可以使用相同的方法去 对其他政客进行比较。当然,投票记录可能不是衡量“自由”与“保守”的唯一


标准。这时我们可以构建出第二个模型,根据演讲的文本分析来分配意识形态立 场。有了这种模型,也可以将我们所说的更加“自由”的意思准确无误地传达给 其他人。
很多人都低估了交流对人类社会进步的影响。 一个无法交流的思想,就像一 棵淹没在森林中的树,没有人会注意到它。启蒙时代显著的经济增长在很大程度 上取决于知识的可传播性(知识通常表现为模型形式)。事实上,有充分证据表 明,在那个时代,思想的可传播性对经济增长的贡献,比教育水平还要大。其中 一个有力的证据是,在18世纪的法国,各城市的经济增长与狄德罗(Diderot)  的《百科全书》(Encyclopédie)    的订阅数量之间的相关性,远远高于与识字率 之间的相关性。
REDCA   PE:
弗朗西斯 ·培根曾经这样写道:“人生的伟大目标,不在于知,而在于行。” 良好的行动需要良好的模型。政府、企业和非营利组织都要使用模型来指导行动。  无论是提高价格(降低价格)、开设新的分支机构、兼并其他公司、提供全民医   疗保健,还是资助某个课外计划,决策者都要依赖模型。在最重要的行动中,决   策者要使用多个复杂的模型,模型与数据紧密相关。
2008年,作为《问题资产救助计划》的一部分,美国联邦储备银行提供了1 820亿美元的金融救助款,以拯救跨国保险公司美国国际集团(AIG) 。 根据美国 财政部的报告,政府之所以决定拯救美国国际集团,是“因为它在金融危机期间 如果破产,就会对我们的金融体系和经济产生破坏性影响”。救助的目的不是为 了拯救美国国际集团本身,而是为了支持整个金融体系。每天都有企业破产,但 是政府通常不会介入。
根据《问题资产求助计划》做出的每一项具体决策都是以特定模型为基础的。 2-2显示了国际货币基金组织给出的一个网络模型。在这里,节点(圆圈)代  表金融机构,边代表这些金融机构的持有资产价值之间的相互关系。连接的颜色 和宽度代表相关性的强度,更深和更粗的线条意味着更大的相关性。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps858.png
2-2 金融机构的网络模型
从图2-2可见,美国国际集团在这个金融机构网络中占据了中心位置,因为 它向其他公司出售保险。如果这些公司的资产价值蒙受了损失,美国国际集团根 据承诺要向它们支付赔偿金。这就是说,如果资产价格下跌,那么美国国际集团 就欠了这些公司钱。这个网络的隐含义是,如果美国国际集团破产了,那么与它 相关的公司也会破产,从而很可能会引发一连串的破产。通过稳定美国国际集团, 美国政府可以为网络中的其他公司的市场价值提供支持。
2-2也有助于解释为什么政府会让雷曼兄弟公司倒闭:因为雷曼兄弟公司 并没有在网络中占据中心地位。我们不能让历史重演,所以我们无法确知美国联 邦储备委员会当时是不是采取了正确的行动。但是我们确实知道,雷曼兄弟公司 的破产没有导致金融体系崩溃,而且政府向美国国际集团的贷款还为它带来了 230亿美元的利润。
指导行动的模型通常依赖于数据,但并不是全部模型都依赖于数据。大多数


政策模型都需要使用数学公式,但也并非总是如此。过去,决策者也曾经建立过 物理模型。在20世纪中期,菲利普斯 (Phillips)   为英国经济构建了一个水力模 型,它一度被用于考虑政策选择。另外,关于旧金山湾的物理模型,也对终结将 旧金山湾改造为淡水湖的计划起到了很大作用。密西西比河流域模型水道试验站  (Mississippi River Basin Model Waterways Experiment  Station)建造的流域缩微模 型,位于密西西比州克林顿市附近,占地近80万平方米,按1:100的比例完整
复制了整个流域。这个模型可以检验建造新水坝和水库对流域上游和下游地区的 效应,因为放出来的水会遵循物理结构中的物理定律。这样的物理模型中,嵌入 数据的物理实体和物理定律自然会“完成”逻辑推理。
到目前为止,我们举的例子都是关于组织如何使用模型来采取行动的,个人 当然也可以这么做。在日常生活中,当我们准备采取某个重要行动时,也应该使 用模型。例如,在决定购买房屋、更换工作、回到大学攻读更高的学位,或者在 决定是购买还是租赁汽车时,都可以使用模型来指导决策。用到的模型可能只是 一些定性的模型而不一定有相应的数据支持,但是多模型思维会“迫使”我们向 自己提出一些重要的问题。
REDCAP E:
模型长期以来被用来预测。天气预报员、专家、顾问和许多国家中央银行行 长,都在使用模型进行预测。警察机构和情报部门也使用模型预测犯罪行为,流 行病学家则使用模型预测下个季节哪种流感病毒将最为流行。现在,随着数据可 得性的提高和精细度的改进,利用模型进行预测的做法变得更加常见了。例如, Twitter 上的跟帖和谷歌上的搜索关键词,都已经被用于预测消费趋势和潜在的 社会活动了。
模型既可以用来预测特定的个别事件,也可以用来预测一般趋势。2009年6 1日,法国航空公司的AF 477航班在从里约热内卢飞往巴黎的途中,在大西 洋上空坠毁。在接下来的几天里,救援人员发现了一些漂浮的碎片,但是无法找 到尸体。到7月份,飞机上的水下信标中的电池耗尽了电力,搜索不得不中止。 一年后,伍兹霍尔海洋研究所(Woods Hole Oceanographic Institution)  率领的搜 寻队使用美国海军的侧扫声呐船和水下自动航行器进行了第二次搜索,也没有得 到什么结果。于是,法国国家统计分析局(French Bureau d'Enquêtes etd'Analyses)


不得不求助于模型。他们将概率模型应用于大海洋流,并识别出了一个坠毁的飞 机最有可能沉没的矩形区域(面积并不很大)。根据模型给出的这个预测,搜索 队在一个星期之内就找到了飞机残骸。
过去,解释和预测往往是齐头并进的。解释电压模式的电气工程模型也可以  预测电压大小,解释政客过去投票行为的空间模型也可以预测他们在未来的投票。 运用原本用于解释的模型进行预测的最著名的一个例子是,法国数学家、天文学  家奥本 · 勒维耶(Urbain  Le  Verrier)运用解释行星运动的牛顿定律,预测还存在  另一颗行星,进而以此来解释天王星运行轨道的异常。勒维耶证明,那些轨道与   太阳系外围地区存在另一颗大行星时的轨道一致。1846年9月18日,勒维耶将  预测发给了柏林天文台。5天后,天文学家就在勒维耶预测的那个位置上发现了  海王星。
不过话说回来,预测毕竟是与解释不同的。有的模型可以用来预测,但是却 不一定能解释什么。深度学习算法可以预测产品的销售情况、明天的天气变化、 价格演变趋势和身体健康状况,但是它们几乎没有提供什么解释。这些模型类似 “嗅弹犬”。尽管这些狗可以利用它们灵敏的嗅觉系统确定一个包裹是不是包 含着爆炸物,但是我们确实不应该要求它们解释为什么知道那里有炸弹,也不能 去问它们工作原理是什么、怎样才能拆除炸弹。
此外还要注意到,有些模型有很强的解释力,但是在预测上却没有什么价值。  板块构造论模型虽然可以解释地震是怎样发生的,但是却不能预测地震何时发生; 动力系统模型虽然可以解释飓风是怎样形成的,但是却无法准确预测飓风什么时  候袭来,也不能准确预测飓风的移动路径;生态模型虽然可以解释物种的形成的  模式,但是却无法预测出现的新物种类型到底是什么。
REDCAPE  :
最后,我们还会用模型来探索直觉。这种探索可能与政策相关:如果让所有  城市公交车都免费,会怎么样?如果让学生自主选择作业来证实他们的课程成绩, 会怎么样?如果在草坪上标出能量消耗数量,又会怎么样?我们可以提出很多假  说,而且所有这些假说都可以用模型进行探索。我们还可以利用模型来探索某些  在现实世界中不会出现的情况。如果法国生物学家拉马克 (Lamarck)   的观点是


正确的、如果后天获得的性状真的可以遗传给我们的后代,那么那些把牙齿矫正 好了的父母的孩子就再也不需要牙套了吗?在这样的世界还会发生什么?提出 这样的问题并探索它们的含义可以帮助我们揭示进化过程的局限性。暂且将现实 世界的约束丢到一边,可以极大地激发我们的创造力。也正是出于这个原因,批 判性设计运动的许多倡导者都利用科幻小说来促进思考并提出了不少新的思想。
探索有时还涉及对共同假设进行跨领域比较。例如,为了理解网络效应,建 模者可能会从一系列程式化的网络结构入手,然后追问网络结构是不是会影响以 及如何影响合作、传染病传播或社会动乱。又或者,建模者可能会将一系列学习 模型应用于决策、双人博弈和多人博弈;但是他们这样做的目的不是为了解释、 预测、行动或设计,而只是为了探索和学习。
当我们在实践中应用一个模型时,也能以多种方式使用它。同一个模型既可 以用来解释、预测,也可以用来指导行动。例如,2003年8月14日,俄亥俄州 托莱多市附近,树木倒塌压断了电线,造成了局部电力中断,但是,由于监控软 件出了故障,没有及时发出警报,让技术人员去对电力进行重新分配,最后导致 一天之内,美国东北部和加拿大有超过5000多万人遭受停电之苦。同一年,意 大利和瑞士之间的电线受风暴袭击,导致6000万欧洲民众无法用电。为此,工 程师和科学家求助于将电网表示为网络的模型。这些模型不但有助于解释故障是 如何发生的,而且有助于预测未来可能出现故障的区域。它们还能够识别出为了 增强电网的稳定性,应该在哪些地方增加新的线路、新的变压器和新的电源,从 而起到指导行动的作用。
将一个模型用于多种用途,正是本书中将会反复出现的一个主题。正如接下 来将会看到的,一对多是运用多个模型来理解各种复杂现象这一中心主题的必要 补 充 。


03课多模型思维
没有什么比现实主义更不真实了……细节令人困惑。只有通过选择、通过消 除、通过强调,我们才能获得事物的真正意义。
乔治娅 · · 吉弗 (Georgia    O'Keeffe)
本章将通过科学的方法来引入多模型思维。我们先从孔多塞陪审团定理   (Condorcet   jury   theorem)和多样性预测定理 (diversity    prediction    theorem) 入  手讨论,这两个定理为证明多模型思维在帮助人们行动、预测和解释方面的价值  提供了可量化的论据。需要指出的是,这两个定理可能夸大了许多模型的情况。 为了说明原因,我们又引入了分类模型(categorization      model),它将世界划分为  一个个箱子。使用分类模型的目的是表明构建多模型可能会比预想的更难。然后, 我们利用这类模型讨论了模型粒度(model granularity),也就是模型应该有多具  体,并帮助我们决定是采用一个大模型还是多个小模型。选择取决于用途:在预  测时,我们经常需要大模型;而在解释时,小模型则更好一些。
我们得到的结论解决了一个长期以来挥之不去的忧虑:多模型思维可能需要  学习非常多的模型。是的,虽然我们必须学习掌握一些模型,但是并不需要学习 像有些人想象的那么多。我们不需要掌握100个模型,甚至连50个也不需要,  因为模型具有一对多的性质。我们可以通过重新分配名称、标识符,或者修改假  设来将任何一个模型应用于多种情况。模型的这个性质很好地平衡了多模型思维  的需求。事实上,在新的领域应用模型对创造力、开放性和怀疑精神的要求也非  常高。我们必须认识到,并非每个模型都适合每项任务。如果一个模型无法解释、 预测或帮助我们推理,那就必须将它放到一边,考虑其他模型。
这种一对多的技能,与许多人所认为的要成为一名优秀建模者所必需的数学 和分析才能是不同的。 一对多的过程对创造力的要求很高,它实际上相当于在问 这样一个问题:对于随机游走,我能够想到多少种用途?作为这种创造力的一个 例子,在本章的最后,我们将几何学中的面积公式和体积公式作为模型,解释了 超级油轮的大小、评估了身体质量指数、预测了新陈代谢的比例……并解释为什 么我们很少看到女性CEO。


孔多塞陪审团定理和多样性预测定理
现在来看看正式模型,它们有助于理解多模型思维的好处。在这些模型的情 境下,我们描述了两个定理:孔多塞陪审团定理和多样性预测定理。
孔多塞陪审团定理是从一个解释多数规则长处的模型中推导出来的。在这个  模型中,陪审员要做出要么有罪、要么无罪的二元决策。每个陪审员正确决策的  时候比错误的时候多。为了将这个定理应用于模型集合而不是一组陪审员,我们  将每个陪审员的决策解释为模型的一个类别。这种分类可以是行动(买入或卖出), 也可以是预测(美国民主党胜出还是共和党胜出)。孔多塞陪审团定理告诉我们, 通过构建多个模型并使用多数规则,将比只使用其中一个模型更加准确。这个模  型依赖于世界状态 (state  of  the  world) 的概念,它是对所有相关信息的完整描  述。对于一个陪审团来说,世界状态包括了审判时呈现的所有证据。对于那些衡  量某个慈善项目的社会捐献的模型来说,世界状态则可能与项目的团队、组织结  构、运营计划以及项目所要解决的问题的特征或状况相对应。
孔多塞陪审团定理
总数为奇数的一组人(模型)将未知的世界状态分为真或假。每个人(模型) 正确分类的概率为p>1/2, 并且任何一个(模型)分类正确的概率在统计上都 独立于任何其他人(模型)分类的正确性。
孔多塞陪审团定理:多数投票正确的概率比任何人(模型)都更高;当人 (模型数)变得足够大时,多数投票的准确率将接近100%。
那么,如何将这个定理的原理应用于多模型方法呢?生态学家理查德 ·莱文   (Richard  Levins) 对此给出了详细的阐述:“因此,我们尝试用几个不同的模  型来处理同一个问题,这些模型的简化方法各不相同,但都有一个共同的生物学  假设。如果这些模型(尽管它们有不同的假设)都导致相似的结果,那我们就得  到了一个强有力的定理,它基本上不受模型细节的影响。因此,我们的真理就是  若干独立的谎言的交集。”需要注意的是,在这里,莱文斯渴望达成一致的分类。 当许多模型都给出了相同的分类时,我们会信心大增。


多样性预测定理则适用于给出数值预测或估值的模型,它量化了模型的准确 性和多样性对所有模型平均准确性的贡献。
多样性预测定理
多模型误差=平均模型误差-模型预测的多样性,即:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps859.jpg
ki    表示模型i   预测, M 等于模型的平均值,V
等于真值。
多样性预测定理描述了一个数学恒等式。我们用不着费心检验,因为它总是 成立。下面举一个例子来说明这一点。假设我们用两个模型来预测某一部电影会 获得多少项奥斯卡奖。一个模型预测它将获得两项奥斯卡奖,另一个模型则预测 它将获得8项。这两个模型预测的平均值,也就是多模型预测的结果等于5。如 果最后这部电影获得了4项奥斯卡奖,那么第一个模型的误差等于4(22),第 二个模型的误差等于16(42),而多模型误差则等于1,模型预测的多样性等于 9(因为每个模型的预测与平均预测均相差3)。这样一来,多样性预测定理就可 以表达为:1(多模型误差)=10(平均模型误差)-9(模型预测的多样性)。
这个定理的原理在于,相反类型的误差(正负)会相互抵消。如果一个模型 的预测值太高,同时另一个模型的预测值太低,那么这些模型就会表现出预测多 样性。两个模型的误差相互抵消,模型的平均值将比任何一个模型更加准确。即 便两个模型的预测值都太高,这些预测值的平均误差仍然不会比两个高预测值的


平均误差更糟。
但是,多样性预测定理并不意味着任何不同模型的集合的预测必定是准确的。 如果所有模型都有一个共同的偏差,那么它们的平均值也会包含那个偏差。不过,  这个定理确实意味着,任何多样性的模型(或人)的集合将比其普通成员的预测   更加准确,这种现象就是通常所说的“群体的智慧”(wisdom of crowds)。这 是   一个数学事实,它解释了计算机科学中集成方法(ensemble  method)成功的原   因,这种方法对多个分类加以平均,也解释了使用多个模型和框架进行思考的人   比使用单个模型的人预测的准确性更高的事实。任何一种看待世界的单一方式都   会遗漏掉某些细节,使我们更容易产生盲点。单模型思考者不太可能准确预测到   重大事件,例如2008年的金融危机。
这两个定理为我们利用多个模型提供了令人信服的理由,至少在进行预测的 情况下。然而,这个理由在一定意义上可能显得过强。孔多塞陪审团定理意味着, 如果有足够多的模型,我们几乎永远不会犯错。多样性预测定理则意味着,如果 能够构建一组多样的中等准确性的预测模型,我们就可以将多模型误差减少为接 近于零。但是,正如接下来将会看到的,我们构建多个多样性模型的能力是有限 的。
分类模型
为了说明为什么这两个定理可能会“夸大其词”,现在来讨论一下分类模型。 这类模型为孔多塞陪审团定理提供了微观基础。分类模型将世界状态划分为不相  交的。最早的分类模型可以追溯到古希腊时代。在《范畴篇》(The      Categories)   一书中,亚里士多德描述了对世界进行分类的10个范畴,包括了实体(substance) 、 数量(quantity)、地 点(location)和 状 (positioning)等,每个范畴都会创建  不同的类别。
当我们使用一个普通名词时,“裤子”是一个类别,“狗”、“勺子”、“壁炉” “暑假”也是如此。我们就是在使用类别去指导行动。我们按种族,比如意大   利人、法国人、土耳其人或韩国人,来对餐馆进行分类,以便决定在哪里吃午餐;  按照市盈率对股票进行分类,并根据市盈率高低买卖股票。当人们声称亚利桑那  州的人口之所以增长是因为该州气候宜人时是在用分类方法进行解释。我们还使


用类别进行预测,例如预计身为退伍军人的候选人在选举中会有更大的获胜机会。
我们还可以在智慧层次结构中解释分类模型的作用。对象构成了数据,将对 象分为不同类别就能创造出信息,而将估值分配给各个类别则需要知识。为了评 价孔多塞陪审团定理,我们依赖一个二元分类模型,它将对象或状态分为两个类 别,一类标记为“有罪”,另一类标记为“无罪”。关键的思想是,相关属性的数 量限制了不同类别的数量,因此也就限制了有用模型的数量。
分类模型
存在一组世界的对象或状态,每个对象或状态都由一组属性定义,每个属性 都有一个值。根据对象的属性,分类模型M 将对象或状态划分为一个有限的类 别集{S1,S2,……,Sn},       然后给每个类别赋值{M1,M2,……,Mn}。
假设有100份学生贷款,其中有一半是按期还款的,另一半是违约的。我们 知道每一笔贷款的两个信息:第一,贷款金额是否超过了5万美元;第二,贷款 者主修的工科还是文科。这是两个属性。通过这两个属性,我们可以区分出4 种类型的贷款:主修工科学生的大额贷款、主修工科学生的小额贷款、主修文科 学生的大额贷款以及主修文科学生的小额贷款。
二元分类模型将上面这4种类型中的每一种都分为按期还款与违约。一种模 型可能将小额贷款归为按期还款,将大额贷款则归为违约。另一种模型则可能将 主修工科学生的贷款归为按期还款,将主修文科学生的贷款归为违约。我们有理 由认为这两种模型中的任何一个都可能在超过一半的情况下是正确的,而且这两 种模型大体上相互独立。
但是,当我们尝试构建更多的模型时就会出现问题。要将4个类别映射为两 个结果,最多只有16个模型。上面这两个模型是其中的两个,它们将所有贷款 分为按期还款或违约。剩下的14个模型中的每一个都有一个完全相反的模型, 只要某个模型的分类是正确的,那么与之相反的那个模型的分类就是错误的。因 此,在14个可能的模型中,最多只有7个可能在超过一半的情况下是正确的。 而且,如果任何一个模型碰巧在一半的情况下是正确的,那么与它相反的模型也 必定如此。


数据的维数限定了可以创建的模型数量,最多可以有7个模型。我们无法创 建出11个独立的模型,更不用说77个了。而且,即使我们有更高维度的数据, 比如,假设我们知道贷款者的年龄、平均成绩、收入、婚姻状况和住址,那么依  赖这些属性的分类一定能产生准确的预测。每个属性子集都必须与贷款是否已经  偿还相关,同时还必须与其他属性无关。这两者都是很强的假设。例如,如果收  入、婚姻状况和住址是相互相关的,那么交换这些属性的模型也将是相互相关的。
在严格的概率模型中,独立性是合理的:不同的模型会产生独立的错误。运 用分类模型的原理分析孔多塞陪审团定理的逻辑时,我们看到了构建多个独立模 型的困难。
在试图构建一组多样性的、准确的模型时,也可能会遇到类似的困难。假设 我们想要构建一个分类模型来预测500个中型城市的失业率。一个准确的模型必 须将这些城市划分为多个类别,以便让同一个类别中的城市具有相似的失业率, 而且该模型必须能够准确地预测该类别的失业率。对于两个进行多样性预测的模 型来说,它们必须对城市进行不同的分类或给出不同的预测,或两者兼而有之。
这两个标准虽然并不冲突,但却很难同时满足。如果一个分类依赖于平均教育水 平,而另一个分类依赖于平均收入,那么它们分类的结果可能是类似的。如果确 实是这样,这两个模型可能都将是准确的,但却不是多样性的。根据每个城市名 称的第一个字母创建26个类别,可以构造多样性的分类,但却很可能无法成为 一个准确的模型。最重要的是,在实践中,“许多”实际上可能更接近5,而不 50。
预测的实证研究结果与这种推论一致。虽然增加模型可以提高准确性(根据 多样性预测定理,必定会是这样),但是在已经拥有了一定数量的模型之后再继 续增加模型,每个模型的边际贡献就会下降。例如,谷歌公司在实践中发现,仅 用一位面试官评估求职者(而不是随机挑选),会使录用一名高于平均水平雇员 的概率从50%提高到74%,加入第二位面试官可以把这个概率提高到81%,再加 入第三位面试官则只能把这个概率进一步提高到84%,加入第四位面试官也只能 提高到86%……使用20位面试官也只能将这个概率提高到90%多一点。这些证 据表明,增加面试官人数的作用是有限的。
类似的结果也出现在经济学家对失业率、经济增长率和通货膨胀率进行的成 千上万次的预测中。在这种情况下,我们应该把每位经济学家视为一个模型。加


入一位经济学家会使预测的准确性提高大约8%,加入两位可以提高12%,加入 3位可以提高15%,加入10位经济学家则能够将准确率提高大约19%。顺便说 一句,假设你知道谁是最好的经济学家,那么最好的经济学家的预测只比平均水 平高出大约9%。因此,3位随机选择出来的经济学家的表现就已经优于那位最 好的经济学家了。
相信多位经济学家的平均预测、而不依赖历史上表现最好的经济学家的另一 个原因是世界一直在变化。在今天的预测中表现优异的经济学家,明天就可能会 泯然众人。同样的逻辑也可以解释为什么美国联邦储备系统要依赖一系列经济模 型,而从来不会只依赖某一个经济模型。
这里的教益非常明确:如果能构建出多个多样性的、准确的模型,我们就可 以做出准确的预测和估值,并选择正确的行动。这些定理验证了多模型思维逻辑 的可靠性。但是,构建出满足这些假设的许多模型,却不是这些定理所能做到的, 也不是它们所应该做到的。在实践中,我们可能会发现我们可以构建出3个或5 个很不错的模型。如果是这样,那就太好了。我们刚刚讲过,加入1个模型后可 以改进8%,加入3个模型后改进幅度可以达到15%。请不要忘记,第二个和第 三个模型不一定比第一个模型更好,它们也许会更糟。但是,即使它们的准确性 稍差,但只要分类(字面意义)有所不同,就应该把它们加入进来。
适当的模型粒度
许多模型都能在理论上和实践中起到作用,但这并不意味着它们就一定代表 正确的方法。有时,我们最好构建一个单一的大型模型。现在,我们就来分析什 么情况下应该使用什么策略,同时考虑粒度问题,也就是我们应该在怎样的精细 程度上划分数据。
关于应该只用一个大型模型,还是使用多个小型模型的问题,我们先回顾一 下模型的7大用途:推理、解释、设计、沟通、行动、预测和探索。其中有4 种用途——推理、解释、沟通和探索都要求我们进行简化。通过简化,我们可以 应用逻辑来解释现象、交流思想,并探索各种各样的可能性。
回想一下孔多塞陪审团定理。在这个定理中,我们可以分析内在逻辑,解释


为什么使用多模型方法更有可能产生正确的结果,也更有利于传播我们的发现。 如果我们构建了一个以人格类型分类的陪审员模型,并将证据描述为语词的载体, 我们就会迷失在细节的丛林中。阿根廷著名作家豪尔赫路易斯 ·博尔赫斯(Jorges     Luis Borges) 在一篇科学论文中阐明了这一点。他描述了一批总想制作更精细地  图的制图师:“制图师协会决定制作一幅国家地图,它的大小与国家大小相同,
而且一对一地将土地上的每一点都标记在地图上。但是,他们的后代不像他们的 祖先这样喜欢研究制图,并认为这种巨大的地图毫无用处。
模型的另外3种用途——预测、设计和行动,却可以因高保真模型而受益。 因此,如果有大数据,那么就应该利用它。根据经验,我们拥有的数据越多,模 型就越精细。这一点可以通过用来梳理思维的分类模型来说明。假设我们想构建 一个模型来解释数据集中的变化。为了给问题提供一个背景,不妨再假设我们从 很多杂货店获取了大量数据,详细列出了数百万家庭每个月的食品支出。这些家  庭的消费金额不同,我们用变差(variation)来衡量这种变化,也就是每个家庭  的支出与所有家庭的平均支出之间的差的平方和。如果每个月的平均支出是500 美元,而某个特定家庭每个月的支出为520美元,那么这个家庭对总变差(total variation)的“贡献”就是400(202)。统计学家把一个模型中能够解释的变差 比例称为该模型的R2
如果数据的总变差为10亿,而模型解释了其中的8亿,那么这个模型的R2  是0.8 解释的变差比例对应于模型在平均估计上的改进程度。如果某个模型估 计某家庭每个月的支出为600美元,而且这个家庭的实际支出确实为每个月600 美元,那么这个模型就解释了该家庭对总变差的全部贡献。如果家庭支出为800 美元,但是模型的预测是700美元,那么对总变差的贡献就从原来的9   [(800-500)2],变成了1万[(800-700)2]。从而模型解释了8/9的变差。


R2:     解释变差的百分比
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps860.jpg


I(x)             X  中 的x  的 值 ,
等于平均值,A(x
V


)等于模型的估值。
在这种情况下,分类模型将家庭划分为不同类别,并估计了每个类别的值。 更精细的模型会创建更多的类别,而要创建这些类别就需要更多的家庭属性。如 果加入了更多的类别,可以解释的变差比例就会更大。如果我们像博尔赫斯所说 的那些制图师一样思考,将每个家庭都分为一类,我们就可以解释所有的变差。 但是,这种解释,就像比例为1:1的地图一样,没有多大用处。
创造过多的类别会导致对数据的过度拟合,而过度拟合会破坏对未来事件的 预测。假设我们想利用上个月的食品采购数据来预测本月的数据,而家庭每月的 支出是会有变化的。如果一个模型将每个家庭都分为一类,那么就可以预测家庭 的支出与上个月相同。由于存在月度波动,这个模型并不是一个好的预测器。通 过将某个家庭与其他类似的家庭归入同一个类别中,我们可以通过对类似家庭在 食品上的平均支出来构建一个更准确的预测器。
为此,我们假设每个家庭的月支出是从某个分布中抽取出来的(我们将在第 5章详细讨论各种分布),再假设分布的均值和方差已知。创建分类模型的目的 是根据属性构建类别,使同一类别中的家庭具有类似的均值。如果能做到这一点, 那么某个家庭在第一个月内的消费就能够告诉我们其他家庭在第二个月的支出 大概是多少。当然,没有任何一种分类方法是完美的。在每个类别中,家庭的均


值可能会略有不同,我们称这种情况称为分类误差(categorization error)。
构建的类别越大,分类误差就越大,因为类别越大,我们就越可能将具有不 同均值的家庭集中到同一个类别中。但是,更大的类别依赖更多的数据,又可以 使我们对每个类别均值的估计更加准确(参见第5章中讨论的平方根规则)。因 估计均值错误而出现的误差称为估值误差 (valuation      error)。估值误差随类别数 量的增加而减少。如果不同家庭的月支出不同,那么包含一个家庭的类别(甚至 包含10个家庭的类别也一样)将无法准确估计均值,但包含1000个家庭的类 别则能够准确地估计均值。
现在,我们已经得到了关键的直觉:增加类别的数量能够通过将具有不同均 值的家庭归入同一个类别减少分类误差。统计学家将这种情况称为模型偏差 (model bias)。但是同时,构建更多类别则会增加对每个类别均值估计的误差, 统计学家将这种情况称为均值方差的增加。因此,我们在决定要构建许多个类别 时就面临着一个权衡。对于这种权衡,我们将它总结为模型误差分解定理(model   error decomposition theorem),统计学家则将这个结果称为偏差- 方差权衡  (bias-variance trade-off)。
模型误差分解定理
偏差-方差权衡
模型误差=分类误差+估值误差
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps861.jpg
其中,A(x)            和成i  分别表示数据点x  和 类 别Si   和   (x
) 的 值 ,i     表示它们的实际值。


一对多
学习模型需要时间精力以及广泛的兴趣和知识。为了减少学习成本,我们可 以采用一对多的方法。我们提倡掌握适量的、比较灵活的模型,并学会创造性地 应用它们。例如,我们可以使用流行病学模型来解释玉米良种的扩散、Facebook 的风行、犯罪行为的传播和流行明星的“吸粉”。我们将信号传递模型应用于对 广告、婚姻、孔雀羽毛和保险费的分析。我们利用进化适应的崎岖景观模型解释 为什么人类不需要鲸鱼那样的喷气孔。当然,我们不能随便拿起一个模型就将它 应用到任何情境之中。但是,大多数模型都是灵活的。而且,即使失败了我们也 会有所获益,因为尝试创造性地使用模型能够暴露它们的局限,这是一件很有趣 的事情 。
一对多方法是一个相对较新的方法。过去,特定的模型只属于特定的学科。 经济学家有供求模型、垄断竞争模型和经济增长模型;政治学家有选举竞争模型; 生态学家有关于物种形成和复制的模型;物理学家有描述运动规律的模型,等等。 所有这些模型都是针对特定目的而构建的。那个时候,科学家们不会将物理模型 应用到经济学领域,也不会用经济学模型去研究大脑,就像普通人不会用缝纫机 来修理泄漏的水管一样。
但是今天,将模型从各自所属的学科孤岛中“释放”出来,并将它们以一对  多的方法应用到其他领域中去的做法已经取得了显著成功。经济学家保罗 ·萨缪  尔森(Paul Samuelson)重新诠释了物理学中的模型,以解释市场如何实现均衡。 经济学家安东尼 ·唐斯 (Anthony   Downs) 利用经济学中描述海滩上冰激凌商店  之间的竞争的模型,解释了相互竞争的政治候选人在意识形态空间上的定位。社  会学家应用粒子相互作用的模型,分析不同国家的贫困陷阱、犯罪率的变化,甚  至经济增长。经济学家则已经开始采用基于经济原理的自我控制模型来理解大脑  的功能 。
一对多:更高的幂
要想创造性地应用模型,需要不断实践。为了说明“一对多”这种方法的巨 大潜力,在这里以一个大家熟悉的数学公式XN, 也就是求一个变量的N 次方 为例,并将它作为模型应用。当幂等于2时,这个公式给出的是正方形的面积;


当幂等于3时,它给出的是立方体的体积。当幂变为更高的值时,这个公式则刻 画了几何膨胀或几何衰减。
超级油轮:
第一个应用是考虑一艘长方体状的超级油轮,其长度是深度和宽度的8倍,  表示为S。如图3-1所示,超级油轮的表面积为34S2, 体 积 则 为 8S3。   一艘超级油轮的成本主要取决于它的表面积,因为这决定了所需钢材的数量。而  超级油轮能够产生的收入数量则取决于它的体积。先计算一下体积与表面积之比, 为 8S3/ 34S 2 ≈S/4, 这表明,随着尺寸的增加,盈利能力呈线性增长。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps862.png
3-1 长方体状的超级油轮:表面积=34S2,  体 积=8S3
航运业巨头斯塔夫罗斯 ·尼阿科斯(Stavros Niarchos)掌握了这个比例关系, 他建造了第一艘现代超级油轮,并在第二次世界大战后的重建期间赚了数十亿美 元。第二次世界大战期间使用的T2 油轮长152米、深7米多、宽15米多。而现 代超级油轮,例如诺克 ·耐维斯号(Knock Nevis),则长450多米、深20 多米、 50多米。要想象诺克 ·耐维斯号这样超级油轮的大小,不妨想象一下,将芝 加哥的西尔斯大厦放倒,并让它漂浮在密歇根湖的水面上会是什么样子。诺克耐 维斯号大体上相当于将T2 油轮放大了3倍多。然而,与T2 油轮相比,诺克 ·耐 维斯号的表面积是T2 邮轮的10倍,体积则是T2 邮轮的30倍。有人也许会问, 那么为什么超级油轮不造得更大一些呢。答案很简单:超级邮轮必须通过苏伊士 运河。事实上,诺克 ·耐维斯号每一次通过苏伊士运河时,都是“挤”过去的, 它的两侧都只能剩下一点儿缝隙。


身体质量指数 :
医学界通常用身体质量指数 (BMI)   来定义身体质量的不同类别。身体质量 指数最早出现在英国,计算方法是一个人的体重与身高的平方比。
因此,保持身高不变,身体质量指数会随体重呈线性增长。如果一个人比身 高相同的另一个人重20%,那第一个人的身体质量指数就会高20%。
为了应用模型,我们先将人假设为近似一个完美的立方体,由脂肪、肌肉和  骨骼的某种混合物构成。 M 表示1立方米立方体的重量。那么“人体立方体” 的重量就等于它的体积乘以每立方米的重量,即H3×M,       立方体“身体质  量指数”就等于H×M。   到这里,这个模型还有两个缺陷:身体质量指数随身  高呈线性增长;而且考虑到肌肉比脂肪更重,更健美的人会有更高的M,  因 此  会有更高的身体质量指数。身高本应与肥胖无关,而肌肉发达本应是肥胖的对立  面。即便我们使这个模型变得更加“真实”,这些缺陷仍然存在。
如果使用参数d 和 w 来表示一个人的“深度”(前胸到后背的厚度)和“宽
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps863.jpg
”,并与高度成比例,那么身体质量指数可以写成:
这样一来,许多NBA以及其他球类运动明星的身体质量指数将会把他们归 入超重类别(BMI>25), 甚至许多世界顶尖男子十项全能运动员也不能幸免于难。
由于即便是身材适中、身体健康的人也可能有很高的身体质量指数,我们不 应该对如下结果感到惊讶:对涉及样本总数高达数百万人的近百项研究进行的一 个荟萃分析表明,体重稍稍超标的人寿命更长。


代谢率:
现在,应用模型来预测动物大小与代谢率之间的反比关系。每个生物体都要 进行新陈代谢,也就是重复进行的一系列化学反应,分解有机物质并将之转化为 能量。以卡路里计量的生物体代谢率等于维持生命所需的能量。如果我们构建小 鼠和大象的立方米模型,那么从图3-2可知,小立方体的表面积与体积的比值要 大得多。
我们可以把小鼠和大象建模为:身体由1立方英寸体积大小的细胞组成,每 个细胞都进行新陈代谢,同时这些代谢反应产生的热量必须通过动物的体表皮肤 发散掉。小鼠的表面积为14平方英寸,体积为3立方英寸,表面与体积之比约 5:1。12因而,对小鼠来说,每立方英寸的细胞,就有5平方英寸的体表皮肤 来散热。相比之下,大象的每个发热细胞则仅1/15平方英寸的体表皮肤来散 热。这就是说,小鼠散热的速度是大象的75倍。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps864.png
小鼠
表面积:14平方英寸 体积:3立方英寸
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps865.png
大象
57600平方英寸  864000立方英寸


3-2 膨胀的大象


因此,对于这两种动物来说,要想保持相同的体内温度,大象的新陈代谢就 必须更慢。事实也确实如此。如果一头大象的新陈代谢速度与小鼠一样,那么这 头大象每天将会需要吃下6800千克的食物。那样的话,大象的细胞所产生的大 量热量无法完全通过它的体表皮肤发散出去。最后,大象将会热到冒烟,然后爆 炸。在现实世界中,大象之所以没有爆炸,原因就在于它们的代谢率为小鼠的 1/20。这个模型不能预测新陈代谢随体形大小而变化的速度,但是准确地预测了 方向。更精细的模型还可以解释比例定律。
女性 CEO:
最后,我们进一步增大公式中的指数,并以此来解释为什么只有较少的女性 能够成为CEO。根据统计,2016年,只有不到5%的财富500强企业是由女性CEO 掌管的。一个人要成为一名CEO,必须经历多次升职。我们可以将这些升职机会 建模为概率事件,即一个人有一定概率可以升职。然后进一步假设,要成为CEO, 必须做到每一个升职机会都不会错过。
我们假设,要成为一名CEO, 至少要升职15次,这大体上相当于每两年升 职一次、在30年内成为CEO。大量证据表明,升职时会出现有利于男性的“温 ”的偏差。我们可以将这种偏差建模为男性升职的概率更高一些。
具体地说就是将这种偏差描述为男性的升职概率略高于女性的升职概率。如 果将这两个概率分别设定为50%和40%,那么男性最终成为CEO的可能性几乎 是女性的30倍!
这个模型揭示了“温和”的偏差会累积成为非常巨大的差异。10%的升职概 率差异,最终变成了成为CEO可能性的30倍的差距。
这个模型也可以为如下现象提供一个新的解释:为什么女性大学校长的比例 (大约25%)要比女性CEO的比例高得多?与财富500强企业相比,学院和大 学的管理层级较少。一名教授只需升职3次,就可以成为大学校长:系主任、院 长,然后就是校长。既然只有3个层级,那么偏差累积的程度就不会太过严重。 因此,女性大学校长的比例更高,并不意味着教育机构比企业更加平等。


多模型思维
在本章的一开始,我们通过孔多塞陪审团定理和多样性预测定理为多对一的 方法奠定了逻辑基础。然后,我们使用分类模型说明了模型多样性的局限性,也 阐述了多个模型是怎样改进我们在预测、行动和设计等方面的能力的,同时也指 出,要想构建多个不同的模型并不容易。如果可以的话,也就能达到接近完美的 预测准确度了,但是我们很清楚这是不可能的。无论如何,我们的目标是尽可能 多地构建有用的、多样性的模型。
在接下来的各章中,我们将会描述一系列核心模型。这些模型突出了世界的 不同部分,它们对因果关系做出了不同的假设。通过它们的多样性,这些模型创 造了多模型思维的可能性。通过强调更复杂整体的不同部分,每个模型都可以发 挥自己的作用,还可以成为更强大的模型集合的一部分。
如前所述,多模型思维确实要求我们掌握多个模型,但是我们并不需要懂得 非常大量的模型,只需要知道每个模型都可以应用到多个领域,但这并不容易。 成功的一对多思维取决于创造性地调整假设和构建新的类比,以便将为某个特定 目的而开发的模型应用到新的领域。因此,要成为一个多模型思考者,需要的不 仅仅是数学能力,更需要的是创造力。这一点我们已经看得很清楚了。
装袋法与多模型
通常,我们会用模型与现有数据集中的样本拟合,然后用其余数据来检验这 个模型。而在其他一些时候,我们会用模型去拟合现有数据集,然后用该模型去 预测未来的数据。然而,这种构建模型的过程会产生一种张力:模型中包含的参 数越多,就越能够很好地拟合数据,同时也越有可能过度拟合。好的拟合不一定 意味着好的模型。
物理学家弗里曼 · 戴森 (Freeman   Dyson)曾经谈到物理学家恩利克 · 费米  (Enrico  Fermi) 对他的一项研究的评论。那项研究的模型拟合度极高。“无奈之 下,我问费米是不是对我们计算出来的数值与他测量出来的数值之间的高度一致 性没有什么印象。他反过来问我:‘你是用多少个任意参数进行计算的?’我回


忆了一下我们的截止程序,然后告诉他‘4个'。他说:‘我记得我的朋友约 翰 ·冯 ·诺伊曼曾经说过,有4个参数,就可以拟合一头大象;有5个参数,就 可以让大象摆动它的大鼻子了。’然后,对话就结束了。”
用于“摆动大象鼻子”的估计量通常包括了更高阶的项:平方、立方,甚至 四次方。高阶项的存在会带来大误差的风险,因为高阶项有很强的放大效应。10 只是5的两倍,但是104却是54的16倍。下图显示了过度拟合的一个例子。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps866.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps867.png
过度拟合与样本外误差
左图显示了一家生产工业用3D打印机的企业销售数据(假设),销售数据 是该公司的销售团队每月(平均)上门推销次数的函数。左图显示的是一个非线 性最优拟合,包括非线性项的5次方。右图则表明,如果销售团队上门推销的次 数达到了30,那么该模型预测3D 打印机的销售量将达到100台。如果一个客户 最多只购买一台3D 打印机,那这个预测就不可能是正确的。因此,由于存在过 度拟合,这个模型出现了巨大的样本外误差。
为了避免过度拟合,可以避免使用高阶项。不过,一种更巧妙的解决方法是, 可以采取自举聚合法 (bootstrap   aggregating) 或装袋法(bagging) 来构建模型。 为了引导数据集,我们从原始数据中随机抽取若干数据点,创建多个规模相同的  数据集。抽取这些数据点时,采取的是抽出后放回的方法,也就是说,在抽取了 一个数据点之后,我们又将它放回到“袋子”中,下一次仍然可能会抽到它。这 种技术产生了一组规模相同的数据集,每个数据集都包含某些数据点的多个副本


而不包含其他数据点的副本。
然后,我们将(非线性)模型拟合到每个数据集上,以便生成多个模型。
这样一来,就可以把所有数据集都绘制在同一组数轴上,从而得到一 幅如下 所示的“意大利面图”(spaghetti          graph),图中颜色最深的那条线表示不同模型 的平均值。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps868.png
意大利面图
装袋法能够刻画鲁棒的非线性效应,因为它们在数据的多个随机样本中都清 晰可见,同时又能避免在任何单个数据集中去拟合特殊模式。通过随机样本构建 多样性,然后对多个模型求平均值,装袋法很好地应用了多样性预测定理背后的 逻辑。它构建了多样性的模型,如前所述,这些模型的平均值将比模型本身更加 准确。


04课对人类行为者建模
时至今日,我们仍然无法说出哪一种人类行为理论是设定很成功并在各种环 境下都通过了检验的。
埃莉诺 ·奥斯特罗姆 (Elinor Ostrom)
这一章讨论本书的一个核心问题:应该怎样对人进行建模?在接下来将要给  出的众多模型中,人都将成为分析的基本单元。我们将构建关于人们投票、合作、 参与时尚活动、投资退休账户,以及毒品上瘾的模型。在每一个模型中,我们都  必须对“人”做出假设:他们的目标是什么?他们是只关心自己的利己主义者还  是利他主义者?他们可能采取的行动是什么?他们如何选择自己要采取的行  ?或者说他们是否拥有选择权?
我们可以为每个模型构建任意的特殊假设,但这种做法会引起混乱并错过真 正的机会。如果这样做,最终将只剩下一组特殊的构造,而且每一次要构建新模 型时,都需要对人们的行为方式进行新的思考。由此产生的异质性会限制我们思 考和组合模型的能力,我们将不可能成为有效率的多模型思考者。
我们遵循的方法强调一致性和多样性。或者将人建模为基于规则的行为者  (rule-based actor),或者将人建模为理性行为者(rational actor)。在基于规则的 行为者集合中,我们考虑那些基于简单固定规则行事的人以及基于适应性规则行 事的人。基于适应性规则行事的人能够根据信息、过去的成功或者通过观察他人 的行为而改变自己的行为。正如我们在下文中将会详细讨论的那样,在这些不同 的情况之间并不存在明确的界线:适应性规则有时可以解释为一个固定规则,理 性行为有时也会采取简单规则的形式。
我们怎样对人建模,归根到底取决于问题的背景和想要实现的目标。我们是 在预测还是在解释?是在评估政策行动吗?是在尝试设计一种制度吗?或者,是 在探索?在低风险的环境中,例如要构建一个预测人们会购买什么颜色的外套或 者他们会不会在看完演出后起立鼓掌的模型时,我们通常会假设人们采用固定规 则。而在构建关于人们决定是不是要合作创业或信任他人的模型时,我们假设人 们会学习和适应。而在高风险的环境中,我们将假设知晓相关信息的、经验丰富


的人会做出最佳选择。
在更详细地描述我们的方法之前,先来澄清一些常见的误解。许多人都是在 经济学入门课程中第一次接触到描述社会现象的正式模型的,而且那些经济学模 型通常依赖一个基本的理性行为者模型。在这个基本模型中,每个人都是自利的, 并且有能力实现优化。这个模型通常还假设每个人都有相同的偏好和收入水平, 经济学家在这些模型中求解均衡,并在此基础上评估各种冲击对市场或政策变化 的影响。这些模型虽然基于不准确的假设,但却很有用。这些模型方便了经济学 家之间的交流,也更有利于学生理解。
基于这种经验,许多人推断,构建正式的模型需要一种狭隘的、不切实际的  “人性观”,也就是说,必须假设所有人都是自私的,而且从来不会犯错。但事 实并非如此。事实上,即便是经济学家也不会这样认为。在经济学的前沿领域, 早就出现了包含不完全信息和异质性行为主体的模型。在这些模型中,行为者会 根据他们所了解到的东西做出调整,他们有时(尽管不总是)会关心他人的收益。 当然,人们会在何种程度上表现出涉他偏好(other-regarding  preferences) 则 取  决于具体情况。例如,当向慈善机构捐款或从事志愿工作时, 一个人可能会显得 比在购房时更加关心他人。
尽管如此,令人遗憾的是:经济学模型总是假设自私的、不切实际的理性行 为者。我们必须放弃这种观点。打个比方,如果你只是在沙滩边的海水里走了几 步,那么你可能会推断海水是浅的。但是,当你游到更远的地方时,你就会开始 感受到海水的深度。在这里,就让我们从近岸的浅水地带开始尝试。有时,我们 会冒点儿险,进一步说明模型如何能够容纳关心他人的、有限理性的行为者。
无论做出什么假设,我们都无法摆脱假设的影响。我们被绑在逻辑一致性的  “桅杆”上,不能随便制造影响。如果假设消费者的选择具有强大的社会影响力, 那模型就会产生若干占据很大市场份额的产品。如果假设人们通过网络获得信息, 那么填补结构漏洞的那些人将会拥有权力。
在本章的其余部分,我们先概述了在对人建模时会遇到的一些挑战:人是多 样性的、易受社会影响的、容易出错的、有目的的、有适应能力且拥有自己主体 性的。我们不能在一个模型中包含所有这些特征而不会产生复杂的混乱,因此我 们必须做出选择。如果异质性无关紧要,那我们也许可以假设完全同质的行为主 体。如果问题很简单或人们很精明,那也许可以假设人们不会犯错误。


接下来描述理性行为者模型,并讨论其理论基础以及运用这种模型的理由 (尽管它在描述层面上是不准确的)。我们的结论是,理性行为者模型是起到“黄 金标准”的作用,还是“稻草人”的作用,抑或是介于这两者之间,都取决于模 型的目的。理性行为者模型在预测人类行为方面的作用,不如作为沟通、评估行 动和设计政策的工具那么成功。
然后,我们阐明了如何在标准的理性行为者模型中加入心理偏差和利他偏好。 是否让模型包含心理偏差或(和)关心他人的偏好,仍然取决于我们正在研究的  内容。某些人类心理偏差,例如损失厌恶和现世主义偏差(presentist bias)。这   些假设对于退休储蓄或社会骚乱的模型可能很重要,但对于驾驶行为或疾病传播  的模型可能不那么重要。
然后,我们将描述基于规则的行为。这类模型的优点是既灵活(我们可以把 任何行为记下来,作为一个规则),又易处理。我们所要做的,是将这种行为用 计算机程序编好码,也就是一个基于主体的模型,然后观察接下来会发生什么。 这种自由当然也伴随着责任。由于我们可以选择任何一种行为规则,所以必须小 心不要做出特殊的假设。在某些情况下,当给定目标函数时,可以证明所用的行 为规则是一种最优行为,尽管情况并非总是如此。
最后,在本章的结束部分,我们又回过头去重新讨论理性行为作为基准行为 的价值。即使人们没有优化,他们也会适应不断变化的环境和新的知识。这个观 察结果带来了各种各样的难题。如果我们根据人们有心理偏差的假设,或者他们 会做出不符合自身利益的行为的假设设计制度或政策,我们就不得不承担人们会 改变行为的风险。你也许可以愚弄人们一次,但很难愚弄他们两次、三次。尽管 不一定能得出理性是唯一合理的假设这种结论,但是逻辑确实支持将理性作为相 关的基准。逻辑还支持考虑作为理性下限的简单行为规则。而且,在对任何给定 情况进行建模时,我们可以应用任意数量的适应性规则和心理规则,作为探索这 些极端之间巨大空间的方式。
对人建模的挑战
对人建模是一个很大的挑战,虽然模型要求低维表征,但人却是天生无法简


单地加以表征的。人是多样性的、易受社会影响的、容易出错的、有目的的、有 适应能力且拥有自己主体性的,也就是说,我们有行动的能力。
相比之下,诸如碳原子和台球之类的物理对象是没有上述这6个属性的。碳 原子不具备多样性,尽管它们可以在化合物中占据不同的位置,例如在丙烷中。 碳原子从不违反物理定律,也不会主导有目的的生命。它们不会根据过去的经验 改变自己的行为,没有主体性,也不会发起行动或转行。因此,社会科学家会时 不时地讽刺:如果电子可以思考,那么物理学就会面临非常大的困难。如果电子 也拥有构建模型的能力,那么物理学无疑会变得更加困难。
我们可以从多样性所带来的问题开始讨论。人们的偏好、行动能力不同,形 成的社交网络、利他主义倾向以及分配给不同行动的认知资源(注意力)也有所 不同。如果每个人都一样,那么建模工作就会轻松得多。有时我们会根据统计原 理假设行为的多样性可以相互抵消。例如,我们可以构建一个模型,预测慈善捐 赠额是收入水平的函数。对于给定的收入水平和税率,有些人可能比我们所假设 (偏好)更利他,而另一些人则可能比假设的更利己。如果偏离模型的偏差达 到平均值(在第5章中,我们将给出一些能够解释为什么会是这样的分布模型), 那么这个模型的预测就可能是准确的。当然,除非不同人的行动是相互独立的, 否则不会出现多样性可以抵消掉的结果。在行为受到社会影响的时候,极端行为 会产生溢出效应 (spillovers) 。当政治活动家鼓动选民时,就会发生这种情况。 在下文中模拟社会骚乱时,我们会讨论多样性的这种影响。
人们所犯的错误是否能够相互抵消,取决于具体情境。认知依恋(cognitive attachment)缺失导致的误差就可能是随机且独立的,认知偏差导致的误差可能 是系统性的、相关的。人们对最近发生的事件往往更加重视,并且更容易回忆起 故事性的情节而不是统计数字。这类共同偏差不会被消除。
还有一个挑战与人们所渴望得到的东西有关。构建与人相关的模型时,一个 主要的挑战是如何准确评估他们的目标和目的。有些人渴望财富和名声,有些人 则希望为自己所在的社区乃至全世界变得更好做出贡献。在理性行为者模型中, 我们直接以函数的形式表示一个人的收益。在基于规则的模型中,目的可能更加 隐而不露。这是一种行为规则,人们愿意生活在一个“融合”的社区中,一手资 源薇信ipip885, 但如果与自己同一种族的人在社区中的比例低于10%,人们就选 择离开。这样的规则显然包括人们对自己渴望得到的东西的信念。


对人建模的最后一个挑战来自人的主体性:我们有采取行动的能力,改变行 为的能力以及学习的能力。也就是说,在某些情况下,人类可能是一“习惯生 ":行动可能会超出我们的控制范围。也很少有人会主动选择沉迷于阿片类药 物或贫穷。但是,归根到底是人们采取的行动产生了这些结果。
通常,当人们采取的行动产生了不好的结果时,他们会修正自己的行为。我  们可以通过在模型中加入学习来捕捉这一点。人们采取的学习方式因环境而异。  为了搞清楚自己需要学习多少个小时才能在考试中取得好成绩,或者自己需要每  个星期锻炼多少次才能保持好身材时,人们可以根据个人经历或通过内省来学习。 而在了解要到哪家杂货店购买食品,或者要不要为某个慈善项目捐款时,人们可  以通过观察他人来学习。在第26章中,我们证明,在非策略性行为的环境中,
学习机制一般能发挥作用,人们能够学习最好的行动。我们还将证明,在策略性 的博弈环境中,则“世事难料”。而且,无论是个人学习还是社会学习,都不一 定会带来好的结果。
人的这6个特征的每一个都是潜在的模型特征。如果建模时决定只包含一个 特征,那么我们还必须决定在多大程度上来体现它。例如,我们要如何使演员变 得多样性?需要包括多少社会影响力?人们会向他人学习吗?要如何定义目 ?能拥有多大的主体性?我们所拥有的主体性(或活力)可能比自己所认为的 要少。美国社会心理学家乔纳森 ·海特 (Jonathan   Haidt)
用骑手和大象的比喻描述了我们缺乏主体性的状态。他这样写道:“当我对 自己的弱点感到惊讶时,我所想到的自我形象是一个骑在大象背上的骑手。我手 中紧握着缰绳,以为自己只要动一动缰绳,就可以指挥大象,告诉它是该转弯、 停步或前行。我是可以指挥它的,但只有当大象没有它自己的欲望时,我才能这 么做。一旦大象自己真的想做什么事情,我根本不能左右它。
我们有时候能够驾驭大象,有时候却不能。没有任何一种单一对人进行建模 的方法适用于所有环境,我们不得不用多种方法对人进行建模。
理性行为者模型


理性行为者模型假设人们在给定收益或效用函数的情况下做出最优选择。这 里所说的行为既可以是决策,其收益只取决于行为者个人的行为;也可以发生在 博弈中,其收益取决于其他人的行为。在同时进行选择或信息不完全的博弈中, 理性行为者模型还需要设定关于其他人将会做什么的信念。
理性行为者模型
行为者个体的偏好由在一组可能的行为上定义的数学形式的效用函数或收 益函数 (payoff function)来表示。行为个体选择函数值最大化的行动。在博弈 中,这种选择可能需要相信其他博弈参与者的行为。
我们构建了一个原始的理性行为者模型,用于描述一个人如何决定将多大比 例的个人收入分配给住房支出。这个模型将行为者的效用描述为住房和所有其他 消费的函数,后者包括食品、服装和娱乐。这个模型假设了住房的价格和所有其 他商品的价格。当然,这个模型并不完全符合现实世界,它认为所有住房都是一 样的,并将所有其他商品都归为一个名为消费品的类别,并认为它们完全等价。 在这里可以暂且将这些不准确的情况放在一边不予考虑,因为这个模型的目的是 解释住房支出占收入的比例。
消费的理性行为者模型
假设:行为者个体的效用来自总消费C 和住房支出H, 其效用函数可以写 成如下形式:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps869.jpg
结果:效用最大化的行为者个体会将自己收入的1/3用于住房。
在这个模型中,个体用于住房的收入比例不取决于住房价格与收入水平。这


两个结果在数据上都是合理近似值。
除了位于收入分布极端位置上的那些人之外,大多数人都将自己收入的1/3 用于住房。这个发现具有重要的政策意义:如果房价下跌了10%,人们将会多购 10%的住房。这个结果也为假设同质性行为主体提供了理由。既然人们将收入 的某个固定比例用于住房支出,那么住房总支出将只取决于平均收入。
使用效用函数能使模型成为可分析、可检验且易于处理的。我们可以用数据 估计函数,可以推导出最优行为,还可以通过更改参数值来提出各种各样“如 ……将会怎样”的问题。假设了一个效用函数,也就意味着假设了偏好一致性, 尽管那在现实世界中可能并不存在。任何偏好,要想用效用函数来表示,就必须 满足某些公理。证明效用函数存在的定理需要假设一个备选方案集并确定偏好排 序。想象一下,我们可以列出一个人可能购买的所有可能商品的组合,偏好排序 就是这些商品组合从最受欢迎到最不受欢迎的排序。一个人可能更喜欢加牛奶的 咖啡,而不怎么喜欢加柠檬的茶,如果真的是这样,那么他就将咖啡、牛奶的组 合排在茶、柠檬的组合前面。
当且仅当在偏好排序中,A 排在了B的前面时,效用函数赋予A的值高于赋  B的值,我们就说这个效用函数表示了偏好。偏好要与效用函数一致,就必须 满足完备性、传递性、独立性和连续性。完备性要求对所有备选方案定义偏好排  序。传递性排除了偏好循环,也就是说,如果有人偏好A 甚 B, 偏 B 甚 C,  那么他必定偏好A 甚 C。换句话说,如果一个人在苹果与香蕉之间更喜欢苹果, 在香蕉与奶酪之间更喜欢香蕉,那么他在苹果与奶酪之间必定更喜欢苹果。这个  条件排除了不一致的偏好。
独立性要求人们分别评估彩票的结果。彩票是备选方案的一种概率分布,而   不是备选方案本身,比如,一个可能的彩票形式是A 的概率为60%,是B 的概率   40%。如果,某个人对A 的排序高于B, 而且对于任何结果中包含了B 的彩票,  这个人都偏好用A 代 B, 那么他的偏好就满足独立性。独立性排除了过于强烈   的风险规避。一个厌恶风险的人可能会在“去新奥尔良玩一趟”与“到迪斯尼世   界玩一下”之间更偏好“去新奥尔良玩一趟”;同时在“肯定可以去迪斯尼世界” “一半的机会去新奥尔良、一半的机会去迪斯尼世界”之间更偏好“肯定可以   去迪斯尼世界”。
连续性要求,如果一个人偏好A 甚 于B、偏 好B甚 于C,  那么必定存在这样


一个彩票,以概率p 得 到A、以概率(1 -p)  得 到C, 他 B 的偏好与对这个彩 票的偏好完全一样。连续性条件排除了对某些确定结果的强烈偏好。
除了人们进行优化这一可疑主张外,人们违背独立性和传递性的假设导致许 多人质疑理性行为者模型的广泛使用,特别是经济学家。但是,作为建模者,我 们有充分的理由采用理性行为者模型。
第一,人们往往会表现得“似乎”在最优化。他们可能会应用产生近似最优 行为的规则。当人们打桌球、玩飞盘或开车时,他们当然不会写下一堆数学方程 式。为了计算出接住飞盘的准确时机所需要的数学方程式的高深程度,可能会让 所有人震惊。然而,人们确实能够接住飞盘。顺便说一句,狗也接得住。因此, 从人和狗接飞盘的行为来看,“似乎”两者都解决了一个困难的最优化问题。
同样的逻辑还可以扩展应用到更高维的问题上。对威斯康星州麦迪逊市大都 会巴士公司(Metropolitan Bus Company)运维主管哈罗德 · 泽克(Harold  Zurcher) 的工作进行分析发现,他在是否要更换公交车引擎以及什么时候更换方面做出的 决策,近乎最优。
虽然泽克没有用过任何数学方程式,但是他依靠启发式方法取得了成功。这 些启发式来自经验,通过利用它们,泽克就能表现得“似乎”一个(几乎)完美 的理性行为者了。
第二,即便人们确实会犯错,但在重复的情况下,人们的学习能力也会推动 人们接近最优行为。
第三,在“赌注”(利害关系)很大的情况下,人们更应该投入足够的时间 和精力来做出接近最优的选择。人们可能会为了喝一杯咖啡或买一节电池而多付 30%,但他们不会在购买汽车或房子时多付30%。学习与更大的“赌注”会使人 们表现得更理性,这个观点有充分的经验和实验证据支持。一手资源微信ipip885。
第四,理性行为者模型简化了分析。大多数效用函数都只有一个唯一的最优  行为。一个人可以有上千种次优行为,说人们没有实现最优,就打开了一个拥有   巨大可能性的盒子。如果假设人们会通过选择来维护自己的身份或捍卫文化规范, 那么我们就可能无法得到一个清晰的答案。理性选择也许是不现实的,但现实主


义却是以混乱为代价的。即使知道某个答案是错误的,它也可能比完全没有答案 更有用,因为它至少允许我们将模型转化为数据,并讨论某些变量的变化会带来 什么影响。
第五,理性行为者假设保证了内部一致性。如果模型假设了次优行为且模型 在公共域中,它就可以用来学习。人们可以改变自己的行为,可能不会最优化, 但除了最优之外的任何假设都会受到批评,也就是不一致。我们在本章的末尾还 会回到这一点。
第六,有人认为这是最重要的一个原因,也就是理性可以作为基准。
在设计政策、做出预测或选择行动时,我们应该考虑如果人有理性偏好并且 进行最优化时会发生什么。这种做法可能帮助我们找出思维中存在的缺陷。还应 该接受这样一种可能性,也就是这种做法会使我们得出这样的结论:理性行为者 模型不适用,我们应该选择其他模型。有鉴于此,我们可能会再增加第七个原因: 多模型思维。如果人们应用多模型方法,犯错的可能性就会大大减少。
选择理性行为者模型的理由
“似乎”:基于智能规则做出的行为可能与最优或近似最优行为无法区分。
学习:在重复的情况下,人们应该能够接近最优行为。
大的“赌注”:在重大决策中,人们会收集信息并认真思考。
唯一性: 最优行为通常是唯一的,从而使模型成为可检验的。
一致性:最优行为创建一致的模型。如果人们学会了利用这样的模型,就 不会改变自己的行为。
基准:最优行为提供了一个基准,作为人们认知能力的上限。


损失厌恶和双曲贴现
理性行为者模型受到心理学家、经济学家和神经科学家的挑战。他们指出, 这种模型与人类的行为方式不符。来自实验室和自然实验的经验证据表明,人在 决策时会受到各种各样的偏差(包括现状偏差)的影响。我们在进行概率计算时 会忽略基本比率,对确定的事情赋予的权重过高,也会表现出损失厌恶。
随着越来越多的研究者开始将行为、信念与大脑内的神经过程联系起来,硬 连线偏差的证据变得非常引人注目。例如,神经经济学使用脑成像技术来研究与 经济相关的行为,如对风险的态度、信心水平和对信息的反应等。
著名心理学家丹尼尔 ·卡尼曼 (Daniel   Kahneman) 指出,到目前为止,我 们已经掌握了大量支持区分两种思维方式的证据:快速、直观的基于规则的思考  (快思考)和深思熟虑(慢思考)。快思考更容易受到上述各种偏差的影响。
从长远来看,我们可以从大脑的结构中推断出一些行为模型,但是一定要记 住,大脑具有巨大的可塑性。能够通过慢思考来克服各种偏差。
此外,对于仅在少数研究中可见的任何发现,我们都应该保持谨慎。许多心 理学研究的结果尚未完全得到证实。2015年一项研究表明,在主要心理学期刊 上发表的100个研究结果中,有一半都无法复制。
更何况可复制性本身也并不意味着普遍性。而且,许多研究的被试池也没有 足够的经济和文化上的多样性。
如果利用更加多样性的被试池,我们应该会看到更少的行为规律,从而提供 更大的理由避免对行为进行概括。
在尝试构建更符合现实的模型时,我们必须牢记易处理性这个原则。更符合 现实的模型可能需要更复杂的数学。
这些困难或担忧当然并不意味着我们必须放弃那些心理现实行为模型,但它 们确实意味着我们应该谨慎行事,并将更多的注意力放到那些已经得到很好证明


的行为规律上。
下面就来讨论两种已经多次复制成功的偏差:损失厌恶和双曲贴现    (hyperbolic     discounting)。损失厌恶是指面对收益时,人们表现为风险厌恶,面   对损失时,人们却表现为风险偏好。卡尼曼和行为科学家阿莫斯 ·特沃斯基(Amos      Tversky)提出了一个关于这种行为的一般理论,也就是前景理论(prospect theory)。
损失厌恶初看上去似乎并不是非理性的,但是它意味着对于一个相同的情景, 在呈现为潜在损失与潜在收益时,人们会选择不同的行为。
例如,人们更偏好肯定能赢得400美元,而不怎么喜欢有机会赢得1000美 元的彩票。然而,他们却更愿意选择有可能损失1000美元的彩票,而不愿意选 择肯定会损失600美元。同样的不一致性也延伸到非货币领域。医生在收益情境 时的选择是风险厌恶的,而当备选方案以损失的形式呈现给他们时,他们则愿意 冒更大的风险。
前景理论:示例
收益框架:有两个备选方案。
备选方案A: 肯定可以赢得400美元。
备选方案B:  如果硬币正面朝上,可以赢得1000美元;如果背面朝上,什 么也得不到。
损失框架:先给你1000美元,然后给你两个备选方案。
备选方案A:  肯定会损失600美元。
备选方案 B
:如果硬币正面朝上,不会损失什么;如果背面朝上,你将损 1000美元。
在这里,AA是等价的,B B


也是等价的。根据前景理论,会有更多的人选择A和B ·
双曲贴现意味着,人们对近期的贴现更强。标准经济模型假设的是指数贴现  (exponential discounting),也就是说,人们对未来会以恒定的贴现率贴现。对 于一个年贴现率为10%的人来说,明年的1000美元,相当于今天的900美元; 而且他在未来的每一年,都会以10%的贴现率对下一年贴现。但是,大量证据表 明,大多数人都不会以固定的贴现率去贴现未来。相反,他们会受即时性偏差的 影响:他们对近期的贴现率远远高于更远的未来。
例如,如果你问人们,在从今天起20年后得到9500美元与从今天起20年 多一天后得到10000美元之间,更愿意选择哪一个,几乎每个人都会再等一天 以便多得到500美元。但是,如果你问同样一批人,在今天就可以得到9500美 元与明天才能得到10000美元之间,更愿意选择哪一个,那么多数人都会选择 现在就得到9500美元。这就是即时性偏差的一个例子。
这种偏差会导致时间不一致的行为。20年后,大多数人更愿意再等一天, 以得到10000美元。这种偏差在逻辑上并不一致。双曲贴现可以解释人们为什 么会欠下巨额信用卡债务、吃不健康的食品、做出无保护措施的性行为,也可以 解释许多人不能为退休进行储蓄的原因。
总之,根据对模型用途的设想,我们可以选择假设损失厌恶和双曲贴现,只 要这些假设似乎更能匹配大多数人的行为。但我们也可以不这样做,主要原因是, 它们可能使模型更加复杂,而不能改变我们所发现的东西的性质;或者,如果假 设双曲贴现,模型可能产生不符合实际的行为。
基于规则的模型
现在讨论基于规则的模型。
基于最优化的模型假设人们最大化的效用函数或收益函数,而基于规则的模


型则假设特定的行为。基于规则的模型可能会假设,在拍卖中, 一个人的出价总 是比拍卖物品的真实价值低10%;或者,如果一个人的朋友一直可以获得更高回 报的话,那么这个人会“复制”这位朋友的行为。
许多人将基于最优化的模型等同于数学(模型),而将基于规则的模型等同 于计算(模型)。但是基于最优化的模型和基于规则的模型之间的区别并不像人 们想象的那样清晰。不妨回想一下前面给出的住房支出模型。最优行为是以一个 简单规则的形式呈现的:将1/3的收入用于住房。这两种方法的关键区别在于它 们的基本假设。在基于最优化的模型中,对偏好或收益的假设是最基本的;而在 基于规则的模型中,对行为的假设才是最基本的。
行为规则既可以是固定的,也可以是适应性的。固定规则意味着始终适用相 同的算法。正如理性选择模型可以作为人类认知能力的上限,固定规则模型则可 以作为人类认知能力的下限。在市场中, 一个常见的固定规则是零智能规则(zero intelligence     rule),也就是接受任何能够带来更高收益的报价。这个规则意味着永 远不会采取愚蠢的(即减少效用的)行动。假设我们想要衡量单边市场机制的效 率,在这种市场中,卖方对某种商品发布报价,买方要么接受、要么放弃。遵循 零智能规则的卖方会随机选择一个高于该商品价值的价格,买方则会以低于该商 品价值的价格购买。当我们在计算机模型中对这些行为进行编码时发现,在该市 场中,零智能交易者可以得到接近完全有效的结果。因此,交易市场即便在买卖 双方不理性的情况下,也可以良好地运行。
而适应性规则可以在一系列行为之间切换,演变出新的行为或者复制其他行 为。之所以要采取这些行动,是为了提高收益。因此,与固定规则不同,适应性 规则需要效用函数或收益函数。这种方法的支持者认为,在任何情况下,只要人 们倾向于采取简单而有效的规则,就应该采用基于适应性规则的模型,也就是说, 既然人们以这种方式行事,那么就得按这种方式来建模。
虽然基于规则的模型没有对理性做出明确的假设,但适应性规则确实表现出 了生态理性(ecological rationality)——更好的规则会占据主导地位。
为了解释基于适应性规则的模型的工作原理,我们在这里不妨以“爱尔法鲁 (El  Farol) 自组织协调模型为例。


爱尔法鲁是美国新墨西哥州圣塔菲的一家夜间营业的酒吧,每个星期二的晚 上都会举办很吸引人的舞会。每个星期,都有100名潜在舞者要决定是去爱尔法  鲁酒吧跳舞还是留在家里。所有这100个人都喜欢跳舞,但是如果酒吧过于拥挤, 他们也就不想去了。这个模型假设了一个明确的偏好结构:一个人留在家里的收 益为0;如果只有小于或等于60个人参加,那么收益为1;如果有超过60个人 参加,收益为-1。
如果我们构建一个固定规则模型,那么任何结果都可能出现。假设为每个人  分配这样一个规则:第一个星期,去酒吧,如果发现到场的人超过了60人,那  么下一个星期就不去;再下一星期,去。那,在爱尔法鲁酒吧,第一个星期将   会涌进100个人,第二个星期却一个人都不会来,然后第三个星期又会有100  个人来……与此不同,爱尔法鲁模型通过赋予每个人一组规则来创建适应性规则。 每条规则都告诉个体是不是应该去爱尔法鲁酒吧。规则有几种形式。有些是固定  的规则,例如,每隔一星期去一次。其他规则是根据最近几个星期前往爱尔法鲁  酒吧的人数变化趋势来制订的。例如,其中一条规则可能预测这个星期去爱尔法   鲁酒吧的人数将与上个星期相同。如果上个星期到场的人数少于60人,那么这  个规则就会告诉你这个星期应该去。
基于适应性规则的模型将会给每个规则分配一个分数,这个分数等于该规则 给出正确建议的星期所占的百分比。然后每个人都可以采取规则集合中分数最高 的那个规则。最好(分数最高)的规则将在几个星期内发生变化。对这类模型的 模拟发现,如果每个人都拥有大量的规则集合,那么每个星期二都会有大约60 人到场,这就是说,在没有任何中央计划者的情况下实现了协调。或者换句话说, 这个适应性规则系统通过自我组织实现了几乎完全有效的结果。
爱尔法鲁模型:适应性规则
100个人,每个人每个星期都要独立地决定是否前往爱尔法鲁酒吧。如果 决定前往,且只有60个人或更少的人到场,那么这个人的收益为1,否则收益 -1,决定不前往爱尔法鲁酒吧的人收益为0。
每个人都有一套规则来决定是否参加。这些规则可以是固定的,也可以依最 近一段时间以来的参加人数而定。每个星期,每个人都要按照遵循他的规则集合


中曾产生过最高收益的规则行事。
我们可以在(图4-1)微观-宏观循环的框架内解释适应性规则模型(例如, 爱尔法鲁模型)中的行为。在微观层面, 一组个人(用ai   表示)根据规则采取 行动,这些规则创建了宏观层面的现象(用Macro1 和 Macro2 表示),如图4-1 中向上的箭头所示。在爱尔法鲁酒吧问题中,宏观现象是过去的博弈参与者人数 的序列,向下的箭头表示这些宏观现象是如何反馈到个人的行为中的。在爱尔法 鲁模型中,每个人可能在应用不同的规则。如果人们所用的规则连续4个星期都 导致爱尔法鲁酒吧人满为患,那么规则就会告诉人们较少参加将会带来更高的收
益。当一些人转而采用这些规则后,前往爱尔法鲁酒吧的人数就会减少。微观层 面的规则产生宏观层面的现象(过高的“出勤”率),后者又反馈回微观层面的 规 则 。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps870.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps871.pngMacro₂
↑1
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps872.pnga  a
Micro
4-1 微观-宏观循环
模型产生了什么样的结果
微观-宏观循环揭示了一个关键问题:模型中的行为主体应该有多聪明?人


们有能力推断出他们行为的所有后果吗?这个循环还暗示了本书中要讨论的一 个更大的问题:模型会产生什么样的结果?它是否会达成均衡?还是会产生随机 性、创建一个循环,抑或导致一系列复杂的结果?
我们先从行为主体应该有多聪明这个问题开始讨论。现在不妨假设,我们认 为个体都只拥有适度的认知能力,因此我们构建了一个零智能行为主体模型。个 体的行为集结到一起会产生宏观层面的总体现象。如果宏观层面出现了有效或近 乎有效的结果——由买方和卖方组成的单边市场就是如此,那么我们的假设就可 能是合理的。既然如此易于遵循的固定规则会产生很好的结果,那么人们将几乎 没有动力去开发更精致复杂的规则。
但是,当我们的模型只能产生效率低下甚至糟糕的宏观结果时,就会产生张 力,爱尔法鲁模型就是这种情况。在爱尔法鲁模型中,一个共同的固定规则可能 会导致完全无效率的周期性结果:这个星期爱尔法鲁酒吧是过度拥挤的,而下个 星期却空无一人。面对这种效率低下的结果,我们可能更倾向认为人们会适应。 他们可能会试错,可能会考虑整个形势,然后制订新的行动规则。如果将这个逻 辑推向极致并假设思考成本很低,我们就会发现自己实际上已经在倡导理性行为 者模型了。任何表现不佳的人都可以做得更好。虽然这是事实,但是人们也得有 能力制订更好的行动规则才行。
这也就引出了一个大问题:模型产生了什么样的结果?我们有四种选择:均 衡、周期、随机性或复杂性。结果的类别将决定我们对于人们应该学会实现均衡 的论点的重视程度。如果模型会在宏观层面上产生随机性,那么个人可能无法学 到任何东西。好在我们的模型没有这个问题。同样的逻辑也适用于产生复杂模式 的模型。在这些情况下,我们可以假设人们能够继续适应新规则,但不能假设他 们可以选择最优规则。相反,宏观现象的复杂性会使最优反应显得难以置信。人 们更有可能像在爱尔法鲁模型中一样,通过一系列简单的规则来应对复杂性。
产生周期或均衡的模型则可以创造一个稳定的环境,因此我们有理由期望人 们可以学习,没有人会持续采取次优的行动。假设现在有这样一个交通模型:每 个人都利用一个固定规则选择一条通勤路线。在这个模型中,交通系统处于某个 均衡状态。假设在这个均衡中,有一个名叫莱恩的人,每天早上都要花费75分 钟从卡拉巴萨斯前往洛杉矶市中心。在给定这个均衡的情况下,如果莱恩从托潘 加峡谷(Topanga Canyon)抄近路走,那么她这段行程将只需要45分钟。考虑


到每天能够节省30分钟的价值以及住在洛杉矶的人谈论交通的频率,莱恩确实 很可能会找到这条更短的路线。事实上,她有很多种方法:可以利用地图软件的 线路推荐,或者问一下自己的邻居,也可以自己多探索几次。
因此,如果模型产生了均衡(或简单的周期),并且均衡与优化行为不一致, 那就意味着我们的模型存在逻辑缺陷。如果人们可以采取更好的行动,他们应该 可以弄清楚,他们应该学习。需要注意的是,为了达到均衡,我们并不需要假设  最优化行为。人们可以通过遵循简单的规则来产生均衡;在这种均衡中,任何人  都无法通过改变自己的行为来让自己受益。在这种均衡状态下,人们看上去“似  ”正在最优化,事实上确实是。同样,这个逻辑不一定适用复杂或随机的结果。 如果洛杉矶的交通模式产生一系列复杂的交通拥堵和通行减速,那么我们没有理  由相信莱恩每天都能选择最优路线。事实上,她几乎肯定不能。
如果可以采取任何行动的适应性规则产生了均衡,那么这种均衡必定与致力 于最优化的行为主体的行为一致。如果同样这些适应性规则产生了复杂性,那么 行为主体的行为就不一定是最优的。我们还可以将这个观点表述为如下形式:最 优行为可能是一种不切实际的假设,特别是在复杂情况下。另一方面,如果一个 系统产生了稳定的结果,而且某个人可以采取更好的行动,那么这个人很可能会 找到这种更好的选择。
同样的逻辑还延伸适用于政策干预。假设我们现在要利用数据来估计人们的 行为规则,比如,一个人因为很轻微的健康问题而在午餐时间出现在医院急诊室 的可能性。如果假设一个固定规则,那么我们可能会扩建医疗设施,以保证求医 的人们不必过多等待。如果人们一直持续遵循这个固定规则,就会达到新的一个 均衡:中午的等待时间将会变得很短。然而,在等待时间变得更短了之后,本来 不会因为扭伤了脚踝或小小的感冒就去急诊的人,也可能会决定去。这种均衡依 赖于人们对次优行为的选择,例如,即使不必等待也不去急诊室。如果人们会学 习,我们就不能依靠过去的数据来预测政策变化之后的结果。这个见解被称为“卢 卡斯批判(Lucas   critique),是坎贝尔定律(Campbel's  law) 的一种变体,它指 出人们对任何措施或标准的反应都会使其效率降低。
卢卡斯批判


政策或环境的变化可能引起受影响者的行为反应。因此,使用过去的行为数 据估计的模型将不准确。模型必须考虑到人们对政策和环境变化做出反应这一事 实。
这一点我们应该已经很清楚了:对于如何对人进行建模这个问题,并不存在 一个固定不变的最优答案。如何理性地制订规则及如何根据具体情况制订。我们 需要的是在每种情况下尽可能做出最好的判断。考虑各种各样的不确定性,我们 应该往构建更多模型的方向试错,而不是更少的模型。
即便我们倾向认为理性选择模型不切实际,也必须认识到它们的易处理性, 它们所拥有的揭示激励的正确方向的能力,以及它们作为基准的价值。简单的基 于规则的行为,比如零智能,也是不现实的。虽然这些假设是“错”的,但是它 们仍然可以使用。它们都很容易分析,可以用来揭示给定环境下智能的重要性。
毫无疑问,人类行为发生在零智能与完全理性这两种极端情况之间,因此构 建行为个体利用适应性规则的模型是有意义的。这些规则应该考虑到人们在同一 个领域内的认知依恋和认知能力各不相同这一事实。因此,我们应该期待行为多 样性会涌现出来,也可以期待群体内部的某种一致性。这些也都可以包含在模型
总而言之,考虑到对人建模所涉及的复杂性,我们有充分的理由去利用多种 不同的模型。我们可能无法准确地预测人们会做什么,但是也许能够确定一系列 可能性。如果可以的话,就应该多构建一些模型,我们已经从构建模型中获益, 因为我们知道会发生什么。
最后,我们呼吁大家保持谦卑和同理心。在构建关于人的模型时,建模者必  须非常谦卑。由于面临着多样性、社会的影响、认知错误、目的性和适应性等多 种挑战,我们的模型不可避免地会出现这样那样的问题,这也正是需要采用多模  型方法的原因。严谨的行为模型能够很好地拟合某些情况,并使我们能够专注于  环境的其他方面。当我们拥有更多更好的数据时,更丰富的行为模型将会更合适。 我们必须保持适度的期望。人是多样性的、易受社会影响的、容易出错的、有目 的的、有适应能力且拥有主体性的。怎么能认为单一的人类行为模型不会出错  ?一定会。我们的目标是构建许多模型,作为一个整体,它们将是有用的。


05课正态分布
我不敢说自己比其他65个人都更聪明——但是我当然要比那65个人的平均 水平更高。
理查德 · 费曼(Richard Feynman)
分布构成任何建模者核心知识库的一部分。从本章开始,我们将利用各种分 布来构建和分析路径依赖、随机游走、马尔可夫模型,以及各种搜索模型和学习 模型。如果想要度量权力、收入和财富的不平等,并进行统计检验,也需要关于 分布的知识。在本书中,我们花了篇幅不大的两章专门讨论分布。本章先讨论正 态分布(normal   distribution),下一章讨论幂律分布(长尾分布)。我们都是从建 模者而不是从统计学家的角度来讨论的。作为建模者,我们对两个主要问题感兴 趣:为什么要这样看待分布?为什么分布很重要?
要解决第一个问题,就需要重新认识分布。分布以数学的方式刻画变量的变  (在某个类型内部的差异)和多样性(不同类型之间的差异),将变量表示为  在数值上或类别上定义的概率分布。正态分布的形状是我们熟悉的钟形曲线形状。 大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会  包含特别大或特别小的事件,例如,我们从来没有遇到过1米长的蚂蚁,也没有  看到过1千克重的麋鹿。我们可以通过中心极限定理(Central Limit Theorem)来   解释正态分布的普遍性。中心极限定理告诉我们,只要把随机变量加总或求其平  均值,就可以期望获得正态分布。许多经验现象,特别是像销售数据或投票总数  这样的总量数据,都可以写成随机事件总和的形式。
当然,并不是所有事件的规模(大小)都是正态分布的。地震、战争死亡人 数和图书销量都呈长尾分布,这种分布主要由很小的事件组成,也包括极少数非 常巨大的大型事件。加利福尼亚州每年都发生超过10000次地震,但是除非你 一直盯着茉莉花的花瓣看它们是否在颤动,否则你不会注意到这些地震。然而, 偶然也会出现大的地震:地面裂开、高速公路塌陷,整个城市都在颤抖。
了解系统是否由于多种原因产生正态分布或长尾分布是非常重要的。例如, 我们可能想了解电网是否会受到大规模停电的冲击,或者市场体系是否会产生少


数亿万富翁和数十亿穷人。有了相关的分布知识,就可以预测洪水超过堤坝的可 能性、达美航空238航班准时抵达盐湖城机场的可能性,以及交通枢纽成本超过 预算金额两倍的可能性。分布知识对设计也很重要。正态分布意味着不会有太大 的偏差,因此飞机设计师不需要为身高5米的人预留腿部空间。对分布的理解也 有利于指导行动。正如我们在下文中将会了解的那样,防止骚乱在更大程度上取 决于能不能在极端情况下安抚人群,而不在于平时能不能减少不满情绪的平均水 平。
在本章中,我们按结构一逻辑一功能的顺序来展开论述。我们先定义了何为 正态分布,并描述它们是怎样产生的,然后回答它们为什么这么重要。我们将应 用分布知识,解释为什么好的东西总是以小样本的形式出现,检验哪些效应是有 显著性的,解释六西格玛(Six  Sigma)过程管理为什么有效。然后回到逻辑问题, 追问如果我们将随机变量相乘而不是相加会发生什么,结果是获得对数正态分布  (lognormal   distribution)。对数正态分布可以包括更大的事件,且均值不对称。 由此,我们可以推导出,多重效应会导致更大的不平等,这个深刻的结论对提高 工资的政策如何影响收入分配有重要的意义。
结构:正态分布分布为事件或价值分配概率。每日降雨量、考试分数或身高  的分布为每一个可能的结果值分配一个概率。各种统计量将分布中包含的信息压  缩为单个数值,例如均值,分布的平均值。德国黑森林中树木的平均高度可能达 24米,开胸手术后的住院时间平均为5天。社会科学家经常通过均值来比较 各个国家的经济和社会条件。2017年,美国的人均国内生产总值为57000美元, 远超法国的42000美元,但是法国人的平均预期寿命则比美国人高出3年。
均值之外的第二个重要统计量是方差,可以衡量一个分布的离散程度,也就 是数据与均值之间距离的平方的平均值。
如果分布中的每个点具有相同的值,那么方差等于零。如果一半数据的值为 4,一半的值为10,那么平均来说,每个点与均值的距离为3、方差等于9。分 布的标准差是另一个常用的统计量,等于方差的平方根。
可能的分布集合是无限的。我们可以在纸上任意画出一条线并将它解释为概 率分布。幸运的是,我们经常遇到的分布一般都属于有限的几种类型。最常见的 分布就是正态分布,也就是钟形曲线,如图5-1所示。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps873.png13.5%   34% 34%|13.5%
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps874.png-2  -1    0              1    2    3    4
5-1 正态分布及其标准差
正态分布的均值是对称的。如果一个正态分布的均值等于零,那么抽取到大  3的概率等于抽取到小于-3的概率。正态分布的特征在于其均值和标准差(或  者等价地,其方差)。也就是说,所有正态分布的图形看上去都是相似的,大约  68%的结果在均值的一个标准差内,大约95%的结果在两个标准差内,并且超过  99%的结果在三个标准差内。正态分布允许任何大小的结果或事件,不过“大” 事件是非常罕见的,与均值距离超过五个标准差的事件发生的概率为200万分之
一。
我们可以利用正态分布的规律给各种范围的结果分配概率。如果位于美国威 斯康星州密尔沃基市房子的平均面积是2000平方英尺(1平方英尺≈0.09平方 )、标准差为500平方英尺,那么那里68%的房子面积介于1500平方英尺到2 500平方英尺之间,95%的房子面积介于1000平方英尺到3000平方英尺之间。 如果2019年的福特福克斯汽车平均每加仑(1加仑≈3.79升)汽油可以行驶40 英里(1英里≈1.6千米),且标准差为每加仑1英里,那么超过99%的福特福克 斯汽车每加仑汽油可以行驶37英里至43英里。尽管消费者希望自己的汽车越省 油越好,但是一般来说不可能每加仑汽油行驶80英里。


逻辑:中心极限定理
非常多的现象都表现为正态分布:动物和植物的体型大小,学生在考试中的 成绩,便利店每天的销售额,海胆的寿命,等等。中心极限定理表明为什么对随 机变量求和或取均值会产生正态分布。
中心极限定理
只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任 何一小部分随机变量贡献了大部分变差,那N     ≥20个随机变量的和就近似一个 正态分布。
中心极限定理一个非常重要的特征是,随机变量本身不一定是正态分布的。 它们可以有任何分布,只要每一个随机变量都具有有限的方差,并且它们中的任 何一小部分随机变量都不贡献大部分方差。假设,在一个500人的小城镇中,人 们的购买行为数据显示,每个人平均每个星期花费100美元。在这些人中,可能 有些人这个星期只花50美元、下个星期则花150美元,另一部分人可能每3个 星期花费300美元。而其他人则可能每个星期的花费在20至180美元之间。只 要每个人的支出都只有有限的变差并且没有任何一小部分人贡献了大部分变差, 那么分布的总和必定是一个正态分布,其均值为50000美元。每个星期的总支 出也将是对称的:可能高于55000美元,也可能低于45000美元。根据同样的 逻辑,人们购买的香蕉、牛奶以及炸玉米饼的数量也都是正态分布的。
我们还可以应用中心极限定理来解释人类身高的正态分布。 一个人的身高取 决于基因、环境以及两者之间的相互作用。基因的贡献率可能高达80%,因此不 妨假设身高只取决于基因。研究表明,至少180个基因有助于人体长高。
例如,一个基因可能有助于长出较长的颈部或头部,另一个基因可能有助于 长出更长的胫骨。虽然基因之间存在相互作用,但我们可以假设“长高”这件 事情上,每个基因都是相互独立的。如果身高等于180个基因贡献的总和,那么 身高将呈现正态分布。相同的逻辑可以证明,狼的体重和大熊猫的拇指长度也是 如此。


功能:应用分布
知识我们对正态分布的第一个应用将揭示:为什么罕见结果在规模小的群体 中更常见,为什么最好的学校往往规模较小,为什么癌症发病率最高的郡县人口 较少。回想一下,在一个正态分布中,95%的结果位于两个标准偏差内,99%的 结果位于三个标准偏差内,根据中心极限定理,一组独立随机变量的均值将是正 态分布的(当然方差要满足前述要求)。由此可见,我们可以非常确信:考试分 数的总体平均值也将是正态分布的。然而,随机变量平均值的标准差并不等于变 量标准差的平均值,而且总和的标准差也不等于标准差的总和。相反,这些关系 取决于总体大小的平方根。
平方根法则 (The square root rules)
N 个相互独立的随机变量,都具有标准差σ ,对这些随机变量的值的标准 差o    μ  和对这些随机变量总和的标准差σ ∑ ,分别由以下公式给出:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps875.jpg
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps876.jpgoz=o√N
均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。 由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。事实上我 们确实观察到了:最安全的居住地是小城镇,但最不安全的地方也是小城镇;肥 胖率和癌症发病率最高的那些郡县的人口较少。这些事实都可以通过标准差的差 异来解释。
如果不考虑样本量,直接根据离群值(异常值)推断因果关系可能会导致相 当糟糕的政策行为。出自这个原因,美国统计学家霍华德 ·魏纳(Howard  Wainer) 将均值标准差公式称为“世界上最危险的方程式”。例如,在20世纪90年代, 盖茨基金会和其他一些非营利机构以“最好的学校都是小学校”为依据,倡导将 大学校分拆为小学校。


为了揭示这种推理的逻辑缺陷,试想一下,现在有两所学校, 一所是只有 100名学生的小学校,另一所是有1600名学生的大学校,并假设这两所学校学 生的成绩均来自相同的分布,平均分为100,标准差为80。在小学校中,平均值 的标准差等于8,即学生成绩的标准差80除以学生人数的平方根10。而在大学 校中,平均值的标准差则等于2。
如果以平均分为标准,把那些平均成绩在110以上的学校称为“优秀”,把   平均成绩在120以上的学校称为“非常优秀”,那么将只有小学校才有可能达到   这个标准。对于小学校而言,平均成绩为110时,只比总体均值高出了1.25个   标准差,这类事件发生的概率大约为10%。而平均成绩为120时,则比总体均值   高出了2.5个标准差,这类事件大约150所学校发生一次。对大学校进行相同的   计算时,我们却会发现“优秀”阈值意味着比均值高5个标准差,而“非常优秀” 阈值则比均值高10个标准差!实际上这类事件永远不会发生。因此,最好的那   些学校普遍规模较小这个“事实”并不能证明小学校的表现更好。即便学校规模   本身完全没有影响,“最好的学校都很小”这种事情也会发生,因为平方根法则   会起作用。
检验显著性
我们还可以利用正态分布的规律来检验各种平均值的显著性差异。如果经验 均值与假设均值之间的偏差了超过两个标准差,那么社会科学家就会拒绝这两种 均值相同的假设。
现在提出这样一个假设,即巴尔的摩的通勤时间与洛杉矶的通勤时间相同。 假设数据表明,巴尔的摩的通勤时间平均为33分钟,而洛杉矶为34分钟。如果 这两个数据集的均值标准差都是1分钟,那么我们就不能拒绝巴尔的摩和洛杉矶 两地通勤时间相同的假设。虽然二者的均值不同,但只存在1个标准差。如果洛 杉矶的平均通勤时间为37分钟,那么我们就会拒绝这个假设,因为均值之间相 4个标准偏差。
但是,物理学家可能不会拒绝这样的假设,至少当数据来自物理实验时不会。 物理学家采用更严格的标准,因为他们拥有更大的数据(原子的数量远远超过  了人的数量),数据也更“干净”。物理学家在2012年证明希格斯玻色子 (Higgs


boson)  存在时所依据的证据,在700万次试验中随机出现不到一次。
美国食品药品监督管理局 (FDA) 所使用的药物批准程序也包含了显著性检  验。如果一家制药公司声称自己研发的某种新药可以减轻湿疹的严重程度,那么 这家公司就必须进行两项随机对照试验。为了构建一项随机对照试验,该公司组  织了两个相同的湿疹患者群体。一组接受这种药物治疗,另一组则只使用安慰剂。 试验结束后,比较平均严重程度和平均副作用发生率。然后,该公司还要进行统  计检验。如果药物显著地缓解了湿疹症状(以标准差衡量)且没有显著地导致副 作用,则可以批准该药物。美国食品药品监督管理局并没有使用严格的双标准差  规则。治疗某种致命疾病且同时只会导致轻微副作用的药物比能够缓解真菌导致 的灰指甲症状但同时却会导致骨癌发病率高于预期的药物的统计标准更低。美国 食品药品监督管理局还关注统计检验的效力,也就是测试能够证明药物有效的概  率。
六西格玛方法
这里要讨论的正态分布规律的最后一个应用是六西格玛方法,我们将说明正 态分布是如何通过六西格玛方法为质量控制提供有效信息的。六西格玛方法是摩 托罗拉公司于20世纪80年代中期提出的,目的是减少误差,该方法根据正态分 布对产品属性进行建模。试想这个例子:一家企业专业生产制造门把手所用的螺 栓。它生产的螺栓必须天衣无缝地与其他制造商生产的旋钮组装在一起。规格要 求是螺栓直径为14毫米,但是任何直径介于13毫米与15毫米之间的螺栓也可 以接受。如果螺栓的直径呈正态分布,均值为14毫米,标准差为0.5毫米,那 么任何超过两个标准差的螺栓都是不合格的。两个标准差事件发生的概率为5%, 这个概率对于一家制造企业来说太高了。
六西格玛方法涉及缩减标准差的大小从而降低生产出不合格产品的可能性。 各企业可以通过加强质量控制来降低误差率。2008年2月26日,星巴克超过7000 家门店停止营业3小时,目的是重新培训员工。与此类似,航空公司和医院所用 的检查清单也有助于减少变差。
六西格玛方法降低了标准差,这样即使出现了6个标准差的误差,也可以避 免出现故障。在生产螺栓这个例子中,就要求必须把螺栓直径的标准差减少至


1/6毫米。而6个标准差的含义是,误差率仅为十亿分之二。实际使用的阈值假 1.5个标准差的出现是不可避免的。因此,一个六西格玛事件实际上对应于一 个四个半西格玛事件,这时允许的误差率大约为三百万分之一。
在六西格玛方法中应用中心极限定理(即隐含的加性误差模型)是如此微妙, 因而几乎没有什么人注意到。螺栓制造企业不可能精确地测量每个螺栓的直径, 它可能会抽样几百个,并根据这样一个样本来估计均值和标准差。然后通过假设 直径的变差源于多种随机效应的总和,例如机器振动、金属质量变化以及压力机 温度和速度的波动,就可以利用中心极限定理推断出正态分布。这样一来,这家 螺栓制造企业就可以得出一个基准标准差,然后花大力气去降低它。
对数正态分布:乘法冲击
中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果  随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的, 那么产生的分布就不一定是正态分布。事实上,一般情况下都不会是。例如,独  立随机变量之间的乘积就不是正态分布,而是对数正态分布。
对数正态分布缺乏对称性,因为大于1的数字乘积的增长速度比它们的和的 增长速度快,比如,4+4+4+4=16,但4×4×4×4=256;而小于1的数字的乘积 则比它们的和小,比如:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps877.jpg,但
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps878.jpg
如果将20个不均匀地分布在0到10之间的随机变量相乘,那么多次相乘后 所得到的乘积将会包括一些很接近于零的结果与一些相当大的结果,从而生成如 5-2所示的对数正态分布。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps879.png
5-2 一个对数正态分布
一个对数正态分布的尾部长度取决于随机变量相乘的方差。如果它们的方差 很小,尾巴就会很短,如果方差很大,尾巴就可能会很长。如前所述,将一组很 大的数相乘会产生一个非常大的数字。在各种各样的情况下都会出现对数正态分 布,包括英国农场的大小,地球上的矿物质的浓度,从受到感染到症状出现的时 间,等等。
大多数国家的收入分布也近似于对数正态分布,尽管在最顶端,许多点会偏 离对数正态分布,因为高收入的人“太多”了。
一个简单的模型可以解释为什么收入分布更接近于对数正态分布而不是正 态分布。这个模型将与工资增长有关的政策与这些政策所隐含的分布联系起来。 大多数企业和机构都按某种百分比来分配加薪,表现高于平均水平的人能够得到 更高百分比的加薪,表现低于平均水平的人则只能得到更低百分比的加薪。与这 种加薪方法相反,企业和机构也可以按绝对金额来分配加薪,例如普通员工可以 获得1000美元的加薪,表现更好的人可以获得更多,而表现更差的人则只能获 得更少。
百分比加薪方法与绝对金额加薪方法两者之间的区别乍一看似乎只是语义


上的区别,但其实不然。
如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分比加薪, 就会产生一个对数正态分布。即使后来的表现相同,未来几年的收入差距也会加  剧。假设一名员工因过去几年表现良好,收入水平达到了80000美元,而另一  名员工则只达到了60000美元。在这种情况下,当这两名员工的表现同样出色  并都可以获得5%的加薪时,前者能够获得4000美元的加薪,后者却只能得到3  000美元的加薪。这就是说,尽管绩效完全相同,不平等也会导致更大的不平等。 如果企业按绝对数额分配加薪,那么两名绩效相同的员工将获得相同的加薪,由  此产生的收入分布将接近正态分布。
小结
在本章中,我们讨论了正态分布的结构、逻辑和功能。我们看到,正态分布 可以用均值和标准差来表示。中心极限定理说明,当我们将有限方差的独立随机 变量相加或求平均值时,正态分布是如何产生的。还给出了随机变量的均值与总 和的标准差公式,阐述了这些性质会带来的后果。我们现在已经知道,小的群体 更有可能呈现异常事件,如果缺乏对这类事件的洞察力,就会做出不正确的推断 并采取不明智的行动。我们还了解到,假设随机变量服从正态分布,科学家就可 以对统计检验的显著性和效力做出判断。本章还分析了在过程管理中如何利用正 态假设来预测失败发生的可能性。
并不是每个量都可以写成独立随机变量的总和或平均值,因此并非所有事件 都满足正态分布。有一些量是独立随机变量之间的乘积,因此它们是对数正态分 布的。对数正态分布只取正值,有更长的尾巴,意味着更大的事件和更多非常小 的事件。当高方差的随机变量相乘时,尾部会变得更长。长尾分布的可预测性较 差,而正态分布则意味着很强的规律性。作为一个预测规则,我们当然更倾向于 规律性,而不是发生很大事件的可能性。因此,如果了解了生成各种各样分布的 逻辑,我们将会获益匪浅。我们可能更希望随机冲击相加,而不是相乘,以减少 发生很大事件的可能性。


06课幂律分布
每个基本定律都有例外,但是你仍然需要定律,否则你所拥有的只是毫无意 义的观察。那不是科学,只是做笔记。
杰弗里 ·韦斯特(Geoffrey West)
在本章中,我们将讨论幂律分布。幂律分布就是通常所称的长尾分布或重尾 分布。在把这种分布绘制在图上时,会产生对应大事件的沿水平轴运行的长尾。 例如城市人口分布、物种灭绝、万维网上的链接数量以及企业规模等,所有这些 分布都有很长的尾巴,视频下载量、书籍销量、学术论文引用数量、战争中的伤 亡人数、洪水和地震的分布也是如此。换句话说,在这些分布中,都包括了非常 大的事件:东京有3300万居民,J.K.罗琳的“哈利 ·波特”系列畅销书卖出了5 亿本,1927年密西西比河的大洪水将面积相当于西弗吉尼亚州的地区淹在了9 米深的水下 ……
要想对幂律分布与正态分布之间的巨大差异有一个直观的了解,不妨想象一  下人类身高的幂律分布。如果人类身高与城市人口的幂律分布类似,而且假设所  有美国人的平均身高为175厘米,那么美国人当中将会有一个人比帝国大厦还高, 有超过1万人比长颈鹿还高,同时身高小于18厘米的人也将超1.8亿人。
产生幂律分布要求非独立性,通常以正反馈的形式出现。
图书销售、森林火灾的发生和城市人口都不同于光顾杂货店的次数,这些并 不是独立的。当某个人买了一本《哈利 ·波特》后,其他人也可能跟着买;当一 棵树着火时,火势会蔓延到邻近的树木;当一个城市的人口增加时,这个城市的 基础设施会随之改善,工作机会也会随之增加,从而对其他人更具吸引力。社会 学家罗伯特 ·默顿(Robert    Merton)把这种已经拥有更多的人未来也能够得到更 多的现象称为马太效应 (Matthew      effect),正如《圣经》中所说:“凡有的,还 要加给他,叫他有余;凡没有的,连他所有的,也要夺去。”(马太福音25:29)
既然在各种领域中都能发现发幂律分布,那么如果有某个机制可以解释所有 这些幂律分布就太好了,可惜的是,这种机制并不存在。如果幂律分布的每一个 实例都有一个独特的解释,那将更好,可惜的是,这也不是真的。相反,我们只


拥有一系列能够生成幂律分布的不同模型,每个模型都能解释不同的现象。
在本章中,我们将重点放在两个幂律分布模型上。第一个模型是优先连接模 型 (preferential     attachment      model),它能够解释城市规模、图书销量和网络链接 等;第二个模型是自组织临界模型(s elf-organized criticality model),它能够解释 交通拥堵、战争伤亡,以及地震、火灾和雪崩的大小等。在第12章中讨论熵时, 我们还会研究第三个幂律分布模型,在那个模型中,幂律会在给定均值的条件下 最大化不确定性。在第13章中,我们将证明随机游走模型中的返回次数也满足 幂律分布。还有其他一些模型则表明幂律会从最优编码、随机停止规则和组合分 布中产生。
本章还将讨论幂律分布的结构、逻辑和功能。在讨论中,我们重新评估了特 别大的事件的影响,并描述在预防和规划这些事件上的能力局限。
幂律分布的结构
在幂律分布中,事件发生的概率与事件大小的某个负指数成比例。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps880.jpg
例如,我们熟悉的函数
就描述了一种幂律。在这个幂律分布中, 一个事件的概率与其大小成反比: 事件越大,发生的可能性越小。因此,在幂律分布中,小事件的数量要比大事件 要多得多。


幂律分布
一个定义在区间(xmin,∞)          上幂律分布5
可以写成如下形式: F(x)=Cx-a
其中,指数a>1  决定了尾部的长度,同时常数项
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps881.jpg确保总概率的分布。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps882.jpg幂律中指数的大小决定了大事件的可能性和大小。当指数等于2 时,事件的概率与其大小的平方成比例。大小为100的事件,发 生的概率与
(或一万分之一)成比例。当指数增加到3时,该事件的概率与
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps883.jpg
成比例。对于2或更小的指数,幂律分布缺乏一个可明确定义的均值。例如, 从指数为1.5的幂律分布中抽取出来的数据均值永远不会收敛。换句话说,它会 无限地增加。
6-1显示了网页链接数量分布的近似图。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps884.png
6-1 网页链接的近似幂律分布
大事件的可能性将幂律分布与正态分布区分开来,因为在正态分布中,我们 实际上从未见过大事件,而在幂律分布中,大事件虽然也很少见,但是它们发生 的频率足以引起注意和准备。即使是百万分之一的事件也必须加以考虑。例如, 地震大小的分布接近于指数大约为2的幂律。如果发生了震级大于里氏9.0级的 地震,不但建筑物会被夷为平地,整个地形地貌都会变得面目全非。这是一个发 生的可能性只有百万分之一的大事件,在一个世纪的时间中,这种规模的地震发 生的概率为3.5%。
为了更清楚地分析概率为百万分之一的大事件在正态分布与长尾分布之间 的差异,现在来看一看由于恐怖袭击所造成的死亡人数的分布,它遵循幂律分布, 且指数为2。
在长尾分布中,概率为百万分之一的恐怖袭击事件是一个差不多有800人死 亡的事件。如果由于恐怖袭击造成的死亡人数满足一个均值为20、标准差为5 的正态分布,那么概率为百万分之一的事件将只会导致不到50人死亡。
幂律分布有明确的定义,不是每一个长尾分布都是幂律分布。要想快速地检 验某个分布是不是幂律分布,可以用双对数坐标系把该分布画出来:双对数坐标 系可以将事件大小及其概率转换为相应的对数值,并将幂律分布转换为直线(图


6-2)。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps885.png
6-2 双对数坐标中的幂律分布(黑色)与对数正态分布(灰色)
换句话说,在双对数坐标系中,自始至终都呈直线的图形就是幂律分布的证 据,而一开始是直线然后逐渐下降的图形则与对数正态分布(或指数分布)相对 应。对数正态分布图形向下弯曲的速率取决于产生分布的变量的变化。
当我们增大对数正态分布的方差时,对数正态分布的尾部增大,从而使在双 对数坐标系中的图形更接近线性。
齐普夫分布 (Zipf distribution)是幂律分布的一个特例,即指数等于2的幂 律分布。指数等于2的幂律分布的一个重要特征是,事件的等级排列序号乘以其  概率等于常数,这个规律被称为齐普夫定律(Zipf's  Law)。单词符合齐普夫定律, 最常见的英语单词the  出现的频率为7%,第二最常见的英语单词of 出现的频率 3.5%。请注意,of的等级排列序号2乘以频率3.5%,恰恰等于7%。


齐普夫定律
对于指数为2的幂律分布(a=2), 事件的等级排列序号乘以它的大小等于 常数,即:
事件等级×事件大小=常数
包括美国在内的许多国家的城市人口分布大体上符合齐普夫定律。从美国 2016年的城市人口数据可以看出,每个城市的人口排名乘以它的人口总数的值 接近800万(表6-1)。
6-1 城市人口分布
排名
城市
2016年人口
排名×人口
1
纽约,纽约州
8600000
8600000
2
洛杉矶,加利福尼亚州
4000000
8000000
3
芝加哥,伊利诺伊州
2700000
8100000
4
休斯敦,得克萨斯州
2300000
9200000
5
菲尼克斯,亚利桑那州
1600000
8000000
幂律分布的逻辑
现在,我们着手讨论若干产生幂律分布的模型。如果没有适当的模型,幂律 分布就只是一种无法解释的模式。
我们要讨论的第一个模型是优先连接模型。模型假设实体以相对于其比例的 速度增长。优先连接模型刻画了罗伯特 ·默顿所说的马太效应:更多导致更多。 这个模型考虑了通过新移民到来而实现增长的人口。新到达的人,要么加入现有 的某个实体,要么自己创建新的实体。如果是前者,那么加入现有某个实体的概 率与该实体的大小成正比。
优先连接模型
一连串物体(人)一个接一个地到达。第一个到达者创建一个实体。后续每


次有人到达时都应用以下规则:在概率p  (较小)的情况下,新到达者创造一 个新的实体;在概率(1-p) 的情况下,新到达者加入现有的某个实体。加入某 个特定实体的概率等于该实体的大小除以到目前为止所有到达者的数量。
到达
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps886.png(1-p)
新的实体   现有的实体
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps887.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps888.png
7/10       2/103/10
不妨想象一下大学新生进入大学校园时的情景。第一个来到学校的学生创建 了一个新的社团,第二个到达的学生以较小的概率创建了自己的社团,更有可能  的是,他会加入第一个学生创建的社团。前10个到达的学生可能会创建3个社  团:一个有7个成员, 一个有两个成员, 一个有一个成员。第11个到达的学生  只会以极小的概率创建第4个社团,如果不创建新的社团,她就加入现有的社团。 如果这样做,那么她有70%的可能性加入已有7个学生的社团,有20%的可能性  加入已有两个学生的社团,只有10%的可能性加入只有一个学生的社团。
优先连接模型有助于解释为什么网络链接、城市规模、企业规模、图书销量 和学术引用数量的分布都是幂律分布。在这些情况下,一个行动(比如一个人购 买了一本书)会增加其他人也这样做的可能性。如果从某家企业购买商品的概率 与它在当前市场的份额成正比,同时如果新企业进入市场的概率较低,那么优先 连接模型预测企业规模的分布将是幂律分布。同样的逻辑也适用于图书销量、音 乐下载量和城市发展。


我们要讨论的第二个模型是自组织临界模型,它通过在系统中建立相互依赖 关系的过程产生幂律分布,直到系统达到临界状态为止。自组织临界模型有很多 种。其中,沙堆模型(sand pile model)假设有人将沙粒从距桌面几十厘米的地 方洒落到桌子上。随着沙粒不断增多,一个沙堆开始形成。最终,沙子的堆积会 达到临界状态,此后每加一次沙子都可能导致沙崩”。在这种临界状态下,多 加入的沙子通常要么没有影响,要么最多只会导致一些沙子下滑。这些属于幂律 分布中的数量众多的小事件。但有时,只要再加入一粒沙子就会导致大规模的“沙 ”,这就是大事件。
森林火灾模型(forest fire model)也是自组织临界模型的一种。假设树木可 以在一个二维网格上生长,这些树木也可能会随机地被闪电击中。当树木的密度 较低时,由闪电引发的任何火灾的规模都很小,最多只会蔓延到几个格点。当树 木密度变得足够高时,再被闪电击中就会导致森林大火。
森林火灾模型
“森林”最初只是一个空的N×N     网格。每个周期在网格上随机选择一个 格点。如果该格点为空,那么就以概率g  在那里种上一棵树。如果该格点上已 经有树,那么闪电会以概率(1-g)   击中该格点。如果该格点有一棵树,那么树 会着火,火势会蔓延到所有连接到该格点的有树的格点。
这里需要注意的是,在森林火灾模型中,被闪电击中的概率等于1减去种树 的概率。这种结构使我们能够改变种树与闪电击中树的相对速度。这是一种简化, 减少了模型中参数的数量。在对各种各样的种树速度进行试验之后,我们发现, 当种树的速度接近1时,树木的密度会增加到一个临界状态:在这个相对茂密的 森林中,被闪电击中有可能摧毁很大一片森林。在这种临界状态下,森林中斑块 大小的分布,以及火灾大小的分布,都满足幂律分布。此外,森林还会自然而然 地趋向这种密度水平。如果密度较低,密度会增加(因为火灾很小)。如果密度 超过了阈值,那么任何火灾都会毁掉整个森林。因此,树木密度自组织地达到了 一个临界状态。
在沙堆模型和森林火灾模型中,宏观层面的变量,也就是沙堆的高度或森林 的密度,都具有一个临界值。当有像沙崩或火灾这样的大事件发生时,宏观层面


的变量值会减小。这两个模型的一些变体可以解释太阳耀斑、地震和交通拥堵的 分布。不过,当事件发生时,不断增加的宏观层面的变量会减少,这虽然是必要  的,但对于自组织临界性来说是不够的。均衡系统也具有这种特征。水通过溪流, 流入和流出湖泊,但是由于水流很平稳,所以湖水的水位是逐渐变化的。通过自  组织达到临界状态的关键假设是压力平稳地增加(就像水流入湖中一样),同时  压力在爆发时迅速减少,这包括可能发生的大事件。
长尾分布的含义
在这里,我们讨论长尾分布的三个含义,即它们对公平、灾难和波动性的影 响。根据定义,与正态分布相比,长尾分布意味着少数几个大“赢家”(大崩溃、 大地震、大火灾和严重的交通拥堵)和很多的“输家”;而正态分布则是关于均 值对称的。长尾分布也可能增加波动性,因为更大实体中的随机波动会产生更大 的影响 。
公平
如果某一个人写的书更好、创作的歌曲更有吸引力、发表的论文学术水平更 高,那么他应该比其他人获得更大的名声和更多的金钱。但是,如果另一个人只 是因为表现得稍微好一点,或者完全靠碰巧走运就比其他人赚到了多得多的钱、 获得了大得多的名声,那就有失公平了。就像我们在优先连接模型中看到的,因 为马太效应,正反馈创造了少数大赢家。在市场中,要发生正反馈,人们必须知 道别人买了什么商品,而且人们必须有能力购买商品。就手机上的应用程序而言, 根本不存在可能会减慢正反馈的生产限制,但是卡车就会面临这种约束。福特公  司不可能无限增加F-150卡车的产量,但是财捷集团(Intuit)却可以无限量地销  售TurboTax应用程序,只要有人愿意下载。
实证研究表明,社会效应会创造更大的赢家。在音乐实验室的实验研究中, 研究者让大学生挑选和下载歌曲。在第一个实验组中,被试不知道其他人下载了 哪些歌曲,下载量的分布具有较短的尾部,没有出现下载量超过200次的歌曲, 且下载量少于30次的歌曲也只有一首。在第二个实验组中,被试知道其他人下 载了哪些歌曲,下载量的分布具有较长的尾巴,有一首歌的下载量超过300次。


而且,超过一半歌曲的下载量都不到30次。
尾巴变长了,社会影响增加了不平等。如果社会影响只会导致人们下载更好 的歌曲,那么这种不平等也不会造成什么问题。但事实上,这两个实验组的下载 量之间的相关性并不强。我们可以将第一个实验组中每一首歌的下载次数解释为 歌曲质量的一个表征,那么这项研究表明,社会影响并没有导致人们去下载更好 的歌曲。大赢家的出现不是随机的,但它们其实并不一定是最好的。
当然,我们必须非常小心:不能从一项研究中就得出太强的推论。然而,我 们确实可以推断,卖出了5000万册书的畅销书作家、学术论文得到了20万次 引用的科学家当然是值得赞许的,但是这种极端的成功本身就表明中心极限定理 是不成立的。人们不会独立地购买书籍或引用论文。惊人的成功可能意味着正反 馈,也许还有一点运气。在本书的最后一章讨论收入不平等的原因时,我们还会 回到这些思想上来。
灾难长尾分布还包括灾难性事件:地震、火灾、金融崩溃和交通拥堵。尽管 模型无法预测地震,但确实可以深入解释为什么地震的分布会满足幂律。这些相 关的知识告诉我们各种强度的地震发生的可能性。我们至少知道会发生什么,尽 管不知道什么时候会发生。
而且,森林火灾模型已经可以指导行动了。人们可以通过选择性地在森林中 采伐一些树木来降低树木的密度,以防止大火灾的发生,也可以制造防火带。有 人会说,在模型告诉我们应该这样做之前,我们早就懂得采伐树木或建造防火带 了。这当然是事实,但重要的是,森林火灾模型能够让我们意识到临界密度的存 在。临界密度可能因森林而异,可能取决于树木的类型、盛行风速和地形。这个 模型有效地解释了为什么森林会出现自组织临界状态。
我们还可以使用这个模型来做一个很好的类比。请回想一下,第1章中讨论  了席卷整个体系的金融机构的破产,我们可以将森林火灾模型应用到那种情况下: 把银行和其他金融机构想象为网格上的树,网格上的邻接则表示存在未偿还的贷  款。一个银行破产相当于一棵树着火,而火势有可能会蔓延到邻近的银行。
当银行的“密度”变得越来越高的时候,这种看似浅显的森林火灾模型就预 示着大规模的银行破产随时可能发生。不过,在深入探析这个类比时,我们可以


发现它存在四个方面的缺点。第一,金融机构的网络并未嵌入物理空间,各家银 行的连接数也不相同,有的银行可能拥有几十项金融债务,而有些银行则可能只 有一两项金融债务。第二,森林中的树木不能主动采取行动来减少火势蔓延的可 能性,但是银行却可以,它们可以提高自己的储备水平。
第三,一家银行拥有的连接越多,其破产会产生连锁反应的可能性就越低, 因为它的损失已经分散到了更多的银行身上。例如,如果一家银行只从另一家银 行借款,那么如果它在借来的1亿美元的贷款上出现了违约,第二家银行可能会 破产。但是,如果第一家银行是从其他25家银行分别借款的,那么任何一家银 行都不至于受到重创。在这种情况下,银行体系可以很好地消化这个违约事件而 不会崩溃。
第四,从一家银行的破产到另一家银行的破产,这种蔓延会不会出现还取决 于银行的投资组合。如果两家“相连”的银行拥有相似的投资组合,那么当一家 银行破产时,另一家银行也可能早就脆弱不堪了,这时银行破产蔓延的可能性就 很大。如果整个网络中的所有银行都拥有相同的投资组合,那么最糟糕的情况就 很可能会出现。在这种情况下,当一家银行破产时,就可能会出现普遍的银行破
产。
但是,如果每家银行分别持有不同的投资组合,那么一家银行表现不佳并不 意味着其他银行也表现不佳。在这种情况下,银行破产就可能不会蔓延。因此, 一个模型要想真正有用,就必须考虑到各种不同的投资组合。如果没有这些信息, 那么即便知道哪些银行对其他银行负有未偿还债务也不足以预测或防止银行破 产,而且银行之间的高互连性的净效应也是不明确的。
波动性
最后,我们讨论最微妙的一个含义。如果组成幂律分布的实体规模出现了波 动,那么冪律的指数就可以作为衡量系统层面波动性的一个代表。由此可以推断, 企业规模的分布应该会影响市场波动性。例如,我们可以将某个国家的国内生产  总值视为数千家企业的总产量。如果各家企业的生产水平相互独立且变差有限, 那么根据中心极限定理,这个国家的国内生产总值分布将服从正态分布。也就是  说,企业生产水平的差异越大,总体波动性就越大。如果企业规模的长尾分布导


致生产水平上更大的变差,那么这种长尾分布也必定与更大的总体波动性相关。
对美国波动性模式的实证研究表明,波动性在20世纪70年代和80年代有   所上升,然后在接下来的20年间又下降了,有人将后面20年称为“大稳健”  (Great Moderation)。
但是,从2000年前后开始,波动性再次上升。研究显示,可以通过企业规 模分布的变化来解释这种波动性演变的模式。
随着企业规模分布的尾部变得越来越长(越来越短),最大的企业对波动性 的影响越来越大(越来越小)。换句话说,总体波动性会随企业规模分布的尾部 变长(变短)而增加(减少)。1995年,当总体波动性较低时,沃尔玛的营业收 入为900亿美元,相当于美国国内生产总值的1.2%。到了2016年,沃尔玛的营 业收入增加到了4800亿美元,占国内生产总值中的百分比提高到了2.6%,沃尔 玛在美国国内生产总值中所占的份额增加了一倍多。2016年,沃尔玛收入的增 加或减少可能导致的总体波动性因而也增加了一倍多。
没有人能够反驳这个观点的逻辑。因此,相关的问题是,一个经过校准的模 型到底能不能生成与实际波动水平相对应的效应。校准拟合结果表明,确实非常 接近。企业规模的分布很好地对应于大稳健时期的历史证据。虽然这种相关性并 不能证明是企业规模分布的变化(而不是政府对经济的有效管理或更好的库存控 )导致了这种变化,但是它确实足以“阻止”我们拒绝这个模型。
这些证据还为我们在未来评估各种波动时将这种模型加入我们的工具箱提 供了很好的理由。
设想长尾分布的世界
在长尾分布中,大事件发生的概率必须加以考虑。在本书讨论的多个模型中, 长尾分布是由于反馈和相互依赖性而产生的。我们应该高度注意这个结果。随着 世界中相互联系性的提高和反馈的增加,我们应该会观察到更多的长尾分布,同 时现在关注的这些长尾分布的尾部也可能会进一步拉长。这就是说,不平等可能 会增加,灾难可能变得更大,波动性也会变得更加剧烈。这些都是不可取的。


到目前为止,我们都是在宏观层面上讨论这些事件的可能性的。它们也同样 可能发生在更小的尺度上。波士顿的中央隧道工程 (Big  Dig)是一条穿过市中心 的长达5000多米的隧道,它是一个中等规模的灾难的典型例子。这个项目花费 140亿美元(相当于最初预算的3倍多),并成了美国有史以来最昂贵的公路 项目。根据模型思维的方法,我们不会把这个项目简单地视为一个单独的项目, 而是作为很多子项目的总和:挖掘深沟、浇筑混凝土隧道、设计排水系统、建造 墙壁和“顶盖”。项目的总成本等于各个子项目成本的总和。
如果每个子项目的成本都是相加的,那么这个项目的成本分布将是正态分布。
然而,各个子项目的成本是相互关联的。原本计划用来将顶盖黏合到位的那 种环氧树脂强度不够时,就不得不用成本更高、强度更大的另一种环氧树脂来代 替,从而增加了项目的成本。而且,第一种环氧树脂的失效还产生了移除和更换 折叠顶盖的额外成本。这些工作反过来又需要重做项目的其他几个部分。于是总 体成本增加了一倍以上,因为每个项目必须撤销然后重做。这种相互依赖性最终 导致了一个大型且昂贵的事件。
大事件发生的可能性使计划变得非常困难。像地震这样自然灾害的分布符合  幂律分布。因此,大多数事件都是很小的事件,但是有些事件一旦发生就会很大。 如果灾难性事件遵循指数为2的幂律分布,那么政府就必须时刻保留大量的储备  金或者至少做好应对的准备,必须未雨绸缪。如果政府为了这个目的而在应急基  金账户中保持了巨额盈余,那么如果没有大事件发生,政府可能会阻止自己花掉  这笔钱或减税。
搜索与机会
我们可以在某些搜索模型中应用关于分布的知识来解释为什么一个人获得 机会的数量可能与他的成功经历密切相关。在这里,事实上是将一类模型(分布 模型)嵌入了另一类模型(搜索模型)。我们在搜索的时候,无论是搜索新鞋、 工作职位还是度假胜地,其实是不知道所选择的价值的,直到去真的尝试它。不 过,我们可能会对所选择的价值的分布有所了解,例如它的均值、标准差,以及 这种分布是正态分布还是长尾分布等。


在这里,我们将职业选择建模为一个搜索过程。给定某个行file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps889.jpg信(一)ipip(个)515
某条职业道路。我们将这种行为建模为从一个分布中抽取某个事件。假设,这个 人可以坚持这个职业选择或再试一次,再试一次对应于从分布中的另一次抽取。 例如,考虑一个有才华的年轻科学家的职业选择。她可以选择去医学院深造,也 可以选择去研究量子计算。医学院提供了一条更安全的道路,选择研究量子计算 则可能成为一名创业企业家并承担更多风险。为了解释这些差异,我们将医生的 工资分布表示为均值25万美元,标准差25000美元的正态分布,并把量子计算 企业家的工资分布表示为指数为3、期望工资为20万美元的幂律分布。
再假设,在每个行业内,这位科学家也可以尝试多种职业。也就是说,她可 以搜索。医生可以从肿瘤科转入放射科,一个企业家破产后也可以重整旗鼓继续 尝试创业。但是每一次转换职业都要付出一定的成本:对于一个医生来说,这意 味着要接受更多的培训;对于一个从事量子计算的企业家来说,这意味着需要付 出更多的时间去从事没有报酬的工作。
另外再假设,这位科学家认为这两个职业同样有意思,并且会根据薪资水平  来做出选择。我们的模型证明,哪种选择更好取决于有多少次尝试新职业的机会。 如果她必须坚持自己的第一个职业选择,那么成为一名医生就可以获得更高的期  望工资;如果她有足够的资源持续尝试,努力成为一名企业家,那么最终她将从  长尾中获得高薪。假设在每个职业中分别进行1次、2次5次和10次职业搜索, 下图显示在20次测试中得到的平均最高工资。如果这位科学家有机会在量子计  算初创企业中尝试10次,那么她的薪资将会是她选择进入医学院深造并尝试10 个职业后收入的两倍。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps890.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps891.png
■正态分布          ■幂律分布


如果拥有的财富和家庭的支持与一个人不得不尝试新职业的机会数量相关, 那么模型的预测是,更富有的人将选择风险较高的职业。
专利证据与我们的模型是一致的。一个人成功申请专利的可能性与他的数学 技能相关,数学能力排名前1%的人更容易获得专利。而且在这数学能力排名前 1%的人当中,收入排名前10%的家庭的人更有可能拥有专利。
至少有两个模型可以解释这种差异:一个模型假设更贫穷且有才华的学生没 有上大学的机会,他们可能正在从事日常工作,从未有机会在进入医学院深造还 是去研究量子计算之间做出选择,另一个模型则假设更贫穷的学生会选择更安全 的职业 。
机会的增加可以创造风险激励,这个逻辑可以应用到很多领域。风险资本家 经常冒险,因为他们有机会进行多项投资。只要投中了一个独角兽(市10亿 美元以上的公司),不仅可以补偿多次失败的投资,还可以带来很大的利润。研 究药物的实验室也愿意承担风险,花费数十亿美元用于药物开发。甚至在决定午 餐吃什么时,我们也可以应用同样的逻辑。长途旅行并在某个不熟悉的小镇短暂 停留时,我们一般更喜欢选择连锁餐厅用餐;但是,如果真的搬到那个小镇去居 住,我们就会尝试多家餐厅。


0 7 课 线 性 模 型
是的,我承认我在说谎。但为什么你非要强迫我给出一个线性解释呢!线性 解释几乎总是谎言。
埃莱娜 · 费兰特(Elena Ferrante)
模型通常假定变量之间存在某种特定的函数关系。这种关系可以是线性的, 也可以是非线性的,或者可以包括阈值效应。在这些模型中,线性模型是最简单 且应用最广泛的。本章的重点就是线性模型。教育对收入的影响、因锻炼而增加 的期望寿命,以及收入对选民投票率的影响,都可以用线性模型来解释。
在本章的开头部分,先回顾一下单变量线性函数。然后讲解了如何通过回归 将数据与线性函数拟合,并揭示各种效应的符号、大小和显著性。我们还讨论了 为什么误差、噪声和异质性意味着数据不会全部落在回归线上。接着,我们扩展 了线性模型以容纳更多的变量,并讨论了如何拟合多元线性模型。为了建立多变 量模型的直觉,我们将成功建模为技能和运气的线性函数。本章的结尾部分总结 了如何依靠数据和回归指导行动、减少错误,但是这样做也可能会导致边际行为, 进而导致保守的行为。确实,“唯大系数论”思维可能会扼杀创新。为了确定更 多的创新项,我们可能需要考虑构建其他更具推测性的模型。
线性模型在线性关系中,由于第二个变量的变化而导致的第一个变量的变化 量不依赖于第二个变量的值。假设树木的高度与树木的年龄呈线性关系,那么树 木每年生长的高度相同。假设房子的价值随它的面积(平方米)线性增加,那么 房子面积扩大200平方米所带来的房子价值的增量,等于房子面积扩大100平方 米所带来的房子价值增量的两倍,400平方米的扩大使房子的价值增加了4倍。
线性模型
在线性模型中,自变量x  的变化,会导致因变量y  的线性变化,用如下方 程表示:
y=mx+b


,m  等于直线的斜率,b  等于截距,即当自变量等于0时的因变量值。
线性回归模型的目标是找到能够最小化到各数据点的直线。线性回归可以解 释犯罪、洗衣机销量,甚至可以解释葡萄酒价格的变化。
假设我们找到了一组年龄介于20岁到60岁之间的成人的年龄数据以及他们 每个星期走路的距离,可以发现如下回归方程:
第i  个人步行的英里数=-0.1×年龄i+12+ ei
这个回归方程不仅告诉我们这种效应的符号(距离随年龄的增长而减少), 还告诉我们这种效应影响的大小(年龄每增加1岁,距离减少1/10英里)。在这 个例子中,截距并不重要,因为它位于数据范围之外,也就是说,数据原本就不 包括年龄接近于0的人。根据这个方程,我们可以预测, 一个40岁的人每个星 期步行8英里,而50岁的人则每个星期步行7英里。但是,用于产生回归的数 据不会全部都落在回归线上。
7-1显示了用于生成回归线的假想数据。其中灰色圆圈代表的人名叫博比, 40岁了,每个星期步行11英里,比模型估计的要多走3英里。为了使数据与 模型一致,我们在方程中给每个数据点增加了一个误差项,用ε表示,等于模型 估计值与因变量实际值之间的差异。博比的误差项等于+3英里。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps892.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps893.png
年龄


7-1 散点图和回归线
在社会环境和生物环境中,我们不能期待会有完美的线性拟合。结果通常取 决于多个变量,但是根据定义,单变量回归只能包含一个变量。由于这些被省略 的变量,预测值可能会偏离实际值。博比走的路可能要比预期更多,因为作为植 物学教授,他要带他的学生到树林里采集标本。这个模型没有把职业作为一个变 量,但是职业有助于解释为什么图7-1中的数据点没有落在回归线上。ε项也可 能由测量误差引起。如果人们忘记随身携带智能手机,或者将智能手机借给他人, 那么利用智能手机收集的健身数据就会包含误差。此外,环境噪音也可能导致误 差,比如人们可能会因为坐在颠簸的汽车上而获得额外的步行里程。
回归线越靠近数据,模型解释的数据越多,R2 就越大(得到解释的百分比 越大)。如果数据全部都恰好位于回归线上,R2  就等于100%。
符号、显著性和大小
线性回归可以告诉我们关于自变量系数的如下内容:
符号:自变量与因变量之间的正相关或负相关。 显著性 (p    ):系数上非零符号的概率。
大小:对自变量系数的最佳估计。
在单变量回归中,回归线与数据拟合得越好,我们对系数的符号和大小就越  有信心。统计学家使用p 值来表示系数的显著性,p 值等于基于回归的系数不  为零的概率。p 值为5%意味着数据由一个系数等于零的过程生成的概率为1/20。 显著性的标准阈值是5%(通常用*表示)和1%(通常用**表示)。但是,显著性  并不是我们唯一关心的东西。一个系数可能是显著的,但是却很小。如果真的是  这样,就可以对相关关系很有信心,但是变量的影响其实不大。又或者,也可能 系数虽然不显著但却很大,这通常发生在有噪声数据或数据带有许多遗漏变量的  情况下。
为了阐明如何利用回归来指导行动,不妨想象一下这样一家销售香料的公司。


该公司供应超过100种香料。客户会购买包含6种、12种或24种香料的包装。 客户下单后,员工负责包装和运输。将每8小时的班次的订单数量作为员工工作 年限的函数进行回归,结果如下:
完成的订单数=200+20**×工作年数
在上面的方程中,工作年数前面的系数20的显著性水平为1%。我们可以确 信它是正的。如果这种关系是因果关系,那么这个模型就可以用来预测每个员工 每个班次可以完成的订单数量(作为工作年数的函数),还可以使用这个模型来 预测某个在职员工明年可以完成的订单数量。在这里,有一个模型的实例,既可 以给出预测,也可以指导行动。
相关关系vs. 因果关系
回归所揭示的是变量之间的相关关系,而不是因果关系。
如果先构建了某个模型,然后用回归检验模型的结果是否得到数据的支持,  但那也不能证明因果关系。但是,在我们能够用回归发现显著的相关性之前,有  一种方法远比回归方法好,这种方法就是通常所称的“数据挖掘”(data mining)。 但是,数据挖掘存在识别与其他因果变量相关的某个变量的风险。例如,数据挖  掘可能会揭示维生素D 的水平与身体总体健康程度之间存在显著的正相关关系。  人们多晒阳光有利于吸收维生素D, 因此这种效应可以归于生活方式更积极的那  些人在户外度过的时间更长,从而健康状况更好。或者回归可能会发现,某个大  学的学术表现与参加马术队的学生人数存在显著相关。但是,马术队与学术水平  之间可能并不存在直接的因果关系,但它们与平均家庭收入和学校资助水平相关。
数据挖掘还可能导致虚假的相关关系,即两个变量只是偶然相关。我们可能 会发现,名字较长的公司可以获得更高的利润,或者居住在比萨店附近的人更容 易患流感。事实上,使用5%的显著性水平阈值,每检验20个变量就会发现有一 个是显著的。因此,如果尝试足够的变量,肯定会发现某些显著但虚假的相关性。
我们可以通过创建训练集(training set)和检验集(testing set)来避免报告 虚假相关。在训练集上发现的相关性,如果也存在于检验集上,就更可能是真实


的。但即便是这样,我们仍然无法保证那就是因果关系。为了证明因果关系,还 需要进行一个实验来操纵自变量并观察因变量是否会随之发生变化,或者也可以 想办法找到可以证明这类因果关系的自然实验。
多元线性模型
大多数现象都有不止一个因果变量和相关变量。一个人的幸福可以归因于身  体健康、婚姻美满、子女、宗教信仰和财富等。一栋房子的价值取决于室内面积、 庭院大小、浴室数量、卧室数量、建筑类型以及当地学校的质量等。在解释房子  价值的时候,可以把所有这些变量都包含在回归中。但是必须记住,随着添加更  多的变量,也就需要更多的数据,不然无法得到显著的系数。
实力 - 运气方程
在讨论多元回归之前,先引入迈克尔 ·莫布森(Michael Mauboussin) 的 实 -运气方程,以便对多元方程有一个直观的认识。
这个方程说的是,任何成功,无论是日常工作中的成功、体育运动上的成功, 还是游戏时的成功,都可以视为实力-运气的一个加权线性函数。
实力-运气方程
成功=a×实力+(1-a)× 运 气
其 中 ,a  位于区间[0,1]上,是技能的相对权重。
如果给实力和运气分配适当的权重(也许通过利用现有数据进行回归,可以  得到这样的权重),我们就能够运用这个模型来预测结果。例如,假设一家休闲  汽车销售公司的经理发现,用销售数量来衡量的成功有很大的运气成分,那么他  就会期待回归均值:本月取得了很好业绩的销售人员下个月可能会回到平均水平。 然后,这个经理就可以利用这个模型来指导行动了。比如,他不会为了争取一个  连续两个月都取得非常不错业绩的销售人员而付出比竞争对手高很多的薪资。相


反,如果回归表明运气对成功几乎没有任何作用,那么连续两个月的业绩就可以 作为未来业绩表现的一个很好的预测器。在这种情况下,经理就应该为这个最佳 销售人员提供有竞争力的报酬。
同样的逻辑也适用于CEO 薪酬的决定。在那些“运气决定了成功”的行业 中,董事会不应该向CEO发放高额奖金。石油公司的利润取决于原油的市场价 格,那是一个公司无法控制的变量。因此,一家石油公司的董事会不应该因为某 一年公司业绩不错就给CEO发放巨额奖金。相反,广告公司则不然:如果广告 公司业绩表现良好,那么给CEO发放巨额奖金就是一件明智的事情。简而言之, 要奖励实力,而不要为运气去买单。事实上,那些很成功的公司都不会为运气付 出太多。
即便是最简单的模型,例如上面这个实力-运气方程,也能帮助我们得出深 刻的见解。进一步思考这个方程可以发现,即便是在那些成功几乎完全取决于实 力的环境中,例如跑步、骑自行车、游泳、下棋或网球比赛,如果不同的参赛者 之间实力差异很小,那么运气就会在很大程度上决定谁输谁赢。我们可以预期, 在竞争最激烈的比赛中,比如奥运会,进入决赛的选手之间的实力差异很小,因 而运气就非常重要了。莫布森把这种情况称为“实力悖论”(paradox of skill)。
历史上最伟大的运动员之一迈克尔 · 菲尔普斯(Micheal Phelpls)可以说同 时位于这个悖论的两端。在2008年奥运会的一场决赛中,菲尔普斯在100 米 蝶 泳快结束时仍然落后于米洛拉德 ·卡维奇(Milorad   Cavic)。然而幸运女神眷顾了 他,菲尔普斯率先触到了池壁。然而,在2012年奥运会的一场决赛中,菲尔普 斯一直领先于查德 ·勒 ·克洛斯(Chad  le   Clos),但是幸运女神这次没有眷顾他, 勒 ·克洛斯率先触到了池壁。菲尔普斯拥有令人难以置信的实力,但是上一次胜 利和这一次失败,却都是运气的产物。
多元线性回归
多元线性回归模型拟合了具有多变量的线性方程,当然同样要最小化到数据 的总距离。这些方程包括每个自变量的系数。下面的方程反映了这样一个假设的 回归输出:学生在数学考试中的成绩,是学生学习的小时数 (HRS) 、学生家庭 社会经济状况 (SES)  和上“快班”课程的数量 (AC)  的函数。


数学成绩=21.1+9.2**×HRS+0.8×SES+6.9*×AC
根据回归分析的结果,学生每多学习一个小时,数学成绩会提高9.2分。这 个系数有两个*号,因此它在1%的水平上显著,这意味着很强的相关性,尽管不 是因果关系。这个方程也表明,每参加一个“快班”课程,数学成绩能够提高近 7分,这个系数也是显著的,但仅仅在5%的水平上显著。家庭社会经济状况这 个变量的取值为从1(低)到5(高),系数也为正,但是与零没有显著差异,因 此我们可以认为它可能没有什么因果关系。
有了这样一个(或任何形式的)回归方程,我们就可以预测结果。这个模型 预测,如果花7个小时学习,并同时参加一个“快班”课程,数学成绩就能够达 90分左右。这个模型还可以用来指导行动,但必须保持谨慎,因为我们无法 推断因果关系。数据表明,花时间学习和参加“快班”课程的学生成绩更好。但 是,花时间学习和参加“快班”课程这两个因素也可能没有什么用,因为也许存  在选择性偏差(selection bias),那些花更多时间学习、参加“快班”课程的学生, 数学成绩可能本来就更好。
即便回归不能说明是什么原因导致数据呈现出来的特定模式,但是至少可以 排除其他解释。以美国种族之间的巨大财富差距为例:2016年,白人家庭的平 均财富(约11万美元)是非洲裔美国人家庭和拉美裔美国人家庭的10倍。各种 各样的原因都可以用来解释这种差距,包括制度因素、收入差距、储蓄行为差异 或结婚率差距等。回归可以为其中一些解释提供支持并排除其他解释。例如,回 归分析表明,非洲裔美国人的婚姻状况与家庭财富之间没有显著关系,因此婚姻 状况不能成为这种财富差异的原因。此外,收入差距虽然相当大,但是也不足以 解释这种财富差距。
大系数与新现实
如前所述,线性回归模型在科学研究、政策分析和战略决策中都发挥着重要   作用,部分原因是因为线性回归模型容易估计和解释。而且,随着数据可得性的   不断改善,线性回归模型得到了更广泛的应用。“要信只信上帝,要认只认数据” (In God we trust.Everyone else must bring data.)这句话在商界和政界都可以经   常听到。对数据的这种依赖(通常意味着线性回归模型),可能会导致我们过于


倾向边际行动(marginal action),远离重要的新思想。企业、政府或基金会,都 致力于收集数据,拟合线性回归模型,试图找到有最高统计显著性系数的变量, 这种努力几乎肯定会导致调整该变量并获得边际收益的行为。
在采取行动的时候,最好选择具有较大系数的变量,而不要选择具有较小系 数的变量。与此同时,“大系数至上”这个思路建立在“保守主义”的基础上, 它会使我们将注意力集中到较小的改进上,而无法再关注全新的政策。“大系数 至上”的另一个问题是大系数的大小对应于给定现有数据的边际效应。正如我们 在下一章中会阐述的,通常这种效应将会随着变量值的增大而减少。如果确实是 这样,那么当我们试图利用它时,大系数就会变小。
大系数与新现实
线性回归揭示了自变量与我们感兴趣的(因)变量之间的相关程度。如果这 种相关是因果关系,那么具有大系数变量的变化就会产生很大的影响。基于大系 数的政策在保证能够带来改进的同时,排除了涉及更多根本性变化的新现实。
“大系数至上”思维方式的替代者是“新现实思维”。如果说,大系数思维 可以拓宽道路、建造高利用率的车道以减少交通拥堵,那么新现实思维就相当于 建造了铁路和公共汽车系统。大系数思维为低收入家庭的学生购买计算机提供补 贴,新现实思维则直接为每个人都提供了计算机。大系数思维改变了飞机上座位 的宽度,新现实思维则创造了一个使用可互换吊舱的飞机机舱。大系数思维已经 相当不错了,因为基于证据的行为是明智的,但我们也必须同时关注重要的新思 想。当我们遇到重要的新思想时,可以用模型去探究它们是否可行。对青少年交 通事故的回归也许会告诉我们,年龄的系数是最大的,这意味着提高驾驶年龄的 政策也许能起到一定作用。还可以采取更多的政策,例如禁止夜间驾驶的宵禁、 通过智能手机自动监控青少年驾驶员或限制青少年驾驶汽车的乘客数量等。这些 新现实政策带来的效果可能比大系数带来的要好。
小结
总而言之,线性模型需要假定效应大小不变。线性回归为我们对数据进行第 一轮加工提供了一个强大的工具,有了它,我们能够识别出变量的符号、大小和


显著性。如果我们希望了解咖啡、酒精或苏打水对健康的影响,就可以进行回归 分析。我们可能会发现,喝咖啡会降低心血管疾病的风险,适量饮酒也有同样的 效果。这也就是说,在现有数据范围之外推断线性效应时必须非常小心。我们绝 对不能推断,喝30杯咖啡、6瓶葡萄酒会是个好主意。我们不应该用线性模型 对过于久远的未来进行预测。从1880年到1960年,加利福尼亚州的人口增长率 45%,如果进行线性预测,那么我们将会预测2018年加利福尼亚州的人口会 达到1亿人,但这超出了实际人口水平的两倍。
请记住,线性模型只是一个开始,大多数有趣的现象都不是线性的。因此,  回归模型通常会包括非线性项,例如年龄的平方、年龄的平方根,甚至包括年龄   的对数。为了解释非线性,我们还可以将线性模型首尾相连,这些连接起来的线  性模型可能近似于曲线,就像我们可以使用直边的砖块来砌出弯曲的路径一样。  虽然线性可能是一个强大而不切实际的假设,但是它至少提供了一个很好的起点。 在给定了数据的情况下,可以使用线性模型来检验我们的直觉判断。然后,我们  可以构建更精细的模型,其中变量的影响会随着它的增加(收益递减)或变得更  强大(正回报)而减弱。这些非线性模型正是下一章要研究的重点。
对数据的二元分类
在当今这个大数据时代,组织普遍使用根据模型建立的算法对数据进行分类。 政党可能想要了解哪些人投了谁的票,航空公司可能想知道常客的特点,某项活   动的组织者可能想要了解哪些人会参加这项活动。在所有这些情况下,它们所使   用的方法都将相关的人分成了两组: 一组是“正”的(+),也就是购买了、贡献   了、注册了的人;另一组是“负”的(-)。
分类模型应用算法根据人们的年龄、收入、教育水平或在互联网上花费的时 间等性质,将人划分为不同的类别。不同的算法意味着不同的属性与结果之间关 系的基础模型。应用多种算法,也就是使用许多模型,能够产生更好的分类。
线性分类:在图a 中,“正”(+)代表参加投票的人,“负”(-)代表没有 参加投票的人。在此基础上,可以用一个反映人们年龄与教育水平的线性函数来 对某个人是否会参加投票进行分类。数据表明,受过更多教育的人更有可能去投 票,同时年龄大的人也更有可能去投票。在这个例子中,图中的直线近乎完美地


实现了分类。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps894.png
教育 水平
年龄
图a    用线性模型对投票行为进行分类
非线性分类:
在图b 中,“正”(+)代表航空公司的常客(每年飞行超过1万英里的旅客), “负”(-)代表航空公司的所有其他旅客。中年人和收入更高的人更有可能乘 坐飞机旅行。要对这些数据进行分类,需要先利用某个深度学习算法(如神经网 络算法)找到一个非线性模型。神经网络模型包含多个变量,因此它们几乎可以 拟合任何曲线。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps895.png
收入 水平
年龄


b  用非线性模型对航空公司的常客进行分类
决策树森林:
在图c 中,“正”(+)表示参加科幻大会的人,基于他们的年龄和每个星期 花在互联网上的小时数。在这里,我们使用了三棵决策树对数据进行分类。决策 树根据各种属性不同的条件组合进行分类。图中显示的三棵决策树分别为:
决策树1:如果年龄<30岁
且每个星期花在互联网上的小时数介于[15,25]岁之间
决策树2:如果年龄介于[20,45]岁之间
且每个星期花在互联网上的小时数>30
决策树3:如果年龄>40岁
且每个星期花在互联网上的小时数<20


每个星期花 在互联网上 的小时数
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps896.png
年龄


c  用决策树森林对会议参与者进行分类


树木的集合称为森林。机器学习算法会在一个训练集上随机构造出树,然后 将那些在检验集上准确分类的树保存下来。


08课非线性模型
讨论非线性科学,就类似于讨论无大象的动物学。
约翰 ·冯 ·诺伊曼
在本章中,我们介绍非线性模型和非线性函数。非线性函数可以向下或向上 弯曲,可以形成S 形,还可以扭结、跳跃和波动。在下文中,我们将会讨论到所 有这些可能性。现在先从依赖于凸性和凹性的模型开始讨论。我们阐明了增长和 正反馈是如何产生凸性的,收益递减和负反馈又是如何产生凹性的。在绝大多数 学科中,都包含了这两类模型。
关于生产的经济学模型假设交货期和库存成本会随着企业规模的增大而减 少,从而使每单位产品的销售利润成了企业规模的一个凸函数,这也就解释了为 什么沃尔玛能够获得如此高的利润。1关于消费的经济学模型则假设效用(或价 )是凹的,也就是说,第5块比萨带给我们的享受比第1块比萨小。在一个生 态系统中,当一个新物种入侵并无须面对任何天敌时,其“人口”会以恒定的速 率增长,这就产生了一个凸函数。但是随着“人口”的增长,它们的食物就会减 少。因此,作为种群规模函数的适合度 (fitness)是凹的。
本章由三个部分组成。第一部分讨论凸函数,包括了人口增长和衰退模型。 第二部分讨论凹函数。在这一部分中,我们将会看到凹性意味着风险规避和对多 样性的偏好。一手资源薇信ipip885,    在第三部分中,我们研究了一系列经济学 中的增长模型,它们结合了凹函数和线性函数。
凸函数
凸函数的斜率是递增的:函数值随度量值的增加而增加。例如,在一个人群  中,可能结成的“对”的数量是这个群体人数的凸函数一组3人,可以结成3  个不同的“对”;一组4人,可以结成6个不同的“对”;一组5人,则可以结成  10个不同的“对”。群体规模每增大一些,都会导致“对”的数量有更大的增加。 与此类似,每一次,当厨师增加了一种新的香料时,他可以使用的香料组合数量


就会增加很多。
我们要讨论的第一个凸函数模型是指数增长模型 (exponential growth model), 它描述的是一个变量的数量(通常是指人口或资源)与它的初始值、增 长率和周期数之间的函数关系。
指数增长模型
时间t 的资源值Vt, 其初始值为Vo, 且以速率R 增长,可以写成如下 方程:
Vt=VO(1+R)t
这个单方程模型在金融、经济、人口、生态以及技术等领域中都发挥着核心 作用。当我们把它应用于金融问题时,这里的变量就是货币。利用这个方程,我 们可以计算出,年利率为5%时1000美元债券在一年后的价值会增加50美元, 而到第20年将增加100多美元。为了得出清晰的推论,我们假设增长率固定不 变。根据这个假设,可以利用指数增长方程推导出72法则(Rule of 72)。
72法则
如果一个变量在每个周期内以R  (增长率小于15%)的百分比增长,那么 下面提供了一个很好的近似:
翻倍所需的周期数file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps897.jpg
72法则量化了最高增长率的累积效应。1966年,津巴布韦的人均国内生产 总值为2000美元,是博茨瓦纳的两倍。但是在接下来的36年里,津巴布韦几 乎没有增长,而博茨瓦纳的年平均增长率则达到了6%,这意味着博茨瓦纳的人 均国内生产总值每12年就会翻一番。于是在36年中,博茨瓦纳的人均国内生产 总值翻了三番(增加了8倍)。因此,到了2004年,博茨瓦纳的人均国内生产总


值达到了8000美元,相当于津巴布韦的4倍。
同样是这个公式,还揭示了为什么房地产泡沫必定会结束而技术进步则不会。 2002年,美国的房价上涨了10%。这个增长率意味着每7年翻一番。如果这种  趋势一直持续35年,那么美国的房价将会翻五番,即增长32倍。这也就是说,  一栋在2002年价格为20万美元的房屋在2037年将上涨到640万美元。当然,
价格不可能一直这么涨下去,泡沫必定会破灭。与此不同,摩尔定律( Moore's law) 则指出,可以安装在一块集成电路上的晶体管数量每两年会增加一倍。摩尔定律 之所以持续存在,是因为用于研发的投入带来了近乎恒定不变的进步速度。
人口学家则用指数增长模型研究人口问题。如果每年增长6%,那么人口在  12年内就会翻一番,在36 年内会翻三番,在100 年内则会翻八番,即增长256    倍。早在1798年,英国政治经济学家、人口学家托马斯 ·马尔萨斯(Thomas   Malthus) 就观察到了人口数量呈指数增长的现象,并在给出的一个模型中指出,如果经济  体生产粮食的能力是呈线性增长的,就会出现粮食危机。短期的变化如下:人口  增长模式为1、2、4、8、16、32 …… ;而粮食生产的增长模式则为:1、2、3、
4、5……。马尔萨斯预测,灾难很快就会发生。幸运的是,出生率不久之后就下 降了,工业革命的到来也极大地提高了生产率。如果这两件事情都没有发生,那 么马尔萨斯的预测应该是正确的。关键是,马尔萨斯忽视了创新的潜力。本章下 面将要给出的模型重点就是创新,它颠覆了马尔萨斯担心的趋势。
指数增长模型也可以用于研究物种的增长,当然不仅仅适用于兔子。当你受 到细菌感染时,那些肉眼不可见的细菌会以极高的速度繁殖。人类鼻窦中的细菌 每分钟都在以4%的速度增加。应用72法则,我们可以计算它们每20分钟就会 翻一番。一天之内,每个初始细菌都会繁衍出超过10亿的后代。
当然,由于鼻窦的物理空间有限,它们不可能一直繁殖,没有空间时增长就 会停止。食物的限制、天敌的存在、生存空间的缺乏,都会减缓增长。有些物种, 例如生活在美国郊区的鹿,或者被毒枭巴勃罗 ·埃斯科巴 (Pablo   Escobar) 带 入 哥伦比亚的河马,虽然繁殖速度远远不如细菌,但是由于受到的限制很少,它们 的种群迅速增大。
具有正斜率的凸函数会以递增的值增加,具有负斜率的凸函数就会变得不那 么陡峭,也就是说,最初具有较大负斜率的凸函数将逐渐走平。半衰期模型


(half-life model)中的方程就是如此,这个模型可以用来刻画分解、折旧和遗忘。
在半衰期模型中,每H 周期,数量就会衰减一半。因此,我们把H 称为该 过程的半衰期。对于某些物理过程,半衰期是恒定的。所有有机物都包含两种形 式的碳:不稳定的同位素碳-14,以及稳定的同位素碳-12。在活的有机物中,这  些同位素是以固定比例存在的。当有机体死亡后,体内的碳-14开始分解,其半  衰期为5734年,碳-12的数量则不会改变。美国物理化学家威拉德 ·利比( Willard Libby) 意识到,通过测量碳-14与碳-12的比例,就可以估计化石或人工制品的 “年龄”,这种技术被称为放射性碳年代测定法(radiocarbon dating)。现在,古  生物学家已经将放射性碳年代测定法应用于测定恐龙、猛犸象和史前鱼类遗骸的 年代了。考古学家则用这种方法来判断古生物的真伪。利用这种方法,考古学家 估计,在意大利阿尔卑斯山发现的冰人“奥茨”(Ötzi)的遗骸有5000 年的历史。 而于1357年首次出现在公众眼前的“都灵裹尸布”则被认定为是14 世纪的物品, 而不是某些人所声称的用于耶稣基督葬礼的那一块。
半衰期模型
如果每H 周期,剩余数量的一半会衰减,那么在t 周期后,剩余的比例为:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps898.jpg
半衰期模型的一个新应用是在心理学中。早期的心理学研究表明,人们几乎 以接近固定不变的速度忘记信息。人们记忆的半衰期取决于事件的显著性。2016  年,电影《聚焦》(Spotlight) 获得了奥斯卡最佳影片奖。假设,人们对奥斯卡 获奖记忆的半衰期为两年,那么到了2018 年,有1/4 的人会记住这一事实;但 是到了2026年,将只有1/1024 的人还会记得这件事情。但对任何特定事件的回 忆因人而异,对《聚焦》的导演汤姆 ·麦卡锡(Tom  McCarthy)来说,他可能永 远不会忘记他是哪一年获得奥斯卡奖的。


凹函数
凹函数与凸函数相反。凹函数的斜率是递减的。具有正斜率的凹函数会呈现 收益递减的特点:当我们拥有的东西越来越多的时候,每个额外东西所能带来的 价值会越来越少。几乎所有商品的效用或价值都呈递减趋势。闲暇越多、金钱越 多、冰激凌越多,甚至与爱人共度的时光越多,对我们的价值就越小。 一个直观 的证据源于如下事实:包括巧克力在内,对任何事物的消费越多,我们就会越不 觉得享受,同时愿意为它付出的代价也就越少。
收益递减可以解释很多现象,包括为什么异地恋往往能够带来很大的幸福感。 如果你每月只能与你的伴侣相聚几个小时,那么每多一分钟都是一个莫大的惊喜。 而在一个月不间断的相处后,幸福曲线的斜率就会变平,从而额外增加的相聚时   间就变得不那么重要了。
同样的逻辑也可以解释为什么房地产开发商喜欢邀请人们在周末免费去他  们的海滨公寓。在短暂的周末,你无法在海滩上享受足够长的时间,你会很想把  房子买下。相反,如果让你在海滩上连续待上十天半个月,你可能就会觉得无聊。
当我们假设了凹性时,也就隐含地假设了对多样性和风险规避的偏好向。要 证明前者,只需要给出一个有多个参数的凹函数就可以。如果人们的幸福曲线是 凹性的,而且闲暇和金钱都在增加,那么人们就会更偏好休闲和金钱的组合,而 不怎么喜欢只有金钱、没有闲暇或只有闲暇、没有金钱。而风险规避则意味着更 偏好确定的有把握的事情而不怎么喜欢彩票,也就是不确定的事情。例如, 一个 厌恶风险的人会更喜欢得到100美元,而不是只有一半机会得到200美元,另一 半机会什么也得不到。 一个厌恶风险的人也更喜欢双层冰激凌甜筒,而不怎么喜 欢要么没有冰激凌、要么可以得到四层冰激凌。
8-1说明了为什么凹性就意味着风险规避。这幅图描绘了3种结果的幸福 价值(幸福感):高结果(H)、 低结果(L), 以及前两种结果的平均(M)。
给定形状向下的曲线,平均结果的幸福感会超过低结果和高结果的平均幸福感。 凸函数情况下则相反。凸性意味着风险爱好:我们更喜欢的是极端值,而不是平 均值。可以购买的股票数量是其价格的一个凸函数,因此,股票买家更喜欢价格 波动。如果价格不断上涨和下跌,买家最终能够获得的股票比价格保持不变时获 得的更多。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps899.png
8-1 风险规避:平均价值>价值的平均
经济增长模型
接下来,我们将构建一系列经济增长模型。这些模型不仅揭示了增长的原因, 还可以解释和预测各国的增长模式,还可以指导例如提高储蓄率等的行为。为了 给对增长模型的研究奠定基础,我们先引入一个标准的经济生产模型,其中产出 取决于劳动和实物资本。经验证据和逻辑都支持产出是劳动力和资本凹函数的假  设。保持固定资本,随着投入的劳动力的增加,劳动力的价值应该变得越来越低。 同样,在保持工人数量不变的情况下,添加更多的机器或计算机会增加更少的价  值。逻辑推理还表明,产出应该是线性的,工人数量和资本总额翻番应该能使产  出翻番。这就是说,一家拥有60名工人和一栋厂房的扫帚生产企业,在新建了  一栋同样大小的厂房并多雇用了60名工人后,它的产出肯定应该翻番。柯布-  道格拉斯模型(Cobb-Douglass   model)是经济学中使用最广泛的模型之一,它同  时包括了这两种性质。产出是劳动力和资本的凹函数,而且从规模上看是线性的。 这个模型既可以应用于单个企业,也可以应用于行业或整个经济生产。


柯布-道格拉斯模型
给定L 个工人和K 个单位资本,总产出如下所示: 产出=常数×LaK(1-a)
其中a 是介于0到1之间的实数,表示劳动力的相对重要性。
接下来,我们利用柯布-道格拉斯模型来构建经济增长模型。简化起见,我 们假设经济体中有10000名工人,并暂且不考虑工资和价格,这使我们能够专 注于分析机器数量的变化是如何影响总产出的。然后,将资本投资与增长联系起 来。为了使模型尽可能简单,再假设只生产一种商品——椰子。椰子含有丰富的 椰汁和椰奶,可以作为食物。然而,椰子长在高高的树上,所以工人需要使用某 种机器才能把它们摘下来。接下来,再做出一个非常不现实的假设,即机器本身 也是用椰子制成的。这样可以简化模型,同时也保持了当前消费与未来投资之间 的关键权衡。作为柯布-道格拉斯模型的一个特例,我们将生产函数写为工人数 量的平方根乘以机器数量的平方根,即:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps900.jpg
产出= √工人数量 √机器数量=100 √机器数量
如果经济体中只有一台机器,那么产量等于100 吨。如果人们消费掉了所有 100吨椰子,就不能投资制造新机器了,从而明年的产量将保持不变,也就是经 济没有增长。如果他们投资1吨椰子制造了第2台机器,产量将增加到141 吨 , 增长率为41%。如果他们制造了第3台机器,那么产量将增加到173 吨 。
通过不断地投资,经济增长率却逐渐下降,因此产出是一个凹函数。
我们已经大体知道投资是如何推动增长的。现在可以构建一个包含投资规则 的更加精细的模型。假设投资等于储蓄率乘以产出,并假设机器按某个不变的折 旧率折旧。例如,到了年底,不能再用的机器数量等于机器总数的某个固定比例。 然后就可以得出,下一年的机器数量等于上一年的机器数量加上新投资的机器数 量,再减少因折旧而减少的机器数量。于是,这个完整的简单增长模型由4个方 程组成。


简单增长模型
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps901.png产出函数: 0(t)=100√M(t)
投资规则:1 (t)=s×          C(   t)
消费- 投资方程: C(t)=C(t)+1(t)
投资 - 折旧方程: A(t+1)=A(t)+1(t)-a×A(t )
其中,C(t)=         产出,A(t)=        机器,1 (t)=       投 资 ,C(t
) = 消 费 ,s=    率 ,a=  折旧率。
假设这个经济体中有100台机器,储蓄率为20%,折旧率为10%,产量等于 1000吨椰子,消费量等于800吨椰子,新投资200台机器。再假设,因折旧而 损失的机器为10台,也就是在新的一年开始时将有290台机器。通过类似的计 算可知,在第2年,产出将增长为1702吨,而第3年的产出则将为近2500吨。
由此可见,在这前3年,产出以递增的速度在增长。但是这种凸性只会在前 几年出现,原因是机器的初始数量很少,因而折旧几乎完全不会产生任何影响。
随着时间的推移,机器数量的增加和折旧开始变得十分重要。从长远来看, 产出的增长将完全停止(图8-2)。只要分析一下模型,就可以找到原因。投资是  线性的,因为增加的新机器的数量是随产出呈线性增加的,同时产出则是机器数  量的凹函数。因此,随着经济的增长,投资与机器数量的关系也是凹性的。然而, 折旧与机器数量之间却是线性关系。最终线性折旧会赶上产出的凹性增长。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps902.png20
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps903.png巧
10
5
0
1  112131415161718191
年数
8-2 简单增长模型中前100年的产出
在经济的长期均衡中,投资的新机器数量等于折旧损失的机器数量。在这个 简单增长模型中,当经济体拥有40000台机器并生产20000吨椰子时,这种长 期均衡就会出现。在这一点上,经济体在新机器上投入了20%的产出或4000吨 椰子,恰恰等于因折旧而损失的机器数量,也就是40000台机器当中的10%。 因此,因折旧而损失的机器数量等于通过投资和停止增长所创造的新机器数量。
索洛*增长模型
现在构建一个更一般的模型,它是索洛增长模型 (Solow  Growth  Model)的  简化,因此我们在索洛后加了一个星号。我们用实物资本取代机器,并将劳动 力视为一个变量。此外,还添加了一个技术参数,它可以线性地增加产出。创新 会使这个参数增大。与简单增长模型一样,当投资等于折旧时,长期均衡就会出 现。不过,在这里,人们认为均衡时的产出水平取决于劳动力数量和技术参数, 以及储蓄率和折旧率。
索洛*增长模型


经济体中的总产出由以下方程给出:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps904.png
产出=A√L √K
L  表 示 劳 动 量 ,K 表示实物资本量,A
表示技术水平。长期均衡产出C*  由下面的方程给出:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps905.jpg
长期均衡产出随劳动力数量的增加、技术的进步、储蓄率的提高而增加,同 时随折旧率的上升而下降。这些结果都不足为奇。更多的工人、更先进的技术和 更多的储蓄理应可以增加产出,更快的折旧理应减少产出。但是,产量随着劳动 力数量的增加和储蓄率的提高而线性增长这个事实却着实令人惊讶。劳动只能带 来递减的收益,因此如果不考虑模型,我们可能会预测长期产出与劳动力数量之 间是凹性关系。但是,随着劳动力数量的增加,产出也会增加,投资也会增加, 进而带来更高的产出。从长远来看,投资的正反馈恰好抵消了收益递减。均衡产 出与折旧率之间的关系是凸性的,折旧率降低20%可以使产出增加25%。
长期均衡产出也会随技术改进的平方而增加。因此,创新增加的产出要比线 性增长更快。我们可以使用这个模型来了解其原因。如果从一个长期均衡的经济 体开始,并将技术参数提高50%,那么产出将会增加50%,投资也将增加50%。 然后投资超过了折旧,经济继续增长,投资将继续超过折旧,直到经济再增长 50%为止,在这一点上,因折旧而造成的资本损失抵消了投资。这个计算过程揭 示了创新乘数(innovation multiplier)的存在,创新有两个效应。首先,创新直 接增加产出;其次,创新间接导致更多的资本投资,从而导致产出再次增加。因 此,创新是持续增长的关键。
需要注意的是,产出的这些增加不是瞬间发生的。当技术出现了一个突破时, 技术参数的变化是相当缓慢的。直接效应的影响需要随着时间的推移显现。旧的 实物资本必须被新技术的新实物资本所取代。当计算机技术进步刚刚发生时,一


般企业的计算机不会马上变得更快,只有当技术发生了变化并且企业购买了新计 算机之后,它们才会变得更快。实物资本投资增加导致的二阶增长则会发生在更 长的时间范围内。技术与技术对增长的影响之间的滞后,可能意味着创新在出现 后的几十年时间内都会导致增长。火车是在19世纪早期发明的,但是镀金时代 (Gilded Age)并没有马上开始,直到19世纪的后半期才到来,这是一个长达 50多年的“时滞”。另一个例子是,在阿帕网(ARPANET) 出现整整30年后,互 联网才开始步入繁盛期。一手资源微信ipip885。
国家缘何成功与失败
我们还可以将增长模型应用于一系列重大政策问题,例如,落后国家是否可 以赶上发达国家?为什么有些国家取得了成功而有些国家却失败?政府在促进 增长方面能够发挥什么作用?这些研究揭示了增长模型的价值和局限性。为了便 于说明,不妨从低国内生产总值的国家实现快速增长的能力开始讨论。模型证明, 资本积累可以实现快速增长,技术投资也可以。一个实物资本较少的落后国家, 有可能通过新的资本投入进入技术前沿,从而实现难以置信的高速增长。
创新对长期增长来说是必不可少的,这种必要性也意味着一次性进口新技术 有很大的局限性,而持续增长需要创新。
这些模型也表明,攫取和腐败,也就是政府将经济体的产出挪用于政府开支, 会减少储蓄,进而削弱增长。对经济增长率的跨国比较研究的结果支持以下这些  观点:减少攫取和腐败以及促进创新,都能推进经济增长。实现这些目标,需要  一个强大但有限的中央政府来促进多元化。强大的中央政府能够保护产权、贯彻  法治。多元主义能够阻止精英的俘虏,精英往往更喜欢现状,可能不会接受创新, 因为创新往往可能具有很大的破坏性。
举一个破坏性创新的例子:克雷格列表网(Craigslist)。用户可以自行在这个 网站上发布待售和求助广告。在21世纪初,克雷格列表网导致美国平面媒体行 业失去数十万个工作岗位,但其实在那个时候,克雷格列表网本身只雇用了几十 名员工而已。虽然许多人失去了工作,但是克雷格列表网通过增加技术参数使整 体经济更有效率。而在一个多元化程度较低的社会中,平面媒体行业可能会游说 政府禁止克雷格列表这样的网站。很显然,这样做将会减缓经济增长。


中国的经济优势
线性模型+72法则:
1960年到1970年,日本的国内生产总值以每年10%的速度增长。根据线 性模型的预测,连年10%的增长,会使日本经济每7年翻一番(运用72法则)。 1970年,日本人均国内生产总值约为2000美元(以当前美元计)。如果这种增 长趋势持续下去,那么到2012年,日本的人均国内生产总值将会翻六番,也就 是说,人均国内生产总值将达到128000美元。
增长模型:
增长模型对日本经济增长的解释为实物资本投资的结果。这个模型还预测日 本经济增长在一段时间内将会是凹性的。具体来说,这个增长模型的预测是,当 日本的国内生产总值接近美国和欧洲时,日本的经济增长率会降低到1%~2% 的跨国平均值。证据支持这个预测。从1970年到1990年,日本国内生产总值 的年增长率大约为4%。但是从1990年2017年,它的增长率仅为1%或更低。
中国的增长:
1990年到2010年,中国国内生产总值的增长率接近10%。2016年,中 国的人均国内生产总值达到了8000美元左右;正如增长模型预测的那样,增长 速度已经放缓了。从2013年至2017年,增长率接近6%。同样,在中国,10% 的增长率不可能一直持续下去,这与72法则相悖。如果中国经济在整个21世纪 一直保持10%的增长水平,那么到这个世纪结束时,中国的人均国内生产总值将 会超过1亿美元。
这毕竟是一个非线性的世界
之所以要构建非线性模型,是因为我们感兴趣的现象很少是线性的。在本章


中,我们看到收益递减和收益递增是许多经济、物理、生物和社会现象的共同特 征。我们还看到,在模型中包含曲率是有重要含义的。也许最重要的是,我们看 到了函数形式能够影响我们的思维,用函数拟合数据有助于做出精确的表述。科 学家可以使用碳-14数据来计算人工制品的年龄,经济学家还可以估计经济小幅 增长的长期影响。
本章的一个核心结论是, 一旦包括了非线性,直觉就变得不够用了。直觉可 以告诉我们影响的方向:储蓄的增加、劳动力的增加和技术创新可以加快增长。 模型还揭示了这些影响的形状和形式。正如我们所料,储蓄具有线性效应。从长 远来看,劳动力的增加也是如此,即便模型假设短期收益递减。创新的增加还会 产生乘数效应,我们对这种效应取其平方。第一个增长是创新的直接影响,产出 的第二次增长则来自资本的增加。
在模型的帮助下,这些见解会变得很清晰。如果没有模型,我们通常可以推 断出上升和下降的内容,但缺乏对功能关系形式的理解。我们会倾向于以线性的 方式来思考,从而得出日本的经济将很快成为世界霸主的结论。利用模型,我们 可以更好地思考非线性效应。也就是说,本章中介绍的凹函数型和凸函数,在非 线性模型的巨大海洋中,只不过是沧海一粟。如果我们希望提高在复杂世界中推 理、解释和行动的能力,就需要更深入地研究非线性现象。


09课与价值和权力有关的模型
你的价值不在于你知道了什么,而在于你能够分享什么。
罗睿兰(Ginni Rometty)
在本章中,我们讨论对个体行为者的价值和权力进行量化分析的模型。有些 情况很容易处理。当一个群体的总产出等于每个成员个人贡献的总和时,每个人 的价值就等于自己的贡献。但是,当集体产出不能分解为单独的组成部分时,例 如当一组计算机程序员编写软件程序时,或者当一群创业企业家提出了新技术的 某种创造性用途时,要分清每个人的贡献就会很困难。在美国,将权力授予政党 时也会出现类似的问题:一方政党控制的议座数量与权力相关,但是这种相关并 不是完美的相关。
在本章中,我们定义了度量价值和权力的两个标准。第一个标准是“最后上 车者价值”(last-on-the-bus value,简 称LOTB), 它等于一位行动者在团队已经形 成的情况下加入团队时的边际贡献。第二个标准是夏普利值(Shapley value),它 等于行动者遍历所有可能的加入团队的序列,加入团队时的边际贡献平均值。例 如,在一个由三个人组成的团队中,要求出一位行动者的夏普利值,先要求出他 以第一、第二、第三位加入者的身份加入时的边际贡献,再计算平均值。我们是 在合作博弈模型的框架下定义这些度量标准的。合作博弈模型由一组博弈参与者 和一个价值函数组成。这个价值函数为每个可能的博弈参与者子集分配一个集体 收 益 。
本章由四个部分组成。在第一部分中,我们定义了合作博弈、“最后上车者  价值”和夏普利值,并给出了一些实例。在第二部分中,我们讲述了夏普利值的  公理基础,并证明它是唯一能满足四个条件的度量标准。其中有两个条件分别是: 对永远不能为团体增加价值的博弈参与者必须赋予零值,所有博弈参与者的价值 总和必定等于博弈的总价值。在第三部分中,我们将夏普利值概念应用于执行某 个创造性任务的团队。在这里,创造性的团队指每个成员都有新想法的团队。我 们将阐明在这种情况下,夏普利值是怎样产生直观的价值衡量标准的。在第四部 分中,我们考虑如何将夏普利值方法应用于投票博弈这个特殊情况。我们利用这 个概念区分了投票权与投票百分比,结果发现两者之间并不总是一致的。某个拥


20%席位的政党,在这一次投票中可能完全没有权力,但是在另一次投票中却 可能得到1/3的总权力。
合作博弈
合作博弈由一组博弈参与者和一个价值函数组成。这个价值函数为博弈参与 者的每个可能的子集(通常称为联盟)分配一个值。合作博弈的目标是刻画集体 工作和联合项目。在合作博弈模型中,假设人们都会参与,以便我们可以专注于 讨论如何为他们的参与分配价值。
合作博弈
合作博弈由N
个博弈参与者和一个价值函数组成。这个价值函数为任何子集S SA 分配一个值I(S
)赋值。这些子集称为联盟。没有博弈参与者组成的联盟的价
值等于零,即 V(0)=0  。所有A 个博弈参与者的价值L(
A) 等于博弈的总价值。
在合作博弈中,一个博弈参与者的“最后上车者价值”等于当他是最后一个   加入团队的人时,他所能增加的价值。“最后上车者价值”刻画了边际博弈参与   者的价值。如果雇用4个人来搬运一张桌子,假设搬运这张桌子产生的价值为   10,并且要4个人一起动手才搬得动,那么每个人的“最后上车者价”均为   10。如果只需要三个人就可以搬动这张桌子,那么每个人的“最后上车者价值” 均为零。这里需要注意的是,“最后上车者价值”不一定是博弈的总价值相加。
特别是,如果价值函数表现出了规模收益递减的性质,那么“最后上车者价值” 的总和将小于博弈的总价值;如果增加的价值表现出了规模收益递增的性质,那  “最后上车者价值”的总和将超过博弈的总价值。
一个博弈参与者的夏普利值,等于他在所有可能加入的联盟的次序下对联盟 边际贡献的平均值。换句话说,我们要在想象中按顺序将博弈参与者加入联盟中


并计算每个博弈参与者为每个序列增加的价值。例如,考虑一家同时在西班牙和 法国运营的小公司,它至少需要一位会讲法语的人和一位会讲西班牙语的人开展 日常业务。假设该公司有三名员工:一名会讲西班牙语的人、一名会讲法语的人 和一名既会讲法语又会讲西班牙语的双语人士。
现在假设,这个合作博弈为任何一位能讲法语和西班牙语的人分配了1200 美元的价值。如果该公司能够运营,这个金额就等于公司每日的收入。如果任何 两名员工来上班了,那么第三名员工就不是必需的。因此,在这个例子中,每个 博弈参与者的“最后上车者价值”为零。
为了计算只会讲法语的那个人的夏普利值,我们要考虑这三个人来上班的所 6种可能的次序。在这6种次序中,只有在一种情况下,也就是只会讲西班牙 语的人第一个到,然后这个只会讲法语的人第二个到时,这个只会讲法语的人才 增加了价值。因此,这个只会讲法语的人的夏普利值就等于1/6乘以1200美元, 200美元。与此类似,只会讲西班牙语的那个人只有当他第二个到且只会讲法 语的那个人第一个到时,才能增加价值,因此他的夏普利值也等于200美元。而 在其他四个次序中,既会讲法语又会讲西班牙语的人第一个到或者第二个到都能 增加价值,因此,他的夏普利值等于800美元。所有这三个人的夏普利值总和等  1200美元,也就是这个博弈的总价值。
夏普利值
给定合作博弈{N,V},   夏普利值的定义如下:
N 个博弈参与者加入联盟的次序有N!  个,让0代表这所有N!  个次序。 对于0中的每一个次序,将博弈参与者i 增加的价值定义为当博弈参与者i 加  入时价值函数发生的变化。博弈参与者i 的夏普利值等于他在0中所有次序上  增加价值的平均值。
在了解了上述基本概念的基础上,现在可以构建一个更加复杂的例子了。想 象一下,在赛艇比赛中,一个团队通常由四名桨手和一名舵手(舵手通常个子较 小,控制划桨节奏和方向)组成。现在想组建一支赛艇队,就需要找到六名赛艇 运动员,也就是合作博弈中的博弈参与者:五名高大强壮的桨手和一名舵手。在


参加比赛的时候,四名桨手和一名舵手上场的团队价值为10;或者由五名桨手 上场,但由于重量过重,整个团队表现不佳,这样的团队价值为2。
为了计算出夏普利值,假设这些博弈参与者以各种可能的顺序加入。如果舵 手以第一、第二、第三或第四位的次序加入,那么他不会增加任何价值;当他以 第五位的次序加入时,他增加的价值为10,这种情况出现的概率为1/6;如果他 以第六位的次序加入,那么他将取代一位桨手,所增加的价值为8。将所有这些 情况平均,可以发现舵手的夏普利值等于3。
而对于任何一个桨手来说,当且仅当他以第五位的次序加入时,才能增加价 值,这种情况发生的概率为1/6。如果舵手没有加入,那么以第五位加入的桨手 所增加的价值为2。如果舵手已经加入,那么以第五位加入的桨手所增加的价值 10。由于舵手最后一位加入的机会是1/5,同时舵手在前四位加入的机会是 4/5,因此可以求出每一个桨手的夏普利值为7/5。
从直观上就可以看出,舵手的价值应该超过单个桨手的价值,同时考虑到桨 手可以在没有舵手的情况下参加比赛(尽管成绩会“很差”),因此舵手的价值应 该比所有桨手的总价值低。有无数种方法都可以在满足上面这两个约束的前提下 分配价值,夏普利值只是给出了其中一个特定的分配方案:给舵手分配3,给所 有桨手分配7。
夏普利值的公理基础
我们现在讲述夏普利值唯一满足的公理,这也就解释了为什么要优先考虑夏  普利值而不是其他。第一,我们是通过对所有可能次序中博弈参与者的边际贡献   来计算夏普利值的,因此任何永远不能增加价值的博弈参与者的夏普利值都为零。 第二,对任何两个相同的博弈参与者,即对每个联盟贡献相同的任两个博弈参与  者,也必须分配给他们相同的夏普利值。第三,由于所有次序的价值总和等于博   弈的总价值,所以夏普利值的总和也必定等于与博弈的总价值。这里需要注意的  是,“最后上车者价值”虽然满足前两个性质,但是却不满足最后一个公理。
在这三个公理的基础上,还可以增加第四个公理——可加性。这个性质要求, 如果合作博弈的价值函数可以分解为两个价值函数,并把每个分解出来的价值函


数分配给一个不同的合作博弈,那么复合博弈中一个参与者的价值应该等于他在 两个分博弈中的价值总和。很容易看出,夏普利值也满足这个性质。不过,这四 个公理唯一刻画了夏普利值这一点其实并不太明显。
证明一种度量唯一满足一组公理,也就为这种度量奠定了坚实的逻辑基础。 如果没有公理基础,或许也可以找到某种直观的度量,但是我们可以认为它是武 断的、似是而非的。上述公理告诉我们,如果选择任何其他度量,就不得不至少 放弃其中一个公理。当然,这并不意味着夏普利值是唯一合理的标准。罗依德 ·夏 普利(Lloyd Sharpley)这位伟大的经济学家和数学家,可能是先写出了这个标准, 然后才构造了这些只有它唯一满足的公理的。当然,谁先谁后其实并不重要。即 便这些公理是用后向方法构造出来的,只要我们接受,就应该采用这种方法。衡 量标准的适当性取决于公理的合理性。就这些公理而言,前三个公理是无可争议 的。第四个公理(可加性)虽然看上去比较复杂,但也是合理的,如果没有这个 公理,博弈参与者就会有很强的动机去合并或分割联盟。
夏普利值的公理基础
夏普利值唯一满足以下公理:
零性:如果博弈参与者为任何联盟增加的价值都等于零,那么该博弈参与 者的价值等于零。
公平性/对称性:如果两个博弈参与者对任何联盟都具有相同的增加价值, 那么这两个博弈参与者具有相同的价值。
完全分配性:博弈参与者价值的总和等于博弈的总价值V(N)。
可加性:给定两个定义在相同博弈参与者集合之上的博弈,它们的价值函 数分别为V,   那么在博弈中, 一个博弈参与者的价值等于该博弈参与者在V 和 的价值的总和。


夏普利值的应用
现在,我们将夏普利值应用在基于替代用途测试 (alternative   uses   test) 的 合作博弈中。在测试中,每个人都必须为一种常见的物品想出一些新的用途,比 如砖块。这种测试的目的是根据人们想出来的用途或用途类别来衡量一个人的创 造力。我们在计算夏普利值的过程中,发现了一个直观的评分规则。
想象一下有三个人参加了某替代用途测试,分别是阿伦、贝蒂和卡洛斯。测 试要求他们想出区块链的替代用途,这是一种分布式记账技术。如图9-1所示, 阿伦和卡洛斯分别提出了6个想法,每个人的创造力得分均为6;贝蒂则提出了 7个想法,因而得到7分。他们这三个人组成的团队的总创造力得分为9,因为 总共有9个不同的想法(不同人提出的想法,有些是重合的)。
为了计算夏普利值,可以写下这个团队能够形成的所有6种可能的排序,而 且只有当某个人为团队提供了独特的想法时才“给分”,然后再对所有6种情况 求平均值。或者,在计算夏普利值的过程中,我们可能已经注意到了,某个人因 某个想法而“得分”的概率等于1除以所有提出了这个想法的人的数量。任何一 个提出了一个他人没有的独特想法的人都可以获得满分。9-1用粗体字来表示 这类想法,例如阿伦提出的用区块链进行艺术交易的想法。
如果两个人提出了同一个想法,那么每个人都有1/2的机会首先加入该团队。 同样,如果所有三个人都想到了同一个想法,那么每个人都有1/3的机会首先加   入。这就是说,在想到同一个想法的人之间平等地分配得分能够产生夏普利值。  因此,它是分配满足4个公理的值的唯一方法。这些值表明,虽然阿伦不是提出   最多想法的那个人,但是他却增加了最多的价值。


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps906.png阿伦
贝蒂
卡洛斯
数据
数据
数据
医院
医院
医院
法律
法律
法律
监管
密钥
密钥
艺术
监管
刑罚
科学
刑罚 审计
审计
创造力得分=6
创造力得分=7
创造力得分=6
夏普利值=3.5
夏普利值=3
总创造力得分=9
夏普利值=2.5
9-1 在替代用途测试中应用夏普利值
夏普利- 舒比克权力指数
接下来,我们将夏普利值应用于一类投票博弈。在这种投票博弈中,每个博 弈参与者(代表某个政党或官员)控制着固定数量的席位或投票权,而且要采取 行动,就必须获得多数席位或支持票。在投票博弈中,夏普利值通常被称为夏普 利 - 权 力 指 (Shapley-Shubik   index   of   power)。
通过对这个指数的计算,我们发现一个博弈参与者(政党)控制席位(投票 )的百分比与其权力之间并不存在直接的转换。
为了计算权力指数,考虑各个政党加入联盟所有可能的次序。如果某个政党 加入了一个联盟并获得绝对多数,那么这个政党所增加的价值等于1。在这种情 况下,我们就称这个政党是“关键的”。否则,这个政党不会增加任何价值。
假设议会中共有101个席位,分别由4个政党掌握:A 党控制了40个席位、 B 党控制了39个席位、C 党 D 党则各控制了11个席位。在这个例子中,如果 A党首先或最后加入,那么A 党就不会成为“关键的”政党。但是,如果A党在 第二位或第三位加入,就肯定会成为“关键”政党。因此,A 党的权力指数为 1/2。如果B党在第一位或最后一位加入,那么它就不能增加任何价值;如果B   党在第二位加入,那么当且仅当A 党已经在第一位加入时,B 党才可能成为“关


键的”政党。如果B党在第三位加入,那么它要想成为“关键的”政党,唯一的  机会是A 党在最后一位加入。这两个事件组合发生的概率分别为1/12。因此,B  党的权力指数等于1/6。C 党 和D 党也可以在两个与B 党类似的事件组合中成为  “关键的”政党。如果C 党 D 党在第一位加入,那么不可能成为“关键的” 政党。如果A 党在第一位加入,那么只要C 党 或D 党在第二位加入,就能成为  “关键的”政党。如果A 党在最后一位加入,那么只要C 党 或D 党在第三位加  入,也能成为“关键的”政党。因此,CD 党的权力指数也分别为1/6(图  9-2)。
政党
席位数量
权力指数
A
40
1/2
B
39
1/6
0
11
11
1/6 1/6
9-2 席位与权力之间的脱节
这个例子表明,一个政党控制的席位百分比与它实际拥有的权力之间可能存  在着脱节。A 党 B 党控制的席位数量几乎相同,但是A 党的权力却是B 党的三  倍;B党控制的席位虽然比C 党 或D 党多得多,但是所拥有的权力却不比它们大。 与这个例子相似的席位分配在现实世界的议会制度中经常出现。因此,只拥有少 量席位的政党往往可以掌握很大的权力。例如,在以色列议会中共有120个席位。 2014年,利库德集团领导的联盟共有43个席位,反对派联盟则拥有59个席位  (仅略低于多数席位),正统派联盟拥有18个席位,但所有这三方都拥有相同的  夏普利-舒比克权力指数。当然,相同的权力指数并不意味着正统派联盟在现实  世界中确实拥有完全相同的权力,不要忘记,所有模型都是错的。但是它确实表  明,正统派联盟的影响力超过了他们的席位数所占的百分比。
20世纪60年代中期,纽约拿骚县(Nassau County)监事会出现过惊人的席


位与权力脱节的情况。该监事会由6名成员组成,每个成员控制的选票与该成员 所代表的地区的人口成比例(图9-3)。投票事项要多数通过,需要得到115张票 中的58张或以上。在三个最大的地区中,任何两个地区合作都可以稳占多数。 因而另外三个地区的投票永远不可能是决定性的,这三个地区没有权力。例如, 虽然北亨普斯特德(North Hempstead)地区拥有21票,超过了总票数的18%,  但是并不能影响投票结果。
地区
票数
权力指数
亨普斯特德1区(Hempstead 1)
31
1/3
亨普斯特德2区(Hempstead 2)
31
1/3
奥伊斯特贝(Oyster Bay)
28
1/3
北亨普斯特德
21
0
长滩(Long Beach)
2
0
格伦科夫(Glen Cove)
2
0
9-3 拿骚县席位与权力脱节
理论上说,夏普利-舒比克权力指数适用于任何席位或投票权分配不均等的 情况,比如欧盟或美国的选举团,但这并不意味着它在所有情况下都是适当的方 法。就美国选举团制度而言,50个州可以有50!(3×1064)的不同次序。
当然,考虑到选民偏好的区域相关性,并非所有联盟都是可能的。密西西比 州几乎不太可能与纽约州组成联盟。为了提供更有效的权力衡量标准,我们需要 将某些联盟置于更优先于其他联盟的位置,或将某些联盟排除出去。在后面的章 节中,我们描述了允许排除某些联盟的迈尔森值 (Myerson  Value)。
小结
个体的夏普利值与为联盟增加的平均贡献相对应。它是衡量增加价值的一种


标准。在投票博弈中,也可以将夏普利值解释为权力的一种度量。不过,夏普利 值可能并不一定总是最好的衡量标准。假设威胁是可信的,那么在一个群体已经 形成的情况下,个人的“最后上车者价值”可能是衡量权力的一个更好标准,因 为它能够度量每个人通过威胁离开可以攫取多大利益。
在这些情况下,联盟会希望减少“最后上车者价值”。通过扩大联盟规模,
可以创建出一个具有很高的总价值、同时“最后上车者价值”又足够低的联盟。  不断加入新成员,会使现有成员变成“可以放弃的”,从而使“最后上车者价趋向于零。我们在实践中确实可以观察到这一点。例如,雇主会通过雇用多余的   工人来削弱工人的权力,制造业企业会向多个相互竞争的供应商采购中间产品,
政府会与多个承包商签订合同,等等。
同样的直觉也可以用于解释美国立法机构中出现的联盟。国会游说者和政党 领导人希望通过法案(价值的一种结果),同时又试图限制个别众议员和参议员 的权力 。
如果游说者努力争取到了通过法案所必需的最低数量的众议员和参议员的 支持,那么每一个众议员和参议员都会拥有很大的“最后上车者价值”。任何一 个人都可以通过改变自己的投票来推翻那个法案。在这种情况下,游说者可以通 过收买绝大多数众议员和参议员来降低他们的“最后上车者价值”。同样的逻辑 也意味着,只拥有微弱多数的政党可能是非常难以驾驭的,因为每一个成员都拥 有很大的“最后上车者价值”。而在某个政党拥有了绝大多数席位(投票权)的 时候,没有任何众议员或参议员能够拥有太大的权力。
将视野放大到现代互联网世界,我们发现应用“最后上车者价值”和夏普利 值的概念来思考权力问题非常有用。无论是个人、组织、企业,还是政府,抑或 是恐怖组织的权力,都部分取决于偏离合作制度可以造成的损害的程度,也就是 “最后上车者价值”。一个技术高超的计算机黑客,由于拥有摧毁大量财富的力 量,因而拥有巨大的权力。即便黑客完全不能给社会创造价值,这个结论依然成 立。
在考虑跨国企业或其他跨国组织的价值时,夏普利值可能是一个更好的衡量 标准。在这些情况下,退出本身就是一个不可行的选择。能源公司必须参与能源 生产博弈、能源分配博弈、房地产博弈、环境博弈、就业博弈等。这样的公司的


总增加值等于各个领域的增加值之和。
通过合作博弈论的视角来思考权力和价值,可以得出很多深刻有力的洞见。 合作博弈还指出了我们下一步应该关注的地方。在政界和商界,并不是所有联盟  都是合理的。不过目前的模型假设它们合理。更丰富的模型需要考虑到世界的连  通性。咨询公司和金融公司要从科技公司购买软件,科技公司和咨询公司通过金  融公司进行投资和借贷,金融公司和科技公司要聘请咨询师。在这些网络中,每  个参与者都能增加价值并发挥影响力。要计算出这种环境下的权力,我们需要网 络模型。


10课网络模型
网络理论是科学的一个完整分支。但是就过去的二三十年来说,它相对较新。 我们还没有机会把所有这些理论从大学中拿出来,然后问自己:“我们应该建立  什么样的网络?应该将网络用于什么样的目的?”
安妮-玛丽 ·斯劳特 (Anne-Marie   Slaughter)
本章将介绍网络模型。对网络进行全面研究,需要写好多本书。因此,我们 在这里只专注于一个更加温和的目标:只希望了解有关网络的基础知识,能够给 网络的各个组成部分命名,并讨论它们对于建模的重要性。我们得出的答案是, 网络几乎总是很重要。我们构建的任何模型,无论是市场模型、传染病传播模型, 还是信息传播模型,都可以通过将参与者嵌入网络中而变得更加丰富。
网络无处不在。人们经常会谈起贸易网络、恐怖主义网络,以及志愿者网络。 不同物种会组织成食物链,那是一种网络形式。企业会建立供应链,那也是一种  网络。如前所述,将金融系统视为一个支付承诺的网络会很有效。网络对于理解  社会关系一直都很重要。在人类历史的大部分时间里,社交网络受到地理限制, 难以扩展。由于技术的进步,许多社会互动和经济交易现在都是通过虚拟网络进  行的,并且可以使用模型进行分析。
本章内容仍然遵循前面用来讨论分布时所用的模式,即结构一逻辑—功能。 我们首先用一系列统计量来表征网络结构,包括:度、路径长度、聚类系数和社 区结构等。然后我们讨论了一些常见的网络类别:随机网络、中心辐射网络、地 理网络、小世界网络和幂律网络。之后探索网络形成的逻辑,我们构建了一些微 观层面的流程,生成所能观察到的网络结构。最后讨论功能,也就是网络结构为 什么是一个重要的问题。
本章主要关注网络结构的五个重要含义。我们首先从友谊悖论入手,在对它 进行了全面分析之后,描述六度分隔理论和弱关系属性的强度。最后讨论了网络 在节点或出现故障时的鲁棒性,解决了网络上的信息集结问题。本章最后还讨论 了网络会如何影响模型结果。


网络的结构
网络由节点以及连接节点的边(edge)  组成。由边连接起来的节点互为邻居。 如果沿着边,可以从任何一个节点到达任何其他节点,就将这样的网络称为连接 的网络。网络可以用图形来表示,也可以用边的列表表示,或者也可以用由0  1组成的矩阵表示,其中第A 行、第B 列的一个数字表示节点A 和节点B 之  间的边。虽然人们更喜欢用图形来表示网络,但是其实用列表和矩阵来表示网络, 才更适用于计算网络统计数据。
网络中的边可以是定向的,也就是说,可以从一个节点指向另一个节点。在 信息网络中,一条有向边表示一个人从另一个人获取信息。在生态系统网络中, 从红尾鹰到灰松鼠的一条有向边表示红尾鹰吃松鼠。边也可以是非定向的;连接 两个朋友的边就是非定向的。在非定向网络中,一个节点的度(degree)    等于连 接到它的边的数量。
网络以一组网络统计数据为特征。对于每个统计量,我们可以计算网络平均 值和所有节点的分布。例如,友谊网络的平均程度告诉我们平均每个人有多少个 朋友。度分布(degree distribution)告诉我们某些节点是否比其他节点连接得更 多。社交网络的分布比万维网、互联网和引文网络更加平等,后面这几类网络都 有很长的尾巴。
路径长度,指两个节点之间的最小距离,与度成反比。当增加边时,就缩短 了节点之间的平均距离。在航空公司的航线网络中,路径长度对应于人们从航线 网络中的某个城市到另一个城市所需的航班数量。如果要在两家航空公司之间做 出选择,在其他所有条件(即价格)都相同的情况下,旅客会更喜欢平均路径长 度更低的那家航空公司。平均路径长度也与信息丢失相关。经过多人中转传递的 信息比直接在两个人之间传递的信息更容易遭到扭曲。最短路径上的节点在网络 中起着关键作用。如果信息是通过最短路径传递的,那么就必定会经过最短路径 上的节点。节点的介数得分(betweenness score)等于通过该节点的最小路径的 百分比。在社交网络中,介数得分高的人掌握更多信息并且拥有更多权力。
最后一个统计量是聚类系数,它等于节点的邻居节点对当中,同时彼此也互 为邻居节点对所占的比例。例如, 一个人有10个朋友,这些朋友可以组成45 个对。如果在这45个对当中,有15个对本身也是朋友,那么这个人的聚类系数


就等于1/3。如果所有这45对都是朋友,那么这个人的聚类系数就等于1,这也 是所有可能值当中最大的一个。整个网络的聚类系数等于各个节点聚类系数的平 均 值 。
网络统计量
度:节点的邻居数(即边数)。
路径长度:从一个节点到另一个节点必须遍历的最小边数。
介数:经过某个节点连接两个其他节点的最短路径数量。
聚类系数:一个节点的邻居对当中,同样也由一条边连接的邻居对所占的 百
10-1显示了一个辐射网络和一个地理网络,它们各具有13个节点。在这 个辐射网络中,中心节点的度为12,所有其他节点的度均为1,因此平均度小于 2。这种度分布是“不平等”的。中心节点与其他每个节点的距离均为1。所有 其他节点与中心节点的距离为1,与中心节点之外的任何一个节点的距离为2。 因此,这个辐射网络的平均路径长度也小于2。中心节点位于任何两个其他节点 之间的最小路径上,于是介数得分为1。任何一个分支节点都不位于连接其他节 点的任何最小路径上,因此它们的介数得分均为0。最后,在这个辐射网络中, 连接到某个节点的任何节点都不彼此连接。因此,网络的聚类系数为0。
公共项目决策问题
接下来,我们比较一下用来决定启动建设一个公共项目的两种机制,如新学


校、新高速公路或新体育场。我们假设,新项目会给每个人带来一定价值,同时 也要每个人付出一定成本。
公共项目决策问题
V1,V2,…,VN       N 个人赋予一个公共项目的货币价值,并假设该
公共项目的成本为C 。 那么当且仅当C <V1+V2+…+V  N 时,这个项目才会启 动。
我 们 首 先 考 虑 多 数 投 票 平 均 分 担 机 (majority-vote equal sharing mechanism)。在这个机制中,个人投票决定是否启动某个公共项目。如果多数 人投了赞成票,那么项目启动,而且成本由所有人平均分摊。
多数投票平均分担机制
个人投票表示赞成或反对启动某个公共项目。如果多数人投票支持该项目, 那么该项目启动,并且每个人都承担C/N  的成本。如下面的例子所表明的,这 种机制可能会违背效率条件和自愿参与原则。
从空间投票模型中可以看出,项目是否启动取决于中间选民的偏好。在我们  现在讨论的这种情况下,中间选民就是指公共项目对他的价值位于中位数的人。 根据定义,这个机制满足预算平衡条件和激励相容要求。但是,这个机制不一定  能够满足效率条件和自愿参与原则。
假设有三个人的价值分别是0美元、120美元和150美元,而公共项目的成 本是300美元。有效的结果是不应启动该项目,因为300美元的费用超过了个人 价值的总和。然而,考虑到成本将平分,每个人将投票决定是否以每人100美元 的成本进行该项目。因此,这三个人中有两个将投票支持这个项目,而且这个项 目将会启动,这是一个低效的结果。此外,价值为0美元的个人获得-100美元的 回报,因此这个例子也违反了自愿参与原则。
接下来讨论公共项目决定的第二种机制,枢轴机制。在这种机制下,每个人 都提交自己对公共项目的估值,如果估值总和超过了项目成本,就启动该公共项 目,否则就不启动。同时,对某个人征税的金额等于项目成本减去所有其他个人


估值的总和。如果其他个人的估值已经超过项目成本,这个人就不用支付任何费 用。
枢轴机制
个人i对一个成本为C 的项目提交自己的估值
V;
。如果所有个人的值的总和超过了成本,那 么就启动这个公共项目,即:
V=V₁+V₂+…+≥C 如果 C-(V-V)<0
,那么个人i  不用交税;如若不然,个人i


就要缴纳数额为
C-(V-V;)


的税收。这个机制是激励相容的
(V;=V;)
有效率的,而且个人行为也是符合理性。它还实现了占优策略的有效结果。 但是,正如下面的例子所表明的,这个机制可能会违背预算平衡条件。
实例:(V1,V2,V3)=(60,120,150),C=300。
这个公共项目本应启动,因为300<60+120+150。个体1要缴纳的税收为30, 即总成本减去其他人估值之和的结果(300-270);个体2要缴纳的税款为90;


个体3要缴纳的税款为120。由此得到的总税收为240,低于项目的成本。
这个机制满足激励兼容条件,原理与第二价格拍卖类似。现再举例说明。假 设一个公共项目的成本为300美元,而且某个人对这个公共项目的价值估计为 80美元。有三种情况需要考虑。如果其他人的估值的总和低于220美元,那么 这个人没有动机提交超过80美元的估价,因为到时必须由他来支付该金额。如 果在另一个极端上,其他人的估值总和超过了300美元,那么这个人什么都不用 付出,他可以给出任何估价。但是,如果其他人的估值总和介于220美元到300 美元之间,且这个人提交了80美元的估价,那么他要承担的成本将等于300 元减去那个总和的差,并且这个项目将启动(这是一个有效率的结果)。他将不 会提交70美元的估值,因为其他人的估值总和可能是225美元,那么他提交的 这个低估值将使这个公共项目无法启动。而如果他提交的估值为80美元,那么 他所要承担的成本仅为75美元。
由于枢轴机制满足激励兼容性,因此它也满足有效性。只有在估值总和超过 了成本的情况下,才能实施公共项目。需要注意的是,因为报告一个人的真实价 值是一个占优策略,所以有效结果也是占优策略可实施的结果。此外,由于每个 人最多支付项目对自己的价值,这个机制也满足自愿参与原则。但是,这个机制 不一定会得到预算平衡的结果,事实上,这个机制只是在极少数情况下才能做到 这一点。
对于决定公共项目的决策问题,任何机制都无法满足我们可能想要达到的所  有标准。事实上,当用模型证明了这一点之后,就可以省下很多时间,不会再无  谓地去尝试一些不可能实现的事情。正如工程师不会浪费时间去建造永动机一样, 机制设计专家也不会去尝试为公共项目决策问题寻找一个满足激励相容、个体理  性、有效率且预算平衡的机制。事实上根本不存在这样的机制。
枢轴机制已经相当不错了,但是它不能满足预算平衡条件。而且,这个缺陷 无法通过提高人们为项目缴纳的税额来解决,因为那样做会使这个机制不再是激 励兼容的或个体理性的。那样的话,个体会有动机去撒谎,有些人可能会被要求 为项目贡献出超过其价值的东西。一种可能的解决方法是通过其他途径来增加税 收,以便为项目提供资金池。当然,那种途径本身也会产生激励问题,但那不是 直接的。


更好的解决方法是同时拥有其他更多的资金来源。例如,一所大学,如果有 规模很大的校级基金,同时组成大学的各个学院又各自都有独立的基金,就可以 用这种机制来决定是否建立一个新的学生会。大学每个学院的院长都有动机真实 地揭示学生会对自己学院的价值,同时大学校长则可以用校级基金来弥补可能资 金的不足。由拥有预算权限的分支机构组成的企业也可以考虑这样做。例如,当 这样的企业在决定要不要切换到一个基于云的系统时,就可以采用枢轴机制来决 策,而且更高的管理层可以解决任何可能出现的缺陷。
小结
作为一个框架,机制设计理论使我们能够依据各种标准对不同的机制进行比 较。机制设计能不能产生有效率的结果?人们会说实话吗?人们会自愿参加吗? 某个机制是会产生盈余、还是会导致损失?利用机制设计框架,我们还可以推导 出可能的结果。当然,一般来说,我们无法在同一个机制下满足所有想要达到的 标准。在进行机制设计的时候,建模者摇身一变,成了工程师。我们使用模型来 尝试构建可行的解决方案。
随着技术的进步和变化,机制也会发生变化。以谷歌等互联网搜索网站所使  用的广告拍卖算法为例。最初,谷歌是按固定价格收费的,每千次点击收取多少  费用。随着信息技术的发展,谷歌能够同时进行数百万次拍卖,在这种情况下,  固定收费就不再是一种最优机制了。通过引入拍卖方法,谷歌不仅增加了收入,  并且更有效地分配了广告空间。谷歌现在使用的是一种广义的第二价格拍卖。每  个竞买人都会提交自己对每次点击的出价,目的是通过特定的关键词进行推广,  例如,治疗一种因接触石棉而导致的癌症的药物,最高出价者得到第一个广告位, 第二高出价者得到第二个广告位,第三高出价者得到第三个广告位……以此类推。 这些竞买人付出的价格则通过第二价格拍卖来确定。
假设前四个最高出价分别是每次点击10美元、7美元、6美元和3美元。那 ,第三高出价者获得第三个广告位,同时支付的价格等于第四高出价者的出价, 3美元;第二高出价者支付的价格则等于第三高出价者的出价,即6美元;最 高出价者则要付出7美元的价格。
在了解到了广告商的估值后,谷歌还可以设定保留价格(底价)并收取更高


的费用。但是,如果竞买人也知悉了谷歌的这些计划,这个结果就不一定是有效 的。认为自己有可能成为高出价者的竞买人不希望谷歌知道他的估值。同时设定 底价也会损害谷歌的声誉,而且,底价也会被视为一种非合作行为,因为谷歌无 法证明自己有权对网页上的位置拥有保留价值。除非卖出去了,否则关键字搜索 上的顶级广告位对谷歌本身来说几乎没有任何价值。而对于销售古董家具或二手 车的人来说,情况却并非如此。这些物品对卖家是有价值的,因此设定一个底价 是合理的。而且,谷歌是一个重视声誉的企业,设定底价可能会激怒广告客户。
总而言之,机制设计框架可以帮助我们设计制度,也能够指导我们在不同的 制度之间进行选择。有了这个框架,就可以推断出什么是可行的、什么是不可能 实现的。也许,我们很难设计出这样一种机制:既能够产生有效率的结果,又能 够引导人说真话,同时还满足预算平衡条件。如果确实是这样,我们就不应该浪 费时间和精力去设计这样的机制,而应该将更大的时间精力投入到如何实现(例 )效率和平衡预算之间的权衡上。
我们还可以利用机制设计框架来探索一些更宏大的问题,例如,我们在什么 情况下应该利用市场、在什么条件下应该投票、在什么时候应该依靠等级体系, 在什么环境中应该转而采用自愿的集体行动来分配资源或采取行动。
市场、民主、等级制度和集体行动这四个机制中的每一个,都只在某些环境 下运行良好,而在另外一些环境下则表现不佳。例如,我们不会用投票来决定人 们购买什么商品,也不想让市场去决定谁来当美国总统。
在社会和组织内部,我们都观察到了这些制度形式。以大学为例。大学要面 对一个教职市场,同时又要通过民主程序来雇用教师;要通过等级体系分配课程 作业,并运用集体原则制定战略、计划。非营利机构、以获取利润为目标的企业, 以及政府机构,也都需要混合运用各种不同的制度形式。利用机制设计工具箱, 我们可以比较每种制度的运行方式,然后再把各种任务更好地适配各种制度。


2 5 课 信 号 模 型
诚实的人不会隐瞒自己的所作所为。
艾米莉 · 勃朗特(Emily Brontě)
在本章中,我们研究信号模型(signaling     model)。这类模型确定了人们发送 “昂贵”的信号以揭示信息或类型的条件。 一个人可以通过购买昂贵的艺术品表 明自己的财力,通过攀登很高的山峰来展现自己的体力,或者通过在社交媒体上 发声支持受难者来表达自己的同情心。利用发送信号来揭示自己的身份一直都是 人性的一个部分。
早在19世纪,经济学家托尔斯坦 · 凡勃仑(Thorstein Veblen)就提出了“炫 耀性消费”的概念,大大增进了我们对信号的理解。凡勃仑观察到,人们经常选 择通过炫耀性消费来表明他们的社会地位,而不仅仅会购买那些能够带来直接享 受或效用的商品。如果活到今天,当凡勃仑看到现代人的炫耀性消费行为,他肯 定将会心一笑:例如迈巴赫敞篷车,每辆售价将150万美元;10年陈酿的克 丽丝特尔酒(Cristal),每瓶售价超过1500美元;徕卡相机,每台售价数万美元……
炫耀性消费由来已久,部分原因在于人类很在意别人对自己的看法。这种消 费行为之所以经久不衰,还因为消费可以起到信号的作用。
我们不能完全看清某个人,所以我们依赖于他们穿的衣服、开的汽车、喝的 酒来推断他们的“隐藏属性”。如果我们看到一个人开着昂贵的汽车,那么大体 上可以推断出他拥有一定财富。 一个人向慈善组织大笔捐款,表明他是一个慷慨 大方的人,因为没有自私的人会做出这样的行为。 一个人在社交媒体上宣布自己 获得了理论生物学博士学位,那是传达关于他的智力水平和所从事职业的信号。 几乎所有行动都在一定程度上传递了某种信号。当政客们投票决定是对某个国家 宣战、还是实施制裁时,他们就发出了关于自己意识形态立场的信号。某些有长 期目标的政客(例如打算日后竞选总统)可能会试图通过投票发出最有利于自己 未来政治前途的信号,因而不一定会给最有利的政策投赞成票。
在本章中,我们首先研究离散信号模型。在这种模型中,个体可以选择发送 信号或不发送信号;同时,不同的个体发送信号的成本也不相同。要让信号发挥


作用,它们就必须是昂贵的(有成本的)或可验证的。这将是本章的一个重点内 容。例如,一个雇主打算从新入职员工中选一些人夏天到西班牙巴塞罗那出一趟 “美差”。所有申请的员工都在简历中声称自己会西班牙语。但是,简单地说自 己会说西班牙语只是一个没有成本的信号。为此,雇主可以启动一个“西班牙语 争章活动”,要获得一枚徽章,需要用西班牙语完成一个小时的演示。对于真的 熟练掌握了西班牙语的员工,发出这个信号,也就是用西班牙语完成演示的成本 较低。但是对于那些不懂西班牙语的员工来说,准备长达一个小时的西班牙语演 示的成本却高得令人望而却步。用信号模型的术语来说,这个徽章就将熟练西班 牙语的人与不懂西班牙语的人区分开来了。
接下来,我们简单地介绍一个连续的信号模型。在这个模型中,信号的大小 是可变的。一个夏令营的皮划艇队一般只能有一个领划的皮划艇运动员,人们希 望在这个位置上的是一个耐力非常好的人,那么,怎样才能挑选出这样一个人来 ?营地主管可能会要求两个提出申请的选手连续划皮划10个小时,以便将 皮划艇划到尽可能远的距离上。那两个皮划艇运动员中耐力更强的那个选手可以 划到另一个实力较弱的选手无法企及的距离上,从而让自己脱颖而出。
离散信号模型和连续信号模型都能为我们提供信号什么时候分离、什么时候 不能分离的条件。因此,它们给我们提供了比文字描述更加准确深入的见解。文 字描述能够告诉我们,人、动物、政客和政府发出了什么信号和为什么要发出信 号,但是却不能向我们明确表征信号发出的时间和信号的强弱。这些模型还可以 非常清晰地解释,为什么学生会如此努力地试图证明自己对学院的价值。在本章 的结论中,我们讨论了信号模型的理论贡献及其政策含义,还将讨论生态学、人 类学下的信号模型,以及商业活动中的信号模型应用。
离散信号模型
我们从离散信号模型开始讨论。在这种模型中,人们要决定是否采取某种行 动。你可以买一块昂贵的手表来证明你拥有大量财富,可以通过主修物理学来证 明你智力超群,可以通过横渡英吉利海峡来证明自己身体健康。但是你不能半途 而废:要么发送信号,要么不发送。这个模型假设,存在两种类型的人,强者和 弱者。这两种类型在现实世界中,可以对应于身体健康有资格进入海军陆战队的 年轻人和身体孱弱的人,也可以对应于会两种以上外语的员工和只会本国语言的


员工,等等。
发送信号的成本取决于个体的类型。这里所说的信号,可能是为有可能成为  海军陆战队员的申请人提供的为期一个月的魔鬼训练计划,也可能是求职者用西  班牙语完成的长达一个小时的演示。强健的准海军陆战队员会发现完成训练计划  的成本更低。在模型中,我们假设发送信号的每个人可以平等地分享总收益。对  于这个假设,可以从两个角度加以解释。在某些情况下,某种资源可能会在发送  信号的所有人之间分配。例如,向学校捐赠了1000美元的每个人(捐赠是慷慨  的信号)的名字都会被刻在一面墙上。在另外一些情况下,例如对于准海军陆战  队员和求职者,则可以从发送信号的人的集合中随机挑选一些出来作为“中奖者”。
这个模型支持三种不同的结果:混同(pooling),   所有人都发送相同的信号; 分离 (separating),  每种类型的人各自发送一个独特的信号;部分混同,其中一 些类型区分开来了,其他类型则没有区分开来。
离散信号模型
一个规模为N 的种群由S 个强者类型的个体和W 个弱者类型的个体组成; 这两种类型的个体发送信号的成本分别为c 和 C, c<C。 种群中所有发送信 号的成员平均分配B 的收益(B>0)。 这个模型有三种可能的结果:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps907.jpg
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps908.jpg:两种类型的个体都发送信号。 分 离
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps909.jpg:只有“强者”类型的个体发送信号。 部分混同
:“强者”类型的所有个体和“弱者”类型 的部分个体发送信号。


在这个模型中,我们假设个体在给定其他个体行动的情况下做出最优选择。 也就是说,我们将它视为一个博弈,并求解它的均衡。在混同均衡中,每个人都 发出信号,如果收益很高并且弱者类型的人发送信号的成本较低,就会存在这种 均衡,确切的条件是收益除以人数的商必须超过弱者类型的人的成本。例如,假 设一位捐助者捐赠了100万美元设立了一个奖学金,用于奖励某所高中所有100 名毕业生。假设有50名学生属于强者类型,只需每周学习两小时就能够从高中 毕业,而另外50名学生则属于弱者类型,每周必须花费10小时学习才能完成高 中学业。对于强者类型的学生,我们可以将学习成本估计为2000美元,而对于 弱者类型的学生,学习成本则为5000美元。如果所有100名学生都顺利毕业, 那么每人都可以获得10000美元的奖学金。因此这两种类型的学生都有很强的 动机去学习。
但是,如果假设我们将奖学金总额减少到了20万美元。现在,如果所有100 名学生都顺利毕业,那么每人都只能获得2000美元的奖学金。这样,学习就不 再符合弱者类型学生的自身利益了。而对于强者类型的学生来说,现在每人可以 得到4000美元奖学金了,因此学习仍然是有意义的。但是,这个数额仍然不足 以诱导弱者类型的学生毕业,哪怕只有一个都不可能。在这种情况下,奖学金的 设置导致了分离均衡。
最后,假设奖学金的总额为40万美元。再一次,如果所有100名学生都毕 业,那么弱者类型的每个学生的所能得到的奖学金为4000美元,低于5000美 元。因此,他们不会全都选择学习。但是,如果弱者类型的学生都不学习,那么 强者类型的学生每人将会获得8000美元的奖学金,这个数额对弱者类型的学生 来说也很有吸引力。因此在均衡中,最终将会有30名弱者类型的学生与所50 名强者类型的优秀学生一起毕业。结果是总共有80名学生毕业,每人得到5000 美元的奖学金,这也正是弱者类型的学生的学习成本。我们将这种结果称为部分 混同,因为有部分弱者类型的学生与强者类型的学生混同在了一起。
部分混同均衡比其他两个均衡更加复杂,因为它需要弱者类型的学生实现彼 此之间的某种协调。我们可以假设存在某个过程,弱者类型的学生会与其他人沟 通,告诉别人自己计划采取能够确保毕业的行动。或者也可以假设弱者类型的学 生的努力恰恰达到了这样一个水平:他们能不能毕业完全是随机的,并且该努力 水平会导致30名弱者类型的学生毕业的期望。第二种情况似乎不那么合理。 一 般而言,我们应该将部分混同均衡解释为一个基准,即如果人们试图最优化,会


发生什么。是否能达到部分汇集均衡,可能取决于具体情况,尤其取决于人们是 否可以交流各自预期中的行动。
连续信号模型
在离散信号模型的部分混同均衡中,强者类型的人在有些时候可能会觉得沮 丧。如果他们能够发出足够强烈的信号,就可以完全与弱者类型的人区分开来, 并且获得更高的收益。为了在模型中包含这种可能性,我们可以改变假设并允许 强者类型的人自行选择它们要发送的信号大小。这只需要对模型稍做修改即可。 为此,我们将离散信号的发送成本重新解释为连续信号的每单位发送成本。此外, 我们假设,对于任何固定数量的信号,强者类型的人每单位成本更低一些。
为了在这个新模型中实现分离均衡,强者类型的人必须愿意选择一个对于弱 者类型的人来说成本极高的信号,当然条件是在考虑了收益和成本之后,这个信 号仍然是值得发送出去的。通过模型推导,我们发现至少有一些强者类型是可以 分离的,但不一定是全部。
令人惊讶的是,随着强者类型的群体规模的增大,信号的量级反而会变小。 这种情况之所以会发生,是因为强者类型的人发送信号的好处减少了。成为规模 更大的群体的一部分,能够得到的好处反而会更少。完全分离这个条件意味着, 当强者类型的人数很少,或者强者类型的人发送信号成本要比弱者类型的人低很 多时,分离均衡更有可能实现。
连续信号模型
一个规模为N 的种群由S 个强者类型的个体和W 个弱者类型的个体组成, 两种类型的个体发送信号的单位成本分别为c  和 C(C>c)   发送最大信号的所 有个体分享利益B。 任何大小为
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps910.jpg
的信号都能够将强者类型分离开来。如果CW      cN,那么所有强者类型都 会分离开来。如若不然,就存在部分混同均衡,其中一部分弱者类型的个体也会


发送信号。
这个模型可以解释,为什么昂贵的手表和珠宝能够作为财富的信号。一个人 的房子或汽车也标志着其拥有的财富,但是人们无法随时随身携带房屋和汽车。 衣服也可以发出财富信号,但是却可能无法创造分离。只要花上几百美元,任何 一个人可以穿得像一个拥有大量财富的人。但由于成本很高,手表和珠宝作为财 富信号会更加有效。一个穷人或中产阶级人士买不起售价一万美元的手表。戴这 样的手表,足以证明自己拥有可观的财富。通过发送这样的信号能够获得的好处 可能是,人们会更尊重他,假设人们认为财富在某种程度上与一个人的重要性相 关的话(尽管有人可能会质疑这种推断)。
信号的用途和价值
信号能够把隐藏的属性突显出来。我们的行动标志着我们的健康、财富、智 慧和慷慨。我们的一些行动产生了作为副产品的信号。一个纯粹是因为对长跑有 兴趣而参加马拉松比赛的人,可能会传递出身体健康和做事专注投入的信号,尽 管这可能这不是他的本意。信号模型为解释几乎任何行动提供了另一种视角。但 是,一个人选择参加某种活动、学习掌握某种技能、购买某个商品,到底是完全 出于个人兴趣,还是在发出某种信号呢?我们也许无法分辨。
例如,信号模型为大学文凭的价值提供了另一种解释。关于收入的大量数据 表明,大学毕业生的工资显著高于没有接受过大学教育的人。我们可以推断,较 高的工资源于大学期间获得的技能和知识。同时,相关数据还表明,数学和科学 专业的大学毕业生工资更高。由此可以推断,在这些专业中学到的技能具有更大 的经济价值。然而,如果认真观察一下人们所实际从事的工作,我们可能会发现 很少有人在工作中需要使用微积分。而且,求职者在接受面试时,几乎从来没有 人被问到过余弦函数的导数怎么求、玻意耳定律怎么解释。有鉴于此,我们可以 推断大学学位,特别是科学和数学学位,代表了一个人获取知识能力的信号。毕 业生获得的较高薪酬完全取决于学位的信号价值,而不是毕业生在大学期间所学 到的知识。
可以考虑一下成为一名医生所必须发送出去的信号。医学专业的学生必须通 过物理、有机化学和微积分等课程的考试。但是,医生看病是否使用微积分?医


生在为你诊疗耳朵和鼻子的时候,会先在他的记事本上写出一个微积分方程吗?  当然不是这样。在很大程度上,微积分知识与医生执业可能完全无关,但是它可 能是医生掌握知识体系能力的良好信号。如果真的是这样,那么即便与从事的职 业几乎没有任何直接相关性,通过微积分考试也会成为医生的一个有用的信号。
只要有可能,任何人在构建信号的时候,都更愿意在生成信号的同时也能掌  握有用的技能。例如,事实证明,要成为一名成功的医生,记忆能力是很重要的。  为了传递能够证明记忆能力的信号,面试者可能会要求申请人背出每个国家的首  都和货币。成功地通过这项考核,能够证明申请人确实有很强的记忆能力,但是  所记忆的这些内容对成为一名好医生并无意义。当你觉得自己的肠胃非常不舒服, 匆忙赶到急诊室时,你并不会在乎给你看病的医生是否知道布拉迪斯拉发是斯洛  伐克的首都,你只是希望那个医生对消化系统的各个部分都了如指掌。出于这个  原因,医疗委员会要求医生通过解剖学考试。通过解剖学考试能够证明一个人的  记忆能力,而且记住身体的各个部位也确实是有用的。因此,通过解剖学考试是  一个功能性信号(functional signal)。
小结
信号模型的应用范围非常广泛。如前所述,雄孔雀的美丽尾羽是它“身体健 ”的信号。众所周知,雄孔雀装饰性极强的扇形尾羽几乎没有任何功能性价值, 事实上,这种夸张的尾羽不但无用,而且可能还会给它们带来糟糕的结果。雄孔 雀如果选择发展更强壮的爪子,有用性要高得多。但是,强壮的爪子很难让雌孔 雀在很远的地方就注意到,这一点比尾羽差得太多了,因此尾羽在演化过程中胜 出了。
雄性果蝇的彩色尾部也具有与雄孔雀的尾羽类似的功能,蚱蜢和鸟类的鸣叫 声也是如此。啁啾需要付出可观的能量,只有吃饱了的蚱蜢才可以花时间啁啾而 不用去忙着寻找食物。因此,啁啾声可以起到信号的作用。
在人类社会中,不同的文化会通过不同的行动来表明健康状况。人类学家区 分出了三种形式的昂贵信号:无条件的慷慨(unconditional        generosity),浪费性 的维生方式(wasteful subsistence behavior)、精美的传统手工艺制品。


“夸富宴”是居住在太平洋西北地区的印第安土著居民举行的一种仪式,这 可能是发送这种慷慨信号的最为突出的一个例子。为了庆祝一个事件,比如一个 成员出生或去世时,酋长会送出大量的财富,甚至直接毁坏财富,并对其他酋长 提出挑战,要求他们也做出同样的行为。其他酋长如果做不到,就会失去声望。 将自己的财物赠予他人,还可以说是有利于社会,但是将它们毁坏无疑是极大的 浪费。
事实上,当人们(通常是男性)在预期收益比采集种子或浆果更低时,仍然 坚持远行狩猎时,就已经采取了浪费性的维生方式了。男人这样做是因为他们能 够希望获得额外的尊重。狩猎成功,猎人就发出了说明他力量和勇气的信号,这 在其他环境中也可能很有用。作为一名成功的浆果采集者,能够发送自己拥有良 好的视力和耐心的信号,这些当然也是有用的个人特点,这一点毫无疑问,但是 在很多方面的预测性能不如狩猎技能好。对生活在澳大利亚北部一个群岛上的梅 里亚姆人(Meriam)  的一项研究表明,平均来说,作为海龟猎手的男性居民, 50岁时存活的后代人数是其他同龄男性居民的两倍多。
复杂精美的传统工艺品制作需要付出非常多的时间和资源。当然,这种活动 也可能生产出有用的物品,如地毯。但是,大多数传统工艺品都是没有太大实用 价值的礼仪性物品。 一些人类学家将这类传统工艺品的制作解释为信号的发送。 创作生产这些物品的意义,不依赖于它们能够实现的功能,因这它们具有重要的 文化意义。
很多广告也可以解释为昂贵的信号。例如,购买昂贵的超级碗总决赛的商业 广告位,可以说是在发送关于自己产品的“合法性”信号。因为这意味着企业相 信消费者会非常喜欢自己的产品,从而可以赚回足以覆盖广告成本的利润。想象 一下,假设现在有两家企业分别推出了一款新咖啡机。第一家企业知道自己开发 了一个“伟大”的产品。而第二家企业则知道,尽管自己的工程师付出了最大的 努力,但是这个产品仍然可能会故障频出导致消费者大量投诉。第二家企业预计 将会出现20%的退货率。
每一年,都会有数百万人购买咖啡机。如果不做广告,那么这两家企业可能 会平分市场。假设生产出了更好产品的企业决定投入200万美元来宣传自己产品 的质量。这家企业预计,在广告攻势下,早期购买者都会购买自己的产品,并且 从长远来看,这又会导致更大的销量。这家企业的决策者的脑袋中,可能有一个


波利亚瓮模型。相比之下,生产质量较差产品的另一家企业则不会花钱做这样的 广告,因为它预计自己的产品应该不会非常畅销。花大钱来表明产品的质量,这 种行为有时被称为“烧钱”(burning   money)。就像雄孔雀用尾羽吸引到了潜在 的配偶一样,企业通过“烧钱”吸引了消费者。
在所有这些情况下,发送信号都要付出成本。那些发出信号的人会发现,信 号的成本,会导致他们更大的财富、能力以及慷慨个性被他人识别所能带来的好 处而有所减少。此外,发送信号所耗费的时间和精力也可以被认为是一种机会成 本:如果把这些资源用在其他用途上,可能会产生更大的社会盈余。例如, 一个 年轻人可能会花费数小时去决定穿什么衣服,以便表明自己的“社会意识”;或 者,一个高中生可能会将大量时间和精力投入到某种“非生产性的”活动中去, 因为他相信这样能够提高他被精英大学录取的机会。
为了减少发送信号的社会成本,我们应努力使信号尽可能有效地发挥作用。 例如,最好是让年轻人通过参加团体性的运动来证明自己身体健康和勇敢,通过 这种运动,他们能够学会体育精神和尊重集体利益,而不要让他们冒着生命危险 从飞驰的摩托车上跳下以证明自己的勇敢。最好是要求医生记住人体解剖图谱, 而不是考他们记得多少句《魔戒》的精灵语。
尽可能地多尝试吧。浪费性的信号肯定会继续存在。我们的挑战是利用模型, 特别是机制设计工具,来构建制度和协议,以保证发送出去的信号确实携带了充 分的信息。


26课学习模型
一个人可以养成的最重要的习惯就是对继续学习的渴望。 约翰 · 杜威(John Dewey)
本章研究个体学习模型和社会学习模型,我们会在两种情况下应用它们。第 一种情况,如何学会在一个备选方案集合上做出最优选择。在这种情况下,个体 学习和社会学习将会汇聚到最优选择上,而学习规则的不同只能影响收敛速度。 第二种情况,如何在博弈中应用学习规则来采取适当的行动。在博弈中,某个行 动的收益取决于本人和其他博弈参与者的行动。在这两种情况下,学习规则都更 有利于规避风险的均衡结果而非有效率的均衡结果。我们还发现,个体学习并不 一定会产生与社会学习相同的结果,而且任何一种学习都不可能在所有环境下都 比另一种学习表现得更好。
这些发现为我们的主张——采用多模型方法来表征行为,提供了有力的支持。 学习模型介于理性选择模型与基于规则的模型之间。理性选择模型假设人们会审  慎考虑所处的环境和要完成的博弈,然后采取最优行动;基于规则的模型则直接  根据规则来指定行动。学习模型假设人们会遵循规则,但是,正是这些规则使行  为能够发生改变。在某些情况下,行为会趋向最优行为。在这些情况下,学习模  型可以用来证明假设人们会采取最优行动的合理性。但是,学习模型也不一定会  收敛到均衡,它们也可能生成循环或复杂的动态。而且,如果学习模型确实收敛  了,它们可能会有比其他模型更多的均衡可以选择。
本章的内容安排如下。我们首先描述强化学习模型,并将这种模型应用于如 何选择最优备选方案的问题。强化学习模型通过更高的奖励来强化行动。随着时 间的推移,学习者会学会只采取最优行动。这是一个基准模型,非常适合研究学 习模型。它与实验数据也拟合得相当好,而且不仅仅适用于人类。海蛄蝓、鸽子 和老鼠,都会强化成功的行动。相比之下,强化学习模型也许更适用于海蝓, 它只有不到2万个神经元,而不那么适用于拥有超过850亿个神经元的人类。如 此巨大的脑容量使人类能够在学习时考虑反事实,而这种现象是强化学习模型无 法考虑的。
然后,我们介绍社会学习模型。在社会学习模型中,个体能够从自己的选择


和他人的选择中学习。个体会复制最流行的或表现高于平均水平的行动或策略。 社会学习假设行为者能够观察或沟通。有些物种是通过所谓的共识主动性  (stigmergy)  来实现社会学习的:成功的行动会留下其他个体可以追随的痕迹或 残留物。例如,当山羊在群山间走动时,会留下被踩踏的草,从而强化了通往水 或食物的路径。
接着,我们将这两种类型的学习模型应用于博弈分析。如前所述,博弈给出 了一个更加复杂的学习环境。同样的行动,可能会在这一个时期内带来高收益, 在下一个时期内却产生低回报。正如人们通常可以预料到的那样,我们发现社会 学习模型和个体学习模型都不一定会收敛到有效的均衡,而且它们也可能会产生 不同的结果。最后,我们讨论了一些更加复杂的学习规则。
个体学习模型:强化学习模型
在强化学习中,个体要根据各个行动的不同权重来选择行动。权重较大的行 动比权重较小的行动更经常被选中。分配给某个行动的权重取决于这个个体在过 去采取这个行动时所获得的奖励(收益)。这种高回报收益的强化可以导致个体 选择更好的行动。在这里,我们要探讨的问题是,强化学习是不是会收敛为只选 择具有最高奖励(收益)的那个备选方案。
乍一看,只选择最有价值的那个备选方案似乎是一个非常容易完成的微不足 道的任务。如果奖励是完全以数值形式来表示的,例如金钱的数额或时间的长短, 那么我们有理由相信人们会选择最好的那个备选方案。在第4章中,我们就是用 这种思路来说明一个在洛杉矶工作的人在选择通勤路线时会选择最短的路线。
但是,如果奖励没有采用数值形式(通常情况下都是如此),人们就必须依 赖自己的记忆。我们在一家韩国餐厅吃过一次午餐,发现那里的泡菜很美味,所 以我们更有可能再次光顾那家餐厅。星期一,我们在跑步前一小时吃了燕麦饼干, 结果发现我们连续跑上10千米都不觉得累。如果星期三,我们又在跑步前吃了 燕麦饼干并且步履如飞,我们就会加大这个行动(跑步前吃点燕麦饼干)的权重, 因为我们已经知道燕麦饼干可以改善跑步成绩。一手资源微信ipip885。
除了人类之外,其他物种也会这样做。早期研究学习的心理学家爱德华 ·桑


代克(Edward Thorndike)设计了一个经典实验。在这个实验中,一只通过拉动 杠杆逃离了箱子的猫得到了奖励。在回到箱子中之后,这只猫在几秒钟内就再次 拉动了杠杆。桑代克得到的数据表明,猫会持续进行尝试。他发现猫(以及人) 在奖励增大时学习得更快。他将这个规律称为效果律 (law of effect)。
桑代克的这个发现是有神经解剖学基础的。重复一个行动会构建出一个神经 通路,而这个神经通路在未来会引发相同的行为。桑代克还发现,更出人意料的 奖励,也就是远远超出过去奖励水平或预期奖励水平的奖励,会使人们学习得更 快,他把这个规律称为惊奇律(law of surprise)。
在强化学习模型中,分配给一个所选备选方案的权重,是根据该备选方案在 何种程度上超过了预期,即“渴望水平”(aspiration level)来进行调整的。这样 的模型,既考虑了效果律,也就是会采取那些能够更经常地产生更高回报的行动, 也考虑了惊奇律,也就是对某个备选方案赋予的权重取决于它所带来的奖励超过 了渴望水平的程度。
强化学习模型
假设一个由N 个备选方案组成的集合{A,B,C,D,…,N}、        与各备
选方案对应的奖励的集合{π (A),π(B),π(C),π(D), …,π(N)},  以及一个严格为正的权重的集合{w(A),w(B),w(C),w(D), … ,
w(N)}。   那么,选择备选方案K 的概率如下:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps911.jpg
在选中了备选方案K 之 后 w(K)    会增大γ×P(K)   ×(π(K)
-A), 其中γ >0等于调整速率(rate of adjustment),A<maxK π (K)  等于 渴望水平。
这里需要注意的是,渴望水平必须设定为低于至少一个备选方案的奖励水平。 否则,被选中的任何一个备选方案在未来再次被选中的可能性会很低,而且所有  备选方案的权重都会收敛到零。不难证明,如果渴望水平低于至少一个备选方案  的奖励水平,那么最终几乎所有权重都会被赋予在最优备选方案上。之所以会发


生这种情况,是因为每选择一次最优备选方案,权重的增加幅度都会最大,从而 给这个备选方案创造了更强的强化。
即便我们将渴望水平设定为低于任何一个备选方案的奖励水平,这种情况也 必定会发生。在将渴望水平设定为低于任何一个备选方案的奖励水平时,每种备 选方案被选中时权重都会有所增加;因此,这个模型可以用来刻画习惯形成:之 所以更频繁地做某件事情,只是因为我们在过去已经做过这件事情。而且,即便 将渴望水平设定得很低,会带来最高水平奖励的那个备选方案也会以最快的速度 增加权重,因此从长远来看,最优备选方案将会胜出。但是,要收敛到最优备选 方案上,所需的时间可能会很长。另外,当我们增加了更多的备选方案时,收敛 时间也会变长。
为了避免这些问题,我们可以构造内在愿望(endogenousaspiration)。为此, 我们修改上面的模型,将渴望水平设置为平均奖励,从而让它随时间推移而不断 调整。想象一下,假设父母试图确定自己的孩子到底是更喜欢苹果薄饼还是香蕉 薄饼。设定选择苹果薄饼的奖励为20,选择香蕉薄饼的奖励为10,并将两个备 选方案的初始权重都设置为50,将调整速率设定为1,并将渴望水平设定为5。 假设父母在第一天准备的是香蕉薄饼,这样香蕉薄饼的权重将增加到55。假设 父母在第二天也准备了香蕉薄饼,那么10的奖励等于新的渴望水平,香蕉薄饼 的权重不会改变。
假设父母在第三天准备了苹果薄饼。这会带来20的奖励,超出了渴望水平。 这会使苹果薄饼的权重增加到60,从而使苹果薄饼变成了更可能被选中的备选  方案。更高的奖励也提高了平均收益,因而也使渴望水平上升到了10以上。因 此,如果父母再一次准备香蕉薄饼,香蕉薄饼的权重就会减少,因为香蕉薄饼的  奖励水平已经低于新的渴望水平了。也就是说,强化学习将收敛为只会选择苹果  薄饼。
我们很容易就可以证明,强化学习将趋向于以概率1选择最优备选方案。这
更新微信ipip515.
个结论意味着,与所有其他备选方案的权重相比,最优备选方案的权重将会变得 任意大。


强化学习的效果
在学会选择最优备选方案模型的框架中,当渴望水平被设定为等于平均获得 的奖励时,强化学习(最终)几乎总是会选择最优备选方案。
社会学习模型:复制者动态
强化学习假设个体是孤立采取行动的。但是,人们也会通过观察他人来学习。 社会学习模型假设个体能够观察到他人的行动和奖励,这可以加快学习速度。现 在学界研究得最充分的社会学习模型是复制者动态 (replicator      dynamics),它假 设采取某个行动的概率取决于该行动的奖励和它的受欢迎程度。我们可以将前者 称为奖励效应(reward effect),把后者称为从众效应(conformity effect)。
在大多数情况下,复制者动态模型都要假定一个无限种群。在这个假设的基 础上,我们可以将所采取的行动描述为各种备选方案之间的概率分布。在标准的 复制者动态模型中,时间是不连续的,所以我们可以通过概率分布的变化来刻画
复制者动态
假设一个由N 个备选方案组成的集合{A,B,C,D,…,N}、         与各备
选方案对应的奖励的集合{π (A),π(B),π(C),π(D),…,π(N)}。
在时间t,   一个种群的行动可以用这N 个备选方案上的概率分布来描述:(Pt
(A),Pt(B),…,Pt(N))。            且这个概率分布随如下复制者动态方程而
变 化 :
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps912.jpg
  t


等于第t  期中的平均奖励。
考虑这样一个例子,父母可以选择准备苹果薄饼、香蕉薄饼和巧克力薄饼。 假设所有的孩子都有同样的偏好,再假设这三种薄饼分别能产生20、10和5的 奖励。如果最初有10%的父母制作苹果薄饼、70%的父母制作香蕉薄饼、20%的 父母制作巧克力薄饼,那么平均奖励等于10。应用复制者动态方程,在第2期 中选择三个备选方案中的每一个的概率如表26-1所示:
26-1 备选方案概率
备选方案
P₁
π/元
P₂
苹果薄饼
20
0.1
20/10
0.2
香蕉薄饼
10
0.7
10/10
0.7
巧克力薄饼
5
0.2
5/10
0.1
复制者动态方程告诉我们,在接下来一段时间里,制作苹果薄饼的父母的比 例将会增大到原来的两倍。这是因为苹果薄饼的奖励等于平均奖励的两倍。而制 作巧克力薄饼的父母将会减少,因为巧克力薄饼的奖励只相当平均水平的一半。 最后,制作香蕉薄饼的父母的比例则不会改变,因为香蕉薄饼的奖励恰恰等于平 均奖励。结合所有这些变化,我们发现平均奖励增大到了11.5。
如前所述,复制者动态同时包括了从众效应(更受欢迎的备选方案更有可能  被复制)以及奖励效应。从长期来看,奖励效应占主导地位,因为高奖励的备选  方案总是会与奖励水平成比例增长。在复制者动态中,平均奖励发挥的作用,与  强化学习中当渴望水平随着平均奖励水平而调整时、渴望水平所发挥的作用类似。 两者之间唯一的区别是,在复制者动态中,我们要计算整个种群的平均奖励,而  在强化学习中,渴望水平等于个体的平均奖励。只要种群是一个相当大的样本,  这种区别就是很重要的。因此,复制者动态产生的路径依赖要远小于强化学习。
在构建复制者动态时,我们需要假设每个备选方案都已经存在于初始种群中。 由于最高奖励的备选方案总是具有高于平均奖励水平的奖励,而且它的比例在每  个时期都会增加,因而复制者动态(最终)会收敛到整个种群都选择最优备选方  案的结果。


因此,在这种学会选择最优的环境中,个体学习和社会学习都会收敛到拥有 最高奖励水平的那个备选方案上。但是在博弈中则不一定会这样。
复制者动态能够学会最优行动
在学会从一个有限的备选方案集中选择最好的备选方案的过程,无限种群复 制者动态几乎总是收敛到整个种群都选择最优备选方案。
博弈中的学习
现在,我们将两种学习模型应用于博弈。
请先回想一下,在博弈中,博弈参与者的收益不仅取决于他自己的行动,同 时也取决于其他博弈参与者的行动。某个特定行动的收益,例如在囚徒困境中的 合作,可能会在一个时期内很高而在下一个时期却很低,这取决于另一个博弈参 与者的行动。
我们先从油老虎车博弈(Guzzler   Game) 开始讨论。这是一个双人博弈,每 个博弈参与者都必须选择是驾驶一辆经济型汽车还是一辆高油耗但很坚固的车。 选择高油耗的车总能带来2的收益。当一个博弈参与者选择经济型汽车,另一个 博弈参与者也选择经济型汽车时,双方都可以得到3的收益,因为两个司机都会 有更好的视野,汽车耗费燃油也更少,而且都不必担心被巨大的耗油量压垮。但 是,如果另一位博弈参与者选择了油老虎车,那么驾驶经济型汽车的博弈参与者 必须非常注意那个人的行为。为了刻画这种影响,我们假设在这种情况下,驾驶 经济型汽车的博弈参与者的收益会降低为零。图26-1中给出了这个收益矩阵。


开油老虎车
开经济型汽车
开油老虎车   开经济型汽车
2,2
2,0
0,2
3,3


26-1 油老虎车博弈
这个油老虎博弈有两个纯策略均衡:两个博弈参与者同时选择经济型汽车, 或者两个博弈参与者同时选择油老虎车。
双方都选择经济型汽车的这个均衡会带来更高的收益,这是这个博弈中的有 效 均 衡 。
我们先假设,这两个博弈参与者都会进行强化学习。图26-2给出了4个数  值实验的结果,其参数为:每个行动集的初始权重都等于5、渴望水平为零、学  习速度(γ)为1/3。在这所有4个数值实验中,两个博弈参与者都学会了选择  油老虎车,即低效率的纯策略均衡。为什么会这样?为了分析这种情况发生的原  因,只需要看一看收益矩阵即可。选择油老虎车的博弈参与者总能得到2的收益; 而选择经济型汽车的博弈参与者则有时会得到3的收益,有时则什么也得不到  (收益为零)。根据假设,两个行动在初始人口中出现的概率是相等的。因此,  选择经济型汽车的平均收益仅为1.5,而选择油老虎车的平均收益则为2。于是  就会有更多的博弈参与者选择油老虎车,而这又使选择经济型汽车的收益进一步  下 降 。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps913.png1   0.9 0.8 0.7
0.6 0.5 0.4 0.3
N
0.2 0.1 0
17131925313743495561677379859197
26-2 油老虎博弈中的强化学习:选择油老虎车的概率
接下来,我们将复制者动态应用到这个博弈中来。我们假设初始人口由相同 比例的选择油老虎车和经济型汽车的人组成。然后进一步假设每个博弈参与者与 每个其他博弈参与者博弈。选择油老虎车的人会获得更高的收益,因为最初选择 每种行动的人的数量相等,所以在第二期会有更多的人选择油老虎车。


如果再次应用复制者动态方程,那么选择油老虎车的博弈参与者的数量将会 进一步上升。持续不断地应用复制者动态方程,最终将导致所有的人都选择油老 虎车。图26-3显示的是对一个有100名博弈参与者的油老虎车博弈,运用离散 复制者动态进行4个数值实验的结果。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps914.png
26-3 油老虎博弈中的复制者动态(100名博弈参与者):选择油老虎车的概
由于假设了有限种群,所以要引入少量随机性,这样采用每个行动的比例可 能不完全等于复制者动态方程所给出的比例。在这4个数值实验中,所有博弈参 与者全都只在过了7期之后就都选择了油老虎车。收敛之所以如此迅速地发生, 原因在于从众效应和奖励效应促使人们在第一期后尽快选择油老虎车。例如,当 90%的人选择了油老虎车时,选择经济型汽车的人的收益将低于选择油老虎车的 人的收益的1/6。从众效应极大地放大了奖励效应,使社会学习比个体学习更快。 在个体学习中,平均来说要花费100多期才能达到99%的人都选择油老虎车的情 况。
在这个博弈中,两个学习规则都收敛到了选择油老虎车上,这是因为当两个 行动的可能性相同时,选择油老虎车有更高的收益。这种行动被称为风险主导。 两种学习规则都更“青睐”风险主导均衡而不是有效均衡。接下来,我们还要再 构造一个博弈模型,在那里,这两个学习规则将收敛于不同的均衡。


慷慨/妒忌博弈
我们要讨论的下一个博弈,慷慨/妒忌博弈(the generous/spiteful game), 建立在一个备受关注的人类行为倾向的基础上:我们更加关心的是绝对收益,还 是相对收益?假设一个人在以下两个奖金分配方案中选择前者,那么他就是更关 心绝对收益:(1)所有同事都能获得15000美元的奖金,而他自己只能得到10000 美元;(2)所有同事都只能得到5000美元的奖金,而他自己却能够得到8000 美元。相反,宁愿得到更少奖金(在上面两个奖金分配方案中选择后者)的人则 更关心相对收益。这种更关心相对收益的偏好,在“居心险恶的人与魔法灯”的 寓言故事中得到了很好的体现。
居心险恶的人与魔法灯
在一次考古探险中, 一个居心险恶的人发现了一盏青铜灯。他擦了一下灯, 结果召唤出了一个精灵。精灵说:“我会赐予你一个愿望,因为我是一个仁慈的 精灵。我可以给你想要的任何东西!不但如此,对于你认识的每一个人,我都将 给予他们给你的两倍。”这个居心险恶的男人仔细想了一会,然后抓起了一根棍 子,递给那个精灵,说:“好吧。现在请你抠出我的一只眼睛吧。
这个居心险恶的人所采取的这个行动,在带给他一个很低的绝对收益的同时, 又给了他一个高的相对收益。
在外交事务中也会出现类似的紧张局势。新自由主义者认为,每个国家都希  望最大化自己的绝对利益,这可以用军事力量、经济繁荣和国内稳定来衡量。但 是另外一些人,他们通常被称为新现实主义者,却认为各国更重视的是相对利益, 即一个国家宁可只能获得较低的绝对利益,但是一定要比自己的敌人更强。在冷 战高潮期间,新现实主义者肯尼思 · 华尔兹 (Kenneth    Waltz) 这样写道:“各国 首先关心的不是最大化自己的力量,而是要维持他们在国际体系中的地位。
我们可以将绝对收益与相对收益之间的这种潜在冲突嵌入到一个N  人博弈   中。在这个博弈中,存在两类行为, 一种行为是“慷慨大度”的,它在增加行为   者自己绝对收益的同时,也会增加其他人的收益;另一种行为则是“妒忌狭隘” 的,它只会增加行为者自己的收益。这个博弈不同于集体行动博弈。在集体行动


博弈中,慷慨大度是要付出成本的。
在这个模型中,慷慨的行动是占优策略:无论其他博弈参与者采取的行动是 什么,选择慷慨行动的博弈参与者都能获得更高的收益。然而,选择妒忌行动的 博弈参与者得到的收益却比选择慷慨行动的博弈参与者更高。
这些陈述,乍一看似乎是自相矛盾的,其实不然。通过选择慷慨的行动,这 个博弈参与者能够将自己的绝对收益提高3,而且同时也会将所有其他博弈参与 者的收益提高2。而选择妒忌行动的博弈参与者则只能使自己的收益提高2,而 且不能提高其他博弈参与者的收益。因此,每个博弈参与者都能通过选择慷慨的 行动来提高自己的收益。相反,当一个博弈参与者选择妒忌的行动时,他反而会 降低自己本来可以得到的收益,而且(这是关键假设)会使其他人的收益下降得 更 多 。
慷慨/妒忌博弈
在这个博弈中,有N 个博弈参与者,每一个博弈参与者都要选择:是慷慨 (G),   还是妒忌 (S)。
收益 (G,NG)=1+2×NG 收益 (S,NG)=2+2×NG
如果我们在慷慨/妒忌博弈中应用强化学习规则,那么博弈参与者们都会学 会做一个慷慨的人。为什么会这样?要理解这一点,不妨假设博弈参与者处于几  乎已经收敛到均衡的状态了,NG  个博弈参与者都选择了慷慨的行动。这时,如  果有一个妒忌的博弈参与者,那么他可以获得2+2×NG  的收益。这将成为他的  渴望水平。如果他选择的是G (哪怕发生概率很小),那么他的收益为1+2× (N   G+1)=3+2×NG,   这比他的渴望水平还要高。因此,他将更有可能变成慷慨的。 不断应用这种逻辑,我们就会发现所有的博弈参与者都将学会慷慨。
但是,如果我们在慷慨/妒忌博弈中应用复制者动态,人们就会学会做一个 妒忌的人。只要仔细观察一下复制者动态方程,就可以得出这个结论。在每一期, 选择妒忌行动的那些博弈参与者所获得的收益都要高于选择慷慨行动的博弈参


与者。因此,在每一期,选择妒忌行动的博弈参与者的比例都会上升。
这些结果突显了个体学习与社会学习之间的关键差异。个体学习会引导人们  选择更好的行动,因此人们会学会采取占优行动(如果占优行动存在的话)。而  社会学习则引导人们选择相对于其他行为来说表现更好的行动。在大多数情况下, 这些行动通常也会产生更高的收益。但是,在慷慨/妒忌博弈中却并不是这样。  在这种模型中,妒忌行动的平均收益更高,但是占优的却是慷慨行动。特别需要  注意的是,我们的分析得出了一个悖论性质的结果:如果人们进行的是个体学习,  那么他们就能够学会做一个慷慨的人——比通过社会学习能够学会的更加慷慨。  之所以会出现这种情况,是因为在社会学习中,博弈参与者会复制表现相对较好  的博弈参与者的行动。
现在考虑一下之前的观点:我们可以将复制者动态视为一种适应性规则,或 者视为发生在若干固定规则之间的选择。如果假设了后者,那么我们的模型就意 味着选择可能有利于妒忌这种类型。(自然)选择不一定会导致合作。这个结果 与我们在研究重复囚徒困境博弈时发现的结果背道而驰——在那里,重复导致了 合作。我们在那里考虑的是重复博弈,并允许更复杂的策略。
将不同的学习模型组合
起来我们已经看到了个体学习模型和社会学习模型都能在一组固定的备选 方案中找到最优解决方案,但当把它们应用于博弈时,也可能产生不同的结果。 缺乏协议也可以是一种力量。不妨想象一个由所有可能的博弈组成的巨大集合。 再想象一个由所有学习模型组成的巨大集合。我们可以将第二个集合中的每个学 习模型应用于第一个集合中的每个博弈,并评估它们的表现。然后我们可以将这 个包括了所有博弈的集合划分为两个集合:学习规则产生了有效结果的博弈的集 合,以及不能得到有效结果的博弈的集合。我们还可以考察实验数据并评估每个 学习规则在作为对实际行为的预测器时表现如何。毫无疑问,这种研究将会揭示 一些我们未曾预料过的东西。每个学习规则都会在某些博弈中带来有效的结果, 但是对其他一些博弈则不能。同时,每个学习规则本身在准确描述了行动的不同 情况下也会有所不同。因此,我们提倡多模型思维。
在本章中,我们介绍了两个标准的学习模型。每一个模型都只包括了少数几


个会变化的组成部分。我们的目标是对这些令人兴奋的文献给出一个适中的介绍。 只要往这两个标准模型中加入更多细节,就能够更好地拟合实验数据和经验数据。 请读者回想一下,在强化学习模型中,个体会根据一个已采用过的行动或备选方   案的奖励(或收益)是否超过了渴望水平来加大或减少该行动或备选方案的权重。  个体不会增加从未采取过的行动的权重:在强化学习模型中,我们不会因为假想  采取了某个行动会带来很高的收益,而提高采取这种行动的概率。
在所有情况下,这种假设都没有意义。假设一个员工决定在休假时不带手机。 当他去度假时,他的老板打电话要他解决一个重要问题,这个员工没有接到这个  电话,并因此错过了一个升职机会。在强化学习模型中,员工不会给“度假时带  手机”这个行动赋予更大的权重。有鉴于此,人们对标准模型进行了修正,提出 了罗斯-伊雷夫学习模型 (Roth-Erev    learning     model),让未被选择过的备选方案  也可以根据其假想的收益来获得权重。在这个例子中,这个员工将会给“度假时  带手机”赋予更大的权重。
这个修正导致了基于信念的学习规则。未被选择过的备选方案权重的增加量  可以通过一个实验参数来确定。实验参数越高,人们对其他人行为的影响的考虑  就越多,对那些行为赋予的权重也增加得越多。经济学家埃尔文 ·罗斯(Alvin  Roth) 和伊多 · 伊雷夫 (Ido    Erev) 还考虑到,其他博弈参与者也在学习,他们的策略  也可能在发生变化,因此还对过去进行了贴现处理。
这些额外的假设具有其直观意义,并且都得到了经验证据的支持,但是它们 并不适合于所有情况。如果回到前面举过的制作薄饼的例子,那么第一个假设意 味着在父母制作好了香蕉薄饼之后,还要赋予制作苹果薄饼的备选方案额外的权 重,而且该权重要与苹果薄饼的收益成比例。只有当父母知道苹果薄饼的收益时, 这样的假设才是有意义的。但是,只有当人们能够观察到或凭直觉感知未被选择 行动的收益时,才会出现这样的情况。
第二个修正模型来自行为经济学家科林 · 凯莫勒(Colin    Camerer)和 何(Ho) 。 他们构建了一个通用的函数形式,把强化学习和基于信念的学习都作为特殊情况 包括了进去。这个函数的关键是一个可以用数据拟合的、确定每种类型学习规则 相对强度的参数。
将多个模型组合在一起,正是我们学习掌握许多模型的一个重要动机。也就


是说,由于参数的增加,组合模型必定能够导致更好的拟合。即便考虑到了参数 增多这个因数,凯莫勒和何的模型也能给出更好的预测和更深刻的解释。
对学习建模带来了一些挑战。在一个模型设置中运行良好的学习规则可能完  全无法适用其他情况。此外,人们学习的东西可能取决于他们最初的信念,因此   两个人可能在同一个环境中以不同方式学习,同一个人也可能在不同的环境中以  不同的方式学习。即便我们真的构建出了一个准确的学习模型,也会遇到可利用  性原则(exploitability principle)带来的难题:如果一个模型解释了人们如何学习, 那么其他模型就可以应用这个模型来预测相关知识,并在某些情况下利用该知识。 这样一来,人们就可能会学会如何不会被利用,从而使我们原来的学习模型不再  准确。在本书前面的章节中,当我们讨论卢卡斯批判和对有效市场假设的分析时, 我们就已经遇到过这种现象了。我们不一定能得出结论说那是因为人们会了解到  他们在最优化,然而,学习毕竟倾向于淘汰不良行为、从而有利于更好的行为。
文化能否压倒战略
我们现在将传染模型和学习模型结合起来,以便剖析组织理论中由来已久的 一个理论观点:文化压倒战略。
简而言之,这个观点声称,改变行为的战略激励终将归于失败。理论组织家 强调,文化——即现有的既定规则和信念的力量实在太强大了。经济学家的观点 则相反:推动行为的,只能是激励。
为了将这些相对立的谚语式诊断转变成条件逻辑判断,我们首先必须应用网 络传染模型的一个变体。在这个模型中,经理,或者也可能是CEO, 宣布了一个 新战略,并给出了推动变革所能带来的好处的多项证据。这位经理或CEO 甚至 可能会对组织的核心原则加以重新界定,以便反映这种新行为的要求。然后,组 织中的其他个体决定是否采取这种行为,这取决于经理或CEO 对其战略的说服 力有多大。一开始,只有一部分人执行这个计划。当他们在工作网络中与他人互 动时,就会热情洋溢地传播新战略。当然新战略也会面临挑战,会有一种反向的 力量拉动人们不去采用新战略。有三个特征决定了新策略能否顺利展开:接触率  (Pcontact    )、扩散率 (Pspread)   和放弃率 (Precover    ),它们很自然地映射到 了基本再生数中的参数RO 上,即:


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps915.jpg
如果再加入存在超级传播者的可能性,就可以得出这样的结论:只要如下三 个条件中任何一个条件成立,文化就会压倒战略,否则,战略就能压倒文化。这 三个条件分别是:如果人们不相信新战略,如果人们很快就放弃了新战略,如果 新战略的拥护者相互之间的连通性不够好。
我们的第二个模型是,将复制者动态方程应用于这个用来表征员工之间互动 的文化战略博弈。我们可以将员工的不同选择用博弈论的语言分别表示为文化行 (做他们目前所做的事情)和创新的战略行动。我们还假设,经理或CEO已 经确定了收益结构,如果两个博弈参与者都选择创新的话,他们都能获得更高的 收益;但是,如果只有一个博弈参与者选择创新,那么他的收益将会减少。


文化
创新
文化       创新
200,200
220,180
180,220
300,300


文化/战略博弈
这个博弈有两个严格的纯策略纳什均衡:一个是两个博弈参与者都创新(战 略胜过了文化),另一个是两个博弈参与者都不创新(文化胜过了战略)。乍一看, 经理或CEO 似乎已经给出了足够大的激励,能够保证员工会选择创新的行动。 但是通过分析,我们发现,经理或CEO必须动员起足够多的初始支持者才能使


创新成为现实。如果一开始就支持新战略的人的比例没有超过20%,那么文化就 会胜过战略。如果要增加创新战略的收益,那初始支持者的比例可能会更低,但 仍然会产生有效的结果。
这两个模型表明,字面上相反的两个谚语“文化压倒战略”和“人们会对激 励做出反应”都是正确的。根据第一种模型,具有很高人格魅力的CEO可以制 订能够胜过文化的新战略。根据第二种模型,文化能胜过“弱激励”,但是不能 胜过“强激励”。


27课多臂老虎机问题
有一件事我确实特别擅长,那就是将网球击过网,打在界内。在这件事情上, 我是最棒的。
塞雷娜 · 威廉姆斯 (Serena    Williams)
在本章中,我们在如何学会选择最优备选方案的学习模型中加入不确定性, 从而生成了一类被称为“多臂老虎机问题”(multi-armed bandit problems)的 模 型。在一个多臂老虎机问题中,不同备选方案的奖励源于一个分布,而不是固定 的金额。多臂老虎机问题模型适用于各种各样的现实环境。在收益不确定的行动 之间进行的任何选择,无论是药物试验,还是对树立广告牌位置的选择、技术路 线的选择,抑或是要不要允许在教室中使用笔记本电脑的决定,都可以建模为多 臂老虎机问题。当然,如何选择一个可以出人头地的职业,也可以用多臂老虎机 问题模型来建模。
在面对一个多臂老虎机问题时,人们必须对各个备选方案多加尝试,以便通 过这种学习过程来了解收益的分布。多臂老虎机问题的这个特征,也导致我们必 须在探索(寻找最佳备选方案)和利用(选择迄今为止表现最佳的备选方案)之 间善加权衡。在探索与利用权衡中找到最优平衡点,需要非常精妙复杂的规则和 行 为 。
本章的主体内容分为两个部分,最后对模型的应用价值进行了讨论。在本章 的第一部分,我们描述了一类特殊的伯努利多臂老虎机问题,其中每个备选方案 都是一个伯诺利瓮(瓮中灰球和白色球的比例是未知的)。我们描述并比较多种 启发式求解方法,然后说明这些解是如何有助于改进药物疗效的比较检验、广告 计划和教学策略的。在第二部分中,我们描述了一个更一般的模型,其中收益分 布可以采取任何形式,并且决策者对其类型有一个先验分布。我们还阐明了如何 求解确定最优选择的吉廷斯指数 (Gittins    index)。
伯努利多臂老虎机问题
我们从一类特殊的多臂老虎机问题开始讨论。在这类多臂老虎机问题中,每


个备选方案都能以固定的概率产生成功的结果。因此,这类多臂老虎机问题相当 于在一系列伯努利瓮之间进行选择,且每个瓮都包含着不同比例的灰球和白球。 因此,我们将这类多臂老虎机问题称为伯努利多臂老虎机问题,也经常被称为频 率问题,因为决策者对分布一无所知。不过,当决策者对各个备选方案进行了多 次实验(探索)之后,他会对这些分布有所了解。
伯努利多臂老虎机问题
一个备选方案集{A,B,C,D,…,N}         中的每一个备选方案都能够产生
一个成功的结果,但是各自的概率{PA,PB,PC,PD              ,…,PN}        都是未知
的。在每一个时期,决策者选择一个备选方案K,  并 以 概 率PK  得到一个成功 的结果。
假设一家烟囱清洁公司获得了一批最近购买了房子的人的电话号码,然后打 算向他们推销烟囱清洁服务。这家公司测试了三种推销策略。第一种策略是“笃 定预约式”(“你好,我打电话来是为安排你家每年一度的烟囱清洁。”);第二种 策略是“关心提问式”(“你好,你知道烟囱堵塞是火灾的最大风险因素吗?”); 第三种策略是“人性感动式”(“你好,我的名字是希尔迪,我已经和我父亲一起 打理这家烟囱清扫公司整整14个年头了。”)。
每一种推销策略都有可能成功,但是成功概率在事前是未知的。假设该公司 首先尝试的推销策略是“笃定预约式”,但是失败了。然后又尝试了“关心提问 ”,结果成功地获得了一个客户;而且,这种策略紧接着又成功了一次。但是, 在接下来的3次尝试中,这种策略都失败了。于是,该公司尝试了第三种策略。 第三种策略的第一次尝试是成功的,但是接下来却连续失败了4次。这样,在总 共进行了11次尝试之后,第二种推销策略的成功率是最高的,但是第一种策略 只尝试了一次。于是,决策者面临着在利用(选择最有效的备选方案)或探索(回 过头去继续尝试其他两种推销策略以获得更多信息)之间的权衡。医院在不同的 外科手术方案之间的选择,制药公司对药物检验的不同方案的权衡,也都会碰到 同样的问题。每一种“协议”都有未知的成功概率。
为了进一步深入理解这种探索-利用权衡,我们比较了两种启发式。第一种 启发式是取样并择优启发式(sample-then-greedy),    即先对每个备选方案都尝试 固定的次数M, 然后选择具有最高平均收益的备选方案。而在确定尝试次数M


大小的时候,我们可以参考伯努利瓮模型和平方根规则。平均比例的标准差有一 个上界
1/2√M
如果每种备选方案都进行了100次的测试,那么平均比例的标准差将等于 5%。如果应用两个标准差规则来识别显著差异,当两个比例相差大约10%时, 我们就能够自信地将它们区分开来了。例如,如果一个备选方案在70%的时间内 都取得了成功的结果,而另一种方法则只在50%的时间内取得了成功,那么就有 95%以上的置信水平相信我们能够选中正确的备选方案。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps916.jpg第二种启发式称为自适应探测率启发式(adaptive exploration rate heuristic)。 它的程序是,第一阶段,先让每种备选方案各完成10次试验。第二阶段,再进  行总共20次试验,但是试验次数根据各备选方案在第一阶段的成功率按比例分  配。例如,如果第一阶段的10次试验中,有一个备选方案成功了6次而另一个 只成功了2次,那么第一个备选方案将获得接下来的20次试验中的3/4。到第 三个阶段,可以根据成功率的平方确定本阶段要进行的20次试验的分配比例。  如果那两个备选方案的成功率仍然与前面一样,那么更好的备选方案在第三阶段  20次试验中将分配到
90%。
以此类推。对于每一个阶段的20次试验,计算分配比例时所用的成功概率  的指数可以以某种速率递增。随着时间的推移,通过提高利用率,第二种算法相  比第一种算法有所改进。如果一个备选方案的成功概率比另一个备选方案高得多, 比如80%对10%,那么第二种算法就不会在第二个备选方案上“浪费”100次试  验。另一方面,如果两个备选方案的成功概率非常接近,就要继续进行试验。
对于第一种启发式,取样并择优启发式,如果在使用时过分执着,那么不仅 效率低下,而且可能是不道德的。当美国著名外科医生罗伯特 · 巴特莱特(Robert Bartlett) 在测试人工肺时,发现它的成功率远远超过了其他备选方案。既然人工 肺的表现已经如此优异了,那么继续测试其他备选方案就会导致不必要的死亡。 于是巴特莱特停止测试其他备选方案,让每个患者都使用上了人工肺。事实上, 可以证明这是一个最优规则:如果某个备选方案总能取得成功,那么就继续选择


这个备选方案。增加实验可能没有任何价值,因为没有其他备选方案能够表现得 更 好 。
贝叶斯多臂老虎机问题
在贝叶斯多臂老虎机问题中,决策者对各备选方案的收益分布有先验信念。 考虑到这些先验信念,我们可以对探索与利用之间的上述权衡进行定量分析,并  (至少在理论上可以)在每个时期都做出最优决策。然而,即便是对于最简单的 多臂老虎机问题,要确定最优行动也需要进行大量的计算。在真实世界的实际应 用中,要精确计算出结果是不可行的。因此决策者通常都会利用近似方法。
贝叶斯多臂老虎机问题
给定备选方案集{A,B,C,D, … ,N},                       以及对应的收益分布{f(A),
f(B),f(C),f(D),…,f(N)} 。                   决策者对每个分布都有先验信念。 在每一期,决策者选择一个备选方案,并获得收益,并根据收益计算出新的信念。
要确定最优行动,需要经过如下四个步骤。首先,要计算出每个备选方案的 即时期望收益。其次,对于每个备选方案,都要更新关于收益分布的信念。一手资 源薇信ipip885,   再次,在得到的关于收益分布的新信念的基础上,根据我们所掌  握的信息确定所有后续时期的最优行动。最后,我们将下一期行动的期望收益与 未来的最优行动的期望收益相加。最后得到的这个结果就是通常所称的吉廷斯指 数。在每一个时期,最优行动的吉廷斯指数都是最大的。
这里需要注意的是,计算指数的过程同时也量化了探索的价值。而且,如果 我们尝试某个备选方案,那么吉廷斯指数也不会等于期望收益。相反,吉廷斯指 数等于假设根据所掌握的知识采取最优行动时,所有未来收益的总和。但是,计 算吉廷斯指数非常困难。下面举一个相对简单的例子。假设备选方案有两个,一 个是肯定能带来500美元的安全的备选方案,另一个是有10%概率可以带来1000 美元的有风险的备选方案,在其余90%的时间里,有风险的这个备选方案不会带 来任何收益。
为了计算出这个有风险的备选方案的吉廷斯指数,我们首先要问清楚会发生


什么:它要么总是收益1000美元,要么总是没有任何收益。然后再思考每个结 果将会怎样影响我们的信念。如果我们知道这个有风险的备选方案会让我们收益 1000美元,那么我们总是会选择它。如果我们知道这个有风险的备选方案没有 任何收益,那么我们在未来将总是选择安全的那个备选方案。
由此可见,有风险的这个“臂”的吉廷斯指数对应于每个时期获得1000美 元奖励的概率为10%,以及除了第一期之外的每个时期获得500美元的概率为 90%。平均来说,要对备选方案进行多次选择的情况下,这相当于每一期大约550 美元。因此,这个有风险的备选方案才是更好的选择。
吉廷斯指数
为了说明如何计算吉廷斯指数,考虑下面这个只有两个备选方案的例子。备 选方案A产生的收益抽取自{0,80},且0和80出现的概率相等。备选方案B 在 {0,60,120}当中产生一定的收益,而且这三个收益的概率也是相等的。我们假 设,决策者试图最大化10个时期内的总奖励。
备选方案A:
收益等于零的概率为1/2,在出现了这种结果之后,在剩下的全部9期内 都会选择备选方案B (备选方案B的期望收益60),这样就得到了540的期望收 (9乘以60)。收益等于80的概率也为1/2,即便出现了这个结果,在第二期 的最优选择仍然是选择备选方案B。于是有1/3的概率,备选方案B产生了120 的收益,因此总收益等于1160(80加上9乘以120)。同样,有1/3的概率,备 选方案B 产生了60的收益,在这种情况下,备选方案A 是剩下的所有8期的最 优选择,这样产生的总收益等于780(60加上9乘以80)。最后,还有1/3的概 率,备选方案B产生了零的收益,在这种情况下,备选方案A是剩下的所有8 期的最优选择,这样产生的总收益等于720(9乘以80)。
把上面这些可能性全都考虑进去,可以得出,在第一期,备选方案A的吉廷 斯指数如下:


file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps917.jpg
备选方案 B:
1/3的概率,收益等于120。如果发生了这种情况,那么所有未来时期的 最优选择也仍然是备选方案B。因而10个时期的总收益将等于1200。如果收益 等于零(概率为1/3),那么所有未来时期的最优选择都将是备选方案A(备选方 A 的期望收益为40),因而,期望总收益将等于360(9乘以40)。如果收益 等于60,那么决策者在所有未来时期都应该选择替代方案B, 总回报为600;但 是,如果在第二个时期选择了备选方案A, 那么有一半时间备选方案A 总是产生 80的收益,此时总回报为780(60加上9乘以80);另一半时间它产生零收益, 并且所有后续时期的最优选择都将是备选方案B (会产生60的收益),于是得到 的总收益为540(9乘60)。由此可知,在第二期中选择备选方案A 才是最优选 择,这种选择产生的期望收益等于660×(1/2×780+1/2×540)。
把所有可能性都考虑进去,不难推出,备选方案B 在第一期中的吉廷斯指数
如下:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps918.jpg
根据这些计算结果,备选方案B 是第一期的最优选择。最优长期选择则取决 于第一期内学习的结果。如果备选方案B 产生了120的结果,那么我们将永远坚 持选择备选方案B。
上述的分析表明,在采取行动时,我们更关心的是备选方案能够成为最优选  择的概率而不是它的期望收益。此外,如果某个备选方案会产生非常高的收益, 我们应该更有可能在将来选择它。相反,如果它只能产生平均收益,那么即便收 益水平高于另一种备选方案的期望收益,我们一直坚持这个备选方案的可能性也  不会太高。在尝试的早期阶段尤其如此,因为我们希望找到更高收益的备选方案。 这些结果在我们讨论的诸多应用中都是成立的。如果采取行动没有风险,也不需  要付出高额成本,那么这个模型告诉我们,即使高收益行动的概率很低,我们也  要努力去探索它们。


小结
本书一再强调的一个核心要点是,通过学习模型,我们可以做出更好的决策。 在对人们在多臂老虎机问题中“应该”做些什么与人们“实际”做了些什么进行  一番比较之后,我们可以对这一点有更深刻的理解。绝大多数人在遇到多臂老虎  机问题时,都不会去试图计算一个吉廷斯指数。之所以没能这样做,部分原因是  他们没有将必要的数据保存下来。例如,直到最近,医生才开始记录各种手术方  法的效果,比如不同类型的人工关节的功效,或者不同类型的心脏支架的优缺点, 等等。没有这些数据,医生就无法确定哪一种手术方法会带来最高的期望收益。
其实是所有人,都需要足够的数据,这样才能把模型教给我们的东西应用起 来。因此,如果你真的想了解晚餐前散步还是晚餐后散步对你的睡眠更有利,你 就需要跟踪记录你的睡眠状况,并运用一些相当复杂的启发式去了解哪种散步模 式效果更好。初看上去,这可能会显得小题大做,而且要付出的时间精力相当可 观,的确如此,但是现在已经好很多了。新技术的不断涌现,使我们能够非常方 便地收集有关睡眠模式、脉搏率、体重,甚至情绪好坏的大量数据。
我们每个人都要做出很多与自己的身体健康息息相关的决策,比如什么时候 去锻炼,但是绝大多数人都没有去收集必要的数据并计算出吉廷斯指数。但这其 实非常重要,关键在于我们是否能够做到这一点,而且如果做到了,我们的睡眠 模式、身体健康状态就会得到改善。心理学家塞思 ·罗伯茨 (Seth    Roberts) 探 索了整整12年,结果发现自己每天至少站立8小时才可以改善自己的睡眠状态  (尽管他还是睡得更少)。他还发现,迎着早晨的阳光站立,可以减轻他上呼吸 道的感染症状。
当然,我们一般人可能很难具备他这种用自己身体来做实验的奉献精神。但 是,由于不保存数据,也不对相关结果进行比较,我们可能会更容易放任自己不 吃早餐或暴饮暴食——尽管我们有更好的选择,比如吃西柚。
在利害关系很大的商业决策、政策制定和医疗决策中,数据更容易收集,应 用多臂老虎机问题模型也早就成了一种常见的做法。企业、决策者和非营利组织, 都会先对各种备选方案进行探索,然后利用那些表现最好的备选方案。而且在实 践中,备选方案往往不会保持固定不变。例如,鼓励参加农业补贴计划的政府邮 件可能每一年都会改变,比如将上一年的强健男子的照片换为性感美女的照片,


等等。
这种类型的连续实验可以通过将在下一章中讨论的模型来刻画,那就是:崎 岖景观模型。
用不同模型分析美国总统选举
我们可以应用至少三种模型来分析美国总统选举:空间竞争模型、分类模型 和多臂老虎机问题的模型。
空间竞争模型:
民主、共和两党的总统候选人在意识形态空间中互相竞争以吸引选民。我们 有理由预计,各候选人倾向于温和的中间立场、选情会比较胶着,不同政党候选 人获胜的顺序是随机的。除了少数例外情况外,总统选举不会以某一方压倒多数 获胜结束。为了检验美国总统大选获胜者的顺序是不是随机的,我们构建了从 1868年到2016 38 次总统大选的获胜政党的时间序列。该序列如下(字母R、 D 分别表示共和党、民主党):
RRRRDRDRRRRDDRRRDDDDDRRDDRRDRRRDDRRDDR
然后我们可以计算出不同长度的子序列(块)的熵。长度为1的子序列的熵 0.98。长度为4的子序列的熵为3.61。统计检验表明,我们不能否认这个序列 是随机的。作为比较,在长度为38的随机序列中,长度为1的子序列的熵为1.0, 长度为4的子序列的熵为3.58。
分类模型:
如果我们将每个州视为一个类别,同时假设不同州之间存在着异质性,那么 空间竞争模型意味着一旦候选人选定了初始位置,某些州就不再具有竞争力了。 这个模型的预测是,在少数几个立场温和的州,选举竞争将特别激烈。2012年, 奥巴马和罗姆尼都在10个州花掉了自己电视广告预算的96%以上。他们每个人 都将广告预算的一半多用于3个温和的州:佛罗里达州、弗吉尼亚州和俄亥俄


州。2016年,希拉里 · 克林顿和特朗普也将一半以上的电视广告预算花在了3 个温和的州:佛罗里达州、俄亥俄州和北卡罗来纳州。
多臂老虎机问题的模型(回溯性投票):
选民将更有可能将选票再一次投给有良好执政业绩的那个政党。给绩效好 的政党投票,相当于拉一个会带来高收益的杠杆。经济繁荣通常会使竞选连任者 受益。有证据表明,当经济表现良好时,选民更有可能投票给执政党的候选人。 而且,在执政党内部,现任候选人的影响也大于非现任候选人。


28课崎岖景观模型
当你费心去寻找时,就会发现令人惊奇的事情。 传为萨卡加维亚(Sacagawea )所 说
在本章中,我们研究崎岖景观模型。与空间竞争模型和享受竞争模型一样, 崎岖景观模型也将一个实体定义为属性的集合。每个属性的集合都映射到一个价 值上。崎岖景观模型的目标是修改属性,以构造出一个具有最高价值的实体。这 类模型起源于生态学中对演化的研究。现在,崎岖景观模型已经广泛用于探索各 种问题的求解方法、研究企业之间的竞争和创新,以及其他领域,这也是我们在 本书中要研究的重点。在本章中,我们将应用崎岖景观模型揭示,属性影响的相 互依赖性如何使创新变得困难、导致所找到的解决方案呈现出路径依赖性、并且 还造成了解决方案本身的多样化。同时,我们也会阐明,许多更困难的问题是怎 样通过更加多样化的问题求解方法而得以解决的。
本章由三个部分组成,然后,我们讨论了如何扩展模型以刻画竞争。在第一 部分中,我们先描述了一个适合度景观模型 (fitness    landscape    model),然后阐 明了怎样将它重新解释为一个关于问题求解和创新的模型。在第二部分中,我们 讨论了一维模型中崎岖度的含义。在第三部分中,我们提出了崎岖景观的NK模 型,它将一维模型扩展到了任意数量的二元维数。
适合度景观模型
适合度景观模型假设物种拥有能够促进其适合度的特征或性状,我们可以不 那么严格地将之定义为繁殖潜力,同时种群中不同成员所拥有的特定性状的数量 或程度可能不同。如果用横轴表示性状,用纵轴表示物种的适合度,就可以绘出 一张适合度景观的图,其中高海拔点对应高适合度。
举例来说,为了绘制出一张对应于土狼尾巴长度性状的适合度景观的图,我 们应该令土狼的所有其他性状都保持不变,而只改变尾巴的长度,并测量尾巴长 度的变化对适合度的影响。这就是说,要绘制出这张图,我们必须先了解土狼尾 巴为什么有助于提高它的适合度。


假设一只土狼的尾巴有助于土狼在跳跃时保持平衡,而且土狼可以将它作为 表示幸福、恐惧或即将发动攻击的信号。我们从横轴的最左侧开始,在那里,尾 巴长度为零,这种情况下它不能执行任何一种功能,因此它的适合度为零。随着 尾巴长度的增加,维持平衡和传递信号的功能也随之提高。因此,适合度先是随 尾巴长度的增加而上升的。
但是,到了某一点上,比如当尾巴长到18英寸时,可能就是有助于土狼保 持平衡的最理想长度。如果尾巴变得更长,土狼运动的敏捷度将会下降。不过, 更长的尾巴可能还会继续提高它传递信号的价值,因此,长度20英寸的尾巴 可能会产生最大的整体适合度。 一旦尾巴的长度超过了20英寸,适合度就会开 始下降。结果如图28-1所示,它具有一个单峰。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps919.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps920.png
土狼尾巴的长度
28-1 富士山景观
这种单峰景观被称为富士山景观。在现实世界中,这样的景观是经常出现的。 有富士山景观的问题通常是比较容易解决的问题。我们可以指望演化或学习在遇  到这类问题时找到这个山峰。不妨想象一下,假设有一个由尾巴长度各不相同的  土狼组成的种群,那么自然选择的压力最终会导致土狼的尾巴长到大约20英寸。 拥有这个长度的尾巴的土狼,能够同时将维持身体平衡和传递信号这两个任务完  成得最好。因此,这样的土狼的适合度最高,能够留下最多的后代,从而导致更  多的土狼拥有20英寸长的尾巴。如果我们认为这是一个优化问题,那么任何一  个爬山算法都能找到这个山峰。
我们也可以应用一对多的思维方法,将这个问题重新解释为一个产品设计问 题,比如设计一把煤铲。假设我们已经决定了煤铲的长度和形状,只剩下煤铲的 大小有待决定。于是,煤铲的面积就是要反映在横轴上的特征。而在纵轴上,我


们给出的是一个工人在给定煤铲大小的前提下, 一个小时内能够铲煤的数量。
与之前的例子一样,我们仍然从最左侧开始,那一点对应于面积为零的煤铲。 面积为零的煤铲其实只是一根棍子。当然,用一根棍子去铲煤是完全无效率的, 其价值为零。我们逐渐增大煤铲的面积,先是一茶匙大,接着是一汤匙大,然后  是像玩具铲那么大……煤铲就变得越来越有效。在这个过程中,煤铲的适合度图 形是向上倾斜的。然后,到了某个点上,当煤铲的面积变得太大之后,要用它去 铲煤就变成了一件苦差事。 一个小时内可以铲煤的数量就会随煤铲的面积进一步 增大而减少。最后,当煤铲面积变得足够大时,将没有任何人能够抬起这把煤铲, 因而它的适合度又一次变为零。我们又看到了富士山景观。我们有理由期待肯定 能够找到山峰,也就是要设计的煤铲的理想面积。
事实上,将铲子的效率作为铲子面积的函数,以此来确定最优铲子大小的思  想,正是著名经济学家、管理学家弗雷德里克 · 泰勒 (Frederick   Taylor) 提出的。 在 19 90 年代,泰勒和其他一些人开创了科学管理的新纪元。在泰勒生活的  那个时代,制造业决策,比如流水装配线的移动速度有多快,焊接强度要多高, 工人的休息时间是多少,等等,都被建模为崎岖景观问题。进入20世纪后,许  多伟大的实业家,例如福特汽车公司创始人亨利 · 福特(Henry  Ford)“石油大  ”约翰·D.洛克菲勒(John   D.Rockefeller)“钢铁大王”安德鲁 ·卡内基(Andrew    Carnegie) 都为这个现在用泰勒主义一词来概括的运动做出了卓越的贡献。
从制造个性化的、“只此一家别无分店”产品的工匠生产,转为大规模制造, 是一个重大的变革。在大规模生产中,制造流程要分解为多个部分,每个部分都 要经过优化,然后变成常规操作。这样一来,效率得到了大幅提高。但是在许多 人看来,这个过程也是劳动的非人化过程。这种分歧就是一个提示:我们需要多 个模型。任何单一模型都是对世界的过分简化,只能突出其中的某些维度。科学 管理模型侧重于流程效率。这种偏向导致了批评。以产出效率为准则做出的决策, 会导致其他目标遭到忽视,例如工人的快乐和福祉。
从表面上看,景观模型似乎只是一个相当浅显的想法:将适合度、效率或价 值作为特征或性状的函数绘制在图上,然后爬上山顶,找到那个特征或性状的最 优值。而且,把解决问题想象为“爬山”,似乎也不过是一个简单的比喻。这当 然都是有效的批评。但是,如果构建了正式的景观模型,我们将能够得到一些非 凡的结论。


崎岖景观
当我们同时考虑多个属性并且允许一个属性的贡献与其他属性的贡献相互 作用时,就会得到一个崎岖景观,也就是具有多个山峰的景观。考虑一个设计沙 发的问题,我们必须决定坐垫的厚度和扶手的宽度。我们用沙发在市场上的预期 销售额来代表设计的价值,而沙发的销售额与设计的美感相关。如果沙发有厚厚 的垫子,那么较宽阔的扶手可能会使沙发更具美感。如果沙发的垫子很薄,那么 扶手窄一点会更好。作为扶手宽度和坐垫厚度的函数,预期销售的二维图将具有 两个山峰。一个山峰对应于窄扶手、薄垫子的沙发设计;另一个山峰则对应于宽 扶手、厚垫子的沙发设计。
变量之间的相互依赖效应,使得景观出现了崎岖的特点。这种崎岖性有好几 个重要含义。首先,在崎岖景观中寻找到最高点时所用的不同方法,可能会以找 到不同的山峰而告终。如果从不同的起点出发,也可能会找到不同的山峰。因此, 崎岖性导致了对初始条件的敏感性和路径依赖的可能性。而这些都意味着,景观 的崎岖性有助于结果的多样性。崎岖性也意味着出现次优结果的可能性,在崎岖 景观中,次优结果表现为局部高峰。
28-2显示了一个有5个山峰的崎岖景观。在这些山峰中,有4个是局部 高峰,它们只是比与它们相邻的点的值高一些,只有一个是全局高峰,即具有最 高值的点。要理解搜索是怎样止步于依赖初始搜索点的局部高峰的,可以想象从 一个点开始往山峰爬的过程。这种过程被称为梯度启发式(gradient    heuristic)或 爬山算法(hill-climbing algorithm)。在崎岖景观中,梯度启发式技术会“卡”在 局部高峰上。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps921.png全局高峰


局部高峰1
局部高峰2


局部高峰4
局部高峰3


吸引盆1          吸引盆2
全局
吸引盐   吸引盘3          吸引盐4


28-2 一个有5个山峰的崎岖景观


如果起点位于最左侧,那么梯度启发式将定位于局部高峰1上,但它不是最 优的。如果梯度启发式从图28-2中标识为“吸引盆2”的区域开始,那么它将定 位于局部高峰2上。其他每个山峰,包括全局高峰,都有这样一个区域:如果梯 度启发式从那个区域开始,就会找到那个局部高峰。这些区域被称为吸引盆  (basin of attraction),如图28-2所示。从图中可以看出,全局高峰吸引盆的面 积是最小的。如果我们随机选择一个起点并应用梯度启发式,那么全局高峰恰恰 是最不容易被找到的那一个山峰。
吸引盆取决于启发式。如果我们使用了不同的启发式,就可能得到不同的吸 引盆。例如,我们也可以不用梯度启发式,转而使用一个名为“一直向右走”的 启发式。这个启发式一直向右侧搜索,直到找到一个局部高峰为止。对于这个例 子,这两种启发式具有相同的局部高峰但却会产生不同的吸引盆,只要比较一下 图28-3 和图28-2,就可以看出这一点。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps922.png全局高峰
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps923.png局部高峰2
局部高峰4 局部高峰3
吸引盐1      吸引盆2    全玛吸引盆   极引盆3            吸引盆4
28-3 “一直向右走”启发式产生的吸引盆
要在崎岖景观中找到最优或接近最佳的高峰,需要多样性和复杂性的方法。 多样性的价值是不言而喻的,如果不同的启发式能够找到不同的峰值,那么对一  个问题应用多个不同的启发式就能够产生多个不同的局部峰值,然后就可以从这  些局部峰值中选择一个最优的。
或者换一个思路,如果从不同的起点应用同一个启发式,那么也可以得到相 同的结果:先找到若干个不同的局部最优点,然后选择其中最优的。


另外还应该注意到,景观的崎岖度(以山峰的数量来衡量)与问题的难度相   关。当然,有的问题很难解决,但却不一定有崎岖的景观。在一大块玉米地里找  一枚金币这个问题可以用一个平坦的景观来表示,只是在硬币的位置有一个单峰。 它的景观不是崎岖的,但是要找到硬币确实很难。
NK
现在描述NK模型。利用这个模型,我们可以对属性的相互作用与崎岖性之 间的联系加以形式化。
这个模型将对象,或我们这里所称的备选方案,表示为一个长度为N 的 进制字符串,这就是NK模型中“N”     的含义。至于“K”,     则指与该字符串的 每一位交互以确定这一位的值的其他位的数量。如果K 等于零,那么价值函数 就是线性的。如果K 等 于N-1,  则所有的位都相互交互,每个字符串的值都是 随机的。因此,我们可以考虑增大K,  将景观的崎岖度调整到富士山景观与随 机景观之间的某个适当位置。
NK
一个对象由N  位二进制符号组成,s      ∈{0,1}N。
这个对象的价值表示为V(s)=Vk1(s1,      {s1k})+Vk2(s2,{s2k})
+ …+Vk1(s1,{s2k}),                其中,{s ik}等于一个从原字符串中除了第i  位之外 随机选择出来的有k 位的子字符串的集合,而且Vk1(s1,{s1k})               是从区 间 [o,1]       中抽取出来的一个随机数。
K=0: 得到的是一个关于位的线性函数。
K=N-1:  任何位的变化都使每个位产生新的随机贡献。
NK模型作为一个框架,为探索想法和提出问题创造了一个非常好的空间。 我们想要问,局部最优值的数量是怎样取决于交互项的数量的。我们还可以问,


全局最优值的大小又是如何取决于交互项的数量的。不过眼下,还不是回答这两 个问题的适当时机,因为还没有定义好怎样去搜索可能性空间,这就是我们正在 使用的启发式,局部最优集及其吸引盆的集合取决于搜索时所用的启发式。
在下文中,我们主要依赖单翻转算法(single  flip  algorithm)来进行搜索。这 个算法按顺序选择每一个属性并切换该属性的状态。如果改变那个属性会产生一 个更高的价值,就保留这个切换。否则,那个属性就退回到它原来的状态。之所 以选择这个算法,有两方面的动机。首先,我们可以把它解释为描述基因突变的 一个粗略模型,让好的基因变异逐步接管整个种群,并让坏的基因变异消失。其 次,它也是在我们这个空间中表征爬山算法最自然的一个形式。
作为例子,我们先来求解N=20 K=0 NK 模型。当K=0 时,每个属性 对总价值的贡献独立于其他属性,这时单翻转算法可以识别出每个属性更好的状 态和全局最优值。因此,K=0 意味着不存在相互作用,这种情况对应于富士山景 观。每个状态的值均匀分布在区间[o,1]      中。不难证明,从区间[o,1]      上的 均匀分布中随机抽取出来的两个值中较高的那一个期望值为2/3。只要我们对这 20个属性的贡献求平均值,就不难推出全局最优值的期望值也是2/3。
而在另一个极端,当N=K-1 时,每一个属性都与其他每个属性相互作用。  在这种情况下,切换任何一个属性的状态,其他每个属性的贡献都会改变。那将 是从区间[o,1]  中均匀抽取出来的一个新随机数。同时对象的值则将是这20 个新随机数的总和(每个属性一个)。这就意味着,属性的每一次翻转,都会导 致整个对象产生一个新值,而且它与之前的值不相关。因此,景观将会非常崎岖, 每一点都可能隆起、每一点都可能下陷。
在上面这两个结果的基础上,我们可以推导出局部峰值的期望数量。如果我 们从任何一个备选方案开始,单翻转算法将会对该备选方案与N 个备选方案中 的每一个进行比较。例如,假设我们从所有位都取零值的备选方案开始,那么单 翻转算法将评估N 个备选方案,每一个备选方案都恰好有一位的取值1。
初始备选方案:00000000000000000000
属性1切换后的备选方案:10000000000000000000


属性2切换后的备选方案:01000000000000000000
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps924.png
属性20切换后的备选方案:00000000000000000001
要成为一个局部高峰,其值必须高于这N 个备选值中的每一个。原来的备  选方案拥有最高值的概率等于1/ N  。因此,局部峰值的数量近似等于可能的替  代方案数量2N 除 以N 的商。很容易计算,对于N=20, 大约有5万个局部峰值。 由于具有如此之多的局部最优,只靠单翻转算法很难准确定位全局峰值。
因此,在这里重要的不是局部最优值的数量,而是它们的值有多大。因此还 需要将这些最优值的期望均值与全局最优值的期望值进行比较。通过这种比较, 我们可以确定单翻转算法的性能如何。而在计算这些值的时候,我们可以利用中 心极限定理。在这个例子中,很容易证明局部最优值的期望值大约等于0.6,而 全局最优值的期望值则略大于0.75。
将这些值与K=0 时的全局最优值比较一下,就可以发现崎岖景观的局部峰  值低于富士山景观的峰值,但是崎岖景观的全局峰值则比富士山景观的峰值更高。
由此自然而然地引出了这样一个问题:在这两个极端之间,也就是当我们将 交互作用的属性数量K 从零增加到N-1 的过程中,发生了什么事情?答案是, 我们可以观察两种效果。交互作用的属性数量的增加,在产生了更高的全局峰值 的同时,也产生了更多的(更低的)局部峰值。假设我们在搜索时使用了单翻转 算法,那么对这个模型的计算表明,对于比较小的K 值,互动的好处(得到了 更高的全局峰值)超过了互动的坏处(出现了更多的局部峰值)。因此,在开始 阶段,局部峰值的期望值会随着K 的增加而提高。同时,局部峰值数量的增加 则意味着它们的平均值将减小。因此,如果决定使用单翻转算法,人们一般更喜 欢用相对较小的K 值,比如3或4。但是,我们为什么要把自己局限在这种只切 换单个属性的简单启发式上呢?经由变异而完成的进化也许适用这个启发式,但 是我们却不必受它所限。我们可以切换两个属性甚至三个属性的状态。更复杂的 算法将会减少局部最优值的数量。


崎岖性与舞动的景观
NK模型的一个重要含义是,我们需要适度的相互依赖性,因为这种互动能 够产生更高的峰值。多模型思维则要求我们跳出模型的特定假设,并仔细思考是 什么原理驱动了这些结果。我们不难发现,背后的逻辑由两部分组成。第一个组 成部分源于组合学:两个元素的组合数会随对数的平方而增加,而三个元素的组 合数则会随三元组数量的立方而增加。因此,这种相互依赖效应有可能会创造出 更多有益的互动。
第二个组成部分则源于我们只需要保持更好的组合这个事实。想象一下,假 设我们准备利用4种食材来制作一份食物。有4种食材意味着:如果选用其中的 两种,那么有6种可能的组合。假设我们所用的是以下4种食材:泡菜,香蕉, 鸡肉,焦糖。由此产生的6种配对是:香蕉和泡菜、泡菜和鸡肉、焦糖和泡菜、 香蕉和鸡肉、焦糖和香蕉,以及焦糖和鸡肉。你可能会觉得只有一种搭配对你有 吸引力,那么你就会选择那种搭配。假设我们喜欢的是焦糖和香蕉,就会忽略其 余配对。
类似的逻辑也适用于进化系统。能够产生正面相互作用的表型组合,例如坚 硬的外壳与强健的短腿,会在种群中保存下来。适者生存法则与产生负面相互作 用的组合相反。因此,我们现在看不到有如下这种组合的动物:跑得很慢的脚+ 味道鲜美的皮肉+外表鲜艳的外表。它们也许曾经存在过,但是早就被捕获并被 吃光了。
我们在搜索模型中也会遇到类似的情况。当拥有非常多的可能性时,我们更 喜欢变化。同样的逻辑在这里也是适用的:组合(两个元素、三个元素)会产生 丰富的可能性。而且我们还希望,这些可能性的价值有很大的变化范围。然后, 我们更有可能发现其中一个具有非常高的价值。由于相互作用效应会增加变异, 因此总体上说,它们是有利的,但只在一定程度上有利。正如我们在上面已经阐 述过的,太多的变化会使景观随机化。在理想情况下,我们会有适度的互动。有 的学者认为,如果相互作用的数量和大小可以演化或适应,那么系统应该会自然 而然地演变为具有高峰值的崎岖景观。如果真的是那样,那就表明系统倾向于向 复杂性而不是均衡或随机性演化。
当然,什么时候能够达到这个结果、是不是真能达到这个结果,本身也是一


个可以通过模型来探索的有趣问题。
最后要强调的一点是,我们一直将景观视为固定的。但是在生态和社会系统 中,物种或企业要面对的景观还取决于他人的行为和属性。任何一个物种的适应, 或任何一个企业策略的改变,都会改变和重组它们的竞争对手的适合度景观。
现在,我们可以将空间竞争模型和享受竞争模型重新解释为舞动的景观上的  运动模型。这种运动可能会导致均衡,每个博弈参与者都站在局部或全局山峰上。 或者,在舞动的景观上的竞争,也可能导致复杂的行动模式和结果。只要粗略地  观察一下生态系统、政治领域和经济社会,就会明白后一种情况更容易出现。
我们之所以会观察到如此多的复杂性, 一个很重要的原因可能是,我们这个 世界在很大程度上是由自适应的、有目的的行为者组成的,它们有能力操纵舞动 的景观。为了理解这种复杂性,我们需要多模型思维。
我们可以对知识授予专利权吗
我们今天的幸福源于数百年来的知识积累。知识体现在所有方面:物理定律、 内燃机、复式记账法、传染性细菌致病论、X 射线和HTML 等。知识通常是一种  公共物品,永远是非竞争性的,不过知识既可能是、也可能不是排他性的。要想  排他,必须有方法验证,当知识已经呈现为特定形式的人工制品时,要验证是比  较容易的。例如,要想验证某个人是不是使用了某种算法或技术来解决了某个问  题,那往往是不可能的;但是,要想验证某人是不是在软件程序中嵌入了某种算  法,就是可以做到的。
当知识的排他性可以保证时,我们就会面临一个选择。我们可以像对待道路 和国防那样去对待知识,并通过向民众征税来生产知识。政府可以向那些思考者 支付报酬或者直接补贴他们,或者通过支持大学、研究机构来间接地加以支持。 政府还允许人们获得专利权。专利制度之所以能够鼓励知识生产,关键就在于它 为专利所有权人创造了一定期限的使用知识的独占权、并允许他们向其他使用专 利的人收费。在美国和欧洲,专利权的期限为自申请提交之日起20年。
专利倡导者认为,如果任何人都可以免费使用别人发明的东西,那么私人(个


人或机构)就不会有什么动力去开发更好的捕鼠器、计算机算法或音响系统了。 他们强调,专利制度能够克服知识生产中固有的激励问题。
但是,经济学家米歇尔 ·博尔德林 (Michele  Boldrin) 和戴维 · 莱文利用多 模型思维,提出了一个有力的反对专利制度的理由。
在他们给出的允许思想(创意)组合的模型中,引入专利权会限制不同思想 的组合,从而阻碍创新。如果一家公司获得了触摸屏技术专利,那么就很可能会 减少其他企业设计采用这种技术的新产品的动力。如果没有专利保护,就会有更 多的产品采用这种技术。也就是说,创新将会增加。
专利制度的支持者则反过来指出,就算专利制度真的会阻碍创新(那将很糟 ),但是如果没有专利保护,那么投资的减少幅度将会大得多。博尔德林和莱 文基于我们在本书中讨论过的扩散模型反驳了这种说法。利用新知识设计生产的 有用产品会迅速通过消费者传播开来。收音机、电视和谷歌搜索引擎都是如此。 这会创造出一种先发优势,创新者仍然会受益,尽管获利程度与专利保护下有所
博尔德林和莱文还对某项发明应该在多大程度上归功于发明者提出了疑问。 如果重大突破都是某个孤独的天才在密室中做出的,而且如果没有动力,大多数 新思想都不会出现,那么专利制度就是有理由的。但是,崎岖景观模型表明,大 多数困难的问题都有很多种可行的解决方案。新发明,特别是那些结合了现有思 想和技术的发明,例如汽车、电话和在线拍卖,也许是本来就会发生的“自然事 ”,而不是某个天才人物行为的结果。如果各种想法和创意都能够在思考者的 群体中自由流动,那么很多人可能早就实现了这些创新。从历史上看,许多重大 发明(发现)都有一种引人注目的同时性,例如,微积分是由艾萨克 · 牛顿和戈 特弗里德 ·莱布尼茨发明的、电话是由亚历山大 ·格雷厄姆 · 贝尔和伊莱莎 ·格 雷发明的,以及进化的自然选择理论是由查尔斯 ·达尔文和阿尔弗雷德 ·拉塞 尔 ·华莱士发现的。
总而言之,多模型思维能够呈现专利制度的优点和缺点。这些模型提供的更 深入、更周详的结论支持一种更加灵活的专利制度。也许,对于其中一些想法, 那些许多人都能够发现的想法,以及可以与许多其他想法重新组合的想法,我们 应该采取与今天的专利制度不同的专利制度,例如授予更短的保护期限、更宽松


的使用条件。甚至,有些想法根本不应该被授予专利。


结课 多模型思维的实际应用
一切都是复杂的;如果不是这样,那么生活、诗歌以及所有一切,都只会成 为烦恼和负担。
华莱士 · 史蒂文斯
这是全书的最后一部分内容。在这一部分中,我们用多模型思维分析两个重 要的政策问题:阿片类药物滥用和经济不平等。我们将阐明,如果同时运用多个 模型,不但可以更好地分析这些问题,而且可以帮助我们理解为什么它们如此难 以解决。我们还将会看到,特别是在阿片类药物滥用这个问题上,专家们如何利 用多个模型在危机真的发生之前就预测到它。但是在这里,我们并不想说,利用 模型就可以避免灾难的发生,那过于夸大其词了。我们这里对阿片类药物滥用问 题的分析其实并不深刻,事实上,我们只是试图就如何利用多模型思维来考虑政 策制定和政策实施问题给出一个粗糙的模板。我们没有收集过数据,也没有校准 模型。相反,只是定性地应用模型得到一些见解。
然而另一方面,我们对收入不平等的分析则包括了更多细节,而且与学术文 献紧密地结合在一起。它代表了多模型思维的另一个极端,对各个模型都深入地 进行探讨。无论是对阿片类药物滥用问题,还是对收入不平等问题,利用多个模 型来进行思考都会使我们变得更有知识、更聪明。但从定义上讲,复杂的系统是 很难预测和理解的。我们肯定会犯错误,但是可以从这些错误中吸取教训,变得 更加明智。
多模型思维与阿片类药物滥用
在美国,阿片类药物滥用情况有多严重?只要举出一个数字就够了:2016  年,医生开出了超过2亿多张阿片类药物处方,这相当于差不多每个人一个处方。 在那一年,美国有超过10万人死于与阿片类药物有关的服药过量。而有阿片类  药物滥用问题的人则超过了1000万人,其中有200万多人已经被归类为阿片类  药物使用障碍患者。
医生之所以开出了如此之多的阿片类药物处方,主要原因当然是它们有疗效,


阿片类药物可以减轻疼痛。数以千万计的美国人都需要止疼,从而对这类药物产 生了巨大的需求。但是没有人料到,这类药物会被滥用到这个程度。为了解释阿 片类药物的滥用,我们采用了多模型思维方法。关于这个危机产生的原因,有四 个模型都给出了一些重要的直觉性结果。
第一个模型是多臂老虎机问题,它解释了为什么阿片类药物会被批准使用。 在申请药物上市时,制药公司要进行临床试验,以证明药物有显著的疗效并没有 有害的副作用。我们可以将药物临床试验建模为一个多臂老虎机问题,其中一只 手臂对应新处方药,另一只手臂则对应安慰剂或现有药物。
阿片类药物批准模型——多臂老虎机问题
为了证明阿片类药物的疗效,制药公司要进行药物与安慰剂的比对试验。在  临床试验中,患者随机分为两组,一组服用阿片类药物,另一组服用安慰剂。我  们可以把阿片类药物建模为一个“双臂老虎机”问题模型中的一只手臂、而把安  慰剂建模为另一只手臂。在试验结束时,每个试验都归类为“成功”或“失败”。 临床试验发现,接受阿片类药物治疗的患者的疼痛(在统计学的意义上)显著减  轻了。对接受过髋关节置换术、牙科手术和癌症治疗的患者进行的药物试验都表  明,阿片类药物的效果显著优于安慰剂。
对于任何一种药物,成瘾的可能性都是一个非常值得关注的问题。只有当临 床试验的结果可以证明,药物成瘾的患者比例极小(不到1%)时,这种药物才 有可能获得批准。然而,这种试验并没有考虑过医生会给患者开出“大处方”的 可能性,在某些情况下,医生一次开出的药就足够服用一个月。一个人服用阿片 类药物的时间越长,成瘾的可能性就越大。数据表明,服药期较长的患者的成瘾 率将会超过2.5%。下面的马尔可夫模型表明,成瘾率从1%提高到2.5%,就可以 使阿片类药物成瘾者的均衡人数增加5倍。
这些转移概率仅用数据进行了不严格的校准。因为我们在这里用这个模型只 是为了得出一个直观结论:相对较小的成瘾率是如何导致了大量成瘾者的。对这 个模型的数值实验表明,只要我们稍稍降低成瘾者戒瘾成功的概率并提高从无痛 苦状态转变为阿片状态的概率,那么阿片类药物成瘾者的比例会急剧增加。例如, 如果我们在第二个模型中将从成瘾状态转变到无痛苦的转移概率降低为1%,那 么成瘾者的比例就会增加到35%。这种模型思维的含义是非常明显的,在现实世


界中也开始得到了落实:有的医疗保健服务提供者,现在已经对医生可以开出阿 片类药物的数量进行了限制。
成瘾模型——马尔可夫模型
为了计算出成瘾的概率,我们创建了一个三态马尔可夫模型。这三个状态分  别表示不受疼痛折磨的人(无痛状态)、使用阿片类药物的人(阿片状态)和成  瘾者(成瘾状态)。我们要估计这三种状态之间的转移概率(用下图中的箭头表  示。左侧的模型假设使用阿片类药物的人当中,会有1%的人成瘾10%的成瘾  者会恢复为无痛状态,并假设20%的处于无痛状态的人会成为阿片类药物使用者。 在均衡状态下,只有2.2%的人是成瘾者。在考虑了“大处方”的情况下,左边  的模型假设2.5%使用阿片类药物的人会成瘾,同时只有5%的成瘾者会恢复为无  痛状态,并假设20%处于无痛状态的人会成为阿片类药物使用者。现在,在均衡  状态下,会有10%的人是成瘾者。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps925.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps926.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps927.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps928.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps929.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps930.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps931.png
我们的第三个模型是一个系统动力学模型。与马尔可夫模型类似,在这个模 型中,我们也假设了有三种类型的人(三个状态):受疼痛折磨的人、使用阿片 类药物的人和不受疼痛折磨的人。然而,这个系统动力学模型并不能直接写出这 些状态之间的转移概率,而是想象存在一个“流”:由受疼痛折磨的人,到阿片 类药物的使用者,再到不受疼痛折磨的人。更精细的系统动力学模型还可以包括 其他一些源(其他药物的提供者),并允许阿片类药物使用者和海洛因使用者之 间互动。此外,更精细的模型可能包括其他类型的情况。患有焦虑和抑郁的人更 容易成瘾这一事实也可能被纳入这个模型。
海洛因成瘾之路——系统动力学模型


模型描述了受疼痛折磨的人群产生阿片类药物使用者和海洛因成瘾者的过 程。阿片类药物使用者会变为无痛状态,也会变为成瘾状态。而成瘾者则可以进 一步发展成为海洛因使用者。人们使用海洛因的一个原因是他们不能再服用阿片 类药物了。因此,随着阿片类药物的流量的加大,海洛因使用者的数量也在增加。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps932.png
可以用来分析成瘾问题的最后一个模型是社会网络模型,我们没有在这里给 出它的正式形式。这个模型依靠社会网络解释为什么人均阿片类药物使用量的地 图会出现类似于农村地区那样的聚类。根据我们对平方根规则的分析,人口规模 越小,变差越大。回想一下前面举过的例子:表现最好的学校和表现最差的学校 都是小学校。农村地区阿片类药物的使用更大,也可能是因为医生会给农村病人 开出服药时间更久的大处方,因为他们距离药店更远。除了这些解释之外,阿片 类药物的使用也出现了聚类现象,而不再像是随机发生的。
如果阿片类药物是通过药物贩卖的渠道扩散的,那么就可能会出现这种聚类。 与销售二手旧家具不一样(在销售二手家具时,人们会刊登广告),阿片类药物   是通过个人关系销售出去的。因此,这样一个社会网络模型将会从家庭和朋友的   社交网络开始。模型可能会假设,人们只向亲密的朋友出售阿片类药物。如果真   的是这样,那么阿片类药物滥用者将会出现局部聚类现象。
用多模型法分析经济不平等问题接下来我们讨论最后一个多模型应用。在这 里,我们将深入研究经济不平等的各种原因。之所以要讨论这个问题,有三个原 因。首先,不平等是我们这个时代最重要的政策问题之一。收入和财富与人类社 会的繁荣和未来息息相关。高收入人群拥有更好的健康状况、更长的预期寿命、 更高的生活满意度和幸福感。处于收入分布底部的人无论是谋杀率、离婚率,还 是精神性疾病患病率都更高,他们普遍更加焦虑。


不过,我们必须非常小心,不要将相关关系与因果关系混淆起来。这种相关 关系的很大一部分可以通过更健康、更快乐的人赚的钱更多这个事实来解释。但 是,几乎所有研究都表明收入与生活幸福之间存在联系。没有人喜欢自己穷困潦 倒。其次,我们有各种各样的不平等模型,这些模型分别由经济学家、社会学家、 政治学家,甚至物理学家和生物学家提出。再次,我们拥有丰富的关于收入和财 富的国内数据和跨国数据。我们不仅拥有当前的数据,还拥有可以回溯数百年的 时间序列数据。
我们要先总结一下有关收入分配的若干经验规律。首先,在任何时代、任何 国家,收入分布都有一个很长的尾部——许多低收入者和一小部分高收入者。在 历史上,收入分布曾经被校准为对数正态分布或帕累托分布。最近,颗粒度更细 的数据表明,收入分布的尾部长于对数正态分布,但是又不完全符合幂律分布。 财富分布也同样是偏斜的。
其次,在大多数发达国家,近几十年来收入和财富不平等状况(无论用什么 指标来衡量)一直处于不断恶化的趋势中。目前,美国的收入和财富不平等程度 已经接近了镀金时代。由于整个分布内部的变化很难辨别,因此按照惯例,我们 描述了归属于分布的上尾部的收入份额的变化情况。图29-1显示了顶层0.1%所 占的收入份额随时间流逝而演变的情况。该图表明最顶层千分之一的家庭所占的 收入份额在20世纪50年代后稳步下降,直到20世纪80年前后一直稳定在不到 4%的水平。但是现在,这个数字已经上升到了10%左右。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps933.png
29-1 最顶层0.1%的人的收入份额,1916—2010年。
资料来源:Piketty,2011。


再次,在全球范围内,生活在极端贫困中的人的数量也急剧下降了。我们应 该看到,这些看似对立的趋势之间其实不存在逻辑矛盾。贫穷国家收入的快速增 长,显著地减少了收入的跨国差异,但是并没有抵消国内不平等程度的加剧。群 体选择模型也产生了类似的效果。利他主义社区数量的增长,压倒了每个社区内 部自私者上升的趋势。
不平等有很多原因,而且这些原因往往是相互交织的。经济力量、社会趋势、 政治因素,以及发展历史,都会导致不平等。因此,正如经济学家史蒂文 ·杜鲁  (Steven Durlauf)所指出的那样,我们不应该试图只用一个方程来解释所有不  平等的水平或趋势,也不应该把所有政策建立在一个模型的基础上。
我们必须想得更加细致周到一些。使财富和收入集中在顶层1%或最顶层 0.1%的过程,可能与将底层20%人困在贫穷陷阱中的因素无关。要深入了解收入 分化的原因,需要采取多模型方法。
我们首先描述解释收入分配变化的模型。收入有以下几个来源:工资和薪金、 营业收入、资本收入和资本收益。收入的这些组成部分股票的相对大小因收入水  平而异。低收入人群的资本收益或资本收入很少。收入最高的那些人则从每个来  源都可以获得很可观的收入。
我们的第一个模型扩展了柯布-道格拉斯(Cobb-Douglass)生产函数模型。 在这个模型中,劳动包括两种类型:受过教育的人提供的劳动和未受过教育的人 提供的劳动。支付给某种类型的劳动的工资取决于该类型的相对供给和技术。
这个模型可以解释近期基于供求关系不平等程度的上升。在20世纪50年代, 制造业的增长增加了对未受过教育的工人的需求。与此同时,大学入学人数的大  幅上升(这部分是因为美国《退伍军人安置法案》的实施),增加了受过教育的  工人的供给。到了20世纪80年代,由于人们上大学的动力下降,减缓了大学毕  业生数量的增长,再加上受教育程度较低的移民流入,增加了低技能工人的供给。 与此同时,技术变革——自动化制造的兴起和向更加数字化经济的转型,增加了  受过教育的工人的相对价值。他们的工资上涨反映了价值的这种变化。
按教育程度划分的平均收入时间序列数据与这个模型的拟合相当好。出于这 个原因,许多经济学家依靠这个模型来提出政策建议。根据这个模型,他们主张


增加所有人受教育的机会,因为这能抑制受过教育的工人工资的上涨趋势并减少 不平等。这个模型很好地解释了总体趋势,但是它无法解释每个收入阶层内部的 变差的扩大。
技术和人力资本模型——增长模型
产出取决于实物资本 (K) 、受过教育的人的劳动(S)   和未受过教育的人的 劳动 (U),    具体生产函数如下:
产出=A Ka Sβ Uγ
参数A 、α      、β   γ刻画了技术和三种投入要素相对价值。高技能工人 和低技能工人的相对市场工资是:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps934.jpg
(Wages  是高技能工人的工资,Wages  是低技能工人的工资)
不平等的原因:有利于受过教育的工人的技术变革会使β增大、使γ减少。 这一点,再加上低技能工人供给的增加,会增加不平等。
不过,正反馈模型却可以。这个模型着重关注分布的尾部上的人群,特别是  企业家群体。2011年,企业家在美国400名最富有的人中所占的比例达到了70%。
这个模型假设技术,特别是互联网和智能手机使人们之间的联系更加紧密, 并使人们在更大程度上受他人的选择的影响。
一个想购买无线立体声扬声器的人,可以在线阅读评论,并从多个可选项中 选出“最好的”。在过去,这个人也许只能在当地的立体声商店买,并只能选择 唯一可选的某个型号。一个扭伤了膝盖的人,现在可以在网上搜索并了解他最喜 欢的运动医生的身份。这种连通性会产生正反馈并导致更大的不平等。为了给这 种受社会网络影响的经济选择建模,我们修改一下优先连接模型,以便将正反馈 与人才联系起来,从而为受社会影响的经济选择建模。


虽然正反馈模型与时间序列数据的拟合程度不如前面那个强调技术导致增 长的模型高,但是我们可以通过运行数值实验来了解反馈是如何导致不平等的。 回想一下在第6章中描述过的音乐下载实验,也就是让随机分成两个组的大学生 在两个不同的情境中下载音乐。在第一个情境中,被试们无法看到其他人在下载 什么音乐。这种情境刻画了互联网出现前的世界。在第二个情境中,被试们可以 看到每首歌的下载数字。在不能观察到“社交”信息的情境下,没有一首歌的下 载次数超过了200次,只有一首歌的下载次数少于30次。然而,当人们可以看 到下载次数时,有一首歌的下载次数超过了300次,同时一半以上的歌曲的下载 次数少于30次。信息和社会影响放大了马太效应。富人变得更加富裕了,而穷 人则变得相对更穷了。
对才华的正反馈——优先连接模型
存在N 个生产者。开始时,每个生产者的销量均为零。第一个消费者随机 选中了一个零销量的生产者,购买了产品,使该生产商的销量为正。随后,每个 后续消费者都以概率p 从销量为零的生产者那里购买、以概率(1-p) 从具有 销量为正的生产者那里购买。当从具有销量为正的生产者那里购买时,消费者选 择生产者的概率与该生产者的当前销量成正比例。
不平等的原因:
更多的联系增加了社会影响,创造了正反馈。
显然,我们可以将同样的逻辑应用于对经济问题的分析。
社交网络的正反馈效应导致不平等的可能性部分取决于人们所购买东西的  性质。没有重量的商品,比如说可下载的电影、音乐和网络应用程序,以及某些 技术,都很容易传播。点击一下图标是不能复制拖拉机、汽车和洗衣机的。因此, 新的智能手机应用程序的销量可以几乎不需要付出任何资本支出就能够扩大,但 是汽车却不能,即便是最畅销的汽车也不能。 一个例子是,2015年5月,沃尔 沃宣布,将在南卡罗来纳州生产S60 轿车。这家新公司将于2015年9月破土动 工,而第一批汽车将在2018年末才能下线。


下一个模型源于空间投票模型。我们用它来解释公司高管(如CEO) 薪酬的 上升,它不是由社会网络因素决定的。2012年,财富500强企业CEO的平均收 入超过了1000万美元,大约相当于当年工人平均工资的300倍。相比之下,在 1966年,CEO的工资仅为工人平均工资的25倍左右。其他国家CEO的收入则要 少得多。在日本,CEO 的收入大约是普通员工的10倍。在加拿大和整个欧洲, CEO的工资大约是普通工人的20倍。
在大多数公司内,CEO 的薪酬是由一个由董事会成员组成的薪酬委员会决定 的,通常包括了工资、奖金和股票期权。这就是说,决定CEO薪酬的人往往是 其他CEO。他们有很强的动机提高其他CEO的薪酬,进而提高自己的薪酬。我们 可以使用一个空间模型来表示薪酬委员会的偏好。根据空间投票模型,工资将被 设定为中间选民的偏好。CEO的薪酬跨国差异可以通过董事会和薪酬委员会的组 成来解释。在德国,董事会包括工人成员,他们更倾向于减少CEO 的工资。
CEO的薪酬——空间投票模型
CEO 薪酬由薪酬委员会投票决定。在美国,薪酬委员会通常由现任和前任 CEO (他们当然更喜欢高薪)以及薪酬专家(X) 组成。而在其他国家,薪酬委 员会的组成人员中还有工人(W),    因而导致中间选民更偏好比较低的薪酬水平。
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps935.png
不平等的原因:
CEO通过相互“俘获”来确定自己的薪酬。任何一位CEO的薪酬的增加, 都会使所有CEO更加偏好更高的薪酬。


这个模型根据什么样的薪酬才是适当的来解释CEO 薪酬的上升。在一点上, 我们也可以回过头去考虑分析价值的多模型方法。薪酬委员会成员的理想价值可 能是基于数据的,也可能在社会影响下形成的,或者也可能是基于对CEO未来 价值的预测。
下一个收入不平等模型来自著名经济学家托马斯 ·皮凯蒂(Thomas Piketty) 的畅销书《21世纪资本论》(Capital in the Twenty-FirstCentury )。与其说这是一 个正式的模型,还不如说它是一个观察结果:资本回报率总是会超过经济增长率。 只要这个关系成立,那么高收入者从资本回报中获得的收入部分就会随着时间的 推移而不断增加。如果在增长模型的基础上构建一个更精致的模型,应该不难证  明资本回报率始终会超过整个经济体的增长率。从长远来看,经济增长率可能不 2%或3%,但是资本回报率则可能会高出一倍以上。
由此可以推出,在一个由赚取工资的工人和从租金中获得收入的资本家组成 的经济体中,资本家的收入份额将会增加。更正式地说,资本增加的速度将取决 于三个比率:消费率、税率和资本回报率。消费取决于资本存量水平。一个没有 什么资本的人需要把自己收入的很大一部分消费掉,而拥有大量资本的人的消费 只占收入的很小一部分。如下面的专栏所示,如果我们将消费率表示为一个常数 除以资本水平,那么消费量将不会依赖于资本水平。较富裕的人将以较低的速度 消费,而这会使他们的净资本更有可能增加。
资本租金模型(皮凯蒂)——72法则
经济由工人和资本家组成。工人的工资增长率为g,   即经济增长率。资本 家在时间t 有财富Wt。 资本的回报率为r (税后净额),且资本家的消费为一 个不变的常数A。 资本家的收入将比工人的增长更快,当且仅当:
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps936.jpg
不平等的原因:
在市场经济中,资本回报率必定超过经济总增长率(即r>g) 拥有大量财


富的资本家只将自己资本收入的一小部分用于消费,因此他们在总收入中的份额 将随着时间的推移而不断提高。
为了说明资本回报率与经济增长率之间的差异是怎样导致不平等的,我们可 以应用72法则。如果在最初的时候,工人的收入与资本家的收入相等,工资的 年增长率为2%,而资本的年增长率为6%,那么36年后,工资将增加一倍, 但是源于资本的收入将增加8倍。而在72年内,资本家的收入将会达到工人收 入的60倍。
皮凯蒂就是运用这样一个模型来解释收入和财富不平等的长期趋势的。用法 国和英国过去三个世纪以来的数据对这个模型进行校准,结果非常好。这个模型 还揭示了过去一个世纪在美国和欧洲各国的不平等的演变模式:两次世界大战摧 毁了欧洲的资本存量,使那里的收入和资本分配较为平衡。这个模型能够很好地 适合数据的一个原因是它略去了两个相互抵消的效应。由于将企业家排除在外, 这个模型低估了不平等。而通过假设资本家的后代会明智地投资(尽管并非所有 资本家的后代都能做到这一点),这个模型又夸大了不平等。因此,它在创造了 一个新的富人阶层的同时,抹去了一个原来的富人阶层。这个模型,由于同时出 现了这两个疏漏,因而比只有一个疏漏的模型更加准确。
这个模型的含义是,只要资本在增加,资本家就会从经济蛋糕中获得越来越 大的份额。只要继续应用72法则,任何人都能看到资本家的收入将使工人的收 入相形见绌。对于这种原因导致的收入不平等,似乎有一个非常简单的解决方案: 向富人征收财富税。作为征税的替代方案,有的人可能会期待战争和革命,也就 是以暴力的方式重新分配财富;或者,等待能够产生很多新资本家的技术突破的 出 现 。
接下来要考虑的两个模型都优先考虑社会力量,而且两者都有很强的经验证 据支持。第一个模型解释了选择性婚配,也就是所谓的门当户对的婚姻选择所导 致的不平等恶化。家庭的收入取决于夫妻双方的收入。如果一个低收入者与一个 高收入者结婚,那么这种婚姻将有助于平衡收入分配。如果一个高收入者与另一 个高收入者结婚,那么收入差距将会增大。虽然大多数人结婚时,都无法确知未 来的人生伴侣的终身收入;但是,人们确实可以了解潜在结婚对象的受教育程度 和身体健康状况,并且能够收到他们是否拥有雄心壮志的信号。有证据表明,男 (女性)受教育程度越高、收入越高(技术和人力资本模型),他们越有可能


选择受教育程度较高的人生伴侣。
不平等的加剧是由以下因素造成的。第一,获得大学学位的女性越来越多。 第二,相对收入会随着接受教育的程度的增加而提高。第三,受过良好教育的男 (女性)更喜欢受过良好教育的人生伴侣。因此,由两个受教育程度很高的人 组成的家庭,更有可能拥有两个高收入者,从而导致家庭之间的收入不平等状况 恶化。这里的逻辑似乎很严密。唯一的问题是这种效应的影响空间有多大。
社会学家通常会将人们按教育水平分为五类:辍学、高中毕业、上过大学、  有大学学位,以及研究生。然后,他们计算出每个教育水平的平均收入,并拟合  关于每一对教育水平之间的婚姻数量的数据,从而粗略估计出选择性婚配的影响。
选择性婚配模型——分类模型与分类
每个人都有自己的教育水平:{1,2,3,4,5}。(其中1=辍学,2=高中毕业, 3=上过大学,4=大学学位,5=研究生)
令P(m,j)             和 P(w,j)              分别表示男人和女人具有教育水平j  的 概
率。收入(g,Q)     表示性别为g、 收入水平为Q  的人的(估计)收入。 一
对夫妇组成的家庭的收入,包括了一个受教育程度为Q   M 的男子和一名受教育
程度为Q  w 的妇女的收入。其家庭收入估计如下:
收入(M,Q        M)+收 入(W,Q       w)
不平等的原因:受过良好教育的女性人数的增加、高教育水平的工人工资 的增加,以及选择性婚配(人们喜欢与收入水平相同的异性结婚的倾向)导致了 家庭之间收入不平等的增加。
如果婚姻是随机的而不是非得门当户对不可的,收入不平等的程度就会轻得 多。一项研究表明,如果婚姻是随机的,那么以基尼系数衡量的收入不平等程度 将会减少25%。
下一个模型则使用马尔可夫模型分析不同收入类别之间的变动。这个模型按 收入水平将人们(或家庭)分成四类:高、中高、中低、低。每个类别包括了分


布的1/4。选定一个时间段,可能是1年、10年,也可能是一代人的时间,然后 估计收入类别之间的转移概率,以刻画收入流动性。
代际收入(财富)动态变化——马尔可夫模型
将所有人口划分为4个人数相等的收入(或财富)类别。我们可以估计一个 类别中的个体(或家庭)在一代的时间内流动到另一个类别中的转移概率(如下 图所示)。更平等的转移概率对应更大的社会流动性。
父代             子代
file:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps937.pngfile:///C:/Users/pc/AppData/Local/Temp/ksohtml29392/wps938.png
收入水平(收入等级)之间的转移概率 不平等的原因:
社交技能、隐性知识、对风险和教育的态度以及遗产,减少了收入阶层之间 的流动性。
如果代与代之间不存在黏性,那么高收入父母的孩子的收入属于4个收入阶 层中的任何一个的概率都相同,即所有的转移概率都等于1/4。在完全不存在流 动性的最极端情况下,转移概率将仅包括沿对角线的那1。经验结果估计,表 明现实介于这两个极端之间。
我们可以拿100个随机挑选出来的高收入或低收入水平家庭来进行仿真实 验,计算出每一个后代收入的概率分布。如果使用上面的专栏中给出的概率,高


收入者的子女有60%的机会成为高收入者,只有5%的机会成为低收入者,那么 高收入者的孙子女成为高收入的可能性不足43%,成为低收入的可能性却会超过 10%。
这个收入动态模型也可以作为评估收入流动原因的基准模型。我们可能会使 用一个线性模型来估计作为父母的财富、收入和能力水平的函数的子女收入(假 设我们拥有相关的数据)。皮凯蒂的模型意味着父母的财富与子女的收入之间是 正相关的。基于能力的模型则意味着父母的能力与子女的收入是正相关的,因为 父母的能力和后代的能力之间存在某种相关性。
需要注意的是,要确定父母收入系数需要每个子女和每个父母的收入数据。 只是过去几十年以来,我们才开始拥有比较完整的个人收入数据。幸运的是,在 《太阳照常升起》(The Sun Also Rises  )这本著名小说中,经济史学家格雷戈里 ·克 拉克(Gregory Clark)发现了一种解决数据匮乏问题的新方法,这种方法利用了 人的姓氏。克拉克计算了1888 年所有名叫撒切尔的人的平均收入,并将之与1917 年所有名叫撒切尔的人的平均收入进行了比较。30年的时间基本相当于一个人 一辈子的工作时间。结果,克拉克发现姓氏的平均收入存在显著的相关性,这是 表明收入缺乏流动性的一个证据。
有了这种模型,我们还可以识别代际转移中的种族差异。非洲裔美国人虽然 也有进入收入分布顶端的,但是表现出了更低的财富持久性;而另一方面,他们 在低端则表现出更大的持久性。这也就是说,富裕的非洲裔美国人不太可能拥有 富裕的子女,而贫穷的非洲裔美国人却更有可能拥有贫穷的子女。
我们要讨论的最后一个关于收入不平等的模型基于邻域效应,它是以杜鲁夫 的持续不平等模型(persistent   inequality   model)为基础的,利用了人们按收入类 别分离居住的经验规律性。这也就是说,高收入的人倾向于与其他高收入的人生 活在同一个社区中,而低收入的人则与其他低收入的人住在一起。按收入类别分 离居住会产生经济上、社会上和心理上的外部性,从而导致流动性下降。在这个 模型中,个人收入取决于能力、教育支出和溢出效应。
教育属性还包含教育方面的公共支出。从经验上看,公共教育支出又与平均 收入水平相关:高收入地区在公共教育方面的支出高于低收入地区,从而又可以 为高收入社区的儿童带来更好的教育和更高的(未来)收入。


溢出可以解释为获取适当工具所需知识的社会传播。在这里,我们可以将杜 鲁夫的模型与居住在高收入社区的人们如何获得关于何为适当工具的知识过程 联系起来。还可以将模型与社会网络模型和“弱关系有大力量”现象联系起来: 生活在高收入社区的人们能够间接地与更多掌握了很有经济价值的信息的人联 系起来。
我们还可以将溢出效应解释为一种社会传播行为,例如学习或工作所花费的 小时数。如果收入包含了随机成分,那么低收入社区的人就会观察到,花费在自 我完善、自我提高上的时间不会带来多少回报(这种观察结论是正确的)。与此 相关,溢出还可能包括心理属性,比如对生活积极的或消极的态度、对社会的安 全感,以及对自己的信念。
持续不平等(杜鲁夫)模型——谢林隔离模型+局部多数模型
所有个人分别属于不同收入类别,并按不同收入类别分离居住。个人将自己 的部分收入用于教育,从而产生正面的溢出效应,这种溢出效应随社区收入水平 的上升而增强。生活在社区C 中的孩子的未来收入取决于自己天生的能力、教 育支出和溢出效应。教育支出和溢出效应的贡献取决于这个社区的收入水平,I  C。
个人收入C=F (能力、教育支出(IC)、 溢出效应(IC))
不平等的原因:
在低收入社区长大的儿童获得的教育机会较少、受益于经济溢出效应的可能 性也更低。
在完整的模型中,杜鲁夫求解出了教育支出的均衡水平,并推导出了持续不 平等产生的条件。这种持续的不平等源于他所称的“贫困陷阱”。生活在低收入 社区的个人缺乏提高收入所必需的教育资源,当地也不存在可以令他受益的溢出 水平,因此无论他们的能力水平如何,都很难走出贫困陷阱。杜鲁夫的模型有助 于解释收入水平上的巨大种族差距,例如,非洲裔美国人生活在贫困社区的比例 过高。杜鲁夫的模型解释了为什么他们更可能陷入低收入的人生轨迹无法自拔。


上面给出的这些模型突出了收入不平等的各种不同原因。对于收入分布的顶 层,经验证据最支持的是那些以技术变革为基础的模型。
20多年来,美国国税局追踪了收入最高的400个美国人的收入情况。最顶 层这些人的收入主要来自新技术、大众零售和金融行业。这三个行业的共同特点 是,它们都可以快速扩展。这种特别高的增长率可能源于像搜索引擎和社交网站 这样的赢者通吃市场。但是,以技术变革为基础的模型不能解释收入分布底层的 情况。关于收入流动性,它们也无法告诉我们什么信息。此外,它们也不能解释 为什么美国CEO的薪酬远远超过了其他国家。
为了解释这些现象,我们需要引入其他模型,比如收入流动性模型、杜鲁夫 的持续收入不平等模型和空间投票模型。只有在考虑了所有这些模型之后,我们 对收入(财富)不平等才会有更加深刻且多方面的理解。我们看到,在不平等的 产生和维持中,有许多不同的过程都起到了作用。我们还可以观察到,这些不同 的过程之间存在重叠和交叉。当我们对不平等的复杂性和自我强化的因果关系有 了更深刻的理解之后,我们就会对任何声称能够“快速”解决不平等问题的简单 方案持怀疑态度。我们认为,减少不平等将需要在很多个方面共同努力。
让智慧入世
在本章中,我们讨论了如何将多个模型结合成一个整体来使用。利用这种方 法,我们可以解释阿片类药物滥用和收入不平等的多种原因,并揭示任何一个解 释框架的局限性。如果我们是制定政策的专家,就可以用这些模型中的某一个或 某一些模型去拟合数据、衡量政策效果,还可以组织自然实验来指导政策选择。
我们还可以针对任何一种社会挑战来进行类似的分析,例如,扭转肥胖趋势, 改善教学成绩,缓解气候变暖,管理水资源,甚至改善国际关系。
在每种情况下,即使添加一个新模型也可能产生巨大的后果。以预测金融崩 溃为例。美国联邦储备委员会依靠传统的经济模型,使用通货膨胀、失业和存货 等国民核算数据。但是这些数据存在滞后性,它们每周、每季度或每年发布一次。 这些数据也来自调查,即整个经济的样本。


复杂性学者多恩 · 法默 (J.Doyne     Farmer) 主张基于从网络上获取的实时数 据创建第二类模型。这些新模型将依赖于更细粒度的实时数据,因此与传统的模 型不同。法默认为,这样的模型可能比现有的模型要好得多,他可能是对的。然 而,在预测和预防金融灾难方面,这些新模型并不需要更准确。考虑到新模型将 使用不同的数据并依赖于不同的假设,它们将做出不同的预测。从多样性预测定 理中我们知道,只要新模型的精度不差很多,当与现有模型相结合时,这些新模 型将提高预测的准确性。用法默的话来说,政策制定者将会更有集体意识。
在做商业决策时,高管可能会从事类似的工作。高管可以应用多个模型来决 定产品属性、产品发布时间,设计薪酬计划,构建供应链并预测销售。因为这些 操作都发生在一个复杂的系统中,所以任何一个模型都是错误的。多个模型将会 带来更好的行动。
总而言之,当面临选择、预测或设计方面的挑战时,我们应该采取多模型方  法。基于多模型思维的“谋定而后动”肯定要比仅仅基于冲动和直觉就行动更好。 当然,这也就意味着,我们无法保证成功。即便有很多模型,我们也可能无法确  定最相关的逻辑链。与要解决的问题有关的领域可能非常复杂,甚至利用许多个  模型也可能仅能解释变差的一小部分。
在应用模型来辅助设计时,我们可能会发现自己无法构建出有用的模型抽象。 在这种情况下,模型的简单性恰恰可能会成为它们失败的原因。面对复杂性,我   们可能会发现模型无助于我们交流思想、做出准确预测和选择最优行动。我们的  探索也可能是几乎没有价值的。这本书中讨论的模型的七大用途并不一定能提供   顺利登顶的云梯。但是,即便是在这些情况下,我们也能受益。我们可以揭示出  相互依赖性,能够理解为什么复杂的过程往往很难理解。
即便是在模型的帮助下,我们的推理能力也会受到限制,所以我们必须保持 谦卑,也必须保持好奇心。我们必须继续构建新模型并改进现有模型。如果某个 模型遗漏了世界的某些关键特征,例如社会影响、正反馈或认知偏差,那么我们 就应该构建能够包含这些假设的其他模型。当采取这些方法后,就可以分辨出哪 些属性在什么时候是重要的、重要程度有多高。所有模型都是错的,这当然是事 实。但是,我们不会因这个事实而泄气;恰恰相反,它会成为我们通过多个模型 来追求智慧的动力。


同样重要的是,我们还应该在这种努力中追求乐趣。虽然本书一直在强调一 些务实的目标,比如成为更好的思考者、在工作中取得更好的成绩、做一个有知 识有智慧的世界公民。但是,它同时也隐含着另一个重要的目标,那就是,揭示 建模的乐趣。建模的实践可以成为一个非常美丽的邂逅。我们做出假设、制订规 则,然后根据规则、运用逻辑。正是通过这种合乎逻辑的努力,我们才能提高自 己、使自己变得聪明。我们要将这种智慧带入世界,并积极地利用它去改变世界。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|小黑屋|智慧文学社

GMT+8, 2025-4-18 23:17 , Processed in 0.145258 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表