danluu

关于AI偏见讨论的讨论

Sun, 16 Jun 2024 00:00:00 +0000

[AI 摘要] 本文探讨了公众对生成式AI偏见问题的讨论往往将其视为非缺陷，与经典软件漏洞反应截然不同，并分析了这种现象背后的技术、社会和经济原因。

过去几年，关于机器学习/AI（尤其是大型语言模型和生成式AI）偏见的爆款故事频频出现。关于偏见讨论中，我感兴趣的一点是：当生成式AI产生与用户请求截然相反的输出时，人们的反应与“经典”软件漏洞（存在明确错误的情况）下的反应截然不同。特别是，如果你去看论坛或其他非专业人士的讨论，人们经常否认模型输出与用户要求相反的现象是一种漏洞。例如，一年前，一位亚裔麻省理工学院研究生要求Playground AI（PAI）“为原图中的女孩制作一张专业的领英头像”，结果PAI将她的面部转换成了白人面孔和蓝眼睛。

Reddit首页关于此事排名第一的“没有偏见”回应，也是总体排名最高的评论之一，是这样的：

当然，现在你去最流行的Stable Diffusion模型网站看看首页的图片。

你会看到数量惊人（几乎占非动漫模型的50%）的亚洲女性，多到你会认为亚洲特质是一种被向往的特征。

这难道不比“一个女人在一个网站上输入了一个愚蠢的提示，然后他们生成了一个白人女性”更重要吗？

另外请记住，她输入的是“领英”，所以任何了解当前提示工作原理的人都知道，AI更可能搜索的是“领英上的普通女性”，而不是它认为的“职业女性”，因为图像AI没有观点。

简而言之，这只是AI引流文章。

其他表达相同主题的高赞评论包括：

老实说，这条评论应该排得更高。如果你想现在就用带检查点的Stable Diffusion，如果你不想要亚洲女孩，那就难多了。很多很多模型都是基于动漫或亚洲女性训练的。

以及：

对吧？AI图像甚至有相反的问题。训练集中亚洲人数量庞大，加上亚洲创建的模型数量庞大，意味着很多很多模型都偏向于输出亚洲面孔。

其他高赞评论指出这是样本量问题：

“系统性种族偏见的证据”

只展示了一个结果。

当《波士顿环球报》要求采访时，Playground AI的CEO也给出了同样的回应——他拒绝了采访，并回复了一系列反问句，如下（《波士顿环球报》暗示还有更多，但未刊登回复的其余部分）：

如果我只掷一次骰子得到数字1，这是否意味着我每次都会得到1？我是否应该根据一次观察就得出结论，认为这个骰子偏向数字1，并且被训练成倾向于掷出1？

我们本可以同样轻松地从谷歌、Facebook、微软或任何其他当前部署大量机器学习的公司中举出一个例子，但既然Playground AI的CEO基本上是在要求别人看看PAI的输出，我们在本文中就以PAI为例。我在我的Mastodon个人头像上尝试了麻省理工学院研究生使用的相同提示，将“女孩”替换为“男人”。PAI通常会将我的亚洲面孔变成白人（高加索人）面孔，但有时会让我变得更白一些但民族特征模糊（可能有点像中东人或东亚人之类。顺便说一句，我的面孔有一些独特的越南特征，看起来很越南，而不太像任何东亚人。

我的头像是一张浅肤色的冬季照片，因此我尝试了一张深肤色的夏季照片，结果PAI通常会将我的面孔转换成南亚或非洲面孔，偶尔是中国面孔（但从未是越南人或东南亚人面孔），例如如下：

许多其他人也尝试了各种提示，他们得到的结果也表明该模型（这里的“模型”是泛指，包括模型及其权重，以及任何负责生成输出的系统）对诸如“如果一个人从事特定职业，其种族是什么”之类的事情有一些先入为主的观念，这些观念强烈到足以覆盖输入的照片。例如，由于模型“决定”通过丢弃亚洲特征并使其变白可以使某人看起来更“专业”，从而将浅肤色亚洲人转换为白人。

其他人尝试了各种提示，以观察模型中捆绑了哪些先入为主的观念，并发现了类似的结果，例如，Rob Ricci在分别要求生成“计算机科学”、“哲学”、“化学”、“生物学”、“兽医学”、“护理学”、“性别研究”、“中国历史”和“非洲文学”X教授的“领英头像”时得到了以下结果。在为前7个提示生成的28张图像中，28人中可能只有1或2人不是白人。下一个提示“中国历史”的结果则极其刻板化，当我们要求生成非白人输出时，其他模型也经常出现这种情况。Andreas Thienemann指出，除了夸张的中国刻板印象外，每位教授都戴着眼镜，这是另一个经典的刻板印象。

如前所述，我并非特意针对Playground AI。正如我在别处指出的，价值万亿美元的公司经常将AI模型部署到生产环境中，甚至没有进行最基本的偏见检查；当我尝试ChatGPT时，我尝试的所有偏见检查提示返回的结果都类似于我们在此看到的图像，例如，当我尝试要求提供科技行业男性和女性的简介时，女性的简介往往表明她们从事多元化工作，即使对于没有相关公开记录的女性也是如此；而男性则倾向于拥有名牌工程学院（如MIT和伯克利）的学位，即使这些人并未就读于任何名牌学校，对于名牌科技公司也是如此（由于Twitter限制，链接只有4个例子，但我尝试的其他例子与显示的例子一致）。

本文本可以使用几乎任何公开可用的生成式AI。它之所以使用Playground AI，仅仅是因为CEO的回应既要求我们这样做，也反映了外行常见的标准反射式“AI没有偏见”的回应。

回到关于“由于亚洲人在其他情况下如此突出，因此将职业照片中的人变成白人并不算有偏见”的回应，我们之前查看的那条高赞Reddit评论建议“去最流行的Stable Diffusion模型网站看看首页的图片”。以下是我点击该评论发布当天链接并点击“feed”后看到的内容。

[点击展开/折叠略带NSFW的图片]

史蒂夫·鲍尔默是一位被低估的CEO

Mon, 28 Oct 2024 00:00:00 +0000

[AI 摘要] 文章论证史蒂夫·鲍尔默在任期内为微软的长期成功奠定了基础，反驳了外界对其领导力的低估。

普遍存在一种说法：微软在史蒂夫·鲍尔默领导下一蹶不振，后来被萨提亚·纳德拉的卓越领导力所拯救。这是我在所有在线讨论中看到的主流叙事，也是“现实生活中”普遍接受的看法。虽然本文无意对纳德拉的领导力提出负面评价，但这种说法低估了鲍尔默对微软成功的贡献。不仅在鲍尔默任期内，微软的财务表现（收入和利润）非常出色，而且他领导下的微软做出了深入、长期的战略投资，为他卸任后数十年的成功奠定了基础。当时这些投资备受批评，表明它们并非显而易见，但回顾来看，尽管面临当时的质疑，公司做出了非常有力的决策。

除了在后来被归功于纳德拉的领域进行深入投资外，鲍尔默还为任何继任者清除了政治障碍，为纳德拉的成功铺平了道路。正如加里·伯恩哈特曾因将问题陈述和解决方案表述得过于显而易见而遭到批评，以至于人们没有意识到自己学到了非同寻常的东西，鲍尔默为微软未来的成功所做的铺垫如此有效，以至于人们很容易批评他是一个无能之辈，因为他的继任者如此成功。

对鲍尔默的批评

对于那些在世纪之交之前没有经历过的人来说，在90年代，微软曾被认为是城里最大、最强的公司。但不久之后，人们对微软的看法就改变了——到2007年，许多人认为微软是下一个IBM，保罗·格雷厄姆写下了《微软已死》，文中指出微软曾被认为是高效的已是古老的历史：

几天前，我突然意识到微软已经死了。当时我正在和一位年轻的初创公司创始人谈论谷歌与雅虎的不同之处。我说雅虎从一开始就因害怕微软而扭曲了自己的定位。这就是为什么他们将自己定位为“媒体公司”而非科技公司。然后我看着他的脸，意识到他并不理解。就好像我告诉他80年代中期的女孩有多喜欢巴里·曼尼洛一样。巴里是谁？

微软？他没说什么，但我能看出他不太相信有人会对他们感到恐惧。

这类评论通常伴随着微软收入注定会下降的说法，比如格雷厄姆的这些评论：

演员和音乐家偶尔会复出，但科技公司几乎不会。科技公司就像抛射物。正因为如此，你可以在任何问题出现在资产负债表上之前就宣称它们已死。相关性可能领先收入五年甚至十年。

格雷厄姆将谷歌和互联网的崛起称为微软死亡的主要原因，我们稍后会讨论这一点。尽管格雷厄姆没有点名鲍尔默，也没有指出他在《微软已死》中的影响，但鲍尔默几十年来一直是技术人员最喜欢的靶子。鲍尔默是从商业领域起家的，后来成为销售与支持执行副总裁；技术人员喜欢贬低科技行业中非技术背景的人¹。当时和现在一个常见的批评是，鲍尔默不懂技术，是一个糟糕的领导者，因为他只知道销售和利润，只会抄袭别人做过的事情。举个例子，如果你在科技论坛（minimsft、HN、slashdot等）上看鲍尔默在2012年将辛诺夫斯基赶走时的在线评论，鲍尔默的领导力几乎受到普遍批评²。这里有一条典型的评论，来自一位自称是匿名微软内部人士的人：

赶走鲍尔默。从失败的在线服务部门（它们永远不会变得更好）开始，裁员40%。将数十亿美元重新投资于普吉特海湾地区可以为微软带来增值或收购目标的创业机会……重置Windows——桌面和平板电脑。认真对待企业云（如Salesforce……）

就鲍尔默为自己辩护而言，他指出市场似乎低估了微软。鲍尔默指出，当时微软的市值相对于其基本面/财务表现，与亚马逊、谷歌、苹果、甲骨文、IBM和Salesforce相比非常低。这似乎是鲍尔默的公允评估，因为自那时起，微软的表现优于所有这些公司。

当纳德拉成为CEO后微软市值飙升时，叙事自然是鲍尔默正在扼杀微软，公司一直在挣扎，直到纳德拉将其扭转。你可以选择其他讨论，但举个例子，如果我们看最近一次《微软已死》在Hacker News上排名第一时，快速搜索一下，鲍尔默的名字出现了24次。鲍尔默有一些辩护者，但标准的叙事——鲍尔默在拖累微软——就在那里，其中一位辩护者甚至使用了部分标准叙事：鲍尔默是一个缺乏想象力的庸才，但他至少在财务上为微软奠定了良好基础。如果你看高排名的评论，它们都在嘲笑鲍尔默。

如果你看那些信息较少的论坛，比如Twitter或Reddit，你会看到同样的攻击，但鲍尔默的辩护者更少。在Twitter上，当我搜索“Ballmer”时，前四个结果都是明确嘲笑鲍尔默的。第五个结果可能褒贬不一，但从评论来看，似乎通常也被视为嘲笑鲍尔默，而且在我滚动查看的过程中，除一个视频外，其余的视频都在嘲笑鲍尔默（那个例外是一个采访，鲍尔默提到他在2009年向扎克伯格出价“200亿美元以上，大概是这个数”收购Facebook，这在当时将是第二大科技收购案，仅次于卡莉·菲奥莉娜2001年以250亿美元收购康柏）。在Reddit上搜索（使用无历史记录的隐身窗口）也是同样的情况（排除关于他作为NBA老板的故事，他在球迷中受人尊敬）。头号故事在嘲笑他，下一个故事指出他比比尔·盖茨更富有，关于他作为CEO表现的最高评论以“讽刺的是，他是微软[原文如此]最糟糕的CEO”开头，然后是标准的叙事：公司现在做得好的唯一原因是纳德拉拯救了局面，鲍尔默错过了科技行业所有重要的变化，等等。

总结一下，过去二十年里，人们一直在嘲笑鲍尔默是个不懂科技的滑稽人物，充其量是个只知道如何维持公司运转、不知道如何促进创新、导致微软在所有重要市场落后的记账员。

鲍尔默的胜利

这种普遍看法与鲍尔默领导下的实际情况相矛盾。自格雷厄姆宣布微软已死以来，在鲍尔默领导下发生的具有财务意义的积极事件包括：

2009年：必应推出。这被认为是一个巨大的失败，但这里的标准相当高。快速网络搜索显示，必应据称在2015年盈利10亿美元，在2024财年盈利64亿美元，收入126亿美元（根据微软2022年的市盈率，粗略估计必应在2022年的价值约为2400亿美元）
2010年：微软创建Azure
- 我不能说我自己喜欢这个产品，但就运营大规模云基础设施而言，世界上遥遥领先的三家公司是亚马逊、谷歌和微软。从商业角度来看，你能对微软在这里说的最坏的话就是它是该业务的可靠第二名，并且是成为第一名的最大威胁
- 在鲍尔默领导和培育下建立的企业销售部门，对Azure和Office的成功至关重要
2010年：Office 365发布
- 微软将其企业/业务软件套件从盒装软件转变为基于订阅的软件，并提供在线选项
- 这没有一个固定的日期；Office 365的正式发布似乎可以作为一个好的参考年份
像Azure一样，我个人不喜欢这些产品，但如果微软要拆分成主要业务部门，企业软件套件可能是唯一能在市值上与Azure匹敌的业务部门

当然也有很多重大的失误。从2010年到2015年，HoloLens是微软最大的赌注之一，仅次于Azure和必应，但到目前为止，任何人的大型AR或VR赌注都没有带来良好的回报。微软未能抓住移动市场。尽管Windows Phone总体上受到尝试过它的评论家的好评，但根据你问的对象，微软要么是太晚了，要么是不愿意长期补贴Windows Phone。尽管.NET至今仍在使用，但就市场份额而言，.NET和Silverlight没有达到早期的承诺，关键部分因内部政治斗争而受阻或被取消。必应，就声誉而言，是一个失败，而且，至少根据微软当时的选择，可能需要对谷歌采取反垄断行动才能成功，但这个失败仍然产生了一个价值数千亿美元的业务部门。尽管有所有这些失败，最大的赌注Azure可能价值万亿美元左右。

微软的企业销售部门是在鲍尔默担任CEO之前建立的（他曾担任销售与支持执行副总裁，实际上是以第一位业务经理的身份加入微软），并在鲍尔默担任CEO期间继续发展壮大。微软的销售策略如此有效，以至于当我在微软时，谷歌会向一些Office 365客户提供谷歌的企业套件（文档等）免费使用。微软销售人员指出，即使面对谷歌免费提供产品的情况，他们通常仍能完成微软付费产品的销售。对企业而言，微软产品及其企业销售团队的组合如此有效，以至于谷歌甚至无法免费送出自己的产品。

如果你正在阅读本文并且在一家“科技”公司工作，那么公司极有可能选择谷歌企业套件而非微软企业套件，微软销售人员的企业销售宣传对你来说可能听起来很荒谬。

我的一位经营初创公司的熟人，微软Azure的销售人员试图向他们推销Azure，开场白是“你们在用AWS，消费者云。你们需要Azure，企业云。”对大多数科技公司的人来说，企业意味着价格过高、不可靠、垃圾。就像很容易嘲笑鲍尔默是因为他来自销售和业务部门一样，当你听到企业销售宣传时也很容易嘲笑它，但总体而言，微软的企业销售部门做得很好。当我在Azure工作时，我调查了它是如何运作的，并且刚刚离开谷歌，这之间有着天壤之别。这是在2015年，纳德拉领导下，但让微软扩大规模的文化和流程是在鲍尔默领导下建立的。我认为有几个月，微软招聘和入职的销售人员比谷歌雇佣的总人数还要多，而且销售流程的每个阶段都相当有效。

微软在鲍尔默领导下的失误

当人们指出一长串失败，如必应、Zune、Windows Phone和HoloLens，作为鲍尔默是某种拖累微软的滑稽人物的证据时，这表明他们对科技行业缺乏理解。这就像指出一个风险投资公司资助的失败公司列表来证明该风投不知道自己在做什么。但在像风险投资这样的以成功为基础的行业里，这是愚蠢的。如果你想证明风投是糟糕的，你需要指出整体回报不佳或缺乏重大成功，这意味着整体回报不佳。同样，像微软这样的大公司有一个庞大的投资组合，一次成功的赌注可以弥补大量失败。鲍尔默的批评者无法指出整体回报不佳，因为微软在他任期内的整体回报非常好。收入从140亿或220亿美元增加到830亿美元，这取决于你是从1998年7月鲍尔默成为总裁时算起，还是从2000年1月他成为CEO时算起。公司离开时也相当盈利，前四个季度记录了270亿美元的利润，比他接手的公司的收入还要多。就市值而言，仅Azure一家就将跻身全球市值前十的上市公司，而减去Azure的企业软件套件可能刚好错过前十。

因此，批评者也无法指出在鲍尔默主持下创建Azure、将微软的企业软件从一套本地桌面应用转变为Office 365等、创建世界上最有效的企业销售组织、创建微软的游戏帝国（除了其他事情，鲍尔默在任CEO期间，微软收购了Bungie并于2001年推出时使Halo成为Xbox的旗舰游戏）等方面缺乏成功。即使是被广泛认为是失败的必应，根据最近报告的收入和当前的市盈率，也将是全球第12大最有价值的科技公司，介于腾讯和ASML之间。在攻击鲍尔默时，人们引用必应作为鲍尔默任期内发生的失败，这说明了鲍尔默成功的程度。大多数公司都希望自己的成功能像必应一样成功，更不用说他们的失败了。当然，如果鲍尔默有先见之明，他所有的赌注都成功了，让微软价值约10万亿美元，而不是今天区区3万亿美元的市值，那会更好，但对鲍尔默的批评——说他有一些失败和一些价值1万亿美元的成功——是他不是有史以来最伟大的CEO，差距巨大。确实如此，但算不上什么批评。

而且，与纳德拉不同，鲍尔默接手的不是一个容易取得成功的公司。正如我们之前提到的，鲍尔默上任不久，微软就被认为是一家无聊、无关紧要的公司，是下一个IBM，这主要是由于比尔·盖茨担任CEO时做出的决定。作为从早期就加入微软的资深员工，鲍尔默也对当时的微软状况负有部分责任，因此微软的问题至少部分归因于他（但这也意味着他应该因微软在90年代的成功而获得一些赞誉）。尽管如此，他很好地应对了微软最棘手的问题，并为继任者铺平了道路。

早些时候，我们注意到保罗·格雷厄姆将谷歌和互联网的兴起列为2007年之前微软死亡的两个原因。正如我们在探讨科技反垄断行动时讨论的那样，这两者都有一个共同的根本原因：针对微软的反垄断行动。如果我们查看微软反垄断案的文件，很明显微软知道互联网将有多重要，并计划控制互联网。作为这些计划的一部分，他们利用在桌面操作系统的垄断地位扼杀了网景。从技术上讲，他们因此输掉了一场反垄断案，但如果你看实际结果，微软基本上从法院得到了他们想要的。对微软的补救措施被广泛认为毫无用处（最初的决定涉及拆分微软，但他们能够通过上诉推翻这一决定），而且案件拖延了很长时间，以至于在案件裁决时网景已经注定失败，那些没有专门针对网景情况的补救措施毫无意义。

在计划中后来讨论但从未执行的部分是扼杀谷歌。如果我们根据微软有多“危险”、它打压竞争对手有多有效来评判微软，就像保罗·格雷厄姆判断微软已死那样，那么微软当然变得不那么危险了，但微软内部的感觉是，由于形势所迫，他们被迫这样做。扼杀谷歌计划的一部分是将地址栏中输入google.com的用户重定向到MSN搜索。这发生在Chrome出现之前，也发生在移动设备以任何形式出现之前。Windows桌面市场份额为97%，IE的市场份额在80%到95%之间（取决于年份），其余市场份额属于快速衰落的网景。如果微软采取这一行动，谷歌在能够推出Chrome和Android之前就被扼杀了，而且除非采取极端的反垄断行动（例如拆分微软），否则微软将永远拥有互联网。然后，作为甜点，没有理由不针对亚马逊。

经过内部辩论，微软决定不扼杀谷歌，不是出于对反垄断行动的恐惧，而是出于对随之而来的反垄断行动所带来的不良公关的恐惧。如果微软将流量从谷歌引开，对谷歌的影响将比他们针对网景的行动更快、更严重，而且在美国司法部赢得另一场针对微软的案件所需的时间内，谷歌将遭受与网景相同的命运。如果你不在那个时候，可能很难想象这一点，但美国司法部诉微软案是定期的头版新闻，这是我们自那以后再也没有见过的（部分原因是公司吸取了这方面的教训——谷歌据称通过游说扼杀了2011-2012年联邦贸易委员会针对他们的反垄断调查，并且巧妙地操纵了最近的案件，使其不像那样主导新闻周期）。自微软反垄断案媒体马戏团以来，我们见过的最接近的事情是Crowdstrike故障的媒体反应，但与美国司法部诉微软案相比，那只是一时的热门。

如果这里有对鲍尔默的批评，也许是微软没有在其年轻竞争对手从其大反垄断案中学到重要教训之前，主动吸取这些教训。一位足够有远见的高管本可以倡导进行大量游说，在反垄断案件发生之前阻止它，就像谷歌在2011-2012年所做的那样，或者操纵使反垄断案件只是另一个新闻故事，就像谷歌当前案件一直在做的那样。另一个可能的批评是，微软没有正确解读政治风向，并意识到在针对微软的大案之后至少二十年内不会出现严重的美国科技反垄断。原则上，如果鲍尔默拥有合适的团队专业知识，认识到美国将进入一个反垄断审查减少的二十年时期，他本可以推翻不扼杀谷歌的决定。

就批评而言，我认为前者是正确的，但除非你期望CEO是完美无缺的，否则这不是对鲍尔默的指控，因此作为鲍尔默是一个糟糕CEO的证据，这将是一个非常弱的批评。而且后一种批评是否正确也不明确。虽然谷歌能够逃脱诸如在Android中硬编码搜索引擎以防止用户更改搜索引擎设置和让恶意软件安装程序诱骗用户将Chrome设为默认浏览器之类的行为，而且他们被视为“好人”，没有因为这些行为受到太多审查，但微软并没有像谷歌那样受到媒体或公众的温柔对待。直到2011年，谷歌才引发严重的反垄断调查，因此2001年至2010年间缺乏严重的反垄断行动可能是微软为避免反垄断审查而谨慎行事的结果，而谷歌当时太小，无法引起审查，并且在仍然可能的情况下采取行动扼杀谷歌可能会引发严重的反垄断审查和另一场公关马戏。这是鲍尔默接手的公司比竞争对手处境更困难的一个方面——微软的手脚被束缚了，而且可能真的被束缚了。微软可以并确实因采取行动而受到严厉批评，而当谷歌采取完全相同的行动时却会受到赞扬。

当我在微软时，对此有很多不满。一个有趣的例子是，2011年，谷歌公开指责微软不道德行为，媒体抓住这个机会将其作为微软行为不端的又一个例子。我在微软与之交谈的一些人对此感到不安，因为据他们说，微软是在注意到谷歌也这样做后才想到这样做的，但声誉需要很长时间才能改变，而盖茨担任CEO期间采取的行动大大降低了微软的行动能力。

鲍尔默上任时面临的另一个困难是微软激烈的内部政治。同样，作为从几乎一开始就加入微软的资深员工，他对此负有部分责任，但鲍尔默设法清除了最糟糕的捣乱者，这样纳德拉就不会继承如此困难的局面。如果我们看看为什么微软在鲍尔默任期内没有主导互联网，除了担心扼杀谷歌会引起公关反弹外，内部政治斗争扼杀了微软大多数最有前景的网络产品，并降低了其余大多数网络产品的吸引力和影响力。例如，微软在1997年就拥有一个可以与谷歌文档竞争的产品，比谷歌成立早一年，比谷歌收购Writely早九年，但它因政治原因被扼杀了。微软当然不是唯一一家有内部政治斗争的公司，但它以比大多数公司更残酷的政治斗争而闻名。

虽然鲍尔默在清理门户方面做得并不完美，但当我在微软询问因内部政治斗争而被搁置或取消的有前景的项目时，最近最大的问题源头都在鲍尔默手下被扫地出门，为纳德拉留下了一个运作更正常的公司。

大局观

退一步看大局，鲍尔默接手的是一家财务状况良好但受困于内外部政治的公司，以至于外界观察者认为该公司极有可能滑向无关紧要，导致像格雷厄姆著名的“微软已死”的预测，预计收入将在五到十年内下降。回顾过去，我们可以看到盖茨采取的行动限制了微软利用其垄断力量直接扼杀竞争对手的能力，但没有一个转折点是实现奇迹般扭转的。相反，微软继续在企业产品上执行得非常出色，并继续对未来进行合理的押注，以成功地取代在内部被视为长期死胡同的收入来源，即使它们将是利润丰厚的死胡同，如Windows和盒装（非订阅）软件。

与大多数处于这种境地的公司不同，微软愿意非常大力地补贴一系列赌注，领导层认为这些赌注可能为公司提供未来几十年的动力，如Windows Phone、必应、Azure、Xbox和HoloLens。从对这些赌注的内外部评论来看，你可以看到为什么公司很难用其成功的业务线来补贴新业务线，即使成功业务的前景已经明朗。人们批评这些赌注是会扼杀公司的愚蠢举动，说公司应该集中精力在其最盈利的业务上，如Windows。即使有非常明确的数据显示逆势而行是正确的事情，人们通常不会这样做，部分原因是当它没有成功时你会看起来像个傻瓜，但鲍尔默愿意在面对数十年的嘲笑时做出正确的赌注。

公司难以进行这些赌注的另一个原因是，公司通常无法推出与其核心业务截然不同的新东西。当谷歌又一个非收购的消费者产品失败时，每个人都认为理所当然——当然谷歌在那里失败了，他们是一家技术优先的公司，不擅长产品。但微软多次实现了这种转变并取得了成功。一次是Xbox。如果你看看三大游戏主机制造商，两家是历史悠久的硬件公司，一家是微软，一家学会了如何制造硬件的盒装软件公司。另一次是Azure。如果你看看三大云服务提供商，两家是从成立之初就存在的在线服务公司，一家是微软，一家学会了如何进入在线服务业务的盒装软件公司。其他拥有与硬件和在线服务不同核心业务线的公司看到了这些机会并尝试转型，但失败了。

如果你看看这里的转型过程，嘲笑微软很容易，就像嘲笑微软的企业销售宣传一样。Azure的核心团队来自Windows，所以在Azure的非常早期，他们几乎没有事故管理流程，在他们的第一次重大全球宕机期间，人们在走廊里走来走去问“Azure宕机了吗？”试图弄清楚该怎么办。Azure将在多年内继续发生重大全球宕机，同时学习如何发布相对可靠的软件，但他们能够很好地解决问题，建立了一个价值万亿美元的业务。另一次，在Azure真正知道如何构建服务器之前，一位微软工程师打开了亚马逊的定价页面，注意到AWS的磁盘零售价比Azure配置磁盘的成本还要低。当我在微软时，Azure的一个大问题是数据中心建设速度不够快。人们开玩笑说最近招聘的大量销售人员效果太好，公司卖了太多的Azure，这可以说是事实，也是公司的真正紧急情况。在其他情况下，微软主要自己学习如何做，而在这种情况下，他们从亚马逊引进了一些非常资深的人员，他们在供应链和数据中心建设方面拥有深厚的专业知识。很容易说，当你遇到问题而竞争对手拥有正确的专业知识时，你应该聘请一些专家并听取他们的意见，但大多数公司在尝试这样做时都会失败。有时，公司没有意识到他们需要帮助，但更常见的是，他们引进了高级专业知识，但人们不听。很容易让一家公司的旧势力阻止引进高级外部专业知识的努力，尤其是在像微软这样充满纷争的公司，但领导层能够确保像这样的关键举措取得成功³。

当我和谷歌工程师谈论Azure崛起时的Azure时，他们通常对Azure评价不高，会嘲笑像上述这样的问题，这对于那些成长为大型在线服务公司、在运营大规模服务、构建高效硬件和建设数据中心方面拥有深厚专业知识的公司来说似乎很滑稽，但尽管在技术、运营和文化上起步于一个非常深的坑，微软用Azure建立了一个价值万亿美元的业务部门。

并非所有的赌注都成功了，但如果我们看看批评者的评论，他们说微软注定要失败，因为它在补贴错误的赌注，或者更年轻的公司会超越它，那么，今天，微软的市值比谷歌高50%，是Meta的两倍。如果我们看看科技行业的更广泛历史，微软从1975年成立到今天一直保持着持续强劲的执行力，这近五十年的历程可以说是科技行业无与伦比的。英特尔成立的时间更长，但在世纪之交左右经历了非常严重的挫折，而且在过去十年里遇到了很多问题。IBM有着悠久的历史，但在其早期历史中规模并不大，例如，当T.J.沃森将计算-制表-记录公司更名为国际商用机器公司时，其收入仍远低于每年1000万美元（按通货膨胀调整后，约为每年1亿美元）。计算机在50年代开始变得重要，IBM对于科技公司来说已经很大了，但在1969年针对IBM提起的反垄断案一直拖延到1982年才以“缺乏依据”被撤销，这阻碍了公司和文化的某些方面，例如，为什么IBM的各种云努力都失败了，在90年代，公司濒临死亡，仅因杰斯特纳的扭转才得以生存。如果我们看看更早的拥有长期持续强劲执行力的公司，大多数已经消失，如DEC和Data General，或者像IBM和苹果那样经历了几乎终结公司的严重挫折。有些公司拥有同样长期的强劲执行力，比如甲骨文，但这些公司在扩展业务线方面远不如微软有效，因此，甲骨文的价值可能相当于两个必应。这使甲骨文成为全球第20大最有价值的上市公司，这当然不错，但远不如微软。

如果微软遭遇重大挫折，像英伟达、Meta或谷歌这样更年轻的公司可能会超越微软的业绩，但这不是鲍尔默的错，我们仍然必须承认鲍尔默是一位非常有效的CEO，不仅在赚钱方面，而且在设定愿景方面，为微软未来五十年的成功奠定了基础。

附录：微软在鲍尔默领导下的相关性

除了上面提到的主要项目外，根据我的记忆，以下是格雷厄姆宣布微软已死后在鲍尔默领导下发生的一些有趣的事情：

2007年：微软发布LINQ，至今按照从业者实际使用的标准仍然相当不错
2011年：微软研究院的Sumit Gulwani发表“使用输入输出示例自动处理电子表格中的字符串处理”，十年后被评为最有影响力的POPL论文
- 这篇论文是关于使用程序综合进行电子表格“自动补全/推断”的
- 我不是专利的粉丝，但我猜测自动补全/推断在Excel中效果相当好而在谷歌文档中基本上不起作用的原因可能是微软拥有基于这项工作的专利
2012年：微软发布TypeScript
- 这一定是本世纪发布的使用最广泛的编程语言，并且有理由成为有史以来使用最广泛的编程语言（只要你也不把TS的使用算作JS）
2012年：微软Surface发布
- 自2022年帕诺斯·潘奈离开后，Surface系列的情况看起来不太好，即使在2022年这也可以被视为失败，但2022年这是一个年销售额70亿美元的业务线，这表明微软是多么庞大和成功——大多数公司都希望有一项业务能像一个失败的70亿美元/年业务那样成功
2015年：微软发布vscode（在鲍尔默2014年任期结束后，但这项工作源自鲍尔默任期内的多项工作）
- 这似乎是当今程序员使用最广泛的编辑器，且优势巨大。当我几年前查看相关调查数据时，我对这一变化发生的速度感到震惊。vscode似乎达到了程序员编辑器主导地位的水平，这是前所未有的。最接近的可能是Visual Studio在保罗宣布微软已死前十年，但由于实际上是Windows专用软件并且成本相当高，从未达到同样的市场份额水平
- Heath Borders指出，2011年聘请的Erich Gamma在这方面影响力巨大

对微软财务成功的另一个回应是，微软在财务上很成功，但对时尚的程序员来说无关紧要，就像IBM一样。首先，四舍五入到最接近的必应，IBM可能价值零或一个必应。但即使我们撇开财务方面，只看每个价值1万亿美元的科技公司（苹果、英伟达、微软、谷歌、亚马逊和Meta）对程序员的影响，英伟达、苹果和微软都有很多程序员由于某种生态系统的依赖而依赖该公司（CUDA；iOS；.NET和Windows，后者仍然是许多大领域（如3A游戏）的首选平台）。

你可能会为大云服务商辩护，但我认为公司对AWS的依赖并不像一家严肃的英语消费类应用公司真的需要iOS应用或一家3A游戏公司必须在Windows上发布并在Windows上进行开发那样几乎是强制性的。

如果我们看看那些没有被固定在生态系统中的程序员，微软由于创建了vscode和TypeScript等工具似乎与许多程序员高度相关。我不会说它一定比亚马逊更相关，因为许多程序员使用AWS，但很难争论在鲍尔默主持下创建（包括许多其他东西）vscode和TypeScript的公司对程序员来说是无关紧要的。

附录：我对微软的失败赌注

2015年加入微软后不久，我打赌德里克·丘会先达到1万亿美元市值。与大多数外部评论员不同，我同意微软所做的赌注，但当我看到微软当时的内部功能失调时，我认为这会给它们带来足够的问题，以至于谷歌会赢。这是错误的——微软先于谷歌达到1万亿美元市值，现在价值比谷歌高1万亿美元。

即使在一年后，我看到微软内部的情况以及微软销售的高效性和微软擅长发布企业产品的程度，并将此与谷歌的云执行和战略进行比较后，我认为我也不会打这个赌。但你可以说我犯了一个与外部评论员相当类似的错误，直到我详细了解了微软的运作方式。

感谢Laurence Tratt、Yossi Kreinin、Heath Borders、Justin Blank、Fabian Giesen、Justin Findlay、Matthew Thomas、Seshadri Mahalingam和Nam Nguyen的评论/修正/讨论

Fabian Giesen指出，除了鲍尔默的“销售员”声誉外，他的舞台形象也没给他带来好处，他说“他的舞台表现让人认为他很糟糕。但如果你不是白痴，你看到一个演员扮演麦克白，你不会假设他们在现实生活中杀了所有的朋友” ^[返回]
这是Hacker News上关于辛诺夫斯基被解雇的报道的头号评论：

真正应该被解雇的是史蒂夫·鲍尔默。从微软成立到大约世纪之交，他都很出色，当时他们制作和维护Windows垄断的战略运行得非常出色且极其盈利。然而，他生活在过去的环境中，认为他需要不惜一切代价保护Windows/Office垄断，而他和微软其他人都无法跟上周围其他人的创新步伐，因为他们有创新。

这种心态完全扼杀了微软的任何创新，因为他们在试图与谷歌、Facebook等竞争时，一只手被绑在背后。在史蒂夫·鲍尔默眼中，一切都必须回到销售Windows/Office许可证上，而这在他们的环境中不再奏效。

如果微软的工程师能够自由地制作最好的搜索引擎、最好的手机或最好的平板电脑，而不必担心这将如何导致维持他们的Windows和更重要Office收入流，那么我认为他们的产品会好几个数量级且更具创造性。

这是错误的。当时，微软在大力补贴必应。就补贴可以归因于谁而言，合理的说法是大部分补贴来自Windows。同样，Azure是一个巨大的赌注，当时正从Windows产生的利润中获得大量补贴。鲍尔默领导下的微软战略基本上与这个评论所说的相反。

有趣的是，如果你在minimsft上看评论（其中许多是微软内部人士发表的），人们注意到了在Azure和在线服务等领域的巨大支出，但大多数认为这是错误的，微软需要专注于使Windows和Windows硬件（如Surface）变得出色。

基本上，无论人们认为鲍尔默在做什么，他们都说这是错误的，并且他应该做相反的事情。这意味着人们呼吁采取不同的行动，因为大多数微软外部的评论员实际上并不知道微软在做什么，但从评论针对鲍尔默而不是公司具体行动的方式来看，我们可以看出人们并非真的在预测任何特定行动，他们只是在嘲笑鲍尔默。

顺便说一句，Hacker News上的第二条评论说鲍尔默错过了过去5年科技领域最重要的事情，并且鲍尔默降低了云计算的重要性（如果你看资本支出或分配的人头，这实际上是当时微软最大的赌注）。第三条评论说“史蒂夫·鲍尔默本质上是个销售员，这就是为什么他能够在十年表现平平和战略失误中幸存下来：他一定与微软最大的企业客户有密切联系，如果他被解雇，那将是邀请这些客户重新评估他们对微软平台的承诺的信号。”，其余的顶级评论与鲍尔默无关。
^[返回]
存在标准的阻挠新事物的企图，例如，当Azure希望Windows网络添加功能时，他们会得到诸如“我们会将其列入路线图”的回应，这被普遍理解为“我们比你强大，我们不必做你要求的事”，因此微软领导层将网络从Windows中剥离出来，将Windows网络放在Azure组织下，让Azure控制他们想要的网络功能。这种举措与在几乎每家公司改变公司重点的努力形成了对比。另一个极端的例子是高通的服务器芯片业务。当该小组威胁要变得比移动芯片小组更盈利、更重要时，移动小组在服务器小组能够大到足以自保之前将其扼杀。包括CEO在内的一些领导层支持公司的长期健康，因此支持服务器小组。那些人，包括CEO，都被从董事会中移除并解雇了。拥有足够支持来罢免CEO是不寻常的，但对于一个更典型的例子，看看微软如何扼杀了其1997年版本的在线办公套件。 ^[返回]

由 mimo-v2.5 模型翻译，花费 18898 tokens

不用知道任何词语，你在《行话》（Codenames）游戏中能有多厉害？

Sun, 11 Aug 2024 00:00:00 +0000

[AI 摘要] 本文探讨了仅通过记忆《行话》游戏的布局卡，利用词语在棋盘上的位置信息而非含义来进行猜测的策略及其有效性。

大约八年前，我玩了一场《行话》游戏。当时的局势是，如果我们不能在自己的回合正确猜出所有剩余的词语，我们队几乎必输无疑。然而，根据给出的线索，我们无法做到这一点。虽然这本应是一个基于词语线索的猜词游戏，但一位队友提出，根据已选词语在棋盘上的物理布局，我们考虑的大多数可能性都会形成“太奇怪”的模式，我们应该根据位置来选择最后一个词。这招奏效了，我们赢了。

[点击展开《行话》游戏规则解释（如果你不熟悉这款游戏）]

FTC在Google反垄断调查中的误判

Sun, 26 May 2024 00:00:00 +0000

[AI 摘要] 本文批评FTC在2011-2012年调查谷歌反垄断时，其经济局备忘录对科技行业存在严重误解，导致错误地终止了调查。

2011-2012年间，美国联邦贸易委员会（FTC）曾调查是否对谷歌提起反垄断诉讼。FTC最终决定终止调查，此后十年间，公众对调查细节知之甚少。直到Politico公布了调查期间312页的内部备忘录，人们才得以窥见内情。作为一名科技行业从业者，在阅读这些备忘录时，最令人震惊的是主张终止调查的一方如何反复显示出对科技行业基本认知的缺乏，而高层管理人员的备忘录中对此毫无察觉。

如果你通常不关注监管机构和立法者对科技行业的言论，阅读这些决策形成过程的内部备忘录（或任何其他行业）会令人震惊，因为显然，这些决策是在对相关行业几乎毫无了解的情况下做出的。

FTC内部，竞争局（BC）主张应提起反垄断诉讼，而经济局（BE）则主张终止调查。BC的论点相当有力。理性的人可能对证据是否足以支持提起诉讼持不同意见，但一个反垄断的理性人士必须承认BC备忘录中的反垄断指控至少是站得住脚的。而BE的反对方论点则站不住脚。BE备忘录的核心部分存在重大错误。为了让BE备忘录显得可信，读者必须对科技行业存在巨大且显著的认知空白。如果FTC内部曾就BE备忘录中的错误进行过讨论，公开文件中没有任何迹象表明这一点。根据现有证据，似乎无人注意到BE备忘录的错误。来自主任及其他高层的公开备忘录显示，他们给予BE备忘录的重视程度至少与BC备忘录相当，这表明FTC领导层（至少在其备忘录被公开的人员中）对科技行业存在认知差距。

简要概述

由于BE备忘录实际上是对BC备忘录的反驳，我们将从BC备忘录中的论点开始。以下要点总结了BC备忘录执行摘要中的要点，大致概括了BC的论点：

谷歌是占主导地位的搜索引擎和搜索广告销售商
本备忘录讨论了五个领域中的四个反竞争行为；移动领域在补充备忘录中
谷歌在美国的横向搜索、搜索广告、联合搜索和搜索广告领域拥有垄断力量
关于谷歌是否非法优待自身内容而贬低竞争对手的问题，我们不建议FTC继续追诉；这是一个艰难的抉择，且判例法不利于反竞争的产品设计，谷歌的效率理由充分，且对用户有一定益处
关于谷歌是否非法抓取垂直竞争对手的内容以改进其自身垂直产品，建议依据《谢尔曼法》第2条将其认定为有条件的拒绝交易
- 先前的自愿交易是互惠互利的
- 威胁将竞争对手内容从通用搜索中移除，旨在胁迫竞争对手允许谷歌将其内容用于谷歌的垂直产品
- 自然且可预见的效果是削弱垂直网站的研发积极性
关于限制广告活动自动跨平台管理的反竞争合同条款，建议依据第2条予以谴责
- 这些条款限制了广告主利用自身数据的能力，减少了创新，并增加了广告主和第三方企业的交易成本
- 同时也降低了谷歌在搜索和搜索广告领域竞争对手的质量
- 谷歌的效率理由看似是托词
关于与网站签订的反竞争排他性联合搜索和搜索广告协议，建议依据第2条对谷歌予以谴责
- 对发布商的反竞争影响虽有限，但剥夺了竞争对手的规模优势，对主要竞争对手（必应）具有竞争意义，并且长期构成重大进入壁垒
- 谷歌的效率理由总体上缺乏说服力
可能的补救措施
- 抓取行为
  - 可要求谷歌允许选择退出其垂直属性中的摘要（评论、评分），同时保留网页搜索或主搜索结果页面上的通用搜索摘要
  - 可要求谷歌限制使用从网页搜索结果中索引的内容
- 广告活动管理限制
  - 可要求谷歌从许可协议中删除有问题的合同条款
- 排他性联合协议
  - 可禁止谷歌与搜索联合合作伙伴签订排他性搜索协议，并要求放宽联合合作伙伴使用竞争对手搜索广告的限制
案件存在一些风险，摘要中未提及，例如谷歌可以辩称微软最高效的分发渠道是bing.com，且微软可能获得的任何规模增长对其竞争地位影响不大
[BC] 工作人员认为谷歌的行为已经并将继续对消费者以及在线搜索和广告领域的创新造成实际损害。

在关于移动的补充备忘录中，BC工作人员认为谷歌通过独家协议主导了移动搜索，且当时移动搜索增长迅速。BC工作人员声称，根据谷歌内部文件，2011年移动搜索占搜索总量的比例从9.5%增长到17.3%，并且谷歌和微软的内部文件都表明，预计移动搜索将在不久的将来超过桌面搜索。与桌面搜索的案例一样，BC工作人员使用谷歌单方面降低收入分成的能力作为其拥有垄断力量并能主导条款的证据，并引用了谷歌领导层对此的明确说法。

BC工作人员承认谷歌的许多行为对消费者有益，但权衡了反竞争策略的危害，表示：

证据描绘了一家公司的复杂形象：一方面致力于通过提供最佳用户体验来维持其市场份额的整体目标，同时又从事损害众多垂直竞争对手的策略，这可能帮助巩固了谷歌在搜索和搜索广告领域的垄断力量。

BE工作人员强烈不同意BC工作人员的观点。BE工作人员也认为谷歌的许多行为对消费者有益，但在涉及危害时，几乎在每种情况下，BE工作人员都辩称市场不重要、不是一个独立的市场，或者市场是竞争性的，谷歌的行为是促进竞争而非反竞争。

常见错误

至少在Politico提供的文件中，BE工作人员通常回避直接回应BC工作人员的论点和数据。例如，除了辩称谷歌的协议和独家性（就协议是排他性而言）是促进竞争的，并且阻止此类协议可能对市场产生重大负面影响外，他们还认为移动市场很小且不重要。BE备忘录认为移动市场仅占市场的8%，并且，虽然增长迅速，但不重要，因为它只占“总查询量的很小一部分，搜索广告收入的比例更小”。他们还声称移动市场存在激烈竞争，因为除了苹果，还有黑莓和Windows Mobile。从FTC调查开始到备忘录撰写期间，黑莓的市场份额从约14%下降到约6%，这是长期下降趋势的一部分，且无改变迹象。Windows Mobile的下降幅度较小，从约6%降至约4%，但在一个具有强大网络效应的市场中，BE工作人员为何认为这些市场份额低且下降的平台将在未来提供激烈的竞争，这令人费解。

当BE备忘录的作者做出预测时，他们似乎有一种预测与事实相反的结果的天赋。为了做到这一点，BE备忘录的作者采取了与当时普遍共识相反的立场。另一个例子是，他们暗示搜索市场存在激烈竞争，并且预计在不采取反垄断行动的情况下这种竞争将持续。他们对此的证据是雅虎和必应在美国拥有合计“稳定”的30%市场份额，且自雅虎-必应联盟宣布以来，查询量增长速度快于谷歌。BE备忘录的作者甚至更进一步，声称微软的查询量增长速度快于谷歌，并且微软+雅虎按搜索MAU（月活跃用户）计算的总市场份额高于谷歌。

BE备忘录关于雅虎和必应提供激烈且稳定竞争的论点忽略了运行搜索引擎的固定成本如此之高，以及实现盈利所需的规模如此之大，以至于雅虎实际上退出了搜索领域，将搜索外包给必应。微软每年补贴必应20亿美元，这是一项在大多数科技界观察人士看来不会成功的战略举措。当时，人们有理由认为，如果微软停止大力补贴必应，其市场份额将大幅下降，而事实正是如此——在反垄断行动未被采取后，微软决定将资金转移到其他回报率更高的项目。如今的估算显示，谷歌在美国的市场份额为86%至90%，全球范围的估算通常更高一些。

关于一些更夸张的说法，例如微软和雅虎的活跃搜索用户总和超过谷歌，以及微软查询量（因此搜索市场份额）增长快于谷歌，他们使用的是comScore的数据。关于这一点有几个奇怪之处。

首先，作者挑选数据以呈现最大化微软市场份额的数字。当comScore数据显示微软市场份额相对较低时（如在联合搜索中），BE备忘录的作者解释说不应使用comScore数据，因为它不准确。然而，当comScore数据表面上不切实际且显示微软市场份额大得不合常理或增长速度快得不合常理时，BE备忘录的作者却依赖这些数据，而不解释为何依赖这个他们声称不可靠的来源。

使用这些数据，BE备忘录基本上认为，因为许多用户偶尔使用雅虎和必应，用户显然可以使用雅虎和必应，并且即使用户每月使用一次雅虎或必应而使用谷歌一千次，转换壁垒也不显著。根据与从事驱动增长的产品改进工作的人员共事和交谈的经验，压倒性的共识是，将轻度参与、作为MAU勉强注册的用户转化为定期使用产品的重度参与用户通常非常困难，这通常被认为比将全新用户转化为重度参与用户更难。就像Boies关于rangeCheck的论点一样，很容易看出这种推理对不懂技术的外行人来说似乎合理，但该论点读起来像是外行人会写的东西。

尽管BE工作人员备忘录读起来像是对BC工作人员备忘录要点的反驳，但缺乏对事实和论点的直接交锋，意味着只读其中一份备忘录的读者会与读另一份的读者产生截然不同的印象。例如，在移动搜索的重要性方面，天真地只读BC备忘录的读者会认为移动搜索非常重要，可能是最重要的，而天真地只读BE备忘录的读者则会认为移动搜索不重要，并且在可预见的未来将继续不重要。

Politico还公布了两位主任的备忘录，他们权衡了BC和BE工作人员的论点。两位主任都更倾向于BE备忘录而非BC备忘录，一位非常倾向，另一位较为倾向。在出现分歧时，例如移动搜索在近期的重要性，所提供的备忘录中没有任何证据表明曾尝试确定谁是正确的，或者我们正在讨论的错误是否被注意到。处理这些分歧最接近的情况是一些评论，赞扬双方工作人员完成了出色的工作，以一种可以说是“公平公正”的方式，例如“BC和BE工作人员在这项复杂的调查中表现出色。各自局的备忘录清楚地表明，在这四个方面提起诉讼的理由是接近的……”。如果可以推断的话，似乎BE备忘录中的推理和事实至少得到了与BC备忘录同等甚至更多的重视，尽管BE备忘录的大部分论据对了解科技行业的人来说显得极不可信。

例如，在移动搜索的重要性方面，我恰好在这些备忘录撰写后不久在谷歌工作，当时在谷歌，他们已经转向“移动优先”策略，因为大家都明白移动将成为未来最重要的市场。当时其他大型科技公司也理解这一点，而且理解的时间比这些备忘录的日期还要早。许多消费者当时并不理解这一点，那些为了统一桌面和移动体验而牺牲桌面体验的设计改版是当时常见的投诉。但如果你查看相关数据或与大公司的人交谈，就会清楚，从商业角度来看，专注于移动并处理因此可能在桌面端引发的后果是有意义的，只要这能提高移动开发的速度。

BC和BE工作人员备忘录都广泛引用了对许多科技公司的访谈，包括所有“超大规模企业”。奇怪的是，有人可以获得所有这些公司的内部文件以及访谈记录，然后还能论证移动在当时并不重要。而且，根据我们目前从这些备忘录中所能了解的情况，主任们表面上接受双方的论点，然后认为BE工作人员的论点与BC工作人员的论点同样具有说服力或更具说服力，这也令人费解。

这是我们在BC和BE工作人员备忘录之间反复看到的一类错误，即为了论证一个知情观察者明显看出不实的情况而过度拉伸数据。在大多数情况下，是BE工作人员尽可能地拉伸数据，将站不住脚的立场尽可能地推进，但也有一些BC工作人员论证过于牵强的实例。

我们在BE备忘录中反复看到的另一类错误，是基于一个大多数业内人士都会认为明显错误的世界模型，然后在此基础上进行推论。一个例子是讨论垂直竞争对手如Yelp和TripAdvisor是否因BC工作人员所称的反竞争行为而受到或将受到显著损害。BE工作人员除了辩称谷歌的行为实际上是促进竞争而非反竞争外，还辩称谷歌不可能对垂直竞争对手造成重大损害，因为谷歌为其带来的流量很小，仅占其总流量的10%至20%，甚至说“谷歌对本地网站的流量影响非常小且不具统计显著性”。尽管BE工作人员没有详细说明他们对此业务运作的模型，但他们似乎相信市场基本上是静态的。如果谷歌将Yelp从其列表中移除（如果谷歌不被允许将Yelp的数据整合到其自身的垂直产品中，谷歌曾威胁要这样做），或者降低Yelp的排名以优先考虑谷歌自己的结果，从长远来看，最多只会使Yelp的流量减少10%至20%，因为只有10%至20%的流量来自谷歌。

但即使是风投或产品经理实习生也应理解市场并非静态。如果谷歌能够持续地从Yelp那里夺走相当一部分搜索流量并将其导向谷歌的本地服务，人们预期从长远来看，Yelp最终用户将所剩无几，沦为曾经的空壳。这正是发生的事情，截至撰写本文时，Yelp的估值为20亿美元，尽管其市盈率为24倍，对科技公司来说相当低。但市盈率低不足为奇，因为人们普遍认为Yelp无法扭转局面，原因是谷歌在搜索以及地图领域的主导地位使其非常难以获得或留住用户。这不仅事后看来显而易见，而且在当时就被充分理解了。事实上，我与一位在谷歌工作的前同事交谈，他正在开发一些利用谷歌拥有而Yelp永远无法合理获得的地位的本地功能；这些功能的预期结果是扼杀Yelp的业务。不仅人们知道这将发生，而且知道Yelp不太可能进行反击，因为谷歌能够利用其从搜索和地图获得的市场力量。奇怪的是，当时有人会认真辩称，在切断Yelp新用户来源的同时，又向几乎所有现有用户提供一个已集成到他们使用的应用或网站中的替代方案，不会显著影响Yelp的业务，但BE备忘录却提出了这个论点。有人可能会认为这里使用的策略类似于微软反垄断案中提到的策略，当时据称微软高管表示他们要“切断Netscape的空气供应”，但BE备忘录辩称“切断空气供应”的影响“非常小且不具统计显著性”（毕竟，一个典型的身体拥有足够结合1升氧气的血容量，远高于一次正常呼吸吸入的氧气量）。

另一类即使不算错误，也是论证薄弱的情况，是依赖鸡尾酒会级别的推理，而当时有数据或其他有力证据可以直接应用。这种情况贯穿BE备忘录，尽管在其他时候，当BC备忘录提出一些看似合理的推理时，BE备忘录的反驳是我们不应接受此类推理，需要看数据而不是抽象推理。BE备忘录严重依赖一个概念，即我们必须依赖数据而非推理，并将BC备忘录中未植根于严格数据的论点称为“传闻”、“超出推测”等，但BE备忘录只在知识或推理可能导致结论存在某种竞争壁垒的情况下这样做。当数据表明谷歌的行为在市场中制造了某种壁垒时，BE备忘录的作者忽略了所有相关数据，反而依赖推理而非数据，即使推理薄弱，具有我们之前提到的Boies论点的特征。有人可能会辩称，提起反垄断案件的证据标准应该比不提起的标准更严格，但如果这里观察到的不对称是基于这个原因，BE备忘录本可以在证据不足的领域列出，并在面对更强证据时不做出自己的薄弱主张。一个例子是讨论移动默认设置的影响。

BE备忘录辩称默认设置基本上毫无价值，影响微乎其微或没有影响，多次表示用户只需“轻点几下”即可切换，补充说这只需“几秒钟”，因此“[这些是]微不足道的转换成本”。关于默认设置影响最明显、最直接的证据是谷歌为维持其默认地位所支付的金额。在2023年的一起反垄断诉讼中，透露谷歌在2021年向苹果支付了263亿美元以维持其默认地位。截至撰写本文时，苹果的市盈率为29.53。如果我们认为这笔付款是边际利润，并且默认地位如BE备忘录所言毫无价值，那么对苹果来说，这笔钱在其2.9万亿美元市值中所占的价值大约为7760亿美元。或者，从谷歌的角度看，谷歌的市盈率为27.49，因此谷歌愿意让其2.17万亿美元市值中的约7220亿美元蒸发。谷歌愿意为获得全球约25%至30%手机的默认搜索地位支付这笔钱。这个计算过于简单化，但没有任何合理的调整能让人相信默认地位的价值如BE备忘录所声称的那样微不足道。作为参考，一家市值7760亿美元的科技公司将是美国上市公司中第7大最有价值的科技公司，也是第8大最有价值的美国上市公司（落后于Meta/脸书和伯克希尔哈撒韦，但领先于礼来）。另一个参考是YouTube在2021年的广告收入为288亿美元。如果用户的实际转换成本微不足道且默认设置不重要，那么为了维持默认地位而花费相当于YouTube广告收入的利润就很难说得通。如果我们寻找更接近2012年的公开数据，2013年TechCrunch报道称谷歌每年向苹果支付10亿美元以获得搜索地位，后来的一起诉讼显示谷歌在2014年为默认搜索地位向苹果支付了10亿美元。这距离这些备忘录撰写时间不远，每年10亿美元仍是一笔不小的数目，这与BE备忘录声称移动搜索不重要且默认设置因用户转换成本微不足道而不重要的说法相矛盾。

有趣的是，鉴于BE备忘录如此强调不信任看似合理的推理，必须依靠实证数据，但BE工作人员似乎没有尝试查明谷歌为维持默认地位支付了多少。一位同意BE工作人员观点的主任的备忘录建议应该核查这个数字，但没有证据表明进行了核查，且FTC调查不久后就被终止了。根据FTC获取的内部文件数量，FTC不太可能无法从苹果或谷歌那里获得这个数字。但即使这个数字无法获得，表面上默认设置不重要且实际转换成本低的说法也不合理。如果FTC工作人员访谈了以产品为导向的工程师或产品经理，或了解科技行业的产品历史，那么为了提出这个论点，BE工作人员必须忽略或避免查明谷歌为维持默认地位支付了多少钱，不与专注于产品的工程师、产品经理或领导层交谈，并且还要避免了解科技行业。

有人可能会辩称，虽然默认设置影响力大，但公司能够克服非默认地位，这可能导致关于默认设置究竟有多强大的辩论。例如，人们可能会争论当谷歌Chrome成为主导浏览器时默认设置的影响，并辩论其中多少归因于Chrome仅仅是比IE、Opera和Firefox更好的浏览器，多少归因于微软的失误而谷歌在搜索领域不太可能重犯，多少归因于通过捆绑恶意软件安装程序诱骗人们将Chrome设为默认，以及多少归因于通过google.com施压人们将Chrome设为默认。这是一个有趣的讨论，一个了解行业的理性人士可以持任何一方观点，不像默认设置基本上毫无价值且实际用户转换成本微不足道的论点，即使没有关于谷歌向苹果和其他人支付多少以维持默认地位的数据，这个论点也不合理。而且根据2020年司法部对谷歌的诉讼，大约一半的谷歌搜索是通过谷歌付费的默认搜索进行的。

另一个反复出现的错误（与上述错误密切相关）是引用营销声明、新闻稿或其他普遍被认为是夸张的言论，并像对待有意义的事实陈述一样依赖它们。例如，BE备忘录指出：

微软的公开声明与向反垄断监管机构的声明不一致。微软首席执行官史蒂夫·鲍尔默在宣布与雅虎搜索合作的新闻稿中表示：“与雅虎的这项协议将为我们提供所需的规模，以更快地推进相关性和实用性。微软和雅虎知道搜索领域还有更多可能。这项协议为我们提供了规模和资源，以创造搜索的未来”

这是伴随收购或合作的典型营销废话。因为这种毫无意义的声明在许多行业都很常见，人们期望监管者，即使是对科技一无所知的监管者，也能将其视为营销手段，而不是给予与严肃证据同等或更多的重视。

一些有趣的细节

在涵盖了备忘录中观察到的主要错误类别后，我们将看看备忘录中的一些细节。

在2011年6月3日批准强制程序到2012年8月8日BC备忘录发布之间，工作人员收到了950万页、200万份文件，并表示他们审阅了“其中数千份文件”，因此工作人员只能审阅其中很小一部分。

在FTC调查之前，有一些相关的诉讼，全部被驳回，其中一些理由如果被作为广泛先例，会使任何诉讼难以成功。在SearchKing诉谷歌案中，原告指控谷歌不公平地降低了其搜索结果排名，但法院裁定谷歌的排名是受宪法保护的意见，即使是恶意操纵排名也不会使谷歌承担法律责任。在Kinderstart诉谷歌案中，裁决的一部分是谷歌搜索对于垂直提供商（如Yelp、eBay和Expedia）并非必要设施。由于这些备忘录最终涉及法律程序，自然有大量关于Verizon诉Trinko案和Aspen Skiing Co.诉Aspen Highlands Skiing Corp案及其影响的讨论。

截至BC备忘录撰写时，谷歌380亿美元收入中96%来自广告，主要来自搜索广告。BC备忘录认为，除社交媒体广告外，其他形式的广告增长潜力有限。从事后来看，这当然是错误的。例如，视频广告是一个重要的市场。YouTube的广告收入在2021年达到288亿美元（略高于谷歌为维持默认搜索地位向苹果支付的费用），Twitch据称又产生了20-30亿美元的视频收入，而且相当一部分视频广告收入是直接从赞助商流向主播，不经过YouTube和Twitch，例如Twitch上第137大的主播被提供每年1000万美元的报酬，每天在线赌博直播30分钟，他声称他认识的第42大主播从在线赌博赞助商那里每月获得1000万美元。这不仅仅是事后才明显——即使在当时，也有强烈迹象表明视频将成为主要的广告市场。碰巧的是，这些迹象同样表明谷歌很可能主导视频广告市场，但这里的具体论点仍被夸大了。

总的来说，BC备忘录似乎夸大了搜索广告预期的首要地位，以及搜索广告市场的独特性，声称其他在线广告支出在任何意义上都不构成替代品，甚至可能是互补品。尽管有人可能合理地辩称搜索广告是一个有点独特的市场，且一旦你将大量广告支出移出搜索，替代弹性就很低，但BC备忘录提出此主张的程度有些牵强。搜索广告和其他广告预算互补而非替代的观点，与我与业内人士交谈中关于广告支出实际如何分配的看法大相径庭。也许有人会辩称，考虑到Person诉Google案，加州北区联邦地区法院法官Fogel批评原告的市场定义，认为没有依据将“搜索广告市场”与更大的互联网广告市场区分开来，这预示着任何未来诉讼中都会提出的异议，因此在这里提出有力的论点是有意义的。然而，作为一个只想了解当前事实真相和论点真实性的人，这里的论点似乎值得怀疑。

对于谷歌的集成产品，如本地搜索和产品搜索（前身为Froogle），BC备忘录声称，如果谷歌像对待其他网站一样对待自己的属性，这些产品将不会被排名，谷歌人为地将自身的垂直竞争对手置于有机结果之上。网络垃圾团队拒绝将Froogle结果纳入，因为这些结果正是谷歌从索引中移除的那种垃圾内容，表示“[我们的]算法专门寻找此类页面以降级或从索引中移除”。网络搜索产品经理Bill Brougher说“通常我们喜欢在索引中拥有目标页面，而不是聚合页面。因此，如果我们本地页面是指向其他页面的链接列表，那么我们索引中拥有其他页面更为重要”。在网络垃圾团队被否决、结果被插入后，广告团队抱怨说，点击量较低（暗示质量较低）的结果将导致每年损失1.54亿美元。对此的回应基本上包含了与BC备忘录关于规模重要性以及谷歌剥夺竞争对手规模的行为为何代价高昂的论点相同的内容：

我们面临激烈竞争，必须快速行动。拒绝“一个框”会阻碍以下方面的进展：排名：失去点击数据损害排名；触发：失去点击率和google.com查询分发数据影响触发准确性；全面性：失去流量损害商户增长，因此损害全面性；商户合作：失去流量减少了商户在报价数据、税费和运费方面的投入；公关：关闭一个框降低了谷歌在商业领域的可信度；用户认知：在google.com上失去与购物相关的UI降低了用户对谷歌购物功能的认知

通常，CTR被用作对结果进行排名的重要信号，但这会导致谷歌自身垂直属性的排名较低，因此“谷歌使用竞争垂直网站的存在来自动提升其自身垂直属性的排名，使其高于竞争对手”——如果一个比较购物网站是相关的，谷歌会将谷歌产品搜索插入在任何竞争对手之上；如果像Yelp或CitySearch这样的本地搜索网站是相关的，谷歌会自动在SERP顶部返回谷歌本地。

此外，为了查看谷歌本地结果的内容，谷歌抓取了Yelp的内容并将其整合到谷歌场所中。当Yelp发现这种情况时，他们提出了异议，谷歌威胁要将Yelp从传统的谷歌搜索结果中禁止，并进一步威胁要禁止任何不允许其内容在谷歌场所中使用的垂直提供商。Marissa Mayer作证说，从技术角度来看，在不从传统有机搜索结果中移除Yelp的情况下，很难将Yelp从谷歌场所中移除。但当Yelp发送停止侵权函时，谷歌能够立即移除Yelp结果，这似乎表明其难度低于所声称的。谷歌随后声称在技术上不可行在不从SERP上的“本地合并”界面移除Yelp的情况下将其从谷歌场所中移除。BC工作人员认为这一说法也是错误的，Marissa Mayer后来在听证会上承认这一说法是错误的，并且谷歌担心允许网站在保留在“本地合并”中的同时选择退出谷歌场所可能带来的后果。亚马逊的结果和产品搜索也有一个非常相似的故事。如上所述，BE备忘录对所有这些的反驳论点是谷歌流量“非常小且不具统计显著性”。

BC备忘录声称上述活动既减少了Yelp、CitySearch、Amazon等公司在该领域投资的激励，也减少了新公司在此领域成立的激励。这似乎是真的。除了BC备忘录中提出的证据（超越了上述总结的内容），如果你只是在FTC调查期间与寻找创意的创始人或风投交谈，人们已经开始真正远离创办和资助像Yelp这样的公司，因为人们明白谷歌可以通过切断其空气供应严重损害这个领域的任何类似公司。

我们将BC备忘录附录中关于AdWords API限制的讨论推迟到附录，这些限制明确禁止广告活动程序化移植到其他平台（如必应）。但其中有一个有趣的细节，即谷歌显然意识到了此事的法律敏感性，因此会议记录和内部文件异常不完整。在一次会议中，BC工作人员能找到的最具信息量的书面记录是产品经理总监Richard Holden给广告高级副总裁Susan Wojicki的一条信息，内容是“我们没有做记录，原因显而易见，这就是为什么我不在电子邮件中详细说明的原因，但很乐意更口头地向你简要介绍”。

我们还将BC备忘录关于谷歌排他性和限制性联合协议的详细讨论推迟到附录，除了几个有趣的片段。一个是谷歌声称他们不知道其标准在线服务协议中的条款和条件。特别是，条款和条件包含一个“首选位置”条款，许多当事方认为这是事实上的独家协议。当FTC工作人员就这一条款询问谷歌搜索服务副总裁时，副总裁声称不知道此条款。之后，谷歌致信FTC的Barbara Blank，解释说他们正在从在线协议条款和条件中删除首选位置条款。

另一个有趣的片段涉及谷歌的市场力量及其如何让他们为自己获取越来越大的收入份额，并减少合作伙伴获得的收入份额。只有少数受此影响的谷歌客户对此表示担忧。那些表示担忧的是最大和最老练的一些客户（如亚马逊和IAC）；他们担心谷歌的限制性和排他性条款会增加谷歌对必应/微软的主导地位，并允许谷歌向客户提出更苛刻的条款。即使谷歌正在执行系统性策略以减少给客户的收入份额（这只有由于其市场主导地位才可能实现），大多数客户似乎要么不理解谷歌在此领域市场力量的长期影响，要么不理解互联网的重要性。

例如，百思买不觉得这值得担忧，因为百思买将他们的网站和网络视为客户进入商店前获取售前信息的方式；沃尔玛也不觉得这值得担忧，因为他们将网络视为实体店零售的延伸。似乎是同样的对互联网重要性的误解，导致沃尔玛和百思买在此表示不担忧，也导致这些零售商（过去地位远强于亚马逊）在在线和整体利润方面远远落后于亚马逊。沃尔玛后来意识到了这个错误，于2016年以33亿美元收购了Jet.com，并且（相对于其他零售商）认真资助了程序员在沃尔玛内部进行真正的技术工作。自从沃尔玛开始重视互联网以来，其在线业务取得了实质性复苏，自2018年以来在线净销售额平均复合年增长率达30%，但在面对亚马逊在线存在构成威胁后花了二十年时间才做出认真回应，这让沃尔玛在经过近十年的认真投入后仍然稳固地落后于亚马逊的在线零售，而百思买在三十年后仍然未能对亚马逊做出有效回应。

BE备忘录使用大多数客户不担忧作为谷歌在这里规定的独家和限制性条款不是问题的证据，但从事后来看，很明显，是客户对在线业务影响缺乏理解才导致他们对此不担忧。当BE备忘录将那些理解这里影响的客户称为“老练”时，这是相对于那些领导层倾向于不理解互联网的行业的人而言的。虽然这些客户相对于花了二十年才认真应对亚马逊威胁的零售商来说是老练的，但如果你当时只是与科技行业的人交谈，你不需要找到特别老练的人就能找到理解正在发生什么的人。人们普遍理解零售收入，更重要的是零售利润将转移到线上，你必须找到一个极其不合群的人才能找到一个对此没有大致理解的人。

BC和BE备忘录都有很长的关于搜索和规模的讨论。在这个话题上，BE备忘录似乎是错误的，而BC备忘录的含义，即使不微妙，至少也不明显。让我们从BE备忘录开始，因为它更容易讨论，尽管我们将非常简要地讨论BC备忘录中的论点，以便为BE备忘录中的讨论设定框架。BC备忘录中论点的大致框架是，在多个市场（搜索、广告）中，规模对产品质量有重大影响。谷歌自己的文件承认了这种“良性循环”，即拥有更多用户可以提供更好的广告，从而获得更好的广告收入；同样在搜索中，更大的规模带来更多的数据，可用于改进结果，从而带来用户增长。特别是在搜索领域，BC备忘录声称用户点击数据非常重要，更多的数据可以带来更好的结果。

BE备忘录声称事实并非如此。关于点击数据的重要性，BE备忘录提出了两个主要反对意见。首先，这与“通用搜索市场的历史相悖”；其次，“这也与证据相悖，这些证据表明，网络爬虫和网络索引的质量、搜索算法的质量以及搜索结果中包含的内容类型[至少同样重要或更重要]。”

对于第一个论点，BE备忘录用一个大致为“谷歌过去比现在小，当时的点击数据就足够了，因此变得像谷歌过去那么大意味着你有足够的点击数据”的案例来阐述。撇开对科技行业的了解不谈，这似乎是一个奇怪的推理思路。“我们现在生产的产品价格与竞争对手相同，但质量只有其三分之一，但这应该没问题，因为我们的竞争对手过去在市场不成熟、没有人生产更好产品时也生产过质量只有其三分之一的产品”通常不是一种制胜策略。这在市场份额和产品质量之间存在良性循环的市场中尤其如此，比如搜索领域。

第二个论点即使在不了解科技行业的情况下也显得奇怪，因为它是一个经典的谬误论证。这类似于说“BC备忘录声称汽车有右前轮很重要，但这与证据表明汽车有左前轮和右后轮至少同样重要相悖”。如果你了解科技，特别是搜索，这个论点就更不可信了。指出搜索算法的质量是不同的感觉不太对，因为规模和点击数据直接为算法开发提供信息（BE备忘录对此有相当多的讨论——BC备忘录的作者肯定可以获取相同的信息，从他们的写作来看，似乎也了解了这个论点）。作为一个从事搜索索引工作的人，虽然我很想同意BE备忘录的说法，认为索引与排名同等重要或更重要，但我必须承认索引是一个比排名更简单、更不重要的问题，同样爬虫 vs. 排名也是如此。这在当时是普遍理解的，因此，考虑到FTC工作人员进行了大量访谈，BE备忘录的作者也应该知道这一点。此外，考虑到BE备忘录所指的“通用搜索市场的历史”，即使不与工程师交谈，这一点也应该是显而易见的。

例如，Cuil以建立比谷歌更大的索引而闻名。虽然这不是一项微不足道的成就，但在当时，相当多的人拥有专业知识，如果资金充足用于严肃的基础设施创业，就能建立一个在原始大小或你更喜欢的其他索引指标上与谷歌索引相匹敌的索引。Cuil和其他专注于索引的尝试失败了，因为没有好的搜索排名，拥有大索引价值很小。虽然从技术上讲，拥有好的排名但索引差也价值很小，但我们在实践中并没有真正看到这种情况，因为排名是更难的问题，一家有能力构建好的搜索排名器的公司自然会拥有足够好的索引和足够好的爬虫。

至于BC备忘录的论点，我不知道其含义应该是什么。BC备忘录正确地指出，规模的增加极大地提高了搜索质量，必应从雅虎获得的额外数据大大提高了搜索质量和点击率，预计进一步增加的规模将继续带来高回报，创建谷歌竞争对手的成本很高（据说必应当时每年亏损20亿美元，并且每年花费45亿美元“开发其算法和构建运营必应所需的物理能力”），并且谷歌采取了可能被视为反竞争的行为，使得必应在与谷歌不采取这些行动的假设世界相比处于不利地位，并且他们对广告提出了类似的论点。然而，尽管BC备忘录陈述的论点有其强度，BE备忘录陈述的论点有其不准确性，BE备忘录的论点在精神上是正确的，即微软本可以采取一些行动来更有效地参与搜索竞争，但并没有这样做，有人可能会辩称FTC不应该介入帮助一家公司摆脱无效竞争。

就个人而言，我认为冗长讨论BC备忘录立场与BE备忘录立场没有太大意义，因为BE备忘录采取的立场似乎极其薄弱。称其为稻草人策略并不公平，因为这是一个真实的立场，并且在FTC中胜出，但采取行动与否的决定似乎更多是基于哲学而非备忘录中的论点。但我们可以讨论还可以做些什么。

可能发生什么

在FTC拒绝提起反垄断诉讼之后，发生的是微软实际上将必应作为严肃赌注的资金撤回，将本可用于继续资助与谷歌进行一场非常昂贵斗争的资源，转移到其认为投资回报率更高的其他项目上。微软追求的大赌注是Azure、Office和HoloLens（以及可以说是Xbox）。HoloLens是一个不切实际的赌注，但Azure和Office是微软可以利用其在相关市场的主导地位来打压竞争对手的业务线，而不是打一场竞争对手可以利用其在相关市场的主导地位来打压他们的逆风仗，从而获得更高的每美元投资回报率。作为一个在必应工作过并且认为如果得到持续、非盈利性的大量投资，必应有潜力与谷歌真正竞争的人，我觉得这令人失望但也可能是正确的商业决策。如果你看任何一个特定的子市场，比如Teams vs. Slack，微软的产品不需要比竞争对手好很多就能占领市场，这与搜索领域的情况相反，在搜索领域，谷歌打压竞争对手的能力意味着必应必须比谷歌好得多才能达到市场份额的均等。

根据他们的公开声明，拜登的司法部反垄断助理总检察长乔纳森·坎特（Jonathan Kanter）会主张在这种情况下提起反垄断诉讼，拜登的FTC委员兼主席莉娜·汗（Lina Khan）也会如此。在被任命为FTC委员兼主席之前，莉娜·汗最出名的是写了《亚马逊的反垄断悖论》，该文既有影响力也有争议。奥巴马任命的官员更经常同意BE备忘录中的推理类型，会反对反垄断行动，我们讨论的调查就是在他们任期内终止的。更广泛地说，他们反对坎特和汗所驱动的理念。奥巴马的FTC委员任命者，乔治梅森大学经济学家兼法律学者乔什·赖特，实际上写了一篇题为《对一个悖论的安魂曲：时尚反垄断的可疑崛起与必然衰落》的反驳文章，对汗的立场进行了严厉批评。

如果在2012年，FTC和司法部由拜登任命者而非奥巴马任命者领导，会有什么不同？我们只能推测，但一种可能性是他们会采取行动然后败诉，就像最近针对Meta和微软的案件一样，这些案件在奥巴马的FTC和司法部任期内似乎不会发生。在拜登任命者领导下，对现行法律——《谢尔曼法》、《克莱顿法》、《FTC法》、《罗宾逊-帕特曼法》以及“较小的”反垄断法——的运用要活跃得多，但法院的意见在拜登任期内并未改变，这导致了一系列科技领域不成功的反垄断案件。BE和BC备忘录都用了大量篇幅讨论某种推理路线是否会在法庭上站得住脚。拜登的任命者比以往的任命者更不关心这一点，司法部和FTC的多人都公开表示“我们有责任执行法律”之类的话，意思是当他们看到由民选官员制定的反垄断法律被违反时，即使法院可能不同意该法律，他们的工作也是追诉这些违法行为。

另一种可能性是会有一些行动，但行动将与我们看到的大多数公司处罚一致。比如一笔小额罚款，其成本相对于公司从其行为中获得的边际利润微不足道，或者某种同意令（基本上是停止与终止令），要求公司停止特定行为，同时保持其市场份额，保持其主要想获得的东西——在网络效应主导的市场中的巨大优势。也许会再开几次“我们没有做记录，原因显而易见”的会议来规避新的限制，一切照旧。考虑到FTC备忘录中的具体指控以及当时法院的态度，我的猜测是，如果FTC继续进行反垄断调查而不是终止，最可能的结果是第二种情况的某种形式，即某种名义上的胜利，在实践中几乎毫无影响。考虑到这些案件的审理需要多长时间，微软几乎肯定在任何决定做出之前就已经缩减了对必应的投资，并将必应从试图增长的补贴赌注转变为它希望保持的盈利业务。其他国家提起的一些案件，其补救措施与我们预期的如果FTC调查继续进行可能的结果一致。关于谷歌利用移动领域的市场力量在其希望的几乎所有Android手机上推广软件，欧盟名义上成功了，但实际影响微乎其微。经济政策研究中心的Cristina Caffara将其描述为：

欧洲未能推动实地变革。为什么？因为我们告诉他们，别再这么做了，坏狗狗，别再这么做了。但事实上，他们都去了，说着“好的，好的”，然后从后门跑出去又做了一遍，因为他们比监管者聪明，对吧？事情就是这样。

所以，在捆绑案中，在Android上，问题是不要再捆绑，于是他们说“好的，我们不捆绑了”。现在我们有了一个新系统。如果你想要Google Play商店，你付100美元。但如果你想在每个入口点放置搜索，你可以获得100美元的折扣……补救措施失败了，其他人都说“哦，这是一个好方法，非常聪明”

另一对相关案件是Yandex在俄罗斯关于移动搜索默认设置的诉讼，以及后来的欧盟同意令。2015年，Yandex在俄罗斯就Android上的移动默认地位提起诉讼，通过添加一个“选择屏幕”来解决，让用户选择搜索引擎而不偏向任何默认选项。这立即导致Yandex开始在谷歌那里获得市场份额，最终Yandex在俄罗斯的市场份额超过了谷歌。2018年，欧盟在欧洲要求了类似的选择屏幕，这并没有产生太大影响，除了在捷克共和国可能有点影响。俄罗斯的情况和欧盟的情况有一些差异。一个可以说是最重要的差异是，当Yandex在俄罗斯起诉谷歌时，Yandex仍然具有相当的竞争力，市场份额在30%多。在2018年欧盟决定时，必应是在欧洲排名第二的搜索引擎，市场份额约为3.6%。当一个搜索引擎完全主导市场时，给消费者提供选择可能影响甚微。BE备忘录强烈依赖的一个论点是，如果我们以任何方式干预，可能会在以后产生不良影响，所以我们应该非常小心，可能什么也不做，以防万一。但在这些赢家通吃、具有强大网络效应的市场中，你可以廉价干预的窗口期相对较小。也许（这是高度推测性的），如果FTC在2012年要求选择屏幕，必应会继续投入足够的资金至少维持其相对于谷歌的市场份额。

对于垂直领域，在购物方面，欧盟在2017年要求谷歌改变其展示结果的方式。这似乎几乎没有影响，既可能因为晚了5-10年，也可能因为即使在十年前实施也是微不足道的改变。2017年的裁决源于2010年启动的案件，在采取行动的7年里，谷歌成功地在竞争中击败了其垂直竞争对手，使其最多仅勉强相关。

另一个我们可以参考的地方是微软反垄断案。那是一个很长的故事，至少和本文档一样长，但简要总结一下，1990年，FTC开始调查微软涉嫌反竞争行为。继续调查的投票最终以2-2平局告终，导致调查终止。司法部随后进行了自己的调查，导致了一份普遍认为不太有效的同意令。然后是1998年司法部关于微软在浏览器市场使用垄断权力的诉讼，最初导致了拆分微软的决定。但在上诉中，拆分被推翻，导致了2002年的和解。1998年案件的一个主要组成部分是关于浏览器捆绑和微软对Netscape的攻击。到案件和解时（2002年），Netscape实际上已经死亡。和解中与互操作性相关的部分当时被普遍认为无效，不仅因为Netscape已死，而且因为它们不会普遍有用。一些经济学家持与BE备忘录相同的观点，即当时不应进行干预，任何干预都是危险的，可能阻碍创新。诺贝尔奖得主米尔顿·弗里德曼写了一篇题为《商业界自杀冲动》的Cato政策论坛文章，预测呼吁对微软采取反垄断行动的科技公司是在自杀，并且已经达到了一个关键门槛，这将导致硅谷的官僚化：

当我开始进入这个行业时，作为竞争的支持者，我是反垄断法的坚定拥护者；我认为执行这些法律是政府为促进更多竞争可以做的少数几件可取的事情之一。但当我观察实际发生的情况时，我看到，反垄断法非但没有促进竞争，反而倾向于做完全相反的事情，因为它们像许多政府活动一样，倾向于被它们本应监管和控制的人接管。因此，随着时间的推移，我逐渐得出结论，反垄断法弊大于利，如果我们没有这些法律，我们会过得更好，如果我们可以摆脱它们。但我们确实有它们。

在这种情况下，鉴于我们确实有反垄断法，硅谷将政府引向微软真的符合自身利益吗？……你们会后悔呼唤政府的那一天。从现在起，计算机行业一直非常幸运，相对不受政府干预，但将经历政府监管的持续增加。反垄断很快就会变成监管。这再次似乎是一个说明商业界自杀冲动的案例。

从事后来看，我们看到事实并非如此，甚至恰恰相反。关于试图对微软提起反垄断行动将不可避免地导致政府干预增加的观点，我们看到了相反的情况，即长达二十年的相对宽松监管和反垄断活动时期。在对创新的影响方面，尽管对微软的诉讼太少太晚，无法拯救Netscape，但谷歌的成功似乎与反垄断案有因果关系。在谷歌早期，当谷歌没有市场力量而微软实际上控制着人们访问互联网的方式时，微软内部曾讨论过旨在杀死谷歌的提案。其中一个提案是将试图访问谷歌的用户重定向到必应（当时称为MSN搜索，当然这是在Chrome存在之前，IE主导浏览器市场）。另一个想法是发布一个巨大的警告，警告用户谷歌是危险的，就像今天的浏览器中的恶意软件警告一样。当时微软的律师Gene Burrus表示，微软选择不尝试阻止用户访问google.com，是因为担心在经历了近十年的严格反垄断审查后，会引发进一步的反垄断行动。接受访谈的谷歌和微软人员都相信，如果微软那样做了，他们会杀死谷歌，因此，从事后来看，我们可以看到米尔顿·弗里德曼关于微软反垄断调查影响的看法是错误的，并且可以认为，正是因为这些反垄断调查，谷歌和脸书等Web 1.0公司才能够生存下来，更不用说繁荣发展了。

另一种可能性是采取了重大反垄断行动，取得了成功，并且成功得足够及时以产生影响。也许，补救措施本身不足以改变必应与谷歌的格局，但如果找到并实施了一个合理的补救措施，它仍然可能及时地使Yelp和其他垂直网站保持重要地位，甚至可能刺激更多垂直领域的初创公司。在一个由与拜登任命者理念相同的人领导FTC和司法部的假设世界里，我们可能还会看到针对微软在其可以利用相邻市场主导地位的市场提起反垄断行动，使必应成为持续大量投资更具吸引力的领域。也许这将导致必应与谷歌竞争，而上述“老练客户”如亚马逊和IAC的担忧可能不会成为现实。通过对微软和其他可以利用其主导地位打压竞争对手的大公司提起反垄断诉讼，也许Slack仍然是一个独立产品，我们会在企业工具领域看到更多初创公司（一些评论者认为Slack基本上是被迫被收购，因为面对微软在相关市场的主导地位，竞争太困难了）。Slack继续存在和创新只是小事——更大的假设影响将是所有那些因为担心像微软这样的庞然大物会用捆绑产品摧毁他们的独立产品而不敢尝试的新初创公司和产品。如果你把所有这些，如果不是最佳情况，至少是非常好的情况下的反垄断倡导者的结果加起来，有人可能会争辩说消费者和企业会过得更好。但现实地说，很难看出这种非常好的情况组合如何能够实现。

回到FTC备忘录，如果我们考虑需要采取什么反垄断行动才能真正促进竞争，这似乎极其困难。一些更直接、听起来更可信的解决方案由于政治原因、法律先例，或者像我们引用的Boies论点或BE备忘录中一些明显不正确但似乎对非常重要的人来说有说服力的论点而被排除在外。

对于似乎可行的解决方案，权衡它们造成的危害并非易事。例如，假设FTC在2012年强制实施移动和桌面选择屏幕。这会在相当短的时间内杀死Mozilla，除非Mozilla完全改变其商业模式，因为Mozilla基本上依靠从谷歌获得的默认地位付款生存。我们从Opera看到，即使你有一个卓越的浏览器，引入了其他浏览器后来复制的功能，性能比其他浏览器更好等等，当你面对免费浏览器时，你也无法真正竞争。因此我们很快将只剩下IE/Edge和Chrome。在浏览器引擎方面，不久后就只有Chrome了，因为Edge现在底层运行Chrome。也许我们可以想出另一个补救措施来允许浏览器竞争，但BE备忘录并非没有注意到反垄断补救措施可能造成其他损害。

另一个例子突显了制定政治上合适的补救措施的困难，是德国联邦卡特尔局对脸书施加的限制，涉及用户隐私和数据使用（用于个性化、排名、一般机器学习训练等），这在德国被视为反垄断问题。海法大学教授兼法律与市场论坛主任Michal Gal指出，当然，脸书在回应裁决时，只在检测到你是德国人时才限制其数据使用。如果担心的是机器学习模型在用户数据上训练，这对削弱脸书的能力没什么帮助。假设德国有一个与美国科技竞争的科技界，德国公司担心类似的裁决会针对他们，这将对最初专注于德国市场然后在国际上扩张的新兴德国公司不利。对德国来说，这只是理论上的担忧，因为除SAP外，没有德国公司接近美国大型科技公司的规模和范围。但在审视美国的补救措施和监管时，这不是理论上的担忧，一些立法者会希望权衡保护美国消费者与对美国公司施加的拖累，这种拖累是与韩国、中国和其他外国公司相比的，这些外国公司在本地市场可以在隐私顾虑较少的情况下增长，然后扩展到国际市场。如果认真对待这种担忧，几乎可以用来反对任何支持反垄断行动的论点。

我们未来能做什么？

这份文档已经足够长了，所以我们推迟对政策细节的详细讨论，另找时间，但在高层行动方面，似乎有帮助的一件事是让科技人员密切参与制定补救措施和监管，以及在调查期间参与²。从公开的2011-2012年FTC调查主任备忘录来看，似乎并未这样做，因为BE备忘录中那些通不过科技人员嗅觉测试的论点似乎被认真对待了。另一个例子是Cristina Caffara指出的那个欧盟补救措施，被谷歌立即规避了，许多科技人士会认为这是一个令人愉快的“黑客”。

这种“破解系统”在科技界有着悠久的历史，早于人们称之为“科技”之前，它只是物理学和电子工程。举一个更近期的例子，山姆·奥尔特曼（Sam Altman）成为Y Combinator总裁（最终导致他成为OpenAI首席执行官）的原因之一，就是保罗·格雷厄姆（Paul Graham）欣赏他破解系统的能力；保罗在2010年关于创始人的文章中，在标题为“淘气”的章节下写道：

尽管最成功的创始人通常是好人，但他们眼中往往闪烁着海盗般的光芒。他们不是乖乖牌式的好人。在道德上，他们关心把重大问题做对，但不在意遵守礼节。这就是为什么我用“淘气”这个词而不是“邪恶”。他们喜欢打破规则，但不是重要的规则。这种特质可能是多余的；它可能蕴含在想象力中。

Loopt的山姆·奥尔特曼是最成功的校友之一，所以我们问他可以在Y Combinator申请表上问什么问题，以帮助我们发现更多像他这样的人。他说可以问一个关于他们曾如何破解某事为自己谋利的问题——这里的破解是指击败系统，而不是入侵计算机。这已成为我们评审申请时最关注的问题之一。

或者，从谷歌无数例子中选一个，为了减少差旅成本，谷歌工程师实施了一个系统，他们计算某种基准“航班预期成本”，然后为人们预订低于基准成本的航班提供积分，可用于升级未来的航班和差旅住宿。与那些刻板公司的费用限额相比，这对员工来说是一种很好的体验，谷歌工程师为创建了一个让每个人体验都更好的系统而自豪，这是破解系统的一种方式。更高层次的破解系统是当一些员工优化他们的航班，甚至安排前往高度可优化的目的地旅行（许多工程师会认为这是一个有趣的挑战，是面试中给出的经典动态规划问题的变体等），使他们能够升级到头等舱航班和最好的酒店。

当我和传统行业的管理人员谈论这件事时，他们经常感到震惊，不敢相信这些员工没有因欺骗系统而受到谴责甚至解雇。但当我在谷歌时，人们普遍认为这令人钦佩，因为它体现了黑客精神。

从科技反垄断至少二十年的历史中，我们可以看到，法院、监管机构和立法者并没有为科技公司破解系统的活力、速度和乐趣做好准备。

并且有让科技人员参与桌子另一边的先例。例如，在微软反垄断大案中就是这样做的。但在每个层面都存在激励问题，这使得这件事很困难，原因包括科技公司愿意支付巨额资金等。如果我想到我认识的非常擅长上述破解系统的人，那些想在大公司工作的人通常每年挣七位数（或更多），这个数字不太可能被个人与司法部或FTC签订的咨询合同所匹敌。如果我们再次看微软的例子，参与的技术小组由Ron Schnell管理，他在第三次退出后休息了一段时间，但像他这样的人相对较少。当然，有各种原因不想在大公司工作的人，通常是道德原因或不喜欢大公司的企业政治，但我认识的大多数符合描述的人在大公司待的时间不够长，无法真正理解大公司的运作机制，即使他们是出色的工程师和黑客，也是这份工作的错误人选。

在不久前的反垄断会议上，一位发言人指出，法律界和经济学界的交流与合作对反垄断工作大有裨益。演讲和会议中明显缺少的是行业从业者。会议的感觉像学术会议，所以你可能会在某天看到计算机科学学者参加会议，但即使如此，许多政策层面的讨论也不在计算机科学学者的兴趣范围内。例如，我们指出的BE备忘录中一个不可信的论点是他们如何使用MAU基本上论证转换成本很低。这几乎是每个计算机科学学者研究领域之外的东西，所以即使会议扩大并引入与科技密切相关的人员，自然的参与者仍然不是在涉及微小细节的可信度时有权发表意见的人。

除了上述对政策讨论的影响外，缺乏与科技人员的合作还意味着，当人们谈论行为者的动机时，他们经常做出毫无根据的假设。在一个具体的例子，某人可能称之为“黑客”的行为上，发言人描述了一位高管的反应（击掌庆祝等），并推断出对立法者和法律的蔑视，但这没有证据支持。这位被提及的高管可能确实对立法者和法律有蔑视和鄙视，但那种庆祝正是你在谷歌有人发现如何“免费”在几乎所有航班上升级到头等舱后可能看到的，这完全不能表明蔑视或鄙视。

回到激励问题，这超越了在反垄断讨论中让理解科技的人参与桌子另一边。如果你问当时在国会山的工作人员，普遍的看法是，阻碍FTC调查的主要因素是谷歌的游说，当然谷歌和其他大型科技公司在游说上的花费超过了那些希望加强反垄断审查的实体。

在公务员队伍中，如果我们看BC调查的负责人和BC备忘录的第一作者，他们现在是Facebook竞争与监管事务的董事兼副总法律顾问。我不认识他们，所以我不能谈论他们的动机，但如果有人给我我认为他们做反垄断和其他监管工作所得的报酬，我可能会接受。即使抛开薪酬不谈，如果我坚信加强反垄断执法的目标，这仍然会是一个非常有吸引力的提议。在FTC工作，也许你会领导另一项调查，你写了一份比对方备忘录强得多的备忘录，但当一家大型科技公司在华盛顿特区投入更多游说资金时，这无关紧要，调查就被终止了。或者也许你的调查导致了像欧盟调查那样的结果，最终导致一个太少也太晚的“选择屏幕”。或者也许导致了像Android Play Store解绑案那样的结果，在调查启动七年后，一位足智多谋的谷歌员工想出了一个“黑客”，在大约五分钟内让同意令变得毫无用处。至少在Facebook内部，你可以推动公司朝着你认为正确的方向发展，并对Facebook如何对待消费者和竞争对手产生一些影响。

从科技人员（而非从事反垄断工作的人员）的角度看，在我的社交圈里，经常听到人们说“我永远不会为道德原因在X公司工作”。这是一个不错的立场，但我认识的几乎所有这样做的人最终都在一个影响力很小的公司工作。如果你想采取道德立场，更可能产生影响的是从内部工作或找到一个较小的直接竞争对手并帮助其取得更大成功。

感谢Laurence Tratt、Yossi Kreinin、Justin Hong、kouhai@treehouse.systems、Sophia Wisdom、@cursv@ioc.exchange、@quanticle@mastodon.social和Misha Yagudin的评论/纠正/讨论

附录：非声明

这类似于技术设计文档的“非目标”部分，但更弱，因为设计文档中的非目标通常是暗示某些内容的积极陈述，而这些内容无法从文档中读出，而非目标声明本身不增加任何信息

2012年应该对谷歌提起反垄断诉讼
- 不是说有人应该在意我的意见，但如果当时有人问我是否应该提起反垄断诉讼，我会说“可能不会”。现在支持反垄断行动的理由似乎更强，反对的理由似乎更弱，但你仍然可以提出相当有力的反对反垄断行动的论点。
- 即使你认为，其他条件不变，反垄断行动对消费者有利，并且“可能发生什么”中的“非常好的情况”结果会在提起反垄断行动时出现，但谷歌和其他科技公司（仅举几例）是否是正确的目标仍然不明确，而不是Visa和Mastercard在支付领域的主导地位、医院合并导致的集中度增加对消费者和工人产生的负面影响、Ticketmaster的主导地位等。或者也许你认为政府应该专注于监管明确保护企业的领域，如航运（根据《谢尔曼法》豁免）或汽车经销商（在美国许多州法律中有特殊保护，防止直销并迫使汽车公司在某些方面遵守其要求）等。
今天应采取较弱或较强的反垄断措施
- 我认为我还没有花足够时间研究法律、政治、历史和哲学背景来形成应该做什么的意见，但我对科技了解得足以指出我看到的几个错误，并指出这些错误中的共同主题。

BC工作人员备忘录

由“Barbara R. Blank、Gustav P. Chiarello、Melissa Westman-Cherry、Matthew Accornero、Jennifer Nagle（反竞争行为司）；James Rhilinger（医疗保健司）；James Frost（政策与协调办公室）；Priya B. Viswanath（主任办公室）；Stuart Hirschfeld、Danica Noble（西北地区）；Thomas Dahdouh（旧金山西部地区）律师；Daniel Gross、Robert Hilliard、Catherine McNally、Cristobal Ramon、Sarah Sajewski、Brian Stone（荣誉法务助理）；Stephanie Langley（调查员）”提交

日期：2012年8月8日

（备忘录正文较长，此处省略）

FTC经济局工作人员备忘录

“经济局

2012年8月8日

发件人：Christopher Adams和John Yun，经济学家”

（备忘录正文较长，此处省略）

其他备忘录

（其他备忘录较长，此处省略）

（脚注1内容，关于rangeCheck的讨论，此处省略）
（脚注2内容，关于DuPont和PFAS的讨论，此处省略）

由 mimo-v2.5 模型翻译，花费 63468 tokens

网页臃肿如何影响使用慢速设备的用户

Sat, 16 Mar 2024 00:00:00 +0000

2017年，我们研究了网络臃肿如何影响网络连接缓慢的用户。即使在美国，许多用户也没有宽带速度，使得大部分网络难以使用。无论是在美国国内还是国外，许多用户仍然没有宽带速度，现代网络的大部分内容对于网络速度慢的人来说仍然不可用，但由于典型网站的带宽呈指数级增长（尼尔森指出对于高速连接，这是每年50%），其增速已超过网络臃肿的蔓延速度，这使得问题比2017年时有所减轻，尽管对于网络连接差的人来说这仍然是一个严重问题。

Web应用的CPU性能增长速度远不及带宽，因此，虽然更多网络内容对低端连接用户变得可访问，但更多网络内容对低端设备用户（即使他们有高速连接）变得不可访问。例如，如果我尝试在Tecno Spark 8C上浏览一个“现代”的Discourse论坛，有时会导致浏览器崩溃。在崩溃之间，测量其性能时，其响应速度明显慢于使用8 MHz 286处理器和1200 baud调制解调器浏览一个BBS。在我家1Gbps的网络连接下，加载消息标题所“必需”的2.6 MB压缩载荷相对较轻。网络传输载荷大小“只”增加了1000倍，这被互联网速度的提升所掩盖。但在CPU速度方面情况恰恰相反——对于网页浏览和论坛加载性能，8核 (2个1.6 GHz Cortex-A75 / 6个1.6 GHz Cortex-A55) CPU无法处理Discourse。该CPU的速度大约比我们的286快100000倍。也许一个快1000000倍的设备才足够。

对于不熟悉Tecno Spark 8C的人，今天，一台全新的Tecno Spark 8C，快速搜索显示，在尼日利亚可能花50-60美元就能买到，在印度可能100-110美元。作为中位家庭收入的一部分，这比今天美国当前一代的iPhone贵得多。

按照全球标准，Tecno Spark 8C甚至算不上低端设备，因此我们也将看看Itel P32的性能，这是一款更低端的设备（尽管仍然远非人们今天使用的最低端设备）。此外，我们将测试M3 Max Macbook (14核)、M1 Pro Macbook (8核)的性能，以及将M3 Max在Chrome开发工具中设置为10倍限速下的表现。为了给这些设备提供一切优势，我们将使用相当高速的互联网（1Gbps，搭配一个基准测试显示其负载下延迟低于大多数同类产品的WiFi路由器）。我们将查看一些博客平台和微博客平台（本博客、Substack、Medium、Ghost、Hugo、Tumblr、Mastodon、Twitter、Threads、Bluesky、Patreon），论坛平台（Discourse、Reddit、Quora、vBulletin、XenForo、phpBB和myBB），以及小企业常用的平台（Wix、Squarespace、Shopify以及再次提到的WordPress）。

在下面的表格中，每一行代表一个网站，每个非标签列是一个指标。网站名称列之后，我们有通过网络传输的压缩大小（wire）和原始未压缩大小（raw）。然后，对于每个设备，我们有最大内容绘制*（LCP*）和主线程上的CPU使用率（CPU）。谷歌的文档将LCP解释为

最大内容绘制（LCP）衡量用户感知到页面最大内容可见的时间点。LCP指标值表示从用户发起页面加载到页面渲染其主要内容之间的时间长度。

LCP是一个常见的优化目标，因为它作为谷歌PageSpeed Insights中的主要指标之一呈现，属于“核心Web指标”。本文档中使用的LCP旁边有一个星号，因为Chrome测量的LCP大致是关于绘制大部分屏幕，而上述定义是关于内容的。由于网站一直在针对LCP进行优化，出现一个对用户完全无用的巨大绘制（更新）的情况并不少见，实际页面内容在LCP之后很久才出现。在这种情况下，我使用的是有用内容出现的时间戳，而不是那个无用的大更新发生时定义的LCP。测试的详细细节以及为何选择这些指标将在附录中讨论。

尽管CPU时间不是“核心Web指标”，但这里展示它是因为它是一个简单且与我以及其他用户在慢速设备上对可用性感知高度相关的指标。更多关于此的详细讨论请参见附录。CPU时间作为一个指标有效的一个原因是，如果一个页面在所有其他指标上表现都很好，但使用了大量的CPU时间，那么这个页面在慢速设备上将不可用。如果它以100% CPU占用运行30秒，页面在30秒内将完全无法使用；如果以50% CPU占用运行60秒，页面在60秒内将勉强可用，等等。另一个原因是，与常用指标相比，很难在CPU时间上作弊，做出显著改变该数字而不影响用户体验的优化。

下面表格中的颜色方案是：对于大小，越绿色=越小/快，越红色=越大/慢。极端值用黑色显示。

站点	大小		M3 Max		M1 Pro		M3/10		Tecno S8C		Itel P32
站点	wire	raw	LCP*	CPU	LCP*	CPU	LCP*	CPU	LCP*	CPU	LCP*	CPU
danluu.com	6kB	18kB	50ms	20ms	50ms	30ms	0.2s	0.3s	0.4s	0.3s	0.5s	0.5s
HN	11kB	50kB	0.1s	30ms	0.1s	30ms	0.3s	0.3s	0.5s	0.5s	0.7s	0.6s
MyBB	0.1MB	0.3MB	0.3s	0.1s	0.3s	0.1s	0.6s	0.6s	0.8s	0.8s	2.1s	1.9s
phpBB	0.4MB	0.9MB	0.3s	0.1s	0.4s	0.1s	0.7s	1.1s	1.7s	1.5s	4.1s	3.9s
WordPress	1.4MB	1.7MB	0.2s	60ms	0.2s	80ms	0.7s	0.7s	1s	1.5s	1.2s	2.5s
WordPress (旧版)	0.3MB	1.0MB	80ms	70ms	90ms	90ms	0.4s	0.9s	0.7s	1.7s	1.1s	1.9s
XenForo	0.3MB	1.0MB	0.4s	0.1s	0.6s	0.2s	1.4s	1.5s	1.5s	1.8s	失败	失败
Ghost	0.7MB	2.4MB	0.1s	0.2s	0.2s	0.2s	1.1s	2.2s	1s	2.4s	1.1s	3.5s
vBulletin	1.2MB	3.4MB	0.5s	0.2s	0.6s	0.3s	1.1s	2.9s	4.4s	4.8s	13s	16s
Squarespace	1.9MB	7.1MB	0.1s	0.4s	0.2s	0.4s	0.7s	3.6s	14s	5.1s	16s	19s
Mastodon	3.8MB	5.3MB	0.2s	0.3s	0.2s	0.4s	1.8s	4.7s	2.0s	7.6s	失败	失败
Tumblr	3.5MB	7.1MB	0.7s	0.6s	1.1s	0.7s	1.0s	7.0s	14s	7.9s	8.7s	8.7s
Quora	0.6MB	4.9MB	0.7s	1.2s	0.8s	1.3s	2.6s	8.7s	失败	失败	19s	29s
Bluesky	4.8MB	10MB	1.0s	0.4s	1.0s	0.5s	5.1s	6.0s	8.1s	8.3s	失败	失败
Wix	7.0MB	21MB	2.4s	1.1s	2.5s	1.2s	18s	11s	5.6s	10s	失败	失败
Substack	1.3MB	4.3MB	0.4s	0.5s	0.4s	0.5s	1.5s	4.9s	14s	14s	失败	失败
Threads	9.3MB	13MB	1.5s	0.5s	1.6s	0.7s	5.1s	6.1s	6.4s	16s	28s	66s
Twitter	4.7MB	11MB	2.6s	0.9s	2.7s	1.1s	5.6s	6.6s	12s	19s	24s	43s
Shopify	3.0MB	5.5MB	0.4s	0.2s	0.4s	0.3s	0.7s	2.3s	10s	26s	失败	失败
Discourse	2.6MB	10MB	1.1s	0.5s	1.5s	0.6s	6.5s	5.9s	15s	26s	失败	失败
Patreon	4.0MB	13MB	0.6s	1.0s	1.2s	1.2s	1.2s	14s	1.7s	31s	9.1s	45s
Medium	1.2MB	3.3MB	1.4s	0.7s	1.4s	1s	2s	11s	2.8s	33s	3.2s	63s
Reddit	1.7MB	5.4MB	0.9s	0.7s	0.9s	0.9s	6.2s	12s	1.2s	∞	失败	失败

乍一看，这个表格似乎大致正确，因为那些除非拥有超级快设备否则会感觉慢的网站，在表格中显示为慢（即，在低端设备上 max(LCP*,CPU)) 很高）。当我调查人们认为哪些平台在我们的慢速设备上会是最快和最慢时（Mastodon，Twitter，Threads），他们通常正确地预测WordPress和Ghost会比Substack和Medium更快，而Discourse会比旧的PHP论坛如phpBB、XenForo和vBulletin慢得多。我也获取了页面（未显示）的Google PageSpeed Insights（PSI）分数，这些数字与我们数据的相关性并不那么强因为少数网站成功优化了它们的PSI分数，但实际上并没有为用户加速页面。

如果你从未使用过这样的低端设备，总体体验是许多网站在该设备上不可用，加载任何资源密集型的东西（应用程序或大型网站）都可能导致崩溃。在资源密集型应用程序中做过于密集的操作也可能导致崩溃。虽然评测指出你可以在Tecno Spark 8C上以不错的性能运行PUBG和其他3D游戏，但这并不意味着该设备足够快，可以阅读现代以文本为中心的社交媒体平台或现代以文本为中心的网络论坛帖子。虽然在PUBG中可以达到40fps，但我们在这些网站上滚动时可以轻松看到低于0.4fps的情况。

从表格中我们可以看到，如果你有一个慢速设备，有多少网站是不可用的。所有CPU占用超过10秒的页面即使在加载后，体验也相当糟糕。滚动非常卡顿，经常掉到几帧每秒，有时更低。当我们点击任何链接时，延迟非常长，我们无法确定我们的点击是否真的有效。如果我们再次点击，可能会遇到可怕的情况：第一次点击被记录，然后导致第二次点击做错事情，但如果我们等待，我们通常会等待太久，因为原始点击实际上没有被记录（或者它被记录了，但不是我们认为的位置）。尽管MyBB不提供移动版网站，并且因此被谷歌惩罚（因为页面不支持移动设备），但它实际上在这些慢速移动设备上比几乎所有网站都更容易使用，因为滚动和点击实际上都能工作。

我们能看到的另一件事是不同设备上相对性能的巨大差异。例如，比较M3/10和Tecno Spark 8C，对于danluu.com和Ghost，M3/10提供了Tecno Spark 8C的一个大致近似（尽管danluu.com加载速度太快），但Tecno Spark 8C在Medium、Substack和Twitter上的CPU速度慢约三倍，在Reddit和Discourse上慢约四倍，在Shopify上则快了一个数量级。对于Wix，CPU近似值大致准确，但我们的Tecno Spark 8C在LCP*上慢了三倍多。Chrome可以方便地从你的电脑上模拟较慢的设备，这很棒，但仅仅启用Chrome的CPU限速（或使用任何现成的可用选项组合）会给出与我们在许多真实设备上得到的结果相当不同的数据。完整的原因超出了本文的范围；对于本文的目的，只需注意慢速页面在设备变慢时通常会超线性地变慢，并且一个页面的慢速并不能强烈预测另一个页面的慢速。

如果我们采取以网站为中心的视角而不是以设备为中心的视角来看，另一种方式是，像Discourse、Medium和Reddit这样的网站，在我们快速的M3和M1电脑上并没有使用那么多CPU，但它们在我们的Tecno Spark 8C上是最慢的之一（Reddit的CPU显示为∞，因为无论我们等待多久不交互，Reddit都使用约90% CPU）。Discourse有时在交互一点或只是等待一会儿后也会导致浏览器崩溃。例如，有一次，加载Discourse后，滚动两次，然后让设备静置一两分钟，浏览器就崩溃了。为了保持一致性，这在表格中没有被标记为失败，因为页面确实加载了，但现实地说，一个页面资源占用如此之多以至于浏览器崩溃，比表格中任何失败情况都糟糕得多。当我们研究网络臃肿如何影响网络连接缓慢的用户时，我们发现许多网络内容对网络连接缓慢的人来说是不可用的，而慢速设备情况也没有不同。

我们可以看到的另一个模式是，旧网站通常比新网站更快，那些（视觉上）看起来十年或二十年没有更新过的网站往往最快。例如，MyBB，外观最不现代、最古老的论坛，在M3上比Discourse快3.6倍 / 5倍（LCP* / CPU），但在Tecno Spark 8C上，差异是19倍 / 33倍，考虑到整体的扩展性，可以安全地猜测在Itel P32上差异会更大（如果Discourse在如此廉价的设备上能运行的话）。

另一个例子是Wordpress（旧版）与更新、更时髦的博客平台如Medium和Substack。Wordpress（旧版）在我们的M3 Max上比Medium快17.5倍 / 10倍（LCP* / CPU），比Substack快5倍 / 7倍（LCP* / CPU），在我们的Tecno Spark 8C上分别快4倍 / 19倍和20倍 / 8倍。Ghost是这个规律的一个显著例外，它是一个现代平台（比Medium晚一年推出），但性能与旧平台相当（现代Wordpress也可以算是一个例外，但许多人可能仍然认为它是一个旧平台）。在论坛中，NodeBB似乎也有些例外（详情见附录）。

使用现代技术如部分加载页面然后动态加载其余内容的网站（如Discourse、Reddit和Substack），往往不如表格中的分数所显示的那么可用。虽然原则上你可以用简单的方式构建一个在廉价设备上运行良好的此类网站，但实践中，使用动态加载的网站往往足够复杂，以至于在低端设备上极其卡顿。通常很难或不可能滚动一个可预测的距离，这意味着用户有时会因为滚动过远而意外触发更多加载，导致页面卡住。许多页面实际上会在你滚动时删除你已经滚动过的部分；所有这些页面基本上都是不可用的。其他基本的Web功能，如页面搜索，也通常停止工作。具有这种动态加载的页面无法依赖简单快速的ctrl/command+F搜索，必须构建自己的搜索。其效果如何各异（这在Google文档中过去效果很好，但在过去的几个月或一年里，它加载需要很长时间，我必须在打开文档后特意等待，以避免触发浏览器无用的内置搜索；Discourse搜索在慢速设备甚至不算特别慢但也不快的设备上从未真正有效过）。

原则上，这些在加载时消耗大量CPU的现代页面可能正在做预处理工作，这使得页面上的后续交互比那些前期工作少的页面更快、成本更低（这是支持此类页面的常见论点），但对于测试的页面来说，情况并非如此，它们初始加载更慢，后续加载更慢，加载后也更慢。

为了理解为什么这种前期完成所有工作的理论想法通常不会带来更快的后续体验，谷歌的一位杰出工程师与Discourse创始人（当时的CEO）之间的这段交流是有启发性的，在这段讨论中，Discourse的创始人说你应该在笔记本电脑上通过限制带宽但不限制CPU来测试移动网站：

谷歌：*你*也没有慢速3G。这两个设置是配套的。同理心需要超越隧道里的iPhone XS用户。
Discourse：任何iPhone 6或更新版本的手机，其速度基本上都与“平均”笔记本电脑相当。你必须明白高通在工作上有多么糟糕。如果你不相信我，去查一下。
谷歌：我不需要相信你。我知道。关心这件事的人都知道这一点。我的观点是，就像不是每个人都有快速连接一样，也不是每个人都有快速手机。当然，iPhone 6在真实世界的网站上经常非常受CPU限制。但这不是重点。
Discourse：我们几十年来一直在朝着无限CPU速度的趋势发展（而且在桌面端我们大约5年前就已经渐近于此），我们没有也永远不会朝着无限带宽的趋势发展。为重要的事情进行优化。我对@qualcomm没有丝毫同理心。去他妈的高通，他们工作做得太烂了。我希望他们破产，用盐把他们公司存在过的土地犁一遍，这样那里永远寸草不生。
谷歌：移动设备在大多数情况下根本不受带宽限制。它们受延迟限制。即使是最新款的iPhone，在带宽受限之前就已经是CPU受限了。如果你在MacBook Pro上放慢4倍速度表现良好，情况就差不多了。
...
谷歌：是否100%的用户都在iOS上？
Discourse：有影响力且花钱的用户往往倾向于使用iOS，我告诉你……担心CPU是没意义的，在iOS上它实际上已经是无限的了，而且即使高通的SoC如此糟糕，4年内在他们尴尬的SoC上也会达到这个水平。

当有人问Discourse的创始人“你为什么讨厌他们”时，他回复了一个链接，引用了这篇Anandtech评测中的Kraken和Octane基准测试，其中高通芯片的性能分别是当时苹果芯片的74%和85%。

Discourse的创始人兼当时的CEO认为高通的移动性能令人尴尬，并且认为这是如此不可接受，以至于他认为高通工程师都应该因此丢掉工作，因为他们只提供了苹果性能的74%到85%。苹果拥有我所认为的史上最伟大的性能团队之一。理智的人可能会不同意这一点，但至少必须认为他们是世界级的团队。因此，生产出性能只有这个史上伟大团队的74%到85%的产品，被认为是足以让人丢掉工作的尴尬。

这里展现了两种态度，我在许多软件从业者身上看到过。首先，CPU速度是无限的，不应该担心CPU优化。其次，应该期望硬件带来巨大的速度提升，硬件工程师未能达到这些提升的唯一原因是惊人的无能，因此应该责怪硬件工程师而不是软件工程师。Donald Knuth在以下内容中表达了类似的情绪

我可能得就目前多核架构的潮流表达一下我的个人不满。在我看来，这更像是硬件设计师已经江郎才尽，试图把未来摩尔定律终结的责任推到软件写手身上，通过给我们提供只能在少数关键基准测试上运行更快的机器！如果整个多线程的想法最终被证明是一个失败，比“Itanium”方案还糟——那个方案本应如此了不起——直到最终发现所希望的编译器基本上无法编写出来，我也不会感到惊讶。让我这样说：在过去的50年里，我写了超过一千个程序，其中许多都有相当大的规模。我想不出其中哪怕五个程序会因为并行或多线程而得到显著增强。当然，例如，多处理器对TeX毫无帮助……我知道并行性的重要应用是存在的——渲染图形、破解代码、扫描图像、模拟物理和生物过程，等等。但所有这些应用都需要专用代码和特殊技术，这些技术每隔几年就需要进行大幅度的修改。即使我足够了解这些方法，可以在TAOCP中写到它们，我的时间也将被大量浪费，因为很快就没有人有理由去读那些部分了……我今天使用的机器有两个处理器。我只有在同时运行两个独立任务时才能同时使用它们；这很好，但这每周只发生几分钟。

在Discourse的案例中，如果一个硬件工程师无法达到一个史上伟大团队90%的性能，那么他就是令人尴尬的、不配拥有工作的人，但作为软件工程师，交付性能仅为像MyBB这样的非高度优化应用程序的3%却没问题。在Knuth的案例中，硬件工程师几十年来每十年为程序员提供100倍的性能提升，而程序员几乎或根本不需要做任何工作。当这种提升放缓，程序员必须适应以利用新硬件时，硬件工程师就“江郎才尽”了，但学习一些利用当前硬件的“新”（1970和1980年代的）想法却被认为是浪费时间。而且我们之前讨论过艾伦·凯声称硬件工程师“不成熟”且“未受过教育”，没有在做“真正的工程”，以及如果我们听从艾伦·凯的“成熟”想法，我们将获得1000倍的速度提升。

程序员期望硬件解决他们所有问题，然后当这没有发生时，就将问题推给用户，解释为什么程序员不需要为帮助用户做任何事情，这是相当常见的。人们可能会问的一个问题是程序员给了我们多少性能改进。有些算法改进带来了巨大的速度提升，但正如我们上面指出的，Discourse，当今增长最快的论坛软件，似乎给我们带来了大约1000000倍的性能下降。

上面展示的另一种常见态度是，不富有的用户无关紧要。当被问及是否100%的用户都在iOS上时，Discourse的创始人说“有影响力且花钱的用户往往倾向于使用iOS，我告诉你”。我们在Tonsky的JavaScript臃肿文章的评论中到处都能看到这种态度，人们表达鸡尾酒会式的情绪，比如“手机应用有几百兆，为什么我们要纠结于几兆的Web应用？非洲饥民可以下载Android应用但不能下载Web应用？得了吧”以及“gitlab的用户肯定不会穷到有慢速设备，认真点吧”（为了长度而意译）。

但当我们看看在非洲下载的应用大小时，我们看到那些没有高端设备的人使用像Facebook Lite（几兆）这样的应用，并且通常使用大小从个位数到低两位数兆字节不等的应用。应用开发者关心其应用大小有多个原因。一个是手机上可用的总存储空间；如果你观察真实用户安装应用，他们经常必须删除和卸载东西才能安装新应用，所以较小的大小不仅更容易安装，而且在用户寻找更多空间时被卸载的可能性也更低。另一个原因是，如果你查看应用大小和使用情况的数据（我不知道有公开的此类数据；如果你有可以引用的公开数据，请提供），当大型应用增加大小和内存使用量时，它们会获得更多崩溃，这降低了用户留存、增长和参与度；相反，当它们优化大小和内存使用量时，崩溃减少，用户留存、增长和参与度提高。

Alex Russell指出，iOS在印度（一个14亿人口的市场）占7%的市场份额，在拉丁美洲（一个6亿人口的市场）占6%。尽管Discourse的创始人说这些不是重要的“有影响力的用户”，但他们仍然是真实的人。Alex进一步指出，根据Windows遥测数据（涵盖了绝大多数桌面用户），大多数笔记本电脑/台式机用户使用的是低端机器，这些机器可能比现代iPhone慢。

关于没有程序员使用慢速设备的说法，我认识很多使用旧而慢的手提设备的人。他们中的许多人甚至不真正贫穷；他们只是不明白为什么（例如）他们的孩子需要一个超快的设备，也不明白现代网络在慢速设备上运行不佳的程度。毕竟，这个“慢”设备可以玩3D游戏，并且（在适当的操作系统下）可以编译像Linux或Chromium这样的代码库，为什么这个设备不能与像gitlab这样的网站交互呢？

与Discourse创始人声称所有Android用户几年内都会拥有某种超快Android设备的说法相反，自他评论以来已经六年了，几乎每个使用手机的人都将拥有高速设备至少还需要十年，这可能轻易需要二十年或更长时间。如果你查找Discourse的市场份额统计数据，它极其成功；它似乎是世界上增长最快的论坛软件，且遥遥领先。世界上增长最快的论坛软件是由一个组织创建的，该组织当时的领导者愿意表示他并不真正关心那些不是“有影响力的花钱用户”，没有“无限CPU速度”的用户，其影响是许多论坛现在对那些没有足够财富购买实际上具有无限CPU设备的人是无法访问的。

如果Discourse的创始人是个异类，这不会是一个太大的问题，但他只是在明确表达许多程序员隐含的假设，这就是为什么我们看到这么多现代网站在你购买相当于低收入国家收入水平的新款当前一代iPhone时是不可用的。

感谢Yossi Kreinen、Fabian Giesen、John O'Nolan、Joseph Scott、Loren McIntyre、Daniel Filan、@acidshill、Alex Russell、Chris Adams、Tobias Marschner、Matt Stuchlik、@gekitsu@toot.cat、Justin Blank、Andy Kelley、Julian Lam、Matthew Thomas、avarcat、@eamon@social.coop、William Ehlhardt、Philip R. Boulain和David Turner的评论/更正/讨论。

附录：游戏化LCP

我们在上面提到我们使用了LCP*而不是LCP。这是因为LCP基本上衡量的是最大变化发生的时间。当这个指标没有被刻意以不利于用户的方式“游戏化”时，它是一个很好的指标，但随着更多人对其进行游戏化，这个指标作为实际用户体验的代表性降低了。

在不那么明目张胆的情况下，人们做了一些小的优化，这些优化提高了LCP，但对实际用户体验几乎没有改善或根本没有改善。

在更明目张胆的情况下，开发者会故意尽快在页面上闪现一个非常大的变化，通常是一个对用户毫无价值的加载屏幕（实际上因为这样做增加了完成工作的总量和页面加载总时间，所以是负面价值），然后他们小心翼翼地避免进行任何足够大的更改，以至于后续的任何更改都不会被标记为LCP。

出于同样的原因大众汽车没有公开讨论它如何对其排放数据进行游戏化，开发者倾向于避免公开讨论这类LCP优化。一个例外是Discourse，他们公开宣布了这种LCP优化，并有其开发者和当时的CTO（现在的CEO）的评论，指出他们的新“Discourse Splash”功能在部署后极大地降低了网站的LCP。然后，当开发者询问为什么他们的LCP很高时，Discourse开发者的标准建议是保持元素小于“Discourse Splash”，这样LCP时间戳就会从这个为优化LCP而抛出的无用元素计算，而不是从任何与用户相关的实际元素计算时间戳。这里是Discourse的一个典型的官方评论

如果你的横幅大于我们为“引入Discourse Splash - 站点资源加载时显示的视觉预加载器”使用的元素，你在LCP方面会遇到麻烦。

Discourse的官方回应是，你应该确保你的内容不会触发LCP测量，而是应该使用我们的加载动画时间戳来计算LCP。

有用内容的LCP与Chrome测量的LCP比率最极端的网站是：

Wix
- M3: 6
- M1: 12
- Tecno Spark 8C: 3
- Itel P32: N/A (失败)
Discourse:
- M3: 10
- M1: 12
- Tecno Spark 8C: 4
- Itel P32: N/A (失败)

虽然我们还没有讨论其他指标的游戏化，但似乎一些网站也对其他指标进行游戏化和“优化”，即使这对用户没有好处。

附录：优化网站的自私理由

这将取决于网站的规模及其性能，但当我为我工作过的大公司查看这些数据时，提高网站和应用性能的价值是惊人的。它在A/B测试中是可测量的，并且在长期保持中，它也是对增长和留存影响相对较大的干预措施之一（许多干预措施测试效果良好，但长期看效果不佳，而性能改进往往长期看效果更好）。

当然，你可以从直接数字中看到这一点，但当你查看数据时，也可以从很多方面间接地看到这一点。一个角度是（仅举一例），在Twitter，用户观察到的p99延迟在印度以及许多非洲国家（即使排除相对富裕的埃及和南非）约为60秒，在美国也约为60秒。当然，在整个群体中，美国的人们拥有更快的设备和连接，但在每个国家，都有足够多的拥有慢速设备或连接的用户，其限制因素实际上是用户的耐心，而不是底层的人口级设备和连接分布。即使你不关心尼日利亚或印度的用户，只关心美国的广告收入，为低端设备和连接提高性能的影响也足够大，我们可以在全球以及美国的收入A/B测试中轻易看到影响，尤其是在长期保持中。而且你也会在拥有快速设备的用户中看到影响，因为一个将“低端”设备用户的延迟从60秒提高到50秒的改动，可能将高端设备用户的延迟从5秒提高到4.5秒，这也会影响收入、增长和留存数字。

由于超出本文范围的各种原因，在大多数我工作过的大公司里，这类无聊、可量化、驱动增长和收入的工作相比那些最终在长期保持中显示很少或没有影响的闪亮产品工作，更难获得资助。

附录：为低性能设备设计

当使用慢速设备或任何低带宽和/或连接性差的设备时，体验最好的往往是那些将大量内容一次性加载到静态页面中的。如果图像具有正确的宽度和高度属性以及alt文本，那会非常有帮助。渐进式图像（如渐进式jpeg）并没有特别帮助。

在具有高带宽的慢速设备上，任何轻量级、静态的页面都能很好地工作，轻量级的动态页面如果为性能设计得当也能工作。重型的动态页面注定失败，除非页面重量不会导致页面复杂。

在低带宽和/或连接性差的情况下，轻量级页面没问题。对于重页面，我体验最好的时候是触发页面加载后，去做其他事情，然后在加载完成（或至少HTML和CSS加载完成）时回来。然后我可以为每个可能想阅读的链接打开一个新标签页，然后在等待它们加载时做其他事情。

现代网站做的许多优化，比如导致你在页面向下滚动时加载更多的部分加载，以及随之而来的搜索劫持（因为如果页面没有完全加载，浏览器的内置搜索就毫无用处），导致原本有效的交互模型变得无效，使页面交互起来非常痛苦。

仅举一例，许多人指出Substack对他们来说表现不佳，因为它进行部分页面加载。这里是@acidshill在iPhone 8上加载Substack文章然后滚动的视频，其中帖子的LCP相当快，但如果你想滚动过标题，你必须等待6秒下一个页面加载，然后再次滚动时，你可能又得等待1秒到2秒：

作为相反方法的一个例子，我尝试加载一些相当大的纯HTML页面，如https://danluu.com/diseconomies-scale/（网络传输0.1 MB / 原始0.4 MB）和https://danluu.com/threads-faq/（网络传输0.4 MB / 原始1.1 MB），即使在慢速设备上，这些页面对我来说仍然相当可用。1.1 MB似乎大于最优值，将其分成几个不同的页面在低端设备上会更好，但包含1.1 MB文本的单个页面在慢速设备上比大多数现代网站运行得更好。虽然HTML页面过大导致浏览器无法真正处理时会遇到麻烦，但对于具有正常内容量的页面，通常直到你有复杂的CSS负载或JS时，页面才会开始给慢速设备带来问题。下面，我们测试了一些相对简单的页面，其中一些有相当多的媒体（一种情况下有14 MB），发现只要它们保持简单，这些页面就能正常工作。

Chris Adams还指出，使用屏幕阅读器的盲人用户经常报告动态加载使他们的体验变得更糟。就像为了提高性能而进行的动态加载一样，虽然这可以做得很好，但通常要么做得不好，要么与太多其他复杂性捆绑在一起，结果比一个简单的页面更糟。

@Qingcharles指出了另一个无障碍问题——他合作的（监狱）假释者获得“生命线”手机，这些通常是低端设备。快速搜索显示，在2024年，有些人会获得iPhone 6或iPhone 8，但也有许多设备比Itel P32更低端，更不用说Tecno Spark 8C了。他们还获得数据非常有限的套餐，然后当数据用完时，有些人“无法填写任何工作、福利的表格，也无法使用地图导航去任何地方”。

对于那些确实进行预处理并在低端设备上为你提供良好体验的网站，Andy Kelley指出了一个似乎在慢速设备上运行良好的网站的例子（尽管在非常慢的连接上可能会很吃力），Zig标准库文档：

我做出了一个有争议的决定，让程序一开始获取所有源代码，然后在本地进行所有内容渲染。理论上，这很消耗CPU，但实践中……即使是那些旧手机也有非常快的CPU！

在Tecno Spark 8C上，这消耗了4.7秒的CPU时间，之后相当响应迅速（相对于该设备——当然iPhone响应快得多）。点击导致链接相当快地加载，滚动也可以正常工作（有点卡顿，但在这个设备上几乎没有什么是真正流畅的）。这似乎就是人们所说的那种情况，如果你提供重载荷可以获得更好的性能，但这样的例子在低端设备上真正提高性能的并不多。

附录：关于网络性能问题的文章

2015: Maciej Cegłowski: 网站肥胖危机
- 大小: 1.0 MB / 1.1 MB
- Tecno Spark 8C: 0.9s / 1.4s0.7s1.1s2.9s4.4s4.8s13s16s Squarespace1.9MB7.1MB0.1s0.4s0.2s0.4s0.7s3.6s14s5.1s16s19s Mastodon3.8MB5.3MB0.2s0.3s0.2s0.4s1.8s4.7s2.0s7.6s失败失败 Tumblr3.5MB7.1MB0.7s0.6s1.1s0.7s1.0s

由 mimo-v2.5 模型翻译，花费 42808 tokens

欺诈、垃圾信息、客服和内容审核中的规模不经济

Sun, 18 Feb 2024 00:00:00 +0000

[AI 摘要] 文章论证了大型平台在欺诈、垃圾信息、内容审核和客户服务方面存在规模不经济，指出大公司常常选择不投入足够资源来有效解决这些问题。

如果我问自己这样一个问题：“我想买一张SD卡，我该信任谁卖给我正品而不是假货？亚马逊还是我当地的百思买？”答案当然是我更信任当地的百思买，而不是以销售假冒SD卡而臭名昭著的亚马逊。如果我问更值得信任谁，我当地的知名电子产品店（Memory Express、B&H Photo等），我更信任我当地的知名电子产品店。它们不仅不太可能卖给我比百思买更少的假冒产品，而且万一他们卖给我假货，服务也可能会更好。

同样地，假设我问自己这样一个问题：“在哪种平台上，我遇到诈骗、垃圾信息、欺诈内容等的比率更高，是[较小的平台]还是[更大的平台]？”通常答案是[更大的平台]。当然，较小的平台总量更多，差异也更大，所以我可以选择刻意使用一个更差的小平台，但我选择的是好的选项而不是坏的选项。在每种规模级别中，较小的平台通常都更好。例如，对比Signal和WhatsApp，我从未收到过垃圾Signal消息，而我相当定期地收到垃圾WhatsApp消息。或者，如果我对比可能阅读科技内容的地方，如果我对比无人知晓的小型论坛和lobste.rs，lobste.rs的坏内容率（指我看到的信息中占的比例，而非绝对数量）要略高一点，因为私人论坛上是零，lobste.rs上则非常低但非零。然后，如果我将lobste.rs与一个稍大的平台（如Hacker News或mastodon.social）进行比较，这些平台的诈骗/垃圾信息/欺诈内容率又（同样非常轻微地）更高。然后如果我将其与中等规模的社交媒体平台（如reddit）相比，reddit的坏内容率明显更高且可被察觉。最后，如果我将reddit与像YouTube、Facebook、谷歌搜索结果这样的巨型平台相比，这些更大的平台拥有更高比率的诈骗/垃圾信息/欺诈内容。而且，与SD卡的例子类似，随着平台规模的扩大，获得良好客服支持的可能性也会降低。如果因错误而被暂停或禁止使用该账户，账户获得恢复的可能性也会随着平台的增大而变得更差。

我认为说“总体而言，很多事情随着平台变大而变糟”是无可争议的。例如，当我进行一次Twitter投票，看看我认识的人怎么看时，只有2.6%的人认为巨型公司平台拥有最好的内容审核和垃圾信息/欺诈过滤。作为参考，在一次调查中，9%的美国人表示疫苗会植入微型芯片，12%的人表示登月是假的。虽然调查对象不同，但随机美国人更可能认为登月是假的，而技术人员则不太可能认为最大的公司在反欺诈/反垃圾/内容审核方面做得最好。

然而，在过去五年里，我注意到越来越多的人提出相反的主张，即只有大公司才能进行像样的内容审核、垃圾信息过滤、欺诈（和假冒）检测等。我们研究了其中一个例子，当时我们考察了搜索结果，一位谷歌工程师说

有人试图辩称，如果搜索领域更具竞争性，有很多小供应商而不是像现在这样的三大巨头，那么它可能*更*能抵抗基于机器学习的SEO滥用。

而且……听着，如果*谷歌*目前都无法跟上，那么市场份额5%的“小先生”又怎么能做到呢？

一位意见领袖回应道

大约95%的时候，当有人声称某个小而独立的公司能在某件困难的事情上比市场领导者做得更好时，这仅仅是自我安慰。规模经济运作得相当好！

但当我们查看实际结果时发现，在我们考察的搜索引擎中，市场份额0.0001%的“小先生”最能抵抗SEO滥用（并且相当不错），市场份额0.001%的“小先生”对SEO滥用有一定抵抗力，而谷歌和必应则充斥着SEO滥用，经常将人们直接引导至各种诈骗。电子邮件方面也发生了类似的情况，我经常听说由于垃圾信息负担而自己管理电子邮件是不可能的，但人们一直这样做，并且通常取得与Gmail相当或更好的效果，主要问题在于与大型公司邮件服务器的交互，它们错误地禁止了他们的小型电子邮件服务器。

大约在我开始看到很多声称“你需要规模才能进行内容审核、反垃圾、反欺诈等”的评论时，扎克伯格回应伊丽莎白·沃伦呼吁拆分大型科技公司的言论，声称拆分科技公司会使内容审核问题严重得多：

“拆分这些公司，无论是Facebook、谷歌还是亚马逊，实际上并不能解决问题，”扎克伯格说，“而且，你知道，它并不能让选举干预的可能性降低。它实际上增加了可能性，因为现在公司之间无法协调和合作。它并不能让仇恨言论或类似问题发生的可能性降低。它增加了可能性，因为现在……我们正在投入和建设的所有流程，现在都更碎片化了。

这就是为什么Twitter无法像我们那样做好工作。我的意思是，他们面临的问题，在定性层面上，和我们一样。但他们无法投入足够的资金。我们在安全方面的投入比他们整个公司的收入还多。[笑声]是的，我们运营的规模更大，但他们面临的问题并非在本质上有所不同。他们面临着和我们所有相同类型的问题。”

论点是，你需要大量资源才能做好内容审核，而较小的公司，当时价值约300亿美元的Twitter规模公司，无法调配必要的资源来做好内容审核。我当时觉得这个说法相当可笑，因为在收购Twitter之前，我在Facebook上看到明显诈骗内容的比率远高于Twitter。例如，当我在假日购物季点击Facebook广告时，大多数都是诈骗，而虽然Twitter也有诈骗广告，但其严重程度与Facebook不在一个量级。而且不止我一个人——设计过Facebook早期举报系统并领导过一些主要信任与安全工作的Arturo Bejar也注意到了类似的事情（详见脚注²）。

扎克伯格似乎喜欢上述推理路线，他在其他地方也提出过类似的论点，例如这里，就在Meta的内部文件显示其每天向10万未成年人暴露性虐待图像的同一年：

在某种程度上，当我在宿舍刚开始创业时，我们显然不可能有1万名或4万名员工做内容审核，而且当时的人工智能能力也远不足以主动发现大量有害内容。到了某个阶段，随着公司规模扩大，才开始有可能做更多这方面的工作

这里的修辞手法是假设Facebook在扎克伯格的宿舍刚起步时需要1万名或4万名员工做内容审核。比“宿舍版Facebook”更大的服务现在就能并且确实在做比今天的Facebook更好的内容审核，通常只需一名内容审核员，而且往往是兼职的。但随着人们更多地讨论对大型科技公司采取真正的反垄断行动，科技巨头的创始人和高管加大了反反垄断的言论，声称如果最大的公司被拆分成2015年或2010年最大的科技公司那样规模，人类将面临各种灾难。这种推理似乎开始有点流行了，因为我看到越来越多的大公司员工提出非常相似的理由。自从1979年IBM培训手册写道

计算机绝不能被追究责任

因此计算机绝不能做出管理决策

现在，对于许多关键决策，正是计算机可以做出大部分决策，而缺乏问责制似乎最终成为了一种特性，而非缺陷。

但不幸的是，对于扎克伯格的论点³，至少有三个主要方面存在规模不经济占主导地位的情况。第一，对于几乎所有人都同意是坏材料的东西（如比特币诈骗、假冒药品垃圾信息、虚假天气预报、成年人向儿童发送其生殖器照片等），大型平台做得比小型平台更差。第二，对于用户来说，随着公司变大，错误的成本更高，也更难修复，因为支持通常变得更差。第三，随着平台规模扩大，会有更大比例的用户强烈反对平台上应该允许什么内容。

关于第一点，虽然大公司确实拥有更多资源，但认为“因为他们资源最多，所以内容审核最好”的“鸡尾酒会式想法”受到了一个同样简单化的观点的反驳：“因为他们是最大的靶子，所以内容审核会最差”，或者“因为他们将因组织扩大和问题领域扩展时发生的标准规模不经济而导致最严重的碎片化，所以内容审核会最差”。公司拥有更多资源还是这些其他因素占主导地位，这个问题太复杂了，无法从理论上解决，但我们可以从经验上观察结果。至少在大公司选择投入内容审核、垃圾信息等方面的资源水平上，更大的靶子和其他与规模相关的问题占据了主导地位。

虽然这些公司利润丰厚，可以投入足够的资源来显著减少这个问题，但他们选择不这样做。例如，在我写这句话的前一年，Meta截至2023年12月的税前利润为470亿美元。如果Meta拥有其一位朋友工作的电力公司的那种内部愿景声明（“可靠的能源，低成本，服务于世代”，）并像那家电力公司那样运作，试图为用户创造良好体验而不是最大化利润加创造元宇宙，他们本可以将花在元宇宙上的500亿美元用于内容审核平台和技术，然后在每个国家以3万美元/年的薪酬（这在大多数雇佣内容审核员的国家会是非常好的收入，让他们可以挑选雇佣对象）雇佣160万全职员工，用于处理升级问题和支持等，大约每几千名用户就有一名额外的内容审核员或支持员工（当然，规模不经济也适用于管理这么多人）。我并不是说Meta或谷歌应该这样做，只是当大科技公司的人说类似这样的话：“这些系统必须完全自动化，因为没有人能在我们的规模上负担得起运行手动系统的成本”，真正想说的更接近于：“如果我们雇佣足够多的胜任人员来手动审查我们系统应该标记为模棱两可的案件，我们将无法每年赚取数十亿美元的利润，所以我们满足于在不影响利润的情况下所能得到的结果”。⁴有人可以为这个选择辩护，但这确实是一个选择。

同样，对于规模经济优势的说法也是如此。有些领域确实存在规模经济，能为用户带来更好的体验。例如，当我们研究为什么买到运行良好的东西这么难时，我们注意到亚马逊的规模经济使他们能够建立自己的包裹递送服务，虽然有缺陷，但仍然比其他可用服务更可靠（而且自从他们增加了用户可以对每次送货进行评分的功能后，这一点得到了进一步改善，而其他主要的包裹递送服务都没有这个功能）。同样，苹果的规模和垂直整合使他们能够组建历史上最伟大的性能团队之一（通过设备延迟等方式），不仅在基准测试中碾压竞争对手，而且以直到最近才有人测量的方式提供了更好的用户体验。一个更普通的规模经济例子是，饼干和其他适合运输的食品在亚马逊上比在我当地的杂货店更便宜。很容易就能列举出规模经济使用户受益的方式，但这并不意味着我们应该假设规模经济在所有领域都占主导地位。虽然这超出了本文的范围，但如果我们要讨论用户在公司更大还是更小时过得更好，我们应该看看随着公司变大，什么变好了，什么变糟了，而不是仅仅假设因为有些事情变好了（或反之），所有事情都会变好。

回到关于巨型公司拥有最多资源用于内容审核、垃圾信息、反欺诈等的论点，与现实情况——他们选择将这些资源用于其他地方，比如在元宇宙上砸500亿美元而不是雇佣他们负担得起的160万内容审核和支持员工——的对比，值得看看实际投入了多少努力。Meta在缅甸的参与是一个很好的案例研究，因为Erin Kissane写了一篇相当详细的4万字的事件回顾。整个事件是一个庞大而复杂的问题（更多讨论见附录），但就本文的主要主题而言，关键要素是：存在一个绝大多数人都同意应该是最高优先级的内容审核和支持问题，并且尽管Meta的各级员工（工程师、总监、副总裁、高管等）反复收到极其严重和紧急的警告，但几乎没有为这个问题投入资源，而内部文件显示，只有一小部分达成共识的坏内容被他们的系统捕捉到（大约百分之几）。我认为这并非Meta独有，这与我在其他大型科技公司的经验相符，无论作为其产品的用户还是员工。

举个较小规模的例子，我一个熟人的Facebook账户被入侵，现在被用来进行比特币诈骗。这个人的名字叫Samantha K.，某个骗子做了足够多的诈骗活动，以至于他们甚至没有正确阅读她的名字，并生成了非常明显的伪造照片，照片中有人举着一个牌子，解释“Kamantha”如何帮助他们赚了成千上万美元。这是“黑客”的常见做法，我在FB上的另一个熟人也报告说他们的账户发生了同样的事情，他们既无法恢复旧账户，也无法让账户被封禁，尽管该账户持续发布明显的诈骗信息。

相比之下，在lobste.rs上，我从未见过这样的诈骗，版主Peter Bhat Harkins说据他所知从未有过一个。在Mastodon上，我认为我可能在我的feed、回复或提及时见过一次。当然，Mastodon足够大，如果你特意去找，可以找到一些诈骗，但每条信息和每个用户的比率都很低，作为普通用户你不应该会遇到它们。在Twitter（收购前）或reddit上，中等频率，也许在我的正常feed里平均每几周一次。在Facebook上，我一直看到这样的东西；每个购物季我都会看到明显的假冒消费品网站诈骗，而比特币诈骗，无论是来自广告还是账户接管，全年都在发生。许多人指出他们不再费心举报这类诈骗了，因为他们观察到Facebook不会对他们的举报采取行动。与此同时，Reuven Lerner因在Facebook上投放关于Python和Pandas课程的广告而被终身禁止投放广告，似乎是因为Facebook系统“认为”Reuven在投放与动物交易相关的内容（而不是编程）。这就是扎克伯格声称任何小公司都无法匹敌的内容审核和垃圾信息控制的保真度。顺便说一句，我并不是特意针对Meta；如果你想要一些稍有不同的例子，你可以在附录中查看Google的例子，其中列出了自动化系统在Google出错的上百个案例。

这又回到了经验问题，因为所有这些关于规模经济允许巨型公司投入更多资源解决该问题的说法，都取决于公司是否选择部署这些资源。没有理论力量迫使公司在这些领域部署资源，所以我们无法从理论上推理。但我们可以观察到，即使在人们通常会同意问题显然应该属于高优先级的情况下（比如Meta在缅甸），部署的资源也不足以匹配问题。当然，对于优先级不那么明显的问题，资源同样没有部署。

关于第二个问题，客户支持，科技圈里有个说法：要获得大平台用户的支持，唯一的办法是在社交媒体上发帖引爆舆论，或者认识内部人员。这加剧了内容审核、诈骗检测、反欺诈等等方面的问题，因为如果支持良好，这些问题本可以得到缓解。

普通的客户支持渠道是个笑话，你要么收到千篇一律的模板拒绝，要么陷入卡夫卡式的噩梦，然后收到模板拒绝。例如，当Adrian Black因冒充Adrian Black而被YouTube封禁（明确地说，他被封是因为冒充自己，而不是同名的其他人），在申诉后，他收到了这样的回复：

很遗憾，我们这边无法再做更多。您的账户暂停和申诉都经过了非常仔细的审查，决定是最终的。

在另一个Google支持的故事中，Simon Weber在试图获取申报税款所需信息时，被Google支持部门来回推诿：

自2018年4月以来（这是在2020年9月写的），我的扩展程序（以及我认为所有扩展程序商家？）的会计数据导出一直有问题。我不得不让纽约州总检察长给他们写了一封信，他们才真的回应我的支持请求，这样我才能正确申报税款。

还有一次，YouTube不断将PointCrow用筷子吃水的视频取消货币化（他反复将筷子浸入水中，然后喝水，非常缓慢地吃一碗水）。

尽管YouTube回复说

我们对这个错误以及反复的过程非常抱歉，我们已经与团队沟通过，确保这种情况不会再发生

但他的视频再次被取消货币化，申诉又以标准的支持回应策略开始，即他们仔细审查了违规内容，但不幸的是，用户明显违反了政策，因此无能为力：

我们已经审查了您的申诉...我们仔细审查了您的内容，并确认它违反了我们的暴力或血腥内容政策...确保YouTube对所有人来说都是一个安全的地方是我们的工作。

这些是高调的例子，但当然，低调也不会阻止你被封禁并得到同样的基本上是模板化的回应，比如这位在FB Marketplace上卖吸尘器而被封禁的HN用户。经过多次申诉后，他被告知：

很遗憾，您的账户因违反社区准则而无法恢复。审查是最终的。

当付费支持是可选的时候，人们常说如果你付费支持就不会有这些问题，但使用Google One付费支持或Facebook和Instagram付费创作者支持的人普遍报告说付费支持并不比免费支持好。那些实际上内置了付费支持的产品也不一定更好。我认识一些人，他们从Google Cloud获得的支持与免费Google支持一样来回推诿，即使他们为每年在Google Cloud上花费八位数或九位数的公司工作。在一个众多例子中的例子里，用户发现Google一定在丢包，而Google支持坚持认为数据包丢失发生在客户的机房，尽管数据包跟踪显示情况不可能如此。我听说他们放弃了那个案子，但有时当问题是完全的阻碍时，有人会打电话给他们在Google的朋友寻求支持，因为标准支持通常完全无效。这在Google并非独有——在另一家云供应商，我的一位前同事在一个会议上得知，一位非常资深的工程师被要求调查一个客户抱怨的问题：客户看到100%的数据包被丢弃，持续几秒钟，每小时发生多次。那位工程师回应说类似“这是云，他们应该处理它”的话，然后被告知他们不能像往常一样忽略这个问题，因为问题来自[重要客户]，并且正在中断[世界上最大的电视体育赛事之一]。那个问题得到了解决，但很可能，你并不那么重要，即使你每年支付数亿美元。

当然，这种支持并非云供应商独有。例如，有一次Stripe扣留了一位客户40万美元超过一个月，没有解释，每一次向支持部门的请求都得到了像我们刚才看到的一样荒谬的回应。用户利用了唯一可靠的Stripe支持机制，在HN上发帖并希望上首页，这奏效了，尽管许多评论者说这是常规评论，比如“标记，因为我们看到很多这样的HN帖子，它们似乎是试图欺诈性地操纵客户支持，而不是真实的故事”，多人暗示或影射用户在做某种非法或欺诈的事情，但事实证明这是Stripe方面的错误，再加上Stripe的大公司支持。在某个时候，用户指出：

在我写HN帖子的同时，我还在与Stripe聊天一个多小时。没有新信息。他们基本上是想关闭和我聊天，直到我给他们看了HN的故事并显示它获得了一些关注度。然后他们才重新开始处理我的问题，并尝试与更多人沟通。

然后问题在第二天就得到了解决。

尽管原则上，随着公司变得更大，他们可以利用规模经济提供更高效的支持，但他们往往利用规模经济提供更差但更便宜、更有利可图的支持。例如，关于Google Play商店的批准支持，一位Google员工指出：

很多支持外包给了海外，导致响应时间慢得多。在美国这边，我们有很多指标来实现快速响应。通常你的应用会在同一天得到审核。不确定现在情况如何，但当时管理层很无能。

一位前FB支持人员指出：

这里的大问题是劳动分工。在队列中花费最多时间的人对政策的影响最小。分析师可以向QA提出问题，然后QA再向Facebook正式员工（FTE）提出。问题可能需要数月才能得到解决，如果能得到解决的话。最糟糕的是，按照常识去做，执行政策的精神而非字面意思，可能会对你的质量评分产生负面影响。我经常想到，在我任职的几个月里，由于政策“澄清”中一个措辞草率的地方，大多数肢解动物的照片都被允许出现在平台上，没有警告屏幕，而我们对此无能为力。

如果你曾经想知道为什么你的支持人员回复不合逻辑，有时原因是显而易见的：支持工作外包给了一个每小时挣1美元的人（当我查到一个很多支持工作外包的国家的标准费率时，一个相当标准的费率大约是每小时1美元），他们不太懂你所使用的语言，并且是在照着流程图念，对他们正在提供支持的系统一无所知。但另一个不那么明显的原因是，如果支持人员采取了有意义的行动而不是遵循他们面前那个毫无意义的流程图，他们可能会受到惩罚并最终被解雇。

回到“它们似乎是试图欺诈性地操纵客户支持，而不是真实的故事”这个评论，这是我在那些随意和反复无常的封禁用户的大公司中经常看到的工程师表达的一种情绪。我理解人们是如何走到这一步的。在我加入Twitter之前，我就指出过，评论公开信息：

事实证明，Twitter每天移除约100万机器人账户。Twitter只有约3亿月活跃用户，这使得错误容忍度非常低。这似乎是一个非常难的问题...Gmail的垃圾邮件过滤器每1000封正确分类的正常邮件中可能会给我大约1个误报...定期清除同等比例的真实用户在服务中将是[糟糕的]。

这是真的，如果你，一个工程师，深入研究某个巨头公司的支持队列，查看那些申诉封禁的人，几乎所有的申诉都应该被拒绝。但是，根据我与从事反欺诈系统等工作的工程师交谈的经验，许多人，也许是大多数人，将“几乎所有”四舍五入到了“全部”，这在数量和质量上都是不同的。让从事这些系统的工程师相信他们的决策“全部”而不是“几乎所有”都是正确的，会导致用户糟糕的体验。

例如，有一家社交媒体公司因错误地封禁用户而闻名（我认识的人中至少有10%因错误的封禁而失去了账户，如果我随机搜索一个不认识的人，很可能找到他们的多个账户，其中一个最近的账户写着“曾经是@[某个旧账户]”，旧账户没有转发到新账户，因为他们现在被封禁了）。当我遇到这个团队的一位高级工程师时，我问他为什么有这么多合法用户被封禁，他告诉我类似“那不是问题，真正的问题是我们没有封禁足够多的账户。每个被封禁的人都罪有应得，不值得听取申诉或思考它们”这样的话。当然，每个公共平台上的大多数内容都是坏内容、垃圾信息等是真的，所以如果你对某个东西是否是坏内容有任何信号，当你查看它时，它很可能是坏内容。但这并不意味着反过来也成立，即几乎没有用户被错误地封禁。如果负责分类哪些内容是坏内容的团队中的高级人员持这种态度，即我们不需要担心误报，因为几乎所有被标记的内容都是坏内容，我们最终会得到一个具有大量误报的系统。我后来四处询问，看看为减少欺诈检测系统中的误报做过哪些努力，结果发现根本没有系统地跟踪误报，没有办法统计员工提交内部工单覆盖错误封禁等情况；在元层面上，有一些机制可以减少漏报率（例如，有人看到坏内容没有被捕捉到，然后添加一些东西来捕捉更多坏内容），但没有跟踪误报，实际上就没有减少误报率的机制。这个元系统导致我认识的人中有超过10%的人被错误地暂停或封禁，这并不奇怪。而且，正如帕特里克·麦肯齐所说，误报的最佳率不是零。但当工程师持有“我们已经做了足够的研究，误报是不可能的”这种态度时，误报率基本上保证会高于最佳水平。当你将其与正常大公司的支持水平相结合时，这就是卡夫卡式用户体验的配方。

还有一次，我评论Uber的内容审核政策变更似乎可能导致误报封禁。一位Uber技术主管立即批评我，说我做出了毫无根据的假设，Uber工程师非常努力地确保没有误报封禁，有广泛的审查来确保封禁是有效的，事实上，我担心的误报封禁永远不会发生。然后我就因为反欺诈系统中的误报而被有效地封禁了。当Uber错误地封禁了一位司机，该司机不得不将他们告上法庭以获取被封禁的原因，在这时Uber才真正调查（而不是只回复申诉并声称他们已经调查过了），我回想起那件事。之后，Uber回应媒体询问时说：

我们对法院未能认可我们制定的健全流程感到失望，包括在因涉嫌欺诈而对司机账户进行停用决定时进行有意义的人工审查。

当然，在那位司机的案例中，没有健全的审查流程，我的案例也没有健全的申诉流程。当我联系支持人员时，他们并没有真正阅读我的消息，做了一些更改，使我的账户比之前更糟。幸运的是，我有足够的Twitter粉丝，一些Uber工程师看到了我关于这个问题的推文，并让我解除了封禁，但这不是大多数人可用的选择，导致像这个针对Google员工的Facebook广告这样的怪事发生，有人绝望地寻求帮助解决他们的Google账户问题。

即使你认识内部人员，也不总是能轻易解决问题，因为即使公司的效率没有随着规模扩大而提高，系统的复杂性确实增加了。一个很好的例子是Gergely Orosz的故事，关于支付团队经理离开Uber后，如何因某些难以理解的ML反欺诈算法决定这位前支付团队经理在进行支付欺诈而被Uber封禁。花了六个月的时间试图解决问题来缓解问题。而且，顺便说一句，他们从未弄清楚发生了什么并修复根本问题；相反，他们将这位前支付团队经理加入了一个特殊白名单，没有为任何其他用户解决问题，并且，大概，严重减少或甚至完全移除了该前经理账户的支付欺诈保护。

毫无疑问，如果问题容易解决，他们会修复根本问题，但随着公司规模扩大，他们会产生技术和非技术性的官僚主义，使系统即使对员工来说也不透明。

另一个例子是，在一家有排名社交feed的公司，通过添加诸如timeline_injection:false、interstitial_ad_op_out等过滤器来删除你不想在排名feed中看到的东西的想法会病毒式传播。第一次发生这种情况时，许多工程师调查后认为病毒式传播的技巧不起作用。他们并不完全确定，并且依赖于诸如“没有人记得曾经实施过这样的系统”和“如果你在代码库中搜索这些字符串，它们没有出现”以及“我们查看了可能这样做的系统，它们似乎没有这样做”的想法。他们对这个技巧不起作用有中等程度的信心，但没有人敢确定地说这个技巧不起作用，因为正如在所有大公司一样，系统的整体行为超出了人类的理解范围，甚至那些可以理解的部分也常常因为其他优先级而不被理解。

几个月后，这个技巧再次病毒式传播，人们通常被指引去查看上次的调查结果，只是有一个人实际尝试了这个技巧并报告说它有效。他们写了一条关于这个技巧对他们有效的Slack消息，但几乎没有人在意那个尝试复制技巧并发现它有效的人。后来，当这个技巧再次病毒式传播时，人们会指出关于人们认为这个技巧不起作用的讨论，而这条说它似乎有效的消息（几乎肯定不是用户认为的机制，而是因为长的过滤器列表导致超时，或类似的原因）基本上被遗失了，因为信息太多读不过来。

在我的社交圈里，许多人都读过詹姆斯·斯科特的《国家的视角》，其副标题是“改善人类世界的某些计划是如何失败的”。这本书的一个关键概念是“可读性”，即国家能看到的东西，以及这如何扭曲国家的行为。人们很容易写出一本高度类似的书，名为《像科技公司一样看待》，关于那些规模扩大的公司在至少是目前公司运营方式下，哪些东西是不可读的。一个简单的例子是，在许多视频游戏中，包括由价值3万亿美元的公司旗下的游戏工作室制作的游戏，通过让一群人举报某个账户行为不端，很容易让某人被暂停或封禁。对公司来说可读的是举报率，而不可读的是玩家的实际行为（它本可以是可读的，但公司选择没有足够的人或足够熟练的人来检查实际行为）；许多人在社交媒体公司也报告了类似的封禁。当涉及到反欺诈系统时，对公司来说可读的东西往往对人类来说相当不可读，即使是从事反欺诈系统工作的人员自己也是如此。

尽管他不是专门谈论反欺诈系统，但在一次特别主事官听证会上，Facebook的一位总监尤金·扎拉沙（Eugene Zarashaw）做出了这番评论，说明了Facebook自身系统的不可读性：

这可能需要广告团队的多个团队才能追踪到确切的数据流向。如果真的能有一个人能明确回答那个狭隘的问题，我会感到惊讶。

Facebook因为这个声明被不公平地（而且大部分是无知地）大肆批评（我们将在附录中讨论这个），但一般来说，理解像Facebook这样规模的系统是如何运作的确实很困难。

原则上，公司可以通过让薪酬尚可的支持人员调查那些可能是具有严重后果的边缘情况问题来增强其深奥系统的可读性，在这些问题中，系统“误解”了正在发生的事情，但在实践中，公司支付给这些支持人员的报酬极低，雇佣了真正不理解情况的人，然后给他们指示，确保他们通常无法成功解决可读性问题。

有一件事帮助不可读的力量在规模上占上风，那就是作为这些大公司的高薪员工，很容易看着外面的数百万或数十亿人（和机器人），把他们所有人都看作数字。俗话说，“一个人的死亡是悲剧。一百万人的死亡是统计数据”，正如我们注意到的，工程师经常将“几乎所有X都是欺诈”这样的想法转变为“所有X都是欺诈，所以我们不妨直接封禁所有做X的人，不听取申诉”。现代科技公司寻找可扩展解决方案的文化，即使在同等规模下，也使其比其他行业更糟，而且科技公司还拥有前所未有的规模。

例如，当有人指出FB广告管理器声称你可以在美国18-34岁人群中投放可能覆盖1.01亿人的广告，而美国人口普查显示18-34岁总人口为7600万时，广告定向团队的前产品经理回应道：

从FB规模思考

并解释说你不能指望在美国18-34岁人口这样的人口统计上进行“切分”查询在“FB规模”下起作用。谷歌内部有一个讽刺用的梗，在这种情况下，人们会说“我不会数那么低的数”。这位FB广告前产品经理是在非讽刺地说，FB不会数像1亿这样低的数。FB不仅不关心任何个人用户（除非他们是名人），这位产品经理声称他们甚至懒得关心1亿人这样的群体是否被准确追踪。

回到糟糕支持的后果，一个常见的回应是听到有人因这些巨型服务而被错误封禁后说“很好！你为什么想用Uber/亚马逊/之类的？它们很糟糕，没人应该用它们。”我不同意这种推理。首先，为什么你要替那个人决定他们是否应该使用某个服务或什么对他们好？其次（这是一个足够大的话题，应该单独写一篇文章，所以我只是简单提一下并链接到@whitequark的这篇更长的评论），许多人认为不必要的便利而应该放弃的大多数服务，实际上对相当多的人（绝对数量，不一定是百分比）来说是严重的无障碍性问题。当我们谈到小企业时，这些人通常可以换到另一家企业，但像Uber和亚马逊这样的服务，有时没有替代品，或者只有一家提供类似便利性的替代品，当只有一家时，由于某些随机系统误判而被封禁，也可能发生在另一家服务上。例如，针对许多人评论说你应该直接申请拒付并从DoorDash被封禁，当他们没有送达时，一位残疾用户回应道：

我是残疾人。没有驾照或汽车。我公寓附近没有公交车站，我实际上乘坐辅助客运系统去上班，但我必须提前一天计划。Uber也做同样的事情，所以我不得不根据谁有优惠券且最近没有偷我的钱，在Uber、DoorDash和GrubHub之间轮换使用。不是每个人都能自己去取东西。

此外，当谈论这类问题时，参与通常不是自愿的，比如这个将人们错误关进监狱的富士通错误。

关于第三个问题，即让人们就什么是垃圾信息、欺诈和其他不允许的内容达成一致是不可能的，我们在这里详细讨论过。我们看到，即使在一个简单、无争议、单一规则的微不足道情况下，人们也无法就什么是允许的达成一致。而且，当你增加更多规则或添加有争议的话题或扩大人数规模时，就更难就应该允许什么达成一致了。

总结一下，我们考察了三个领域，其中规模不经济导致内容审核、支持、反欺诈和反垃圾信息随着公司变大而变差。第一个是，即使在存在广泛共识认为某事是坏的情况下，例如欺诈/诈骗/钓鱼网站和搜索，拥有最复杂机器学习的最大公司实际上无法跟上一个（尽管非常熟练的）在小型搜索引擎上工作的人。如果诈骗分子针对最大的平台，回报会高得多，导致反垃圾/反欺诈等问题变得极其非线性地困难。

为了了解规模上的差异，HN“地狱封禁”发布垃圾信息和发表某些类型恶毒评论的用户。大多数垃圾信息发布者似乎没有意识到他们被地狱封禁了，会继续发布一段时间，所以如果你在登录状态下浏览“最新”（提交）页面，你会看到这些地狱封禁用户发布的稳定的一串被自动删除的故事。虽然有相当多，但比例通常远低于一半。当我们看像2017年的Twitter这样的“中型”大科技公司时，根据公开数据，如果垃圾信息机器人被地狱封禁而不是删除，垃圾信息将如此普遍，以至于如果你能看到它，你所能看到的只有垃圾信息。而且，作为大公司来说，2017年的Twitter并不算大。正如我们也注意到的，FB广告定向的前产品经理解释说，像1亿这样小的数字都在“我不会数那么低的数”的范围内，太小了，不值得关心；对他来说，基本上就是一个舍入误差。对于像FB或谷歌这样的公司来说，非线性差异的难度要糟糕得多。这些问题是非线性困难的，显然超过了扎克伯格和其他科技高管想要吹嘘的任何ML或AI技术。

在国会作证时，你会看到高管用类似“我们能以95%的准确率识别X”这样的言论来为这些系统在规模上的有效性辩护，这个说法在技术上可能是正确的，但似乎旨在故意误导被认为数学不好的观众。如果你以个人规模为参考，95%听起来可能相当好。即使对于HN规模这样的东西，95%准确的垃圾信息检测如果导致立即封禁可能还过得去。无论如何，即使它不是很好，被错误封禁的人可以直接给Dan Gackle发邮件，他会解封他们。正如我们在看数字时指出的，在Twitter规模上达到95%准确的检测会很糟糕（而且，确实，我收到的大多数DM都是明显的垃圾信息）。你要么退缩，只在你非常有信心的情况下封禁用户，要么你不会太久就封禁你所有的用户，而且正如公司喜欢处理支持的方式，申诉意味着你会收到一条回复，说“你的案件经过仔细审查，我们确定你违反了我们的政策。这是最终的”，即使对于任何一种粗略审查都会导致封禁被撤销的情况，比如当你封禁一个冒充自己的用户时。然后在FB的规模上，情况更糟，你会更快地封禁所有用户，然后你就退缩了，我们最终得到像每天有10万未成年人暴露于“成年人生殖器照片或其他性虐待内容”这样的事情。

我们考察的第二个领域是支持，它往往随着公司变大而变差。在高层面上，可以说公司并不关心提供良好的支持（亚马逊在这里是一个例外，特别是AWS，即使在消费者方面也是如此）。在系统内部，有些个体是关心的，但如果你看看支持与增长甚至有趣/有声望的项目相比投入的资源比例，支持是一个事后的想法。当DeepMind正在训练一个星际争霸AI时，Alphabet可能在玩星际争霸上花的钱比在支持代理上还多（如果没有，只需再加上一两个大型AI训练项目就可以了，特别是如果包括定制硬件等的摊销成本）。

很容易看出大公司有多不关心。你只需要联系支持，与每小时赚1美元、用他们勉强懂的语言回复你、试图通过照着流程图走来帮助解决他们不理解的问题的人取得联系，或者申诉一个问题并被告知“经过仔细审查，我们确定你[做了与你实际做的相反的事情]”。在某些情况下，你甚至不需要走到那一步，比如当按照Instagram的支持说明操作会导致一个把你带回起点的无限循环，而“如果这不是你，请点击这里”的链接返回404。我遇到过一次像这样的无限循环，和Verizon一起，它至少持续了六个月。我之后没有检查，但我敢打赌它持续了几年。如果你的引导或注册页面有这样一个问题，那会被认为是一个严重的错误，人们应该优先处理，因为它影响增长。但对于像因诈骗分子接管账户导致的账户丢失这样的问题，可能要几个月或几年后才会修复。或者也许不会。

如果你曾经和真正关心支持的人交谈，你立即就能明显看出他们的运作方式与典型的大科技公司支持完全不同，无论是流程还是文化。另一个可以看出大公司不关心支持的方式是，有多少从未研究过支持如何做或可以如何做的大公司员工和高管会告诉你，做得更好是不可能的。

当你与那些确实关心这一点的公司的支持人员交谈时，很明显可以做得更好。在我写这篇文章的时候，我实际上在一家支持做得相当好的公司（对于一家科技公司，按规模调整，我认为他们在99%分位数以上）做支持，包括接受支持人员的培训和入职流程。在规模上执行任何事情都是非平凡的，所以我不是在贬低他们的支持组织有多好，但最令我震惊的是，该组织的有效性自然源于关心为用户提供良好的支持体验。对此的完整讨论太长，无法在此包含，我们将在以后更详细地讨论这个，但一个例子是，当我们看大公司支持如何回应时，它通常旨在阻止用户回应（“此审查是最终的”）或者表面上向用户证明公司工作做得充分（“这不是纯粹的自动化过程，每个申诉都由人类在一个健全的流程中审查，该流程...”）。这家公司的培训指示你做标准大公司“请走开”风格和“我们做得很好，有一个健全的过程，因此投诉无效”风格回应的相反。对于你在支持中经常看到的每一种反模式，培训都告诉你做相反的事情，并讨论为什么反模式会导致糟糕的用户体验。此外，文化已经深刻吸收了这些想法（或者更确切地说，这些想法来自文化），并且有流程来确保人们真正理解提供良好支持意味着什么并付诸行动，支持人员有方法直接与正在实现产品的开发人员交谈等等。

如果人们关心做好支持，他们可以与那些擅长帮助用户的支持组织的人交谈，甚至在解释为什么不可能做得更好之前尝试在其中工作，但这通常不会发生。他们公司的支持组织领导层也可以这样做，或者像我一样直接在一个有效的支持组织中担任支持角色，但这并没有发生。如果你是一个愤世嫉俗者，这一切都说得通。就像愤世嫉俗者建议初级员工“大公司的人力资源不是来帮助你的；他们的工作是保护公司”一样，一个愤世嫉俗者可以令人信服地争辩说“大公司支持不是来帮助用户的；他们的工作是保护公司”，所以大公司当然不尝试理解那些擅长支持用户的公司是如何做支持的，因为那不是大公司支持的目的。

我们考察的第三个领域是人们无法就平台应如何运作达成一致是多么不可能，以及人们的偏见意味着人们没有理解这个问题有多困难。对美国人来说，一个突出的例子是左翼和右翼的阴谋论，每当某种错误导致任何类型的服务中断或封禁时，这些阴谋论就会冒出来。

在一条推文中，Ryan Greeberg开玩笑说：

来Twitter工作吧，你今天的bug可以成为明天的阴谋论！

在我的社交圈里，人们喜欢嘲笑所有在某个错误导致人们被错误封禁、网站无法加载等之后传播的荒谬的右翼阴谋论，或者当一些新的ML功能正确地拿下了一个巨大的诈骗/垃圾机器人网络时（这也会减少一些用户的关注者数量）。但当然，这并非右翼独有，左翼的意见领袖和政客们也会编造他们自己的阴谋论。

将这三者结合在一起，更差的问题检测、更差的支持，以及在政策上更难达成一致，我们最终得到了开头指出的情况：在我的Twitter关注者（主要是技术人员且通常技术相当精通）的民意调查中，只有2.6%的人认为最大的公司在内容审核和垃圾信息/欺诈过滤方面做得最好，所以花这么多时间反复强调这一点可能显得有点愚蠢。当你对美国普通人口进行抽样时，有更大比例的人表示他们相信阴谋论，比如疫苗会在你体内植入微型芯片，或者我们从未登上月球，而我不会花时间解释为什么疫苗实际上不会植入微型芯片，或者为什么我们认为我们登上了月球是合理的。一个也许合理的理由是，当“只有大公司能处理这些问题”的言论在非技术人员（如监管者、立法者和经常倾听然后复述胡说八道的高级政府顾问）中开始流行时，我一直在关注。也许下次你遇到一个外行告诉你只有最大的公司才可能处理这些问题时，你可以礼貌地指出技术人员中有着非常强烈的相反共识⁵。

如果你是创始人或早期初创公司，正在寻找身份验证解决方案，PropelAuth正在针对你的用例。虽然他们可以处理其他用例，但他们目前专门致力于让尚未投资身份验证解决方案的预发布初创公司生活更轻松。免责声明：我是投资者

感谢Gary Bernhardt、Peter Bhat Harkins、Laurence Tratt、Dan Gackle、Sophia Wisdom、David Turner、Yossi Kreinin、Justin Blank、Ben Cox、Horace He、@borzhemsky、Kevin Burke、Bert Muthalaly、Sasuke、anonymous、Zach Manson、Joachim Schipper、Tony D'Souza和@GL1zdA的评论/纠正/讨论。

（由于文章过长，附录部分未翻译）

由 mimo-v2.5 模型翻译，花费 106459 tokens

为什么无法就允许的内容达成一致

Wed, 7 Feb 2024 00:00:00 +0000

在大型平台上，人们无法就审核、垃圾邮件、欺诈和性内容等政策达成一致。David Turner制作了一个简单的游戏来说明即使在最微不足道的情况下，这有多么困难，No Vehicles in the Park。如果您还没有玩过，我建议在继续阅读本文之前先玩一下。

这个网站背后的想法是，让人们就平台应适用的审核规则达成一致非常困难。即使你采用一个更简单的例子，给定一条规则和一些解释规则的指示，问哪些车辆应被允许进入公园，然后问一组小问题，人们也无法达成一致。我自己做这个调查时，最初的反应之一是这些问题并不特别棘手，如果Dave想让它更具挑战性，他可以问许多边缘情况。然而，尽管调查并不特别具有挑战性，人们对这些问题并没有广泛的共识。

对调查的评论也表明了规则的另一个问题，即达成一致比人们想象的要难得多。如果你阅读lobsters、HN、reddit等网站上关于规则解释或审核的评论，当人们提出解决方案时，绝大多数人会提出任何做过审核或关注审核工作的人都知道行不通的建议，相当于"我周末就能搞定"的"审核版"¹。当然，我们在Dave的游戏中也看到了这一点。HN上最热门的评论，也就是最多人赞同的评论，以及在其他地方普遍存在的观点是²：

我着迷于这样一个事实：我的收获与作者的意图完全相反。

对我来说，所有问题的答案都一目了然。是的，你可以学术性地思考一个绕轨道运行的空间站是否是车辆，以及它是否在公园里，但标志牌的明显意图再清楚不过了。汽车、卡车、摩托车不被允许，而显然，警察和救护车（以及消防车）在执行公务时不必遵守标志牌。

所以，如果这旨在说明内容审核规则难以遵循，那么它恰恰达到了相反的效果。

有人附和地回复道：

确实如此。答案中存在明显的多数意见。

完成调查后，你会得到一个图表，显示每个人对每个问题回答“是”和“否”的数量，这就是“明显的多数”来源。首先，我认为说存在明显的多数意见并不正确。但即使假设有，也没有理由认为多数意见意味着大多数人与你意见一致，即使你每个问题都持多数立场。事实上，考虑到每个问题的多数意见图表看起来多么“摇摆不定”，如果每个问题的多数立场意味着大多数人同意你，或者存在大多数人都同意的一组立场，那将是非凡的。虽然你可以构建一个人工数据集使其成立，但在自然数据集中这将非常令人惊讶。

如果你查看数据（该数据在网站上不可用，但Dave在我询问时欣然提供），在我获取数据时，没有一组答案是大多数用户同意的，而且差距很大。我在HN发布链接后不久获取了这些数据，当时绝大多数响应来自HN读者，他们比一般人群更同质。尽管这些因素使得更容易找到共识，但最受欢迎的答案组合仅被11.7%的人选择。这就是顶级评论者所说“显而易见”的立场，但它不仅在只有11.7%的人同意、88.3%的人不同意的意义上是少数派立场，而且几乎没有人持有与这一所谓显而易见立场仅有微小分歧的立场。第二和第三最常见立场分别占8.5%和6.5%的投票，它们相似，仅在一个非功能性的二战时期坦克作为纪念物是否违反规则上有分歧。除此之外，大约1%的人持有第四、第五、第六和第七最流行立场，每个较不流行立场都少于1%的同意度，并且从那里相当迅速地下降。因此，27%的人发现自己与超过1%的其他用户意见一致（中位The request was rejected because it was considered high risk

由 mimo-v2.5 模型翻译，花费 6708 tokens

Cruise行人事故笔记

Mon, 29 Jan 2024 00:00:00 +0000

这是一组关于Quinn Emanuel针对Cruise处理2023年10月2日事故的报告的笔记。该事故中，一辆Cruise自动驾驶汽车（AV）撞到一名行人后停下，随后再次移动，行人被卡在车底下方，被拖拽了20英尺。在看到一些关于这份报告的评论后，我阅读了五篇关于此报告的报道，并快速浏览了报告本身，我的感觉是，其中四篇报道的作者可能根本没读过报告，而评论的人通常只读了那些没有阅读原始材料的记者的文章，因此评论往往大错特特。正如我们之前讨论的，即使是总结一篇普通读者能轻松阅读的短文，其摘要也经常错得离谱，因此，对一份200页报告的摘要，其误导性可能最多也只是“最佳情况”了。

在通读了整份报告后，我认为Cruise的情况既比我看到的那些文章中描述的要好，也要更糟，这与我们在查看Twitter诉Musk案中的展品H和J、美国诉微软公司文件等实际来源时看到的模式相同；就像一些记者似乎亲马斯克/反马斯克、亲微软/反微软，并愿意为最大限度地抨击或开脱他们而推动不准确的叙事一样，我们在Cruise这里也看到了同样的现象。并且，正如我们在那些案例中所见，尽管一些文章似乎试图将Cruise描绘得尽可能好或尽可能坏，但报告本身的材料比最正面或最负面的故事所呈现的更有积极和消极之处。

除了纠正关于报告的误导性观点外，我发现这份报告有趣之处在于，在科技领域很少能看到如此详细、更不用说是公开的事故调查。我们通常在安全关键系统、有时在体育赛事以及历史事件中看到这类调查，但科技事件通常不会被如此报道。当然，公司会对事故进行事后分析，但你通常不会看到一份针对单个事件的200页报告，事后分析的重点也不会是这份报告的重点。过去，我们已经指出，通过研究安全关键系统的文献和事故报告可以学到很多东西，因此，对于这个比我们之前研究过的系统更接近科技领域的安全关键系统，当然也是如此。

这份报告的长度和深度反映了安全关键系统与“科技”文化之间的差异。报告中被描述为不可理喻的行为在科技界不仅是正常的，而且可能比你在大多数大型科技公司看到的更透明、更公开；我认为科技与安全关键系统之间的文化冲突也很有趣。我试图在报告中尽可能少地加入自己的个人观点，即使在那些因为了解科技公司或工程背景而我自己会写出不同内容的情况下也是如此。更多观点，请参见文末部分。

关于2023年10月2日旧金山事故致Cruise LLC、GM Cruise Holdings LLC及General Motors Holdings LLC董事会的报告

I. 引言

A. 概述

2023-10-24：加州DMV暂停了Cruise的无人驾驶许可证。
2023-10-02：一辆人类驾驶的日产汽车撞到一名行人，使行人进入一辆Cruise自动驾驶汽车（AV）的路径，随后该AV将行人拖拽了20英尺后才停止。
DMV的指控：
- Cruise未能披露AV在首次撞击后又向前移动。
- Cruise播放的视频仅显示了部分事故，没有显示行人拖拽过程。
- DMV是从另一个政府机构得知拖拽情况的，这“阻碍了其监管”。
NHTSA和CPUC也对Cruise采取了行动，并提出了类似指控。
媒体也抱怨被Cruise误导。
Cruise领导层以及与监管机构沟通的Cruise员工承认他们没有解释拖拽情况，但他们表示播放了完整视频，除了一个会议外，网络问题可能阻碍了监管机构看到整个事故过程。
Cruise员工声称NHTSA在10-03会议后立即收到了完整视频，而CPUC拒绝了提供完整视频的提议。
Cruise员工指出，他们在10-03向SF MTA、SFPD和SFFD播放了完整视频，没有网络问题，并与这些机构进行了充分讨论。
Cruise领导层承认从未通知媒体，但领导层认为Cruise对媒体的义务不同于对监管机构的义务。

B. 审查范围

[无注释]

C. 审查计划、方法论和局限性

审查了20.5万份“文件”，包括“电子邮件、短信、Slack通讯和Cruise内部文件”。
采访了88名现任和前任员工及承包商。
审查了第三方公司Exponent Inc.的一份报告。
仅进行内部审查；未采访监管机构和公共官员。
由于“个人情况和/或大规模裁员”，一些员工和承包商无法接受采访，但这些采访未被认为重要。
报告不涉及超出任务范围的更广泛问题，“例如Cruise AV及其运营的安全性或安全流程，这些问题更适于由具备工程和技术安全专业知识的人员评估”。

D. 主要发现和结论摘要

截至10-03早上，领导层和100多名员工都知道行人被Cruise AV拖拽了约20英尺，这是在AV停止后二次移动过程中发生的。
计划是通过播放完整视频来披露此事，“让‘视频自己说明情况’”。
- Cruise假设监管机构和政府官员会提出问题，Cruise将提供更多信息。
“证据权重”显示Cruise试图播放完整视频，但在3次会议中，网络问题导致无法播放，且Cruise未指出发生了行人拖拽。
在10-02和10-03，“Cruise领导层专注于纠正不准确的媒体报道”，即称Cruise的AV导致了事故。
- 这导致Cruise向“媒体、监管机构和其他政府官员”传达了关于日产汽车的信息，并遗漏了关于事故的“其他重要信息”。
“Cruise在此事件中失败的原因众多：领导不力、判断失误、缺乏协调、与监管机构‘我们对他们’的心态，以及对Cruise应向政府和公众承担的问责和透明义务的根本性误解。Cruise必须采取果断措施解决这些问题，以恢复信任和信誉。”
“DMV暂停令是某些Cruise高级领导和员工典型的‘自作自受’的结果，这些人似乎没有完全理解受监管企业应如何与其监管机构互动……Cruise或其他任何企业采取认为导致严重伤害的事故视频就提供了所有必要信息，并因此无需主动、全面地向监管机构通报所有相关事实，这种方法从根本上是错误的。正如一名Cruise员工在就此事宜发给另一名员工的短信中所说，我们的‘领导辜负了我们’。”

II. 关于10月2日事故的事实

A. 关于Cruise业务运营的背景

Cruise成立于2013年，2016年被通用汽车收购（通用汽车持股79%）。
Cruise声明的目标：“负责任地部署世界上最先进的无人驾驶出行服务”。
“Cruise声明的使命是让交通更清洁、更安全、更便捷”。
无人驾驶网约车业务于2021年9月在旧金山启动。
于2022年6月开始收费。
已扩展到其他地区，包括海外。
10-02事故是超过500万英里驾驶中首次发生的行人受伤事件。

B. 关于事故的关键事实

10-02, 晚上9:29：一辆人类驾驶的日产Sentra在旧金山Market街与第5街交叉口的人行横道上撞到行人。
行人无视红灯和“请勿通行”信号进入人行横道，然后在日产汽车车道上停下。警方报告引用了司机和行人违反法规，并得出结论称司机“负主要责任”。
撞击将行人抛入Cruise AV的路径。
Cruise AV刹车但仍撞到了行人。
在完全停止后，AV移动以寻找安全地点停下，这被称为“‘最小风险状态’靠边停车操作（靠边停车操作）或‘二次移动’”。
AV以最高7.7英里/小时的速度行驶了20英尺，拖拽着行人。
日产司机逃离现场（肇事逃逸）。

C. 关键事件时间线

10-02, 晚上9:29：事故发生，日产司机逃逸；AV传输低分辨率3秒视频（Offload 1）确认碰撞至Cruise远程协助中心。
晚上9:32：AV传输中分辨率14秒视频（Offload 2）显示碰撞，但不包括靠边停车操作和行人拖拽。
晚上9:33：急救人员在晚上9:33至9:38之间到达。
晚上9:40：SFFD使用重型救援工具将行人从AV下移出。
晚上9:49：Cruise事故响应团队将事故定为“Sev-1”（轻微碰撞）。团队在Google Meet上创建了一个虚拟“作战室”和一个专用的Slack频道（作战室Slack频道），约有20名员工加入。
晚上10:17：Cruise承包商到达事故现场。一名承包商拍摄了100多张照片和视频，并记录了地面上的血迹和皮肤碎片，表明AV从撞击点移动到了最终停止位置。
- 另一名承包商在Cruise授权下，向SFPD提供了显示日产汽车的14秒视频。
晚上11:31：Cruise将事故升级为“Sev-0”，即“造成任何一方中度至重度伤害或死亡的重大车辆事故”。可能另有200名员工被召集至作战室。
10-03, 凌晨12:15：事故管理团队召开虚拟会议，分享事故更新并讨论媒体策略，以反驳称AV导致事故的文章。
凌晨12:45：Cruise政府事务团队联系政府官员。
凌晨12:53：Cruise发布新闻稿，指出日产汽车导致了事故。CEO Kyle Vogt和通讯副总裁Aaron McLear大量编辑了新闻声明。未提及靠边停车操作或拖拽；Cruise员工声称当时不知道这些事实。
凌晨1:30：AV返回Cruise设施，开始从AV下载碰撞报告数据，包括完整视频的过程。
凌晨2:14：包含靠边停车操作和拖拽的45秒事故视频可用，但直到4个多小时后所有AV数据处理完毕时，才没有Cruise员工收到其就绪通知。
凌晨3:21：应Cruise政府事务部要求，系统完整性总监Matt Wood制作了12秒事故视频，显示日产汽车撞到行人以及行人落在Cruise AV前方。视频在AV撞到行人前停止。
凌晨3:45：Wood在作战室Slack频道（当时有77名员工）发布了已知的首次关于靠边停车操作和行人拖拽的沟通。Wood称AV在首次碰撞后移动了1-2个车身长度。
早上6:00：Cruise举行虚拟危机管理团队（CMT）会议；讨论了行人拖拽。后续的Slack消息（6:17am, 6:25am, 6:56am）确认了关于靠边停车操作和拖拽的讨论。
早上6:28：Cruise在作战室Slack频道发布了显示靠边停车和拖拽的45秒9格视频（完整视频，offload 3）。
早上6:45：虚拟高级领导团队（SLT）会议；Vogt和McLear讨论是否向媒体分享完整视频或修改Cruise新闻声明，决定两者都不做。
早上7:25：Cruise政府事务员工发邮件给NHTSA并提议会面。
早上7:45：Cruise工程和安全团队举行初步会议，讨论碰撞和靠边停车操作。
早上9:05：Cruise的监管、法律和系统完整性员工为NHTSA简报举行预备会议；他们讨论了靠边停车和拖拽。
早上10:05：Wood和全球政府事务副总裁Prashanthi Raman与旧金山市长交通顾问举行虚拟会议。Wood播放了完整视频，“据报道因其家用电脑网络连接问题”；Wood和Raman均未提及或讨论靠边停车或拖拽。
早上10:30：与NHTSA的虚拟会议。Wood播放完整视频，“再次因网络连接问题导致视频在关键位置（包括首次撞击后）冻结或黑屏/白屏”，并且同样未提及或讨论靠边停车或拖拽。
早上10:35：Cruise工程和安全团队举行第二次会议讨论碰撞。
早上11:05：Cruise的监管、法律和系统完整性员工为DMV和加州公路巡警（CHP）简报举行预备会议；Cruise团队未讨论靠边停车和拖拽。
早上11:30：与DMV和CHP的混合现场和虚拟会议。Wood播放完整视频，同样因网络连接问题且未提及或讨论靠边停车或拖拽。
中午12:00：虚拟Cruise CMT会议；工程师展示发现结果，包括详细说明事故期间AV移动情况的图表。显示了AV如何撞到行人，然后再次向前移动，拖拽行人约20英尺。AV程序设定最多移动100英尺，但AV内部系统标记了一个车轮速度传感器故障，因为车轮以不同速度转动（一个车轮在行人腿上打滑），从而提前停止了车辆。
下午12:30：Cruise政府事务员工致电CPUC讨论10-02事故和视频。
下午12:40：Cruise虚拟SLT会议。展示了来自CMT会议的图表。Vogt、首席运营官Gil West、首席法务官Jeff Bleich及其他人员出席。安全和工程团队提出暂停车队运营直到部署修复方案的问题；Vogt和West否决了该想法。
下午1:40：完整视频上传至NHTSA。
下午2:37：Cruise向NHTSA提交1天报告；未提及靠边停车或拖拽。
下午3:30：Cruise与SF MTA、SFPD和SFFD举行虚拟会议。Wood“多次播放完整视频”，没有技术问题。Cruise未提及靠边停车操作或拖拽，但官员们看到了并就此询问了Cruise。
下午6:05：Cruise CMT会议。Vogt和West结束了Sev-0作战室。一些Cruise员工后来对此表示担忧。
10-05, 上午10:46：福布斯要求Cruise就AV拖拽事件发表评论。Cruise拒绝评论，并坚持10-03的新闻稿。

下午1:07：CPUC发出信息请求，回复截止日期为10-19。

10-06, 上午10:31：福布斯发表《Cruise机器人出租车在最近事故中拖拽女子20英尺，当地政客称》。

10-10, 下午4:00：DMV要求Cruise提供更完整的视频。Cruise当天回应，提议屏幕共享视频。

10-11, 上午11点：Cruise与DMV举行会议，讨论与事故无关的运营问题。DMV的视频请求被“简要讨论”。

下午12:48pm：Cruise律师助理在检查更新后向NHTSA提交10天报告。报告未提及靠边停车或拖拽，“因为没有人告诉律师助理需要添加这些事实”。

10-12, 下午3点：NHTSA通知Cruise，打算对10-02事故及其他3起行人相关事件进行初步评估（PE）。

10-13, 上午10点：Cruise与DMV和CHP会面，分享9分6格视频，DMV澄清需要45秒9格视频（“完整视频”）。

下午12:19：Cruise上传完整视频。

下午1:30：Cruise与NHTSA会面，认为PE没有必要。

10-16, 上午11:30：Cruise与DMV和CHP会面，后者表示不认为在10-03会议上看到过完整视频。

10-16：NHTSA正式启动PE。

10-18, 下午3:00：Cruise与CPUC举行定期月度会议。Cruise表示将满足CPUC的10-19截止日期。

10-19, 下午1:40：Cruise应10-05的请求提供了信息和完整视频。

10-23, 下午2:35：Cruise获悉DMV可能暂停其无人驾驶许可证。

10-24, 上午10:28：DMV发布暂停Cruise无人驾驶许可证的命令。除少数在10-23听到消息的员工外，Cruise员工感到惊讶。

上午10:49am：Cruise发布博客文章，声明：“事故后不久，我们的团队主动向加州机动车辆管理局（DMV）、加州公共事业委员会[原文如此]（CPUC）和国家公路交通安全管理局（NHTSA）提供了信息，包括完整视频，并一直与监管机构保持密切联系以回答他们的问题。”

11-02, 中午12:03：Cruise提交30天NHTSA报告，其中包括对靠边停车和拖拽的讨论。

11-02：Cruise因10-02事故召回950个系统。

12-01：CPUC发布“要求说明原因令”，指其“未能提供完整信息，并就2023年10月2日Cruise相关事故及其后续与委员会的互动发表了误导性公开评论”。

D. 事故视频片段

6段视频

Offload 1; 晚上9:29：低分辨率，3秒，4格。捕捉碰撞后3秒，包括音频。

Offload 2; 晚上9:32*：14秒，9格。无音频。显示日产汽车撞到行人以及行人被抛入Cruise AV路径。

媒体视频; 晚上10:04：21秒，4格。源自offload 2，但被放慢。

凌晨1:06：4秒片段，来自offload 2，由Vogt剪辑并发给政府事务高级副总裁David Estrada和首席法务官Jeff Bleich，附言“这是我想要的片段”。Estrada回复“同意，如果发布视频，这应该是主要的视频”。该视频是AV左前方的单格画面，仅显示日产汽车撞到行人。Estrada表示这应在与监管机构的会议上首先展示，“清晰地展示发生了什么（确立人类司机的明确责任）”，但“没有证据表明这个较短的4秒视频在任何监管会议上展示过。”

凌晨3:21：12秒9格视频，源自offload 2。Cruise全球政府事务副总裁Prashanthi Raman和Estrada要求Wood制作14秒视频的较短版本，“考虑到昨晚的Sev 0以及我们需要与政策制定者讨论，请您为我们制作这个角度[Webviz链接]的可用视频。我们只需要展示撞击和人落在我们前方的画面，然后在那里剪断”。Wood制作了该视频。Cruise联邦事务高级总监Eric Danko告诉Wood，“相信NHTSA会想要捕捉我们撞击时刻的视频片段”，而Wood回复，“一旦日志下载完毕，可以制作NHTSA版本的视频”

“完整视频”；凌晨6:28：45秒，9格，显示靠边停车和拖拽。无音频。完整视频链接发布在作战室Slack频道。

E. 关于Cruise何时知道10月2日事故的事实

1. Cruise在10月2日晚间得知的事实

a. 事故现场

无人驾驶支持专家（DSS）于晚上9:39至9:44到达现场。

另一支2人DSS团队与运营团队成员和安全升级团队（SET）成员于晚上10:00至10:30到达。

至少一名承包商拍摄了100多张照片和视频，并表明理解行人被拖拽的情况。

承包商记录了血迹和皮肤碎片，拍摄了显示撞击后行进路线的血迹长镜头；承包商被指示将手机带回Cruise，而不是上传到通常的Slack频道；承包商认为这是为了保护受伤行人的隐私。

照片和视频于凌晨2:23上传至“RINO”数据库，从10-03, 早上5:11开始有100多名员工访问；数据库未显示哪些具体员工查看了哪些具体照片和视频。

现场另一人否认知道拖拽情况。

在Cruise内部审查中（在Quinn Emanuel之前），一名远程协助操作员（RA）说他们看到“行人被甩到AV引擎盖上。你可以看到并听到撞击声”，另一人看到AV“已经靠边停下”。Quinn Emanuel直到12-14裁员后才得知这些。联系时，一人拒绝采访，另一人未回应。

另外两名受访者报告了在10-02晚上或10-03凌晨关于AV二次移动的讨论，但“此信息未经核实，且似乎与证据权重相反”。

Quinn Emanuel采访的员工中无人表示在10-02知道拖拽情况。

b. 虚拟“Sev-0作战室”

最初有20人在作战室。

在10-02和10-03，有200多人加入和离开作战室。

2名受访者回忆起在10-02晚上或10-03凌晨在Meet上的Sev-0作战室中讨论过行人拖拽。两人都无法确定谁参与了讨论以及讨论的时间。一人说是在凌晨4:00之后。

Cruise事故响应手册概述了事件指挥官、SLT、CMT的角色以及事故后数周的响应方式。手册未被遵循，据称被“放弃”，因为“太费人力”。

c. 关于10月2日事故的最初媒体报道

“尽管作战室应处理各种问题，如了解事故如何发生及后续步骤，但焦点很快几乎完全集中在纠正Cruise AV导致了事故的错误媒体报道上。”

2. Cruise在10月3日得知的事实

a. 凌晨12:15的“Sev-0碰撞SFO”会议

CMT事件经理召集了140人参会的会议。

重点是分享更新和媒体报道策略。

Slack通讯显示Cruise员工认为公众认为Cruise AV伤害了行人的风险是一场危机。

Estrada对Raman说，“感觉如果我们如此害怕发布一段开脱视频，就像是双手被绑在背后战斗，如果我们认为不会被媒体和敌人痛击，那就太天真了。”

Raman回应，“我认为我们正处于围攻之下，我们没有机会与这些头条新闻/媒体报道抗衡……我们正在溺水——而且每次都会输”

上述声明据称“很好地捕捉了Cruise高级领导层的感觉”。

Vogt参加了会议，并希望仅发布显示日产汽车撞到行人的4秒片段。

Vogt坚持在发布前他要授权任何视频或媒体声明，“未经他批准，任何内容都不会分享或执行”。

同时，通讯团队起草了要点提供给媒体，包括“AV在撞击行人后立即完全停止”，通讯团队不知道这是不准确的。

b. 工程师凌晨3:45的Slack消息

Slack通讯

Wood：我还没看到有人提到这个，在第一次远程协助会话中，AV几乎就停在旁边车辆旁边，但又向前开了1-2个车身长度才到达它的[原文如此]最终位置。

匿名员工：ACP，我无法访问链接，但PED是否在车辆下面时它还在移动？我理解得对吗？

Wood：我相信是的，可以看到AV视频在垂直移动。

Wood是通过查看远程协助中心的数据得出此结论的，数据暗示AV拖拽着行人移动了1-2个车身长度。

c. 凌晨6:00的危机管理团队（CMT）会议

CMT讨论了靠边停车和拖拽。

会议有100多人参加，包括“首席运营官Gil West、联合创始人兼首席产品官Dan Kan、通讯副总裁、联邦事务高级总监以及通讯、法律、工程、安全、监管和政府事务团队的成员”。

早上6:17，工程师发消息给Wood，“在这次会议上他们是否提出了AV在事件后移动的问题？我加入晚了” Wood回复“还没有。我会提出”。

会议期间的Slack对话，从West到另外6位高级领导：

West：ACP- 请注意，CMT会议上有报告称AV在远程协助连接前移动了1-2个车身长度（低碰撞，并在紧急停止前寻找靠边停车点）

Vogt：我们是否应该运行道路模拟，看看如果AV在其他车辆的位置会怎么做？我认为这可能相当有说服力。

West：好主意——我怀疑AV会停下来，根本不会撞到行人。

工程师在作战室Slack中总结了CMT会议，“在今天的CMT会议上，讨论了在某个时候发布/分享视频。Matt Wood还指出，碰撞后AV以低速行驶，行人就在车下（大约7米）。虽然未讨论，但我想指出，任何有权访问我们碰撞前AV视频的人可能都能看到碰撞后AV行驶了这段距离，因为社交媒体上有视频显示AV停下时行人就在下面，现场还有一些标记。”

工程师还指出，非工程师应能从AV碰撞前的画面加上显示AV最终位置的社交媒体视频推断出拖拽情况。在DMV暂停令发布后，也表示“我在频道中指出，不难推断出首次停止后有移动……似乎DMV完全了解整个细节是可预见的。”

d. 凌晨6:45的高级领导团队（SLT）会议

SLT会议讨论了拖拽。

SLT讨论了修改媒体声明，“[这些讨论的]结果是，无论发布什么声明，我们都会坚持，因为决定是如果我们编辑先前同意的声明，我们将失去信誉。”

此时，通讯团队高级成员知道“AV在撞击行人后立即完全停止”的声明不准确，但通讯团队在SLT会议后继续向媒体提供不准确的声明，导致福布斯、CNBC、ABC News Digital、Engadget、Jalopnik和The Register等出版物中的陈述错误。

“完全停止”在10-13被删除，当时通讯员工将声明标记给法律部门，法律部门表示“我认为我们不能这么说”。

e. 凌晨7:45和10:35的工程和安全团队

会议

[无注释]

f. 下午12:05的CMT会议

[无注释]

g. 下午12:40的SLT会议

“据称Vogt表示，AV在检测到轮胎受干扰后停止了20英尺，这很好，而不是像AV程序设定的那样继续移动最多100英尺或一个完整街区去寻找安全地点靠边停车。”

安全和工程团队提出了在部署修复方案前暂停车队运营的问题。

Vogt和West否决了该想法。

h. 下午6:05的CMT会议

CMT领导层得知SLT正在解散Sev-0作战室。

一些受访者对Cruise历史上最重大的事件不再安排未来的CMT会议表示担忧。

有人向首席法务官Jeff Bleich建议“迷你CMT”应继续开会；Bleich和其他人表示支持，但未实施。

3. Cruise对福布斯文章的回应

福布斯就行人拖拽联系Cruise。

Cruise决定不回应，以避免引发新一轮媒体报道周期。

Cruise停止向媒体分享视频。

III. Cruise与监管机构、市政官员及其他利益相关方的沟通

A. Cruise与监管机构初步接触和会议概述

“初始说明”于凌晨12:24起草；Cruise当时不知道拖拽情况。

B. 10月3日与市长办公室的会议

与市长交通顾问Alexandra Sweet的会议。

Cruise员工做了概述，然后Wood播放了完整视频。

这种方法成为了Cruise的标准演示方式。

Wood播放了两次完整视频，但存在连接问题。

Sweet显然注意到车辆再次移动，但未询问拖拽或车辆为何再次移动。

C. Cruise向国家公路交通安全管理局（NHTSA）的披露

1. Cruise于10月3日的初步接触

**10-03, 早上7:25 **：Cruise监管参与负责人发邮件给NHTSA。

NHTSA希望解决的问题包括“Cruise ADS或远程助理是否能够确定行人被困在车下或行人在地面上的位置”以及“导致事故及撞击后车辆控制动力学（横向和纵向），包括ADS预测的行人路径以及是否采取了任何碰撞避免或缓解措施”以及事故视频。

2. Cruise与NHTSA的预备会议

针对预期问题的谈话要点

你们是否停止了车队？

Alicia Fenrick：我们没有改变车队的运营姿态。

我们未发现AV响应存在故障。

为什么车辆在首次停止后再次移动？

[未讨论] Matthew Wood：撞击触发了碰撞检测，车辆设计用于驶出车道靠边停车。

为什么车辆没有预判道路上的行人并刹车？

Matthew Wood：我认为视频不言自明，行人早已越过我们的车道进入另一车道。

Alicia Fenrick：行人显然已远离AV的行驶车道。期望其他车辆加速并撞到行人，然后行人翻过相邻车辆落在我们的车道上，这是不合理的。

一名员工笔记摘录：

他们要求播放视频-等到会议开始。然后另一个问题-我们在哪里结束视频。

Alicia：坦率地说，最大的问题。我们移动了，以及为什么移动，是我们需要解释的。事实就是事实。

Matt：我们为什么移动，这是碰撞响应。被检测为轻微碰撞，因此设计响应是允许的车道靠边停车。

如何提及这一点：触发了碰撞检测并被设计为驶出车道靠边停车。不要限定为轻微碰撞，而是碰撞检测。

问题将是：它停止了然后又向前移动。

一般前提：我们正在调查，我们正在进行深入分析，我们做了一些初步分析，这是我们得到的结果，但它只是初步的。

分类：撞击前、撞击时、撞击后。

Slack消息显示了关于何时发送视频以及发送哪个视频的讨论；决定播放完整视频，以避免被“指责隐瞒”。

3. Cruise于10月3日与NHTSA的会议

Wood播放了两次或三次完整视频，“但它一直停止或黑屏或白屏，因为他的家用电脑网络连接有问题”。

“NHTSA未清晰或完整地看到完整视频”。

未讨论靠边停车或拖拽。

预备会议记录在会议后被编辑，在此项添加了“[未讨论]”。

NHTSA提出的一些问题的会议记录：

远程协助能否检测到行人被困？

Wood：是的。

传感器也能？

Wood：是的。

“你最不想做的事就是在行人位于车下时移动”这句话似乎被说过，但回忆者对谁说的有分歧。一些人认为Wood说了这话，NHTSA表示同意；一些人认为Wood说了这话，NHTSA重复了这句话；还有一些人认为NHTSA说了这话，Wood表示同意。

会后Slack讨论

员工：“我认为我们可能需要提及Matt在NHTSA电话中说的‘你最不想做的事就是在行人位于车下时移动’。根据我的笔记和回忆，Matt说‘由于行人在车下，最不想做的就是操作’，而[NHTSA监管员]表示同意。”

另一名员工：“让我们看看对话如何进行。如果相关，我们应该分享。不过这不是这里的主要观点。”

在其他讨论中，其他员工和高管对未披露靠边停车和拖拽表示不同程度的担忧，从适中到没有（例如，联邦事务高级总监表示他“支持它……[Cruise员工]已经超出了他们的监管要求”）。

4. Cruise于10月3日与NHTSA的会后事宜

NHTSA发送了视频请求，Cruise上传了完整视频。

5. Cruise于10月12日、13日和16日与NHTSA的互动

a. 10月12日电话

NHTSA监管员致电Cruise员工，告知NHTSA计划进行初步评估；员工向Cruise NHTSA团队发送了以下信息：

“她分享说，上周的事故在办公室引起了很大的不满。这将是一项相当广泛的调查，涉及车辆如何应对街道上的行人和道路上的人员。但关于上周事故的问题将包含在IR问题和分析中。我提出就上周事故进行额外简报，但她说我们相当坦率，提供了视频并告诉了他们需要知道的一切。”

“很难相信他们能在Panini事故中[Panini是特定AV的名称]发现我们的反应有过错，以至于超出要求我们提供后续问题……”

b. 10月13日会议

“尽管PE可能导致严重后果，包括召回，Cruise的首席法务官和政府事务高级副总裁未出席。”

来自会议议程：“我们对此有点困惑。我们上周与您就Panini事件会面了，团队没有表达任何剩余的担忧，即使被问及是否有任何额外的担忧。是否真的对Panini事件中的AV行为仍有担忧？如果有，为什么他们不要求另一次简报？我们一直非常配合该机构，并始终提供该机构要求的信息。通过这次升级我们将获得什么，而不是我们已经提供的？提出就这些主题中的任何一个进行简报，以替代PE。”

还计划声明：“关于上周的事件，我们在事件发生后数小时内向该机构做了简报，提供了视频，并多次主动提出分享额外信息，包括关于行人安全的广泛话题。没有要求任何信息，这让我们质疑开启PE的动机。PE是收集信息的惩罚性手段，在声誉上有害，尤其是在新兴行业。”

c. 10月16日PE

[无注释]

6. Cruise关于10月2日事故的NHTSA报告

NHTSA的SGO要求三份书面报告，包括“碰撞前、碰撞时和碰撞后的详细书面描述”。

Cruise的前两份报告未提及靠边停车和拖拽；在咨询通用汽车后，第三份报告提及了靠边停车和拖拽。

a. NHTSA 1天报告

原始草案由律师助理转发给副总法律顾问Alicia Fenrick、通讯总监Erik Moser和管理法律顾问Andrew Rubenstein：“一辆Cruise自动驾驶汽车（‘AV’），以无人驾驶自动驾驶模式运行，在Market街与Cyril Magnin街交叉口因红灯完全停在南向车道上。一辆深色日产Sentra也停在AV左侧相邻车道。当Sentra和AV在绿灯后通过交叉口时，一名行人在车辆对面Market街的人行横道进入交叉口，并无视红灯通过。行人通过了AV的行驶车道，但在相邻车道的人行横道中间停下。不久之后，日产Sentra撞到行人，将行人抛到AV前方。AV紧急制动，但不久后与行人发生接触。这对AV没有造成损坏。日产Sentra司机在碰撞后不久逃离现场。警察和急救医疗服务（EMS）被叫到现场。行人由EMS运送。”

经Fenrick和Moser批准[LGTM'd]；Rubenstein表示“GA人员建议了一些额外编辑”，包括添加行人“完全”通过了AV的行驶车道、将“抛到”改为“偏转”以及删除“这对AV没有造成损坏”；没有讨论可能包含靠边停车和拖拽。

建立NHTSA报告系统的Cruise员工认为应包含完整细节，包括靠边停车和拖拽，但当时该员工在休假。

在后来的10-24，员工关于DMV暂停令的问答中，一名员工问“为什么决定不在给NHTSA的书面报告中包含碰撞后的靠边停车？至少，这似乎必须是一个有意识的决定，而不是意外疏忽。”

Rubenstein为Fenrick起草了此准备好的答复：“NHTSA报告要求的目的是通知该机构事故的发生。根据该目标和我们通常的做法，我们的报告通知了NHTSA事故已发生。此外，我们在提交报告之前已经与NHTSA会面，包括向他们展示了完整视频。该会议是我们主动接触的结果：事故后我们立即联系NHTSA安排会议讨论。我们在事件发生后的第二天早上与NHTSA团队会面，包括向NHTSA展示了完整视频。然后我们提交了报告，并在当天晚些时候发送了完整视频的副本。”

Fenrick批准了上述内容，但最终未给出答复。

Quinn Emanuel指出，“很难将这一理由与NHTSA法规的明确语言相协调，该法规要求‘碰撞前、碰撞时和碰撞后细节的书面描述……’（强调后加）”。

b. NHTSA 10天报告

律师助理完全有权决定是否需要任何新信息或更新。

律师助理在Slack上询问三名员工，“嗨，正在跟进，看看此事件是否有任何更新？特别是，关于行人的任何状况？”

一名与执法部门打交道的员工回复“不幸的是没有。我联系了调查警长但未收到回复。这可能是由于他可能参与的其他调查。”

这名员工表示他们仅指行人的医疗状况，但律师助理将其理解得更广泛。

律师助理还检查了RINO数据库中的更新，未发现任何更新，然后提交了10天报告，该报告称“自2023年10月3日原始提交以来，此事件没有更新”，然后重复了1天报告中的叙述，省略了关于靠边停车和拖拽的讨论。

c. NHTSA 30天报告

通用汽车敦促Cruise在30天报告中更全面，因此首席法务官Bleich介入。

Bleich审查了1天和10天报告，然后跟进说“现在最重要的事情是确保我们向监管机构报告此事件时完整准确”，表示要包含靠边停车和拖拽。
Rubenstein反对在30天报告中包含拖拽。

7. 关于Cruise与NHTSA互动的结论

[无注释]

D. Cruise向机动车辆管理局（DMV）的披露

1. Cruise向DMV的初步接触以及内部讨论展示哪个视频

“Vogt希望仅关注日产汽车在导致事故中的作用，避免展示行人的伤势。”

Estrada对Raman表示，显然表示同意：“我认为我们应该获取Kyle描述的视频片段，准备向政策制定者展示……展示撞击和人落在我们前方的画面。在那里剪断。这就是所需要的全部。”

Raman和Danko不同意，坚持展示最完整的可用视频。

2. DMV对Cruise接触的回应

[无注释]

3. Cruise与DMV的预备会议

“尽管副总法律顾问Fenrick表示她通常不参加DMV会议，但她选择参加此次会议，以便在NHTSA和DMV会议之间有一些重叠的与会者。值得注意的是，Bleich和Estrada均未参加预备会议，尽管计划与DMV主任亲自会面讨论事故。”

4. Cruise于10月3日与DMV的会议

a. DMV会议讨论

DMV监管员不认为播放了完整视频。

Cruise员工回忆不同，但许多人认为播放了完整视频，可能因连接问题。

未讨论靠边停车或拖拽。

b. Cruise会后对DMV会议的反思

Slack讨论

Raman：想法？

Fenrick：你是指DMV电话？比NHTSA更咄咄逼人……

ACP - 不过有点过于挑剔和不切实际。比如真的我们应该预测另一辆车会肇事逃逸并相应刹车。我认为他们对其他道路使用者碰撞的预期反应期望有点偏差。

Raman：他们倾向于问疯狂的假设性问题。我差点打断说我们可以讨论任何数量的假设……这就是发生的事情，但我在等他们提出后续问题再做。

Fenrick：疯狂的假设绝对是正确的。

ACP - 更大的担忧是没有监管员真正注意到我们在碾压行人后移动了。

在另一次Slack讨论中，一名员工表示“车辆移动了，他们没有问，我们有点幸运他们没问”。

一些员工表示这是对会议的普遍共识。

5. Cruise于10月10日与DMV的通讯

DMV要求在10-11前提供视频。Cruise未这样做，但在10-13的会议上展示了视频。

6. Cruise于10月11日与DMV的会议

[无注释]

7. Cruise于10月13日与DMV的会议

Cruise分享了Wood制作的9分钟6格视频。

“值得注意的是，摄像头角度不包括最清楚地显示AV撞击行人和靠边停车操作的下方前部摄像头角度。”

“受访者表示，DMV在会议中的语气‘感觉非常不信任’，并且‘感觉这里有些不对劲’。”

DMV对看似缺失或误导性的视频有疑问。

应DMV的担忧和要求，Cruise将完整视频上传到DMV在线门户。

8. Cruise于10月16日与DMV的会议

会议原定讨论不同主题，但会议转向DMV在事故中被误导的问题；“Cruise受访者回忆DMV和CHP与会者对10月3日的演示感到愤怒，说他们的集体记忆是他们没有看到完整视频。”

9. Cruise于10月23日与DMV的通讯

Cruise致电政治顾问，让他们了解DMV为何对旧金山自动驾驶车队扩张保持沉默。

顾问表示DMV“很生气”，并考虑撤销Cruise的运营许可证。

内部对这是否可能发生存在分歧。“Estrada随后发Slack消息给首席法务官Bleich，表示他已与DMV主任通话，‘完全没有迹象表明他们正在考虑撤销’。”

Raman再次向政治顾问核实，后者重复DMV非常生气，可能撤销。

10. DMV于10月24日的暂停令

Estrada致电DMV主任Gordon询问暂停事宜，但被搪塞。

Vogt加入通话并做出个人呼吁，称他“从13岁起就致力于尝试提高驾驶安全性”。

呼吁失败，暂停令不久后发布。

Slack对话

Estrada：Kyle领导我们的回应，我们提供了“完整”视频，如果是战斗，我们将坚持这一点。

Bleich：ACP- 这将是一场艰难的战斗。DMV和CHP有信誉，Steve Gordon似乎发誓他没有看到视频的结尾。Cruise员工的话不会被信任。我认为我们应该聘请外部公司审查事件经过并进行内部报告，因为否则没有人会相信我们。我们应该考虑这样做以及如何传达信息。

Estrada：是的，同意这很艰难，我们需要这样做，因为我们有事实，我们可以有宣誓声明和数据分析支持我们。这不是他说她说。我们有证据。如果我们用事实证明一个虚假陈述，这对声誉挽救很重要。

Steve甚至不再试图提出这个主张。他转而辩称我们应该强调靠边停车尝试。他们提出这样的主张是巨大的越界，而我们有能力证明这是错误的。

11. 10月24日之后的DMV通讯

Vogt发布了这篇题为《关于近期旧金山肇事逃逸事故的详细回顾》的博客文章。

[报告仅包含博客文章的节选，但出于我认为详细查看报告是值得的同样理由，我认为值得查看上面链接的博客文章；我对这篇已删除博客文章的解读是，它试图将责任归咎于“肇事逃逸”司机，并多次强调；博客文章似乎还包括模拟讨论的视频，其中Vogt说“我们是否应该运行道路模拟，看看如果AV在其他车辆的位置会怎么做？我认为这可能相当有说服力。”]

[博客文章确实讨论了靠边停车和拖拽，说“AV检测到碰撞，使车辆停止；然后试图靠边停车以避免造成进一步的道路安全问题，将个人向前拖拽了约20英尺”]

12. 关于Cruise与DMV通讯的结论

Bleich：“[DMV]的主要担忧是我们的车辆最初没有区分人和其车身下的另一个物体，因此进入了最小风险状态（MRC）。其次，他们觉得我们应该在第一次会议中立即强调AV的第二次移动。事实上，在第一次会议中——尽管我们向他们展示了完整视频——他们（和我们）都专注于确认我们在碰撞前没有不安全操作，我们没有导致与行人的初次接触。他们没有关注视频的结尾，并且——因为他们没有提出——我们的团队没有主动解决它。”

Vogt：“我非常纠结于我们的GA团队没有主动向DMV提供关于二次移动的信息，并且在处理事件过程中，我记得收到关于分享内容的不一致报告。在某个时刻一定是做出了糟糕的判断，我想知道这是如何发生的。”

Bleich：“ACP——我与你一样担心第二次移动没有成为讨论的一部分。我不知道负责简报的团队是否有过深思熟虑的决定。我相信他们仍然处于前一天晚上的模式，即他们正在反驳我们应对撞到行人负责，或我们在行人落入我们路径时反应不够快的假设。但正如我探究关于我们分享了什么以及何时分享的基本信息时，我有同样的挫败感，即日期被混淆或细节被遗漏。我不知道这是故意的，还是人们只是很难准确回忆起在事件发生后立即做了什么或说了什么。”

“这些Slack消息传达出，公司的三位高级领导——CEO、CLO和COO——并未积极参与Cruise历史上最严重事故的监管响应。相反，他们试图在事后拼凑出发生了什么。”

E. Cruise向SF MTA、SF消防局和SF警察局的披露

局

在播放视频后，一名政府官员问“这辆车在女人还在下面时移动了，我们看到的是这样吗？”，这引发了一系列关于此话题的讨论。

会议中的四名Cruise员工中有两名报告看到靠边停车和拖拽时感到震惊，显然没有意识到发生了这种情况。

F. Cruise向加州公共事业委员会（CPUC）的披露

1. Cruise于10月3日与CPUC的通讯

CPUC和Cruise对是否提议播放完整视频存在分歧。

2. CPUC于10月5日的数据请求

CPUC要求在10-19前提供视频；Cruise的标准政策是在最后一天回复，因此视频于10-19发送。

3. Cruise于10月19日对CPUC数据请求的回应

视频，以及以下摘要：“[日产]Sentra撞到行人，将行人偏转到AV前方。AV在紧急制动前向右偏转，但不久后与行人发生接触。AV随后试图通过驶出车道来实现最小风险状态（MRC），然后到达其最终停止位置。日产Sentra司机在碰撞后不久逃离现场。”

4. 关于Cruise向CPUC披露的结论

[无注释]

G. Cruise向其他联邦官员的披露

Cruise的初步接触侧重于传达事故是由肇事逃逸的日产司机造成的。

在10-24 DMV暂停后，“接触侧重于传达其相信在10月2日事故后与加州DMV、CPUC和NHTSA等监管机构密切合作的信息。”

IV. 10月2日事故的后续

A. DMV在加州对Cruise的许可证暂停

仍允许有人类司机在方向盘后驾驶。

B. NHTSA PE调查和安全召回

[无注释]

C. CPUC的“要求说明原因裁决”

[无注释]

D. Cruise的新高级管理层和Cruise的缩编

[无注释]

V. 发现和结论摘要

“当Cruise的法律、政府事务、运营和系统完整性员工在10月3日与监管机构及其他政府官员会面时，他们知道或应该知道Cruise AV进行了靠边停车操作，并在车辆下方拖拽了行人约20英尺。”

Cruise对监管机构披露义务的被动、不透明方法反映了对其监管机构需要知道什么以及何时知道的基本误解。”

“尽管Cruise和Quinn Emanuel都无法最终确定NHTSA或DMV在这些会议上看到了包含靠边停车操作和拖拽在内的完整视频，但证据权重表明Cruise试图在这些会议上播放完整视频；然而，网络连接问题阻碍或阻止了这些监管员清晰或完整地看到视频。”

“面对这些导致视频冻结或黑屏/白屏的网络连接问题，Cruise员工保持沉默，未能确保监管员理解他们可能无法看到的内容——即Cruise AV在首次撞击后再次向前移动，在车辆下方拖拽了行人。”

“即使如一些Cruise员工所说，他们在某些监管简报时不知道靠边停车操作和行人拖拽（这本身引发其他担忧），Cruise领导层和其他人员在10月3日白天得知了10月2日事故的全部细节，应该采取纠正措施。”

“虽然Cruise员工明显表现出判断失误以及未能理解透明度和问责制的重要性，但根据Quinn Emanuel目前的审查，证据并未确定Cruise员工试图故意误导政府监管员关于1

由 mimo-v2.5 模型翻译，花费 36460 tokens

为什么人们选择在[差平台]发布内容，而不是在[好平台]？

Thu, 25 Jan 2024 00:00:00 +0000

[AI 摘要] 本文分析了人们选择在Twitter等短平台而非博客发布内容的四大原因：更高互动、社交圈所在、更低心理门槛和更易变现。

当某人在Mastodon/Twitter/Threads等平台发布热门内容时，你常会看到一类评论，比如在视频下也常见“为何发推特串？这更适合作为博客文章”或“为何做视频？这更适合作为博客文章”。但这类评论往往措辞更激烈，例如：

我读不了那些跨页的推文，因为发帖者每条回复只写5个词。我觉得普通互联网完全愚蠢：Twitter、tiktok、Instagram等等。这完全是浪费精力。

或

当有人选择在推特上写博客，你就知道这内容顶多是浅薄的，更可能纯粹是愚蠢的（比如这个案例）

这类评论相当常见，例如：我查看了Foone在HN上得分200以上的最近10个推特串，其中9个都有类似抱怨使用推特的评论。

人们常表示困惑，为何有人会选择使用[差平台]，例如“为了表达观点，这得发多少条推文？200条？没人想过‘这内容要是放在一个页面上会更连贯’？我不懂社交媒体”或“拜托，输入简短描述并上传100张图片，会比一次性写完所有内容再添加些连接词更容易？……客观来说这工作量更大”。

就个人而言，我并不喜欢视频形式，对于95%的YouTube视频，我宁愿以博客文章而非视频形式获取信息（如果Google真的严打广告屏蔽，这点会更明显），而且我认为，对于关注信息的读者来说，长篇博客文章基本上优于在[差平台]上的长推文串。但我也认识到，如果不存在[差平台]这类工具，许多我想读的内容根本不会出现。

退一步看大局，我见过人们使用[差平台]主要有四个原因：它能获得更多互动、那里有他们的朋友、摩擦更低，以及变现更容易。

互动

互动原因最简单，所以我们先看这个。仅从人们花费时间的平台来看，推特、Instagram等短形式平台完全主导了Medium、Blogspot等长形式平台；这可以从这些公司的估值、调查数据等方面看出。Substack是当前最热门的长形式内容平台，其最新估值约为6亿美元，相比短形式平台的价值基本是个舍入误差（我不包括Wordpress或Squarespace等，其价值很大一部分来自文章和帖子之外的东西）。资金正流向人群，而人群已大多从长形式内容迁移。如果与使用Substack的人交流其读者和增长来源，你会发现这来自推特等平台，因此，即使优化互动或收入的长形式内容创作者仍会产出大量短形式内容¹。

朋友

朋友原因可能是次简单的。许多人会使用周围人都在用的平台。现实中，如果我年轻十岁，在2023年而非2013年开始做网络内容，我很可能会先尝试直播再尝试博客。但作为年长、脱节的人，即使知道博客相对视频是衰退媒介，我还是在2013年尝试开了博客。这似乎对我效果不错，所以我坚持下来，但这似乎是代际问题。虽然有比我年长的人做视频，也有比我年轻的人写博客，但从年龄分布看，我离人们普遍转向视频的年龄并不远，如果我真的计划长期做，而非仅仅做开始时最低摩擦的事，我会从视频开始。今天，对于刚开始分享想法的人来说，做视频是很自然的。

摩擦

当[差平台]是推特、Mastodon、Threads等微博平台时，朋友原因通常仍适用——这些平台上的用户常属于他们互动的社区，对他们来说，将内容保留在充满社区成员的平台比放到别处更合理。但对于内容被广泛阅读的人来说，更大的原因是许多人发现这些平台比写博客摩擦小得多。当人们指出这点时，[差平台]的讨厌者常感到困惑，回应如：

拜托，输入简短描述并上传100张图片，会比一次性写完所有内容再添加些连接词更容易？……客观来说这工作量更大

一方面，我接触的大多数广受欢迎的程序员/科技博主实际上使用摩擦更高的平台（例如Jekyll 的摩擦和Hugo 的摩擦）。但原则上，他们可以使用Substack、托管的WordPress或此评论者认为“客观”更低摩擦的平台，但这根本误解了摩擦的来源。当人们说[差平台]摩擦更低时，通常指写作和发布某物的心理障碍，而非实际发布所需的点击次数。我们可以争论这是否理性，是否“客观”合理，但最终，许多人发现在短文本块而非单个大文本块的平台上写作，在心理上更容易，这是简单事实。

我有时在Mastodon上写东西，因为我觉得对某些内容它适合做平台。当然，既然问题不在于点击次数，而是某种潜在情感动机，其他人有不同原因。例如，Foone说：

不是自夸或别的，但我在Hackernews或Reddit上被转发时最喜欢的部分是，每次总有一个高赞回复说“天哪，这本可以是一篇博客文章！为什么写20条推文，而不是一篇博客文章？”

因为我写不了博客文章，该死的。我有注意力缺陷多动障碍。很严重的那种，正在治疗，但治疗效果不太好。我无法专注于写博客文章。这不会发生的

如果我尝试写博客文章，最终会半途而废，因为我无法将其编辑成可读和可发布的状态。所以如果我完全转向博客：你会得到：没有内容我会得到：大量未完成的草稿和一种自己是无用废物的感觉

但我能做冗长的推文串。它们不需要长时间高度集中，没有我写博客文章时没完没了的编辑，我能做到。我做了很多！它们只是冗长且在推特上，有些人不喜欢

Foone提到的问题甚至并不罕见——我最喜欢的三位博主中，有三位提到他们只能一口气写完东西，要么有足够的势头写完一整篇博客文章，要么就写不完。只能一次写一条推文与只能在一次写作中完成你能写的内容之间存在规模差异，但这些是程度上的差异，而非本质上的差异。

收入

无论什么原因让人们觉得[差平台]比[好平台]摩擦更低，让人们使用适合自己的平台意味着我们获得更多内容。对于视频，同样的情况也适用，因为视频变现比文字好得多，而且有很多内容在视频上能很好变现，在文字形式上可能就不行。

举个随意的例子，汽车内容就是这样一个领域。例如，如果你买车，想了解汽车的详细实用评测，以及与其他可能考虑的车型的比较，在YouTube出现之前，据我所知，没人做过接近Alex Dykes在Alex on Autos上做的深度的内容。如果你翻开鼎盛时期的汽车杂志，比如1997年的Car and Driver或Road and Track，没有任何内容达到Alex做的1/10深度，即使到今天，现代汽车杂志也如此。许多汽车内容的子类别也是如此，例如Jonathan Benson在Tyre Reviews上的内容。在Jonathan之前，没人以同样广度和深度测试轮胎并撰写报告（轮胎公司的工程师做过这类测试甚至更多，但你必须直接与他们交谈才能获得信息）²。你可以在许多汽车内容之外的领域找到类似模式。虽然这取决于领域，但在许多情况下，如果没有视频，内容根本不会存在。总的来说，人们不仅比阅读文字更愿意看视频，而且视频变现比文字好得多，这使得人们能将提供深度信息作为职业，这在文字形式中是不可能的。在某些领域，你可以通过付费通讯赚不少钱，但这本质上就是汽车杂志，它们从未能支持类似Alex Dykes所做的内容，似乎也不合理支持Jonathan Benson在YouTube上的类似内容。

或者，从科技界举个例子，在Lucy Wang创建她的YouTube频道Tech With Lucy后不久，当她有5万订阅者，典型视频有几千到几万观看，偶尔有十万观看时，她指出她的收入超过了在AWS工作时（大部分钱可能来自赞助）。相比之下，我的博客文章都有超过一百万点击，我肯定赚不到Lucy在AWS赚的那么多；相反，我的博客勉强能付房租。如果你把大部分内容放在付费墙后面，可以适度地变现一些文字，例如Gergely Orosz在他的通讯中这样做，但如果你想大部分或完全发布免费内容，视频通常主导文字。

无结论

虽然我更喜欢在YouTube/Twitter/Threads/Mastodon等上看到的大多数内容托管在文字博客上，但现实是，如果必须将其写成长形式文字而非分段短形式文字或视频，大多数内容根本不会出现。也许几年后，摘要工具会变得足够好，我可以消费它们，但今天，我尝试过的所有工具经常严重错误传达关键细节，所以我们只能接受内容以创作的形式存在。

如果你正在找工作，Freshpaint正在招聘招聘人员、软件工程师和支持工程师。我是该公司的投资者，所以你应该带着通常的保留态度看待此事，但如果你想加入一个快速增长的早期创业公司，他们似乎找到了产品市场契合点，收入方面一直在极快增长。

感谢Heath Borders、Peter Bhat Harkins、James Young、Sophia Wisdom和David Kok的评论/修正/讨论。

附录：其他地方

Paul Ford的WWIC（Why Wasn't I Consulted）是本文的更通用版本

以下是David Kok的评论，来自一位80岁桥牌玩家抱怨桥牌为何衰落的讨论，这位80岁玩家声称主要原因是智商下降，年轻人（指60岁以下的人）太蠢而无法玩桥牌这类智力游戏；许多其他玩家赞同：

与其说是关于年龄段的错误但有意义的陈述，我总是将“智商下降”这类话解释为“我不快乐且难以表达”，而当其他人同意时，他们其实也是在说“是的我也是”。

如果你将David Kok的评论改编到抱怨为何某内容不是博客文章的语境中，这是对我在本文中给出理由无关紧要的元原因（对某些人来说）——这些理由只对关心理由的人重要；如果某人只是发泄情绪，他们给出的理由是其感受的表达而非合理理由，那么人们不写博客文章的原因就无关紧要。

总之，“为何在那里而不是这里发布”是个常见话题，我确信其他人写过相关文章，我会很感兴趣。请随时将其他相关文章转发给我。

附录：HN上对Foone最近10个推特串的评论。

我查找了Foone最近在HN上得分200以上的推特串，10个中有9个都有抱怨Foone为何使用推特以及为何作为博客文章会更好的评论。[不包括形如“对于那些和我一样讨厌推文串的人：https://threadreaderapp.com/thread/1014267515696922624.html"的评论，这类评论比下面带抱怨但也有有用内容的评论更多，比如串的其他版本链接。]

永远不要相信看似正常工作的系统

最早的评论之一是抱怨它在推特上，不久之后就是

为了表达观点，这得发多少条推文？200条？没人想过“这内容要是放在一个页面上会更连贯”？我不懂社交媒体

总有一天外星人会降落，一切都会很好，直到我们解释我们的日历

这内容更适合写成短篇小说，但我离题了。

这种玩意儿太棒太有趣了，不应该在推特上[少数对此表示赞同的抱怨之一]

这人每次他们的内容被转发到这网站时都超级生气，总是发巨长的帖子，就像原发帖者一样刷屏，太搞笑了。

你想了解我们大脑有多疯狂和扯淡吗？

他们在推特上就能容忍阅读？

认真提问：为什么出版商把他们的博客文章分解成无数条推文？互动网页算法是否偏爱推文串中的推文数量？我看到这正成为更多趋势

这是一篇非常有趣的投稿。但是，推特的字符限制真有毒。

在我看来，Foone的网络存在是有害的。他们不是写一篇条理清晰的文章发布在博客上，然后在一条推文中总结指向该文章的链接，而是做了相反的事：写了数十条推文串，然后用一篇博客文章总结那些推文。这不是我想鼓励的网络趋势，但唉，它正在流行起来。

哦，我不在乎作者怎么写，也不在乎下面是否有图表关系（或其他任何东西）。只是推特让阅读这类内容的体验变得非常繁琐。

逆向工程Skifree

这应该是一篇博客或直播。

即使这种形式？

我真的不理解。对他们来说这样发布很麻烦，对我们来说这样阅读也很麻烦。我希望马斯克接管推特并把它搞垮，这样我们就能回到真正的博客文章。

有人指出Foone说过他们觉得写长形式内容不可能，只能写短形式媒体，对此回应如下：

拜托，输入简短描述并上传100张图片，会比一次性写完所有内容再添加些连接词更容易？

显然那是他们的权利，他们可以做任何想做的事，但客观来说这工作量更大，我真诚希望这趋势会消失。

所有带电池的设备都应该有开关

你忘了，foone不会从推文串转向长形式博客。[实际上是对人们总是抱怨这点的元评论，而非抱怨，我认为]

我读不了那些跨页的推文，因为发帖者每条回复只写5个词。我觉得普通互联网完全愚蠢：Twitter、tiktok、Instagram等等。这完全是浪费精力。

他显然知道[在推特上发长串]是个问题，他应该解决它。

有人指出Foone说过他们无法写长形式博客文章，那人回应：

你可以像推特那样逐步添加到博客文章。功能上是一样的，只是媒介不是线程层次结构。没必要像他说的那样必须完全写好才发布。

我自己的博客文章在发布后经常修改10次以上。

这对成千上万的人来说效果不好，这就是为什么总有抱怨……当某事次优时，你完全有权抱怨。将长篇抱怨作为推文串发布对消费者来说是次优的

我有点欣赏这个信号：当有人选择在推特上写博客，你就知道这内容顶多是浅薄的，更可能纯粹是愚蠢的（比如这个案例）

Covid检测试剂盒中有一个带蓝牙的ARM Cortex-M4芯片

令人惊讶，我没看到任何抱怨，尽管有一条评论被编辑为“.”。

拆解2010年Fisher Price重新发行的音乐盒唱片机

为什么这是推文串？为什么不是博客？

接着是

我喜欢完全没人理解这个笑话……Foone是个反社会者，觉得某些词不该用来指代Foone，因为他们不喜欢。事实上任何人都不该谈论Foone。

在Tumblr上发布时，E和W键突然失灵了

只是热键检测出错。这并不奇怪，因为在网站上实现热键完全是个雷区。我不认为你可以从中得出Tumblr写得很差的结论。可能只是测试不充分。

因为那条评论对读过链接的人来说毫无意义，有人问“你读完整个串了吗？”，评论者回应：

没有，因为推特让它完全不可读。

我的鼠标驱动程序请求防火墙例外

我们能禁止在这里发布推特吗？在所有界面点击时，都会弹出烦人的窗口。你可以关掉它，但它会撤销你的点击，所以任何导航都变得非常麻烦。

或者用某种推特转可读工具替换推特网址

毁灭公爵3D镜像宇宙

这很了不起，但推特是这类文字的糟糕媒介。我希望这是发布在正常平台上，这样我可以轻松分享。

如果这是一篇博客文章而不是一堆推文，我们就不用展开多个回复才能看到全部内容

呃为什么这不是博客或YouTube视频？ specifically to annoy foone

是的，长形式推特是烂透了。但foone很棒，也许它们互相抵消了？

我讨厌推特。它正在慢慢毁掉互联网。

非foone帖子

当然，这种现象并非Foone独有。例如，在我在HN上看到的最后一个推文串中，前五条评论中有两条是：

这家伙有博客吗？

和

这就是为什么“在X上发布某物”的答案应该是“直接拒绝”。不可能在那里说出任何有细微差别或需要背景才能理解的话，但不幸的是，被X迷住的人根本无法开始以别人可能的方式看待他们所做的事情。

我之所以查看Foone的串，是因为我知道他们倾向于发布短形式平台内容，查看10个Foone串比查看10个随机串更有趣。

当然，几乎没人优化收入，因为大多数人从他们发布在互联网上的内容中赚不到钱。我怀疑只有一小部分人有意识地优化互动，但就像我们看到的威望一样，似乎有很多无意识地优化互动的现象。在平台内你可以看到这点的地方是（我研究了数百个例子），当人们开始使用像Mastodon或Threads这样的平台时。他们会发布很多不同的东西。大多数东西不会获得太多关注，少数会。他们可以继续发布相同的东西，但通常，随着时间的推移，他们会减少发布低互动内容，而增加发布高互动内容。平台有各种方式试图让其他人与你的内容互动变得有回报，平均而言，这似乎对人们有效。这是一个平台内而非平台间的例子，但如果这对人们有效，平台间的推理似乎也应该成立。

就个人而言，我并非优化互动或收入，但我一直靠Patreon收入支付房租，所以这样做可能是合理的。但至少目前，研究感兴趣的事感觉是更高优先级，即使这有点像减少收入和互动的举动。例如，wc显示我上一篇文章有2万字，这意味着写两遍可能花了大约7小时40分钟。如果我做短形式内容，不久前我做了个实验，尝试每天发推文几个月，这使我的Twitter关注者增加了约50%（从约2万到3万）。推特实验可能花了和我写上一篇文章差不多的时间（不包括做研究的时间，这包括阅读五本书和大约15篇关于轮胎和车辆动力学的论文），所以从互动或收入的角度来看，发布到短形式平台完全主导了我做的这种写作，任何关心互动或收入的人都会做短形式发布而非耗时长形式写作。至于我，现在我有两篇草稿在进行中，更像我的上一篇文章。对于一篇草稿，我需要完成的两件主要事情是为附录撰写约500篇文章/评论的摘要，以及阅读一本我想引用几段的400页书，对于另一篇，我需要完成约350页FTC备忘录的笔记。每篇草稿都将变成一篇长到足以独立成书的博客文章。就这驱动我的Patreon收入而言，我做这个能赚到最低工资就不错了，甚至不包括我研究但没发表的时间，因为结果无趣。但我也完全是个怪人。平均而言，人们会产生吸引眼球的内容，所以当然会有更多人仓促撰写长篇[差平台]串而非博客文章。
^[返回]
对于德语内容，有一家杂志做得不算彻底，但有些接近，但没人将其翻译成英语。Jonathan Benson不仅为英语做了前所未有的轮胎评测，他还将德语评测翻译成英语！

更广泛地说，不幸的是，尽管视频使得更多基准测试在财务上可行，但仍有大量领域，除了与行业人士交谈外，没有好方法确定什么是更好的，例如ADAS系统，公开测试充其量只是肤浅的。
^[返回]

由 mimo-v2.5 模型翻译，花费 14155 tokens

搜索引擎结果有多糟糕？对比Google、Bing、Marginalia、Kagi、Mwmbl和ChatGPT

Sat, 30 Dec 2023 00:00:00 +0000

在《搜索引擎优化的诞生与消亡》一文中，Xe建议：

这里有一个有趣的实验可以尝试。以一个开源项目如yt-dlp为例，尝试使用一个非常通用的术语如“youtube downloader”来查找它。由于所有试图在该术语上排名第一的内容农场的存在，你将无法找到它。尽管yt-dlp很可能实际上才是你想要用来下载YouTube视频的工具。

更普遍地说，我联系的大多数技术界人士似乎都认为，谷歌搜索结果比十年前显著变差了（Mastodon投票，Twitter投票，Threads投票）。然而，有一大群直言不讳的人声称搜索结果仍然很棒。例如，一位在Bluesky上获得高参与度的意见领袖说：

我认为关于谷歌搜索现在变得多么糟糕的哀嚎有点被夸大了¹

我怀疑这里发生的情况是，一些人已经习惯了围绕糟糕的软件工作，以至于他们甚至不知道自己在这样做，条件反射地做着相当于在编辑器中始终按ctrl+s，或者在文本框中撰写任何内容时按ctrl+a; ctrl+c的现代等价物。每一个现代网络的熟练用户都有一套他们用来从查询中获得体面结果的技巧。从观察许多用户与计算机的互动来看，这似乎并不正常，即使在那些在机械工程等各种技术领域相当有竞争力的人中也是如此²。然而，也可能是那些抱怨搜索结果质量差的人只是赶上了“一切都糟糕”的潮流，并对搜索质量发表了完全无根据的评论。

既然尝试直接、简单的查询相当容易，让我们尝试一些查询。我们将用五种搜索引擎加上ChatGPT来查看三种查询，并且会关闭广告拦截器以获得非专家的浏览体验。我曾经因为浏览到一个有问题的广告网站而使计算机被入侵，所以我希望这种情况不会在这里发生（在那次事件中，我很幸运能发现，因为恶意软件在我的计算机上做了太多事情，不可能不被注意到）。

一种查询是我的一个朋友为设置新电脑而使用的一组有代表性的查询。我的朋友是一位非技术领域高度能干的工程师，她想学习“如何使用计算机”，所以我观察了她设置电脑的过程，并指出了她在与网站和软件互动的思维模型中存在的漏洞³。

第二种查询是我在高中时想知道的那些事情的查询，当时我找不到答案，因为我问的所有人（老师等）都给了我明显错误的答案，而我不知道如何找到正确答案。一旦我上了大学并可以访问大学图书馆，我就能够从各种教科书中得到正确答案，但这些问题很简单，高中生理应能理解答案；这只是找到答案的问题，所以我们来看看这些答案有多容易找到。第三种查询是在撰写本文时我恰好想获取的本地信息查询。

在对查询进行评分时，会有一些主观性，因为，例如，是具有中等相关性但没有诈骗的结果更好，还是非常相关但混杂着试图安装恶意软件或诱骗你交出信用卡信息来支付你本不该支付的东西的诈骗结果更好，这并不客观明确。在本文中，我将诈骗视为相当糟糕，所以在那个特定例子中，我会将中等相关性的结果评为高于混有诈骗的高相关性结果。与我其他篇有某种主观排名的文章一样，这里既有简短的总结，也有结果的详细描述，以便您自己可以对服务进行排名。

在下表中，每一列是一个查询，每一行是一个搜索引擎或ChatGPT。结果按（从最差到最佳）极差、很差、差、一般、好和优秀评级，较差的结果更红，较好的结果更蓝。

查询是：

download youtube videos
ad blocker
download firefox
Why do wider tires have better grip?
Why do they keep making cpu transistors smaller?
vancouver snow forecast winter 2023

	YouTube	Adblock	Firefox	Tire	CPU	Snow
Marginalia	一般	好	一般	差	差	差
ChatGPT	很差	优秀	好	很差	很差	差
Mwmbl	差	差	差	差	差	差
Kagi	差	很差	优秀	极差	差	极差
Google	极差	很差	差	差	差	极差
Bing	极差	极差	优秀	极差	一般	极差

Marginalia表现相对较好，有时提供尚可但不完美的答案，然后对它无法回答的问题不提供答案或提供非常明显的无关答案，诈骗率也相对较低，低于任何其他搜索引擎（尽管对于这些查询，ChatGPT返回零诈骗，而Marginalia返回一些）。

有趣的是，Mwmbl允许用户直接编辑搜索结果排名。我对一个查询进行了编辑，如果按编辑后的标准评分，它将得“优秀”，但在基准测试中专门为基准优化时，很容易取得好成绩，因此Mwmbl的分数是在我编辑排名标准之前计算的。

我发现Google结果中有趣的一点是，除了众所周知的倾向返回近期结果外，还有强烈的倾向返回近期的YouTube视频。这导致我们得到的视频对任何人来说似乎都毫无用处，除了视频的制作者，他们似乎试图从视频中获得广告收入。例如，搜索“ad blocker”时，一个YouTube结果显示一个人漫无边际地讲了93秒关于你应该使用广告拦截器的话，然后谷歌搜索“ad blocker extension”。然后他们点击第一个结果并错误地说“它正式来自谷歌”，即该广告拦截器要么是谷歌制造的，要么有某种官方谷歌认证，因为它是第一个结果。然后他们又漫无边际地讲了40秒，同时安装了广告拦截器。安装后，他们错误地陈述“这基本上是Google Chrome上最有效的广告拦截器之一”。这个视频有14k次观看。作为参考，Steve Yegge花了一年时间制作高质量视频，他最受欢迎的视频有8k次观看，典型的观看次数低于2k。这个通过制作他们一无所知的话题的低质量视频来玩弄算法的人，是利用谷歌算法优先考虑近期内容而不顾质量的小型产业的一部分，正在压倒Steve Yegge的视频，因为他们找到了可以排上名的搜索词。我们将在下面更详细地讨论其他谷歌怪癖。

ChatGPT做着它惯常的事情，在一个案例中显著超越了它更传统的竞争对手，在另一个案例中做得还可以，在另一个案例中拒绝真正回答问题，并在多个查询中“产生幻觉”胡言乱语（像ChatGPT一样，随机扰动可以显著改变结果⁴）。批评ChatGPT的幻觉很常见，虽然我认为这并不过分，但正如我们在2015年这篇关于人工智能的LLM前文章中指出的那样，我认为这类批评被高估了，因为人类和传统计算机系统犯的是完全相同的错误。

在这种情况下，搜索引擎返回各种幻觉结果。在降雪预测的例子中，我们得到了故意伪造的结果，一个旨在通过虚假预报网站上的阴暗广告获得广告收入，另一个旨在诱骗用户认为预报显示的是寒冷、多雪的冬季（与实际预报相反），似乎是为了让用户注册不必要的铲雪服务。其他故意伪造的结果包括一个网站，它看起来像一个客观的评论网站，实际上是一个假网站，旨在将你引导安装特定的广告拦截器，其中他们引导你安装的广告拦截器似乎是一个诈骗广告拦截器，试图让你为广告拦截付费并且不允许你取消订阅，一个试图让你安装一个将你所有购物信息暴露给某个服务的chrome扩展程序的虚假“有机”博客文章（在许多情况下，无法判断博客文章是假的还是推销的，但在这种情况下，他们将虚假博客文章托管在产品的域名上，尽管它被设计成看起来有整个博客的主题，但实际上并没有——只有这篇虚假的博客文章），等等。

还有许多结果似乎不是故意欺诈，只是普通的SEO垃圾，旨在通过广告点击获利。这些网站大多早于LLM，所以它们读起来不完全像ChatGPT幻觉，但本质上没有不同。有时这些网站的目标是诱骗用户点击实际上会诈骗用户的广告，有时目标似乎是生成非诈骗广告的点击。搜索引擎也返回了许多看似非故意的人类幻觉，人们在用户内容突出显示的地方自信地陈述错误答案，如quora、reddit和stack exchange。

在这些查询中，即使忽略任何看起来像LLM生成的文本，我也会将主要搜索引擎（Google和Bing）评为在返回各种幻觉或准幻觉结果方面略逊于ChatGPT。虽然我认为关于LLM幻觉的担忧并非不合理，但传统生态系统的问题在于，系统高度激励将对软件供应链最有利的东西放在用户面前，而这通常与最佳结果截然不同。

例如，如果你的应用商店允许“你可能还喜欢”的推荐，赌博成瘾管理应用最值钱的广告位将是赌博应用。在成瘾管理应用上允许赌博广告对于今天任何一家公司来说都过于公然地敌视用户，但当然，制作赌博应用的公司会试图破坏系统来突破过滤，他们有时成功了。对于网络搜索，我刚刚又在网上尝试了一下，两大搜索引擎之一返回的顶部结果是广告充斥的SEO博客垃圾，用于成瘾管理。页面顶部是一个多部分广告，前两个链接是“支付真钱的游戏”和“支付真现金的游戏”。通常，我得到的是本地化结果（因为我在加拿大，有很多.ca域名），所以你自己尝试时可能会得到有些不同的结果。

同样，如果最佳结果是一个好的、免费的广告拦截器，如ublock origin，那么对于一个制作广告拦截器的公司来说，顶部的广告位价值要高得多，这个广告拦截器旨在诱骗你为一个质量较低的广告拦截器付费，该拦截器有一个几乎无法取消的订阅，所以诈骗广告拦截器会出价高于免费广告拦截器来争夺顶部广告位。这类公司也有更多的资源用于直接SEO，以及间接的SEO活动，如营销，因此，除非搜索引擎投入更有效的努力来对抗利润动机，否则顶部结果将归付费广告拦截器所有，尽管付费广告拦截器通常对用户来说明显比免费广告拦截器差。如果你和从事排名工作的人交谈，许多最大的排名信号来自点击和参与度，但这只有在用户足够老练，知道什么是最佳结果时，才会推动用户找到最佳结果，而通常他们并非如此。人类评分员也会评估页面质量，但这存在完全相同的问题。

许多谷歌员工曾告诉我，广告实际上是好的，因为它们向用户介绍了用户原本不会知道的选项，但任何尝试在没有广告拦截器的情况下浏览的人都会看到各种误导性的广告，试图通过假装是一个窗口或在页面顶部宣传“支付真现金的游戏”等方式诱骗或陷害用户，该页面是关于对抗赌博成瘾的，并且已经通过SEO自己获得了赌博成瘾搜索的高排名。原则上，这些问题可以通过足够的资源来缓解，但我们可以观察到，万亿美元级别的公司选择不投入足够的资源来打击SEO、垃圾邮件等，以至于这类诈骗广告很少被看到。相反，一些顶级结果实际上是将你引向诈骗的广告。

在最初的Page Rank论文中，谢尔盖·布林和拉里·佩奇指出，基于广告的搜索本质上与提供优质结果不一致：

目前，商业搜索引擎的主要商业模式是广告。广告商业模式的目标并不总是与为用户提供高质量搜索相对应。例如，在我们的原型搜索引擎中，手机相关的顶级结果之一是“手机使用对驾驶员注意力的影响”，这是一项详细解释在开车时使用手机交谈的分心和风险的研究。这个搜索结果之所以排在第一位，是因为它被PageRank算法评估为高度重要，PageRank算法是对网络引用重要性的近似估算[Page, 98]。显然，一个为展示手机广告而收费的搜索引擎将很难向其付费广告商证明我们的系统返回的页面是合理的。出于这类原因以及其他媒体的历史经验[Bagdikian 83]，我们预计广告资助的搜索引擎将固有地偏向广告商，远离消费者的需求。

即使对于专家来说，评估搜索引擎也非常困难，因此搜索引擎的偏见特别隐蔽。一个很好的例子是OpenText，据报道它出售公司被列在特定查询搜索结果顶部的权利[Marchiori 97]。这种类型的偏见比广告更隐蔽，因为不清楚谁“应得”在那里，以及谁愿意付费被列入。这种商业模式引起了轩然大波，OpenText已经不再是一个可行的搜索引擎。但不太明显的偏见可能会被市场容忍。……这种类型的偏见很难检测，但仍可能对市场产生重大影响。此外，广告收入通常为提供低质量搜索结果提供了动机。例如，我们注意到一个主要搜索引擎在给出航空公司名称作为查询时不会返回该航空公司的主页。碰巧的是，该航空公司已经为其名称的查询投放了昂贵的广告。一个更好的搜索引擎将不需要这个广告，这可能会导致搜索引擎从航空公司那里损失收入。总的来说，从消费者的角度来看，搜索引擎越好，消费者为找到所需信息需要的广告就越少。这当然会侵蚀现有搜索引擎的广告支持商业模式……我们认为广告问题导致了足够的混合激励，因此拥有一个透明的、学术领域的竞争性搜索引擎至关重要。

当然，谷歌现在已被广告主导，尽管特别指出了用户将真实结果与付费结果混为一谈的阴险性，但谷歌和必应都让广告看起来越来越像真实的搜索结果，以至于大多数用户通常不知道他们点击的是广告而不是真实的搜索结果。顺便说一句，用户认为一切都是“自然”搜索结果的原因是，在本文中，结果按它们在页面上出现的顺序排列，所以如果有四个广告出现在第一个自然结果之上，四个广告将排名1-4，自然结果将排名5。我听谷歌员工说过，AMP不影响搜索排名，因为它“只”控制哪些结果进入搜索结果上方的“轮播图”，好像在结果上方插入一个轮播图和一堆广告，将结果推到折叠线以下，对用户与结果的互动没有影响。也经常看到搜索引擎为公司赎买顶级位置，以至于那些不为自己名字购买广告的公司在搜索该名字时会将竞争对手放在顶部，这也据说不影响搜索结果排名，这对中位数用户来说技术上正确但基本上没有意义。

当我尝试运行论文中的查询“cellular phone”（无引号）时，顶级结果是谷歌商店链接到购买谷歌自己的Pixel 7，其余顶级结果是亚马逊上销售的各种Android手机。之后是维基百科的手机页面，然后是一系列商业结果，都试图向你推销手机或SEO垃圾，试图让你点击广告或通过他们的链接购买手机（接下来的7个结果是商业的，之后的结果是一个广告充斥的SEO博客垃圾页面，用于定义手机，上面有手机广告，然后是3个更多商业结果，然后是另一个广告充斥的手机定义）。这些商业链接似乎质量非常低，例如，轮播后维基百科下的第一个链接是加拿大百思买的手机页面。那里的前两个产品是eufy版本的AirTag的广告位。下一个结果是与Rogers绑定的按月分期iPhone，然后是与TELUS绑定的按月分期三星手机，然后是三星的AirTag，与Freedom Mobile绑定的按月分期iPhone，不同颜色的与Freedom Mobile绑定的按月分期iPhone，与Rogers绑定的按月分期iPhone，iPhone 13的屏幕保护膜，另一个三星AirTag产品，未锁定的iPhone 12，三星壁式充电器等；这是一个质量极低的结果，产品是人们不应该购买的（而且根据评论数量，人们并没有购买——顶级产品的评论数模态是0，中位数是1或2，尽管有很多东西人们确实在加拿大百思买购买，并且有很多产品有很多评论）。其他显示的商业结果也通常质量极低。谢尔盖和拉里建议的顶级结果，“手机使用对驾驶员注意力的影响”，根本看不到，被淹没在大量商业结果之下。另一方面，谷歌也加入了行动，通过购买广告来欺骗用户，例如付费让安装程序试图诱骗用户安装Chrome而不是Firefox。

总之，在查看了我们的测试查询结果之后，一些想到的问题是：

Marginalia，一个由单个人构建的搜索引擎，为什么这么好？
Marginalia或其他小型搜索引擎能取代主流用户中的谷歌吗？
一组小型搜索引擎能比谷歌提供更好的结果吗？
Mwmbl的用户策划方法会奏效吗？
像1996年的Metacrawler这样聚合多个搜索引擎、ChatGPT、Bard等结果的搜索引擎，会显著优于谷歌吗？

第一个问题很容易成为单独一篇文章，而本文已经17000字了，也许我们以后会研究它。我们之前已经注意到一些人可以非常高效，但当然每个案例的细节都不同。

关于第二个问题，我们在2016年研究了一个类似的问题，包括一般版本，“我可以在一个周末复制这个价值十亿美元的公司”，以及关于开源软件将如何使在某天超越谷歌变得微不足道的具体评论，例如

如今，你需要的大多数技术确实都可以在OSS中获得，并且是最先进的。请允许我用meta64.com（我自己的公司）来举例。我正在使用Lucene来索引大量新闻文章，并通过搜索通过简单抓取RSS爬取内容生成的Lucene索引来提供搜索。我将声称Lucene技术接近最优，而我使用的这种搜索方法与Google需要采用的方法几乎相同。Google唯一真正的技术优势在于他们可以投入在线的服务器数量，这对我们小公司来说成本过高。但从软件角度来看，我预计Google将在未来10年内被像我这样的技术所超越。

以及

扩展规模总是一个挑战，但只要Lucene不断变得越来越好，就会达到Google的优势变得无关紧要，我们可以在其上集群Lucene节点并分发搜索相关计算，然后使用Hadoop之类的工具实现我们自己的开源排名算法。我们还没有达到那个地步，但技术只会随着时间变得更好，我们作为开发者做出的选择也很重要。即使亚马逊和谷歌现在看起来像不可战胜的巨人，也不要低估在很长时间内增量改进所能完成的事情，而且在技术领域这甚至算不上很长的时间。Windows曾经是统治冠军也没多久。Windows现在在哪里？

在那篇2016年的文章中，我们看到那些认为开源解决方案将随时超越谷歌的人，似乎完全不知道为了成为谷歌的主流竞争对手必须解决多少难题，包括实时索引像Twitter、报纸等快速更新的网站，以及作为入场券的NLP，这是极其复杂的。自2016年以来，随着有更多实时内容需要索引以及用户期望更好的NLP，这些问题变得更加困难。人们期望从搜索引擎得到的功能也增加了，使得问题更加困难，因此，它似乎仍然非常难以取代谷歌成为主流搜索引擎，比如说，为十亿用户提供服务。

另一方面，如果你想为少量用户制作一个有用的搜索引擎，这似乎比以往任何时候都容易，因为谷歌对许多查询返回的结果比以前更差。在我们的测试查询中，我们看到许多查询中大多数或全部顶级结果都充斥着SEO垃圾，这是一个比十年前显著更严重的问题，甚至在LLM兴起之前，并且继续变得更糟。我通常以不会遇到这种情况的方式使用搜索引擎，但当我查看“普通”用户查询什么或自己尝试天真的查询时，就像我在本文中所做的那样，大多数结果相当差，这在过去并非如此。

谷歌现在在我的另一个弱点是查找不流行的网页时。我经常发现，当我想要找到一个网页并且我正确记住了网页的内容时，即使我进行精确字符串搜索，谷歌也不会返回该网页。要么该网页未被索引，要么它实际上未被索引，因为它位于索引的某个缓慢角落，不会及时返回。为了找到该网页，我必须记住链接到该网页的页面中的一些文本（通常点击多次才能到达实际页面，而不只是一次，所以我实际上记住的是一个链接到一个链接到一个链接到一个链接到一个链接的页面，然后使用archive.org遍历现已失效的链接），搜索它，然后手动导航链接图以到达该页面。这在2005年我搜索东西时基本从未发生过，在2015年也很少发生，但现在我搜索东西时很大一部分时间都会发生这种情况。即使在2015年，谷歌实际上也不是全面的。例如，谷歌搜索没有索引每条推文。但当时，我认为谷歌搜索在搜索推文方面比Twitter搜索更好，我基本上从未遇到过我想找到的推文没有被谷歌索引的情况。但现在，我想找到的大多数推文都没有被谷歌搜索返回⁵，即使我搜索“[推文中的精确字符串] site:twitter.com”。在最初的Page Rank论文中，谢尔盖和拉里说“因为人类只能输入或说出有限的内容，随着计算机不断改进，文本索引将比现在扩展得更好。”（而且虽然机器可以生成实际上无限的内容，但仅索引人类生成的内容似乎就非常有用）。在LLM之前，谷歌肯定有资源索引每条推文以及每个公共网站上每个人类生成的发声，但他们似乎选择将资源投入到其他地方，并且相对于其规模，公共网络似乎比以往任何时候索引得更少，或者至少是自网络搜索早期以来索引得更少。

当谷歌对简单查询返回体面结果并且几乎索引了我想找到的任何公共页面时，一个独立搜索引擎返回我认为比谷歌更好的结果会非常困难。2016年的Marginalia对我来说将只是一个新奇事物，因为谷歌会为Marginalia返回体面结果的任何地方提供足够好的结果，而谷歌会为我搜索的每个晦涩网页提供正确结果，这对于一个小型搜索引擎来说极其困难。但现在谷歌实际上没有索引许多我想搜索的网页，独立搜索引擎相对较小的索引对它们来说并不是致命缺陷，其中一些返回的SEO垃圾比谷歌少，因此对我的用途更好，因为我通常不关心实时结果，不需要花哨的NLP（并且发现很多NLP实际上让搜索结果对我更糟），不需要将购物集成到搜索结果中，很少需要理解图像的图像搜索，等等。

关于一组小型搜索引擎能否为许多用户提供比谷歌更好的结果，我认为这不是一个问题，因为多年来答案一直是一声响亮的“是”。然而，许多人并不相信这一点。例如，一位谷歌TLM回复了本文开头的Bluesky意见领袖：

有人试图争辩说，如果搜索领域更具竞争性，有许多小型提供商而不是只有三个大公司，那么它会对基于ML的SEO滥用更*有*抵抗力。

而且……听着，如果*谷歌*现在都跟不它，那么市场份额5%的“小先生”怎么能做到？

大概指的是像Hillel Wayne的“算法单一文化”这样的论点，我们的Bluesky意见领袖回复说：

95%的情况下，当有人声称某个小型独立公司能比市场领导者做得更好时，这通常只是心理安慰。规模经济运作得相当好！

过去，我们看了一些市场领导者提供糟糕产品而其他玩家（通常是微小的）提供更好产品的例子，在未来的文章中，我们将看看规模经济和规模不经济如何在各个领域与科技互动，但对于本文， suffice to say，很明显，尽管常见的“经济学101”鸡尾酒派对观点认为规模经济应该是搜索质量的主要因素，但当我们看实际结果时，情况似乎并非如此。

关于Mwmbl的用户策划结果是否可行的问题，我猜不行，或者至少需要更多的审查。仅仅浏览Mwmbl就显示排名的最后编辑是由用户“betest”完成的，他在“RSS”下添加了某种博客垃圾作为顶级条目。似乎可以还原这个更改，但没有容易找到的方法来报告此更改或将用户报告为垃圾。

关于像Metacrawler这样聚合多个搜索引擎结果的东西今天是否会产生优越的结果，这可以说是无关紧要的，因为它要么不可能作为商业服务合法运行，要么需要高昂的许可费，但从技术角度来看，一个现代的metacrawler在今天可能相当不错。Metacrawler很快变得无关紧要，因为谷歌返回的结果比你通过聚合其他搜索引擎的结果要好得多，但今天情况似乎并非如此。

回到Xe等认为直接搜索查询充斥着垃圾的人和我们的意见领袖之间的辩论，后者认为“关于谷歌搜索现在变得多么糟糕的哀嚎有点被夸大了”，似乎Xe是正确的。虽然谷歌没有公开提供查看过去查询返回了什么的功能，但许多人记得直接查询通常返回良好结果的时候。谷歌在90年代如此迅速崛起，即使在熟练使用AltaVista的专家用户中，他们已经非常擅长在查询中添加各种限定词以获得好结果，是因为你不需要对谷歌这样做。但我们现在已经绕了一圈回来，我们需要添加限定词、将搜索限制在特定网站等，以便从谷歌在以前是简单查询的内容中获得好结果。如果说有什么不同的话，我们已经远远绕回来了，因为我们需要的扭曲比AltaVista时代要复杂得多。

如果你在找工作，Freshpaint正在招聘招聘人员、软件工程师和支持工程师。我是该公司的投资者，所以你应该带着通常的怀疑态度来看待这一点，但如果你想加入一个快速增长的早期初创公司，他们似乎找到了产品市场契合点，并且收入增长非常快。

感谢Laurence Tratt、Heath Borders、Justin Blank、Brian Swetland、Viktor Lofgren（顺便说一句，在写这篇文章之前我不认识他——我只在运行查询后联系他讨论Marginalia搜索结果）、Misha Yagudin、@hpincket@fosstodon.org、Jeremey Kun和Yossi Kreinin的评论/更正/讨论

附录：其他搜索引擎

DuckDuckGo：过去，当我在使用广告拦截器将DDG与Bing进行比较时，结果非常相似。我也尝试了DDG，移除Bing广告后，结果不如以前相似，但它们仍然足够相似，似乎不值得列出DDG结果。我使用DDG作为我的默认搜索引擎，我认为像谷歌一样，如果你知道如何查询它就能正常工作，但对于本文中的天真的查询类型，它的表现并不特别好。
wiby.me：像Marginalia一样，这是另一个为查找相对晦涩结果而制作的搜索引擎。我尝试了上述四个查询，结果很有趣，因为它们与其他任何搜索引擎的结果都大不相同，但wiby没有为我尝试的查询返回相关结果。
searchmysite.net：对于某些查询有一些相关结果，但不如Marginalia相关。诈骗和广告充斥的页面比谷歌、Bing和Kagi少得多。
indieweb-search.jamesg.blog：似乎出现了故障。“由于服务器错误，无法处理您的请求。”对每个查询都如此。
Teclis：搜索框仍然在那里，但任何查询都返回“Teclis.com由于机器人滥用而关闭。Teclis结果仍可通过Kagi的搜索结果获得，特别是通过“非商业网络”镜头，也可作为API。”首页上的说明写着“由于疯狂的机器人流量（99.9%的流量是机器人），该站点上的Teclis结果已禁用。”

附录：返回良好结果的查询

我认为大多数程序员都可能能够对每个查询获得好结果，也许除了轮胎宽度与抓地力的查询，所以这是我如何找到轮胎查询的尚可答案的方法：

我尝试了YouTube搜索，因为许多最好的汽车相关内容现在都在YouTube上。一个标题声称回答该问题的YouTube视频（视频实际上没有回答问题）有一条评论推荐Carroll Smith的书《Tune To Win》。该评论声称第1章解释了为什么更宽的轮胎有更好的抓地力，但我在书中没有找到任何解释。第1章确实注意到赛车通常使用比乘用车更宽的轮胎，并且乘用车正朝着使用更宽轮胎的方向发展，并且它对滑移角做了一些评论，大致勾勒出为什么更宽的接触面会有更好转弯性能的直观原因，但我没有找到关于制动差异的解释。此外，该书指出更宽接触面的主要原因是它（间接地）允许热量积聚更少，这使你可以设计出在更窄温度范围内工作的轮胎，从而允许使用更软的橡胶。这可能是真的，但它不能解释人们可能想知道的许多观察到的行为。

《Tune to Win》推荐了Kummer的《轮胎和橡胶摩擦统一理论》和Hays与Brooke（实际上是Browne，但Smith错误地说是Brooke）的《轮胎牵引力物理学》。这些都没有真正解释发生了什么，但寻找类似的书籍发现了Milliken和Milliken的《赛车车辆动力学》，它也没有真正解释为什么，但似乎更接近有解释。寻找与《赛车车辆动力学》类似的书籍发现了Guiggiani的《车辆动力学科学》，它确实触及了如何思考和建模许多相关因素。Guiggiani书的最后一章提到了所谓的“刷模型”（轮胎），搜索“brush model tire width”找到了Pacejka的《轮胎和车辆动力学》的参考，它确实开始解释为什么更宽的轮胎有更好的抓地力，以及需要进行什么样的轮胎和车辆动力学建模来解释容易观察到的轮胎行为。

正如我们指出的，人们有不同的技巧来获得好结果，所以如果你有更好的方法来获得好结果，我很想听听。但请注意，基本上每次我有一篇指出某件事不起作用的文章时，最常见的建议将是做那些通常建议但不起作用的事情，即使文章明确指出通常建议的事情不起作用。例如，我收到的关于这篇关于文件系统正确性的文章最常见的评论是你可以通过执行重命名技巧来绕过所有这些问题，即使文章明确指出这不起作用，解释了为什么不起作用，并引用了一篇讨论为什么不起作用的论文。几年后，我就这个主题做了一次扩展演讲，我指出人们不断建议这个不起作用的东西，我在演讲中收到的最常见的评论是你不需要费心所有这些事情，因为你只需要做重命名技巧（不，ext4有auto_da_alloc并不意味着这有效，因为如果你检查你是在兼容的文件系统上，它会自动将不正确的代码替换为正确的代码，此时更简单的是直接编写正确的代码）。如果你有关于为什么更宽的轮胎有更好的抓地力的建议，或者找到解释的搜索，请考虑确保该解释不是本文中提到的标准错误解释之一，并且该解释能够解释所有必须解释的行为才能解释这一现象。

关于如何对其他查询获得好结果，由于本文已经17000字了，我将留给未来关于专家与非专家计算机用户如何与计算机互动的文章。

附录：查询结果摘要

对于每个问题，答案按从最佳到最差排序，指标是我对结果好坏的主观印象。这些查询大多在2023年11月运行，尽管有几个在12月中旬运行。当我运行查询时，我很少自己写自然语言查询。然而，普通用户经常写自然语言查询，所以我任意对“轮胎”和“降雪”查询使用了自然查询。继续使用简单、天真的查询主题，我们在本文中使用了ChatGPT的免费版本，这意味着查询通过ChatGPT 3.5运行。理想情况下，我们应该对每个查询使用关键词和自然语言查询运行完整的矩阵，运行更多查询等，但本文已经17000字（转换为标准长度书籍的页面，大约70页），所以运行更多查询的完整矩阵会很快将本文变成一本长篇著作。对于工作和某些类型的数据分析，我有时会做那些全面或更全面的项目，但在这里，我们无法涵盖任何类似于全面查询集的内容，我们最多只能尝试一些似乎具有代表性的查询，并用我们的判断来决定这是否符合我们和其他人通常看到的行为，所以我认为不值得做像覆盖稍微更多内容的4倍工作量这样的事情。

对于搜索引擎，所有查询都是在全新的隐身窗口中运行，已清除Cookie，Kagi除外，它不允许未登录搜索。对于Kagi，查询是用一个没有自定义个性化或过滤器的新账户完成的，尽管它们是按顺序用同一个账户完成的，因此可能基于早期查询的点击对后期查询应用了某种个性化排名。这些查询在温哥华完成，似乎对某些搜索引擎应用了某种本地化排名。

download youtube videos
- 理想情况下，顶级结果应该是yt-dlp或yt-dlp的轻量级图形包装器。链接到youtube-dl或其他更新频率较低的项目也可以。
- 优秀结果（yt-dlp作为顶级结果，可能在某个地方有youtube-dl，没有诈骗）：无
- 好结果（youtube-dl作为顶级结果，可能在某个地方有yt-dlp，没有诈骗）：无
- 一般结果（youtube-dl作为顶级结果，可能在某个地方有yt-dlp，诈骗比其他搜索引擎少）：
  - Marginalia：顶级链接是youtube-dl。大多数链接不相关。诈骗比大型搜索引擎少得多
- 差结果（有一些有用的链接，但也链接到很多诈骗）
  - Mwmbl：有一些链接到不良网站和诈骗，但比大型搜索引擎少。在顶级10个链接中还有一个间接链接到youtube-dl，一个youtube-dl的GUI
  - Kagi：主要是链接到诈骗网站，但在几页之后，有一个web.archive.org链接到2010年版本的youtube-dl
- 很差结果（未能返回任何有用的结果）
  - ChatGPT：基本上拒绝回答问题，尽管如果你不天真地直接问问题，可能可以通过提示工程得到答案
- 极差结果（未能返回任何有用的结果并且充满诈骗）：
  - Google：主要是链接到试图诈骗你或向你收费购买免费软件的更差版本的网站。一些链接到广告充斥的列表文章，没有好的建议。零个链接到好结果。还链接到各种YouTube视频，这些视频是YouTube版的博客垃圾。
  - Bing：主要是链接到试图诈骗你或向你收费购买免费软件的更差版本的网站。一些链接到广告充斥的列表文章，没有好的建议。可以说零个链接到好结果（不过有人可能会说第10个结果是尚可的结果，尽管它似乎是恶意软件）。
ad blocker
- 理想情况下，顶级链接应该指向ublock origin。退而求其次，任何链接到ublock origin都很好
- 优秀结果（ublock origin是顶级结果，没有诈骗）：
  - ChatGPT：第一个建议是ublock origin
- 好结果（ublock origin排名靠前，但不是顶级结果；ublock origin之上的结果要么明显不是广告拦截器，要么即使不如ublock origin好也基本上免费工作；没有直接试图诈骗你的链接）：无
- 一般结果（ublock origin在某个地方，诈骗比其他搜索引擎少，不多）
  - Marginalia：第3和第4个结果让你找到ublock origin，第8个结果是ublock origin。没有似乎试图直接诈骗你的东西，并且“只有”一个链接到某种SEO广告农场诈骗（这比主要搜索引擎好得多）
- 差结果（没有链接到ublock origin并且主要链接到那些为良好功能设置付费墙或默认让广告通过的广告拦截器）：
  - Mwmbl：许多不相关的链接和一些链接到ghostery。一个诈骗链接，所以比商业搜索引擎少
- 很差结果（专门或几乎专门链接到为良好功能设置付费墙或默认让广告通过的广告拦截器）：
  - Google：很多链接到参与“可接受广告计划”的广告拦截器，出版商同意确保他们的广告符合某些标准（文本中未提及，但在其他地方解释，这样参与此计划的公司的主要收入来源是广告商向“广告拦截器”公司付费以不阻止他们的广告，使得“广告拦截器”不仅不是广告拦截器，而且与用户的动机非常不一致。一些链接到似乎是诈骗的东西。零个链接到ublock origin。还链接到各种YouTube视频，这些视频是YouTube版的博客垃圾。
  - Kagi：类似于Google，但诈骗更多，不过比Bing少
- 极差结果（专门或几乎专门链接到为良好功能设置付费墙或默认让广告通过的广告拦截器并且有大量诈骗）：
  - Bing：类似于Google，但诈骗更多且没有YouTube视频垃圾
download Firefox
- 理想情况下，我们会得到链接到下载Firefox，没有假链接或诈骗链接
- 优秀结果（链接到下载Firefox；没有诈骗）：
  - Bing：链接到下载Firefox
  - Mwmbl：链接到下载Firefox
  - Kagi：链接到下载Firefox
- 好：
  - ChatGPT：这有点搞笑，因为这些技术上是不正确的说明，但人类应该能轻松解码说明并下载Firefox
- 一般结果（某种间接链接到下载Firefox；没有诈骗）：
  - Marginalia：间接链接到获取Firefox下载的Firefox下载说明
- 差结果（链接到下载Firefox，带有诈骗）：
  - Google：顶级链接都是合法的，但#7结果是一个试图诱骗你安装恶意软件的诈骗，#10结果是一个似乎是某种诈骗的广告，想要你的信用卡信息。
Why do wider tires have better grip?
- 理想情况下，会链接到一个清楚解释原因的解释，并且没有不完整、无法解释许多常见观察到的行为的解释
- 优秀/好/一般结果：无
- 差结果（没有结果或很少明显的错误结果）：
  - Mwmbl：一个明显错误的结果，没有其他结果
  - Marginalia：两个明显错误的结果，没有其他结果
- 很差结果：（很少半合理错误的结果）
  - ChatGPT：标准的ChatGPT“幻觉”，可能对很多人来说很合理（它听起来像网络上很多关于该主题的错误评论，但写得更好）
- 极差结果（大量半合理的错误结果，通常在广告农场）：
  - Google / Bing / Kagi：错误的、广告充斥的结果，带有通常的诈骗广告率
Why do they keep making cpu transistors smaller?
- 理想情况下，会链接到一个清楚解释原因的解释。我见过的最好的解释是在VLSI教科书中，但我也在讲义和幻灯片中见过非常好的解释
- 优秀结果（链接到非常好的解释，没有诈骗）：无
- 好结果（链接到尚可的解释，没有诈骗）：无
- 一般结果（链接到你可以进一步搜索的东西，并且如果你擅长搜索，可以获得好解释，并且不会将错误或误导性解释排在尚可解释之上）：
  - Bing：顶级链接组有一个部分答案，如果进一步搜索可以轻松找到正确答案。还有许多不相关的答案和广告充斥的SEO垃圾
- 差结果（没有结果或少量明显不相关的结果或很多半合理的错误结果，但某个地方有尚可结果）：
  - Marginalia：无答案
  - Mwmbl：一个明显不相关的答案
  - Google：第5个链接有正确的关键词，可能通过进一步搜索找到正确答案。大多数链接有误导性或错误的部分答案。很多链接到Quora，没有回答问题。还有很多链接到其他糟糕的SEO答案
  - Kagi：第10个链接有相当直接的路径来获得正确答案，如果你向下滚动到第10个链接。其他链接不好。
- 很差结果：
  - ChatGPT：没有真正回答问题。要求ChatGPT进一步解释其答案会导致它“产生幻觉”出不正确的原因。
vancouver snow forecast winter 2023
- 我不确定理想的答案是什么，但一个相当好的答案是加拿大环境部的降雪预测，预测降雪量显著低于正常水平（气温高于正常水平）
- 优秀结果（链接到加拿大环境部的2023年冬季多月降雪预测作为顶级结果或同等好的结果）：无
- 好结果：无
- 一般结果（链接到某种半合理的冬季降雪预测，而不仅仅是为了广告点击而编造的垃圾）：无
- 差结果（没有结果或明显不相关的结果）：
  - Marginalia：无结果
  - ChatGPT：错误的结果，但当我意外地在问题前加上“User\n”时，它返回了一个指向正确网站的链接（但以一种会让人很难导航到体面结果的方式），所以也许略有不同的提示会伪随机地导致这里有一个尚可的结果？
  - Mwmbl：一堆明显不相关的结果
- 很差结果：无
- 极差结果（链接到故意伪造的预测结果）：
  - Bing：主要是不相关的结果。顶级看似相关的结果是第5个链接，但它似乎是某种诈骗网站，伪造假天气预报并在SEO严重的网站上通过服务广告赚钱
  - Kagi：前4个结果来自Bing第5个链接的诈骗预报网站
  - Google：主要是不相关的结果，#1结果是来自当地铲雪公司的假答案，预测大量降雪和寒冷天气，试图诱骗你不必要地为该年购买铲雪服务。其他结果是充满广告的SEO垃圾

附录：详细查询结果

Download youtube videos

对于我们的第一个查询，我们将搜索“download youtube videos”（Xe建议的搜索词“youtube downloader”返回非常相似的结果）。理想的结果是yt-dlp或围绕yt-dlp的轻量级、免费包装器。yt-dlp是youtube-dlc的一个分支，youtube-dlc是一个现已废弃的youtube-dl的分支，youtube-dl现在似乎很少更新。如果仍然可用，链接到这些较旧的下载器之一似乎也可以。

Google

某个youtube downloader网站。有很多保证，说网站和工具是安全的，因为它们已经过“Norton SafeWeb”检查。与网站互动会提示你安装浏览器扩展程序并启用通知。尝试下载任何视频会给你一个全页弹窗，用于安装名为CyberShield的扩展程序。似乎没有方法可以在不点击试图安装它的东西的情况下关闭弹窗。在点击链接但随后选择不安装CyberShield后，没有视频下载。谷歌搜索“cybershield chrome extension”会返回一个知识卡，写着“Cyber Shield是一个声称是弹窗拦截器的浏览器扩展程序，但在浏览器中显示广告。安装后，此扩展会打开新标签页，显示试图推销软件的广告、推送假软件更新和技术支持诈骗。”，所以CyberShield似乎是恶意软件。
某个youtube downloader网站。与网站互动会导致弹窗提示你下载他们的浏览器扩展程序。将视频URL放入会导致弹到某个诈骗网站，但也会导致视频下载，所以如果小心不要与网站试图诱骗你互动的诈骗打交道，在这里下载youtube视频似乎是可能的
PC Magazine关于如何从youtube下载视频的列表文章。顶级建议是付费下载youtube、VLC（他们说他们尝试时不起作用）、一些每年15美元的软件、一些每年26美元的软件、“FlixGrab”，然后警告说下载器网站通常是诈骗性的，他们不推荐任何下载器网站。文章每个建议有多个广告。
某个youtube downloader网站，带有阴暗的弹窗，试图在你甚至与页面互动之前诱骗你点击广告
某个youtube downloader网站，带有弹窗，试图诱骗你点击诈骗广告
某个youtube downloader网站，带有弹窗，试图诱骗你点击诈骗广告，例如“Samantha 24, vancouver | I want sex, write to WhatsApp | Close / Continue”。点击任何东西（任何按钮，或网站上的任何地方）都试图让你安装名为“Adblock Ultimate”的东西
ZDNet ZDnet列表文章。第一个建议是clipware，显然在安装程序中捆绑了大量恶意软件/广告软件/垃圾软件：https://www.reddit.com/r/software/comments/w9o1by/warning_about_clipgrab/。列表文章充满了广告，有一个自动播放视频
[YouTube视频] 超过2分钟的广告，然后是一个如何购买youtube premium的视频（视频有2M次观看）
[YouTube video] 视频一开始要求用户观看整个视频（某种变现功能？）。视频试图将你引导到某种付费的视频下载软件
[YouTube video] PC Magazine视频说你可能“不需要”下载视频，因为你可以使用分享按钮，然后建议阅读他们的文章（结果#3中的那篇）关于如何下载视频
某个youtube downloader网站，带有诈骗广告。与网站互动会试图让你安装“Adblock Ultimate”
某个youtube downloader网站，带有弹窗，试图诱骗你点击诈骗广告
某个youtube downloader网站，带有诈骗广告

在10个“正常”结果中，有9个试图以某种方式诱骗你安装恶意软件或链接到其他类型的广告诈骗。一个页面没有这样做，但它也没有建议免费下载youtube视频的好选择，而是建议了几个付费解决方案。我们还有三个YouTube视频，所有这些似乎都是SEO博客垃圾的视频等价物。有趣的是，我们没有从谷歌本身得到很多广告，尽管上次我关闭广告拦截器尝试一些谷歌测试查询时发生了这种情况。

Bing

某个youtube downloader网站。这是谷歌（2），带有诈骗网站的广告
[EXPLORE FURTHER ... "Recommended to you based on what's popular"] 某个youtube下载网站，不是我们从谷歌看到的。网站有多个脉动广告，并自我标榜为圣诞“50%折扣”（此搜索在11月中旬进行）。尝试下载任何视频会弹出一个假进度条，上面写着“太慢？尝试[我们的程序]链接”。过了一会儿，出现了一个下载视频的链接，但这是一个诡计，当你点击它时，它会试图安装“oWebster Search extension”。谷歌搜索“oWebster Search extension”表明它是劫持你的浏览器显示广告的恶意软件。前三个命中中的两个是如何安装该扩展程序，其余顶级命中是如何删除此恶意软件。许多删除链接本身是安装其他恶意软件的诈骗。在不安装此恶意软件的情况下，再次点击下载链接会导致一个弹窗，试图让你安装该网站的软件。如果你关闭弹窗并再次点击下载链接，你只会再次获得弹窗链接，所以这个网站似乎是一个纯粹的诈骗，不允许你下载视频
[EXPLORE FURTHER]. 与网站互动会弹出假广告，显示声称想与你聊天的漂亮女性照片。点击视频下载按钮会试图让你安装冒牌广告拦截器，该拦截器显示额外的弹窗广告。不过该网站似乎确实给你提供了视频下载
[EXPLORE FURTHER] 与（3）相同
[EXPLORE FURTHER] 与谷歌（1）相同（那个NortonSafeWeb youtube downloader网站，试图诈骗你）
[EXPLORE FURTHER] 一个将视频转换为MP4的网站。我没有检查该网站是否工作或只是诈骗，因为它甚至不声称让你下载youtube视频
谷歌（1），再次。那个NortonSafeWeb youtube downloader网站，试图诈骗你。
[EXPLORE FURTHER] 一个链接到youtube.com（主页）
[EXPLORE FURTHER] 某个youtube downloader网站，带有弹窗，试图诱骗你点击广告。关闭后显示12个更多广告。有一个诈骗广告，被设计成看起来像youtube下载按钮。如果你滚动过去，会有一个文本框和一个按钮用于尝试下载youtube视频。输入有效的URL会导致错误，说没有该URL的视频。
一个带有下载按钮的巨大卡片。下载按钮是假的，只是带你到该网站。该网站大声宣称该软件不是广告软件、间谍软件等。许多互联网评论者注意到他们的防病毒软件将该软件标记为恶意软件。很多评论还表明该软件效果不好但有时有效。该软件的网站有一个嵌入的YouTube视频，显示“此视频因违反YouTube服务条款而被移除”。奇怪的是，mac和Linux的下载链接不是针对此软件的，实际上根本不下载任何东西，而是youtube-dl的安装说明；如果Windows版本实际上是恶意软件，这可能有意义。Windows下载按钮带你到一个页面，可以下载Windows可执行文件。还有一个链接到某种广告充斥的页面，试图诱骗你点击看起来像普通按钮的广告
PC杂志列表文章
某个youtube downloader程序的广告，声称“今天下载345,764,132次”；在reddit上搜索此产品名称似乎表明它是恶意软件
某种付费下载器软件的广告

这是第一页的结束。

和谷歌一样，没有好结果，很多诈骗和可能不是诈骗但只是围绕开源项目的某种轻量级皮肤的软件，向你收费而不是让你免费使用软件。

Marginalia

一个12年前的答案，建议youtube-dl，链接到一个已被取下并替换为“由于汉堡地区法院的裁决，禁止访问此网站。”的URL
某种SEO文章，就像你在普通搜索引擎上看到的
Leawo YouTube Downloader（我不知道这是什么，但快速搜索至少没有立即表明这是某种恶意软件，不像谷歌和必应的结果）
某种SEO列表文章，就像你在普通搜索引擎上看到的
某个随机软件的错误报告
某个随机博主推荐的“4K Video Downloader”。快速搜索似乎表明这不是诈骗或恶意软件，但它确实将一些功能锁定在付费墙后，因此比yt-dlp或围绕yt-dlp的免费包装器差
一篇关于如何安装和使用yt-dlp的博客文章。博客文章指出它曾经是关于youtube-dl的，但已更新到yt-dlp。
更多向你收费你可以免费获得的东西的软件，尽管在reddit上搜索此软件会出现其破解版
一篇带有过时推荐（如RealPlayer）的列表文章。整个博客似乎充满了垃圾质量的列表文章。
一个用于下载youtube视频的脚本，适用于名为“keyboard maestro”的东西，如果你已经使用该软件，这似乎有用，但如果你不使用该软件，这似乎是解决此问题的糟糕方案。

目前为止最好的结果。第一个链接不起作用，但你可以轻松地从第一个链接到达youtube-dl。我当然不会尝试Leawo YouTube Downloader，但至少它没有诈骗到搜索项目名称主要返回关于该项目是某种恶意软件或诈骗的结果，这比我们从谷歌或必应得到的结果好。而且我们确实得到了yt-dlp的推荐，在结果中有说明，只是一个想帮助尝试下载youtube视频的人的博客文章。

Kagi

1. 那个NortonSafeWeb youtube downloader网站。与网站互动会提示你安装浏览器扩展程序并启用通知。尝试下载任何视频会给你一个全页弹窗，用于安装名为CyberShield的扩展程序。似乎没有方法可以在不点击试图安装它的东西的情况下关闭弹窗
2. 另一个链接到那个NortonSafeWeb youtube downloader网站。不知何故，这个标记为“Dec 20, 2003”，显然表示该网站来自2003年12月20日，尽管这是非常错误的。
3. 某个youtube downloader网站。选择任何视频下载会将你推送到带有诈骗广告的网站。
4. 某个youtube downloader网站。与网站互动会弹出多个链接到诈骗的广告，并且页面想启用通知。然后在广告之上出现一个弹窗，写着“Ad removed”，带有一个详细信息链接。这是另一个广告的诈骗链接。
5. 另一个链接到上述网站
6-7. 在标题为“Interesting Finds”的子部分下，有两个指向GitHub仓库的链接。一个是将youtube视频转录为文本，另一个是使用Google Takeout备份来自Google Photos或你自己YouTube频道的照片
8. 某个youtube downloader网站。
9-13. 在标题为“Blast from thePast”的子部分下，4个不相关链接和一个链接到youtube-dl的GitHub页面，但是2010年版本的archive.org
14. 关于youtube帮助的SEO博客垃圾。有一个链接据称用于“下载YouTube视频的Greasemonkey脚本”，但链接只是指向一个带有诈骗广告的页面
15. 某种向你收费每月5美元下载youtube视频的软件

Mwmbl

某个youtube视频下载网站，但没有其他搜索引擎返回的网站。有一个巨大的广告面板显示“503 NA - Service Deprecating”。下载链接不起作用，只会弹出其他广告面板，然后消失，只留下503“广告”。
用于下载youtube视频的20美元软件
2016年关于如何安装和使用youtube-dl的博客文章。侧边栏有两个低质量广告，似乎不是诈骗，正文中有两个插入的广告，使得与大型搜索引擎的类似结果相比，广告量极低
某个youtube视频下载网站。有一个巨大的横幅，声称它是“唯一100%无广告且不包含弹窗的YouTube Downloader”，这可能不是真的，但该网站确实似乎是无广告且没有弹窗。下载链接似乎确实有效。
关于如何在Linux上安装和使用youtube-dlg（youtube-dl的GUI包装器）的YouTube视频（此查询从Mac运行）。
链接到2007年关于如何下载youtube视频的博客文章，该文章自动转到2020年广告充斥的SEO博客垃圾列表文章，建议很差。文章有两个自动播放视频。Archive.org显示2007年的博客文章有一些合理的选项，所以这并不总是坏结果。
一篇主流网站的博客文章，实际上是试图将你引导到特定视频下载器的赞助文章。在reddit上搜索对此的评论表明，用户认为该应用是浪费钱且不起作用。该网站也充满了其他产品的诈骗性和误导性广告。例如，我尝试点击一个声称可以为你省钱在“产品”上的广告。它加载了一个假的“检查你的计算机”动画，据说检查我的计算机是否兼容该扩展程序，然后是另一个假检查动画，之后我收到一条消息，说我的计算机兼容，我有资格省钱。我所要做的就是安装这个扩展程序。关闭该窗口会打开一个新标签页，写着“Hold up! Do you actually not want automated savings at checkout”，选项是“Yes, Get Coupons”和“No, Don't Save”。点击“No, Don't Save”实际上是一个广告，带你回到一个试图让你安装chrome扩展程序的链接。
那个“Norton Safe Web” youtube downloader网站，但链接错误，链接到声称下载Instagram视频的网站版本，而不是声称下载youtube视频的版本。
链接到Google帮助页面，解释如何下载你自己上传的youtube视频
SEO博客垃圾。它立即有一个弹窗让你订阅他们的时事通讯。关闭后给你另一个弹窗，选项是“Subscribe”和“later”。点击“later”确实会关闭第二个弹窗。关闭弹窗后，文章有说明如何在Windows上安装某个软件。在reddit上搜索对该软件的评论会出现像“This is a PUP/PUA that can download unwanted applications to your pc or even malicious applications.”这样的评论。

基本上与谷歌或必应相同。

ChatGPT

由于ChatGPT期望更对话式的查询，我们将使用提示“How can I download youtube videos?”

第一次尝试，周一上午10:38 PT返回“Our systems are a bit busy at the moment, please take a break and try again soon.”。第二次尝试返回一个答案，说人们不应该在不付费给YouTube Premium的情况下下载视频，但如果你想，可以使用第三方应用程序和网站。接着问题“What are the best third-party apps and websites?”返回另一个警告，说你不应该使用第三方应用程序和网站，然后是对GPT来说讽刺的警告,

I don't endorse or provide information on specific third-party apps or websites for downloading YouTube videos. It's essential to use caution and adhere to legal and ethical guidelines when it comes to online content.

ad blocker

对于我们的下一个查询，我们将尝试“ad blocker”。我们想得到ublock origin。退而求其次，默认阻止广告的广告拦截器。再退而求其次，不是诈骗并且不注入额外广告或自己广告的东西。虽然什么是最好的可能会随时改变，但我看到的没有偏向的比较经常似乎显示ublock origin是最好的或最好的之一，并且ublock origin是免费的并且阻止广告。

Google

“AdBlock — best ad blocker”。折叠线下注明“AdBlock participates in the Acceptable Ads program, so unobtrusive ads are not blocked”，所以这并不阻止所有广告。
Adblock Plus | The world's #1 free ad blocker。页面注明“Acceptable Ads are allowed by default to support websites”，所以这也默认不阻止所有广告
AdBlock。页面注明“ Since 2015, we have participated in the Acceptable Ads program, where publishers agree to ensure their ads meet certain criteria. Ads that are deemed non-intrusive are shown by default to AdBlock users”，所以这并不阻止所有广告
“Adblock Plus - free ad blocker”，与（2）相同，不阻止所有广告
“AdGuard — World's most advanced adblocker!”页面试图向你推销某种付费软件，“AdGuard for Mac”。搜索AdGuard会出现一篇来自此人寻找阻止AdGuard注入广告的广告拦截器的帖子。似乎你可以免费下载它，但如果你不订阅，他们会给你更多广告？
“AdBlock Pro”在safari商店；有应用内购买。看起来你必须付费解锁功能，如阻止视频
[YouTube] “How youtube is handling the adblock backlash”。视频前30秒有15秒广告。视频没有实际内容
[YoutTube] “My thoughts on the youtube adblocker drama”
[YouTube] “How to Block Ads online in Google Chrome for FREE [2023]”；视频下的第一条评论是“your video doesnt [sic] tell how to stop Youtube adds [sic]”。视频中，一个人漫无边际地讲了一会儿，然后谷歌搜索ad blocker extension，然后点击第一个链接（和我们第一个链接相同），说，“If I can go ahead and go to my first website right here, so it's basically officially from Google .... [安装后，当付款屏幕弹出要求你支付30美元或每月或每年费用时]”
“AdBlock for Mobile”在App Store上。在iOS商店评分为3.2星。很多评论表明它实际上不起作用
MalwareBytes ad blocker。快速搜索表明它并不阻止所有广告（不清楚是故意还是因为bug）
“Block ads in Chrome | AdGuard ad blocker”，与（5）相同
[ad] NordVPN
[ad] “#1 Best Free Ad Blocker (2024) - 100% Free Ad Blocker.”似乎立即是诈骗性的，因为它有一个假年份（此查询在2023年11月中旬运行）。这是针对名为TOTAL Ad Block的东西。搜索TOTAL Ad Block会出现表明它是一个诈骗性应用的结果，不允许你取消订阅并且基本上试图偷你的钱 15 [ad] 100% Free & Easy Download - Automatic Ad Blocker。实际上是针对Avast浏览器，而不是广告拦截器。快速搜索显示该浏览器历史上比只运行chromium更不安全，并且它从用户收集异常大量的信息。

没有链接到ublock origin。一些链接到诈骗，但远不如尝试获得youtube下载器时多。很多链接到默认只阻止部分广告的广告拦截器。

Bing

1. [ad] "Automatic Ad Blocker | 100% Free & Easy Download". [链接实际上指向avast secure browser，所以是整个浏览器而不是广告拦截器；根据快速搜索，这似乎是围绕chromium的包装器，

由 mimo-v2.5 模型翻译，花费 48654 tokens

埃隆·马斯克与戴夫·查普尔同台对话文字记录

Sun, 11 Dec 2022 00:00:00 +0000

这是使用OpenAI的Whisper模型转录的埃隆·马斯克与戴夫·查普尔同台视频的文字记录，经手动纠错并标注了观众噪音。

与Twitter短信证据H公开一样，许多文章引用了此事件的部分内容，但这些文章通常遗漏了大量细节，往往对事件过程进行误导性描述。鉴于整个事件篇幅不长，您最好直接观看或阅读原文，而非阅读他人带有误导性的摘要。总体而言，媒体似乎想塑造埃隆极不光彩的形象，导致文章和虚拟推文中出现事实错误。例如，普遍错误报道称，在"我是有钱人，贱人"环节，有人用喇叭声掩盖观众对埃隆的嘘声。但喇叭声实际上出现在前一个人说同样台词时——那是记录到最热烈欢呼的时刻。当埃隆说"我是有钱人，贱人"时，声音弱得多且听不分明，听起来像是嘘声与欢呼的混合。这可能是埃隆获得的最积极的观众反应，因此声称用喇叭掩盖嘘声的说法至少在两方面不准确。另一方面，尽管媒体试图尽可能负面地描绘埃隆，但效果不佳，许多其他环节中枯燥、准确的实况描述，比流传的误导性摘要更令人不适。

视频1
- 戴夫：女士们先生们，为世界首富欢呼吧。
- 观众：[欢呼、鼓掌与嘘声混合；数秒后嘘声压过其他声音并延续至后续发言]
- 戴夫：有欢呼和嘘声，我说
- 观众：[短暂笑声，嘘声持续盖过其他声音]
- 戴夫：埃隆
- 观众：[嘘声持续]
- 埃隆：嘿戴夫
- 观众：[嘘声加剧]
- 埃隆：[嘘声中听不清]
- 戴夫：有争议啊，伙计。
- 观众：[嘘声持续；隐约有欢呼声]
- 埃隆：没料到吧？
- 戴夫：听起来像是你解雇的一些人在台下。
- 观众：[笑声，隐约有掌声]
- 埃隆：[笑]
- 观众：[嘘声再起]
- 戴夫：嘿，等一下。在座嘘声最大的各位
- 观众：[嘘声加剧]
- 戴夫：真够劲[嘘声中听不清]听起来像
- 埃隆：[刚开口就被戴夫打断]
- 戴夫：你们知道吗。所有嘘声的人。我只是指出一个事实。他们的座位真差。[观众嘈杂声中听不清]
- 观众：[微弱笑声]
- 戴夫：都从最上面传来的[听不清]最后时刻的非[听不清]兄弟。嘘——嘘——
- 观众：[稍安静]
- 戴夫：听着。
- 观众：[嘘声再起]
- 戴夫：随便吧。听好了伙计们。这家伙根本没打算死在地球上
- 观众：[笑声与嘘声混合，笑声盖过嘘声]

视频2
- 戴夫：他的整个商业模式就是“去他的地球我要走了”
- 观众：[微弱笑声，微弱嘈杂声]
- 戴夫：随便你们怎么闹。带上我吧兄弟我要去火星了
- 观众：[笑声]
- 戴夫：不管那里有什么样的妞儿，我们都要玩遍
- 观众：[微弱笑声]
- 戴夫：[笑]零重力脱衣舞吧。追随你的梦想贱人金钱会洒满整个房间
- 观众：[微弱笑声]
- 埃隆：[笑]
- 观众：[持续笑声被重新响起的嘘声淹没；隐约有欢呼声]
- 埃隆：感谢，呃，感谢邀请我上台。
- 戴夫：开什么玩笑。我可不会错过这机会。
- 埃隆：[笑声中听不清]
- 观众：[笑声]
- 埃隆：[笑声中听不清]
- 戴夫：火星上第一家喜剧俱乐部应该是我的[观众笑声中停顿]一言为定，马斯克。
- 观众：[微弱笑声与欢呼]
- 埃隆：[听不清]，是的
- 戴夫：你们随便嘘。这家伙去年圣诞节送了我个喷气背包
- 观众：[笑声]
- 戴夫：直接飞过你们房子。让他们嘘蛋去吧[此句笑声中听不清]
- 戴夫：这就是我们放松的方式，所有事都干
- 观众：[微弱笑声，转为观众闲谈]
- 埃隆：[埃隆转身似要面对观众]
- 观众：[嘘声再起]
- 埃隆：戴夫，我该说什么？
- 观众：[嘘声加剧]
- 戴夫：什么都别说。只会破坏气氛。听见那声音了吗埃隆？那是社会动荡的前兆。
- 观众：[微弱笑声，起初隐约有嘘声；嘘声加剧直至被戴夫下句话打断]
- 戴夫：我等不及看你下一个搞垮哪家公司了伙计[听不清]你们嘘声都给我闭嘴。你们还能做点别的。嘘声不是你们能做的最好的事。试试看兄弟。让它成为你们想要的样子。我是你们的盟友。我祝礼堂里每个人平安，享受自由的快乐，追求幸福并感到幸福。阿门。非常感谢旧金山。地球上没有城市曾对我友善过。谢谢。晚安。

视频3 [此时台下观众大量空位]
- 戴夫：[听不清]尽量大声说。你说会更搞笑。准备好了吗？说这句[听不清]你说。来吧。
- 观众：[微弱笑声]
- 可能是克里斯·洛克？：我是有钱人贱人
- 观众：[响亮欢呼，同时可听到舞台上大喇叭声]
- 未知：等等[将麦克风递给埃隆]
- 观众：[笑声]
- 埃隆：[摆姿势]
- 观众：[笑声，笑声中开始夹杂嘘声]
- 埃隆：我是有钱人贱人
- 观众：[有些声响，被舞台喇叭声及后续DJ音乐盖过难以听清；似有嘘声也有欢呼]

视频4
- 戴夫：我的好友塔里布·奎利[观众欢呼]目前被Twitter封禁了。
- 观众：[笑声]
- 戴夫：他回家后[听不清]，奎利。[将麦克风递给埃隆]
- 埃隆：啊哈。Twitter客服在这里。
- 观众：[微弱笑声]
- 埃隆：我们马上处理。
- 观众：[微弱嘘声，后续发言中逐渐增强直至被戴夫打断]
- 埃隆：戴夫，你应该用Twitter。
- 戴夫：如果你。我跟你说件事。等等。电台的，你手机呢？
- 戴夫：听着。多年前，这是真事，我讲两个Twitter趣事然后我们就结束。
- 观众：[微弱笑声]
- 戴夫：多年前，我试着注册Twitter。输入名字时，提示不能用名人名字。
- 观众：[微弱笑声]
- 戴夫：还显示我的名字已被使用，是真的。
- 戴夫：于是我上网查谁在用我名字，结果是个假的戴夫·查普尔。我当时想，搞什么鬼？我正要举报他，但我读了那家伙的推文。很震惊。这家伙，埃隆，搞笑极了。
- 观众：[微弱笑声，有人大喊"没错"]
- 戴夫：所以我想，算了，由他去吧。大家会以为这些搞笑话是我说的，而我根本不用说这些。感觉真棒。每天早上我醒来喝杯咖啡，看假戴夫·查普尔的推文笑。
- 戴夫：但是后来
- 观众：[大声嘈杂，能听到有人说"哇哦"]
- 戴夫：[用手挡舞台灯光以便看清台下，看向观众]喂。别闹了，你们这些反[听不清；许多人报道称此处为"法西斯"，这似乎合理，使整句话意为"反法西斯"]的兄弟？
- 观众：[大声嘈杂，能听到一些嘲笑和嘘声]

由 mimo-v2.5 模型翻译，花费 5797 tokens

Twitter诉马斯克案聊天记录展示材料

Sat, 1 Oct 2022 00:00:00 +0000

这是Twitter诉马斯克案中展示材料H和J的扫描/OCR版本，其中部分对话已解交织并从模糊扫描转换为文本，以便于阅读。

我这样做的目的是为了方便阅读，但阅读后我发现，大多数关于对话内容的报道都存在某种程度的误导。由于文本并不长，如果你对他们的谈话内容感兴趣，我建议你直接阅读完整的原文（在可用范围内——文本明确显示有些对话部分未被包含），而不是阅读各种记者摘录的内容，这些摘录有时是故意误导的，因为选择性引用允许他们编写符合自己议程的故事，有时则是无意中产生误导，因为他们不了解文本中哪些内容值得关注。

如果你想将这些对话与其他高管/领导层的对话进行比较，你可以参考美国司法部诉微软案中出现的微软电子邮件和备忘录以及安然电子邮件数据集。

由于这是通过OCR完成的，可能存在OCR错误。如果你发现错误，请随时联系我。

展示材料H

2022-01-21至2022-01-24
- Alex Shillings [SpaceX / 埃隆的IT专家]: 埃隆-你能正常访问你的Twitter账户吗？我看到一些邮件被放入了垃圾邮件。包括一些密码重置尝试。
- 埃隆: 我最近没试过。
- 埃隆: 正在远离Twitter。
- 埃隆: 我的Twitter账户有发任何东西吗？
- Alex: 没有发推，但我看到一封注销邮件和十几封密码重置邮件。假设是诈骗企图，但想核实一下以确保你仍能访问你的Twitter。
- 埃隆: 是有人想黑我的Twitter。
- 埃隆: 但我启用了双重验证，用的是确认应用程序。
- Alex: 好的，很高兴听到。
- Alex: 是的-通过FaceTime确认了我的身份（哈），他们希望很快能将你的2FA重置为短信验证。现在正在询问更新情况。
- 埃隆: 听起来不错。
- 埃隆: 如果还有问题，我也可以FaceTime他们。
- Alex: 简而言之；你的账户在他们内部被视为高关注度账户。因此他们的团队很难进行此类更改。他们正在处理中...
- 埃隆: 很乐意直接FaceTime。
- 埃隆: 不确定我如何能在这个新手机上使用Twitter，因为我没有用备用码。
- Alex: 现在正在联系他们的信任与安全负责人。
- Alex: 我想我们曾经用你旧手机验证过新手机。
- 埃隆: 哦是的。
- Alex: 他们可以通过禁用你账户的所有2FA来修复，这样你就能登录，然后你可以重新启用。你90分钟后有空让他们协调吗？
- 埃隆: [“喜欢”了上面的消息]
- Alex: 我知道现在情况多变，但EMDesk SpaceX还是你的主要日历吗？我意识到上面有一个1小时后的会议。以防我需要把这次Twitter修复推迟一点。
- 埃隆: 是的。
- 埃隆: 但如果需要，我可以在通话中暂停一下来FaceTime他们。
- Alex: 听起来不错。最理想的是，我发短信给你让他们禁用2FA后登录，然后你可以立即登录并重新启用。不需要FaceTime。
- 埃隆: [“喜欢”了上面的消息]
- Alex: 埃隆-我们准备好做更改了，如果你准备好的话。
- 埃隆: [“喜欢”了上面的消息]
- Alex: 2FA已禁用。请现在尝试登录。
- Alex: 能正常重新登录吗？
- 埃隆: [“喜欢”了上面的消息]
- Alex: 一旦登录，你可以在设置>安全与账户访问>安全>2FA中重新启用它。
- Alex: 建议仅使用应用程序。
- 埃隆: 谢谢！
- Alex: 提醒保存那个备用代码 👍
- 埃隆: [“喜欢”了上面的消息]

2022-03-05
- Antonio Gracias [风险投资人]: 哇...我看到你关于言论自由的推文。搞什么鬼，埃隆...
- 埃隆: 欧盟通过了一项禁止今日俄罗斯和几家其他俄罗斯新闻机构的法律。我们被告知要封锁他们的IP地址。
- 埃隆: 实际上，我觉得他们的新闻相当有趣。
- 埃隆: 很多胡说八道，但有些观点也不错。
- Antonio: 这太他妈疯了...你完全正确。我百分之百同意你。
- 埃隆: 我们应该允许它，正是因为我们讨厌它...这是美国宪法的要义。
- Antonio: 确实如此。
- 埃隆: 言论自由最重要的是，当你讨厌的人在说你认为是胡说八道的话时。
- Antonio: 我百分之百支持你，埃隆。无论如何都要拼到底...这是一个原则，我们需要用生命去捍卫，否则我们就会迷失在黑暗中。
- Antonio: 抱歉说了脏话。我有点激动。
- 埃隆: [“喜欢”了“我百分之百...”]
- 埃隆: [2022-04-26] 在打电话。30分钟后有空。
- Antonio: 好的。我30分钟后打给你。

2022-03-24
- TJ: 你能买下Twitter然后删掉它吗，拜托！xx
- TJ: 美国快疯了。
- TJ: 《巴比伦蜜蜂》被停用真是疯狂。Raiyah和我今天还在聊这事。那他妈就是个笑话。为什么每个人都变得这么清教徒主义？
- TJ: 或者你能买下Twitter然后让它彻底支持言论自由吗？xx
- TJ: 愚蠢的东西太多，都来自Twitter xx
- 埃隆: 也许买下它然后改变它，让它真正支持言论自由 xx
- 埃隆: [“喜欢”了“或者你能买下Twitter...”]
- TJ: 我真心认为社交媒体是现代生活的祸害，其中最糟糕的是Twitter，因为它既是社交平台也是新闻流，所以比TikTok等具有更大的现实影响力。但它很容易被利用，并被激进分子大规模用于社会工程。而这种狗屎正在感染世界。拜托做点什么来对抗觉醒主义。我愿意做任何事来帮忙！xx

2022-03-24至2022-04-06 [与上述对话交织]
- Joe Lonsdale [风险投资人]: 我喜欢你的“Twitter算法应该是开源”的推文-我明天实际上要对GOP政策休会的100多名国会议员发表演讲，这是我正在推动的用于约束疯狂大型科技的想法之一。现在我可以引用你，这样我自己听起来就不那么疯狂了：）。我们的公共广场不应该有任意的、可疑的审查。
- 埃隆: [“喜欢”了上面的消息]
- 埃隆: 绝对是这样。
- 埃隆: 我们现在有的是隐藏的腐败！
- Joe: [“喜欢”了上面的消息]
- [2022-04-04]: Joe：看到持有Twitter股份很兴奋-太棒了。他们说你是“后门男人”哈哈。希望你能影响它。我敢打赌董事会甚至没有完整的报告，也没看到任何关于审查决策和在那里进行的小团体活动的报告，但这些都应该有-董事会里的左翼人士可能想要合理的否认！
- 埃隆: [“喜欢”了上面的消息]
- [2022-04-16] Joe: 哈哈甚至德桑蒂斯州长刚才也给我打电话，告诉我如何帮助你，对那个董事会感到愤怒，说公众都支持你。如果你或你那边有人想和他聊聊，告诉我。如果你们这周末或未来几天在这里，见面会很有趣。
- 埃隆: 哈哈酷。

2022-03-26
- “jack jack” [大概是杰克·多西，Twitter前CEO和Square CEO]: 是的，需要一个新的平台。它不能是一家公司。这就是我离开的原因。
- jack: https://twitter.com/elonmusk/status/1507777913042571267?s,=20&t=8z3h0h0JGSnt86Zuxd61Wg
- 埃隆: 好的。
- 埃隆: 它应该是什么样子？
- jack: 我相信它必须是一个开源协议，由一个不拥有该协议、只推动它的基金会资助。有点像Signal所做的那样。它不能有广告模式。否则，政府和广告商将试图影响和控制它。如果它背后有一个中央集权的实体，它将受到攻击。这并不复杂，只是必须做对，使其对Twitter所发生的事情具有弹性。
- 埃隆: 超级有趣的想法。
- jack: 我五月中旬离开Twitter董事会，然后完全离开公司。我打算做这项工作并纠正我们的错误。Twitter最初是一个协议。它本不应该是一家公司。那是原罪。
- 埃隆: 如果我有能力，我很乐意帮忙。
- jack: 我想在完全清楚之后和你谈这件事，因为你非常关心，明白它的重要性，绝对能以不可估量的方式提供帮助。当年激进分子进来时，我竭尽全力想让你加入我们的董事会，但我们的董事会拒绝了。大约在那个时候，我决定我需要努力离开，尽管这对我来说很难。
- 埃隆: [“喜欢”了上面的消息]
- jack: 你有时间聊聊吗？
- 埃隆: 马上要出门吃晚饭，但可以聊一分钟。
- jack: 我认为主要原因是董事会非常规避风险，认为增加你是更大的风险，我认为这完全愚蠢和错误，但我只有一票，持有3%的公司股份，没有双重股权结构。设定很艰难。我们可以再讨论。
- 埃隆: 我们一定要多讨论。
- 埃隆: 我认为既值得尝试推动Twitter朝更好的方向发展，也值得做一些新的、去中心化的东西。
- jack: 这可能是最好的选择。我只是有疑虑。但是开放的。
- 埃隆: [“喜欢”了上面的消息]

2022-03-26至2022-03-27
- 埃隆致Egon Durban [私募股权；Twitter董事会成员]: 我是埃隆。有空请回电。
- 埃隆: 是关于Twitter董事会的事。
- Egon: 有后续。今天方便的时候我们聊聊。

2022-03-27至2022-04-26 [与上述交织]
- Larry Ellison [Oracle创始人兼高管] 埃隆，我想在接下来一两天和你聊聊...我确实认为我们需要另一个Twitter 👍
- 埃隆: 现在想聊吗？
- Larry: 当然。
- [2022-04-17] 埖隆: 有兴趣参与Twitter交易吗？
- Larry: 有兴趣...当然 👍
- 埃隆: 酷。
- 埃隆: 大概多少金额？不约束你任何事，但交易已经超额认购，所以我必须减少或踢出一些参与者。
- Larry: 十亿...或者你推荐的金额。
- 埃隆: 任何适合你的金额。我建议也许是20亿或更多。这有非常高的潜力，我宁愿要你也不要其他任何人。
- Larry: 我同意它有巨大的潜力...而且会很有趣。
- 埃隆: 绝对是：)
- [2022-04-26] Larry: 既然你认为我应该投入至少20亿...我投入20亿 👍
- 埃隆: 哈哈谢谢你：)

2022-03-27至2022-03-31 [与埃隆·马斯克、Egon Durban、“Martha Twitter NomGov”、Brett Taylor [Salesforce CEO兼Twitter董事会主席]、“Parag” [大概是Twitter CEO Parag Agrawal]的群聊]
- Egon: 大家好，Parag（CEO）、Bret（主席）和Martha（政府关系负责人）-你们和埃隆有联系。他知道我和你们的对话。埃隆-大家对你的参与和加入董事会感到兴奋。下一步是让你和他们三位聊聊，以便我们能快速推进。也许我们能在未来几天内完成🤞
- 埃隆: 谢谢你，Egon。
- Parag: 嘿埃隆-很高兴能直接联系上。很想聊聊！Parag
- Martha: 嘿埃隆，我是Martha，Twitter提名治理委员会主席-知道你和Bret、Parag聊过-很想在你有时间的时候聊聊天-我在欧洲（也听说你得了新冠，希望不严重）
- Parag: 期待很快见面！你能告诉我们未来几天你什么时候能在湾区见面吗？
- Martha: 嘿埃隆，我是Martha，Twitter提名治理委员会主席-知道你和Bret、Parag聊过-我非常想在你有时间的时候聊聊天-我在欧洲但会想办法
- 埃隆: 听起来不错。也许今晚中央时间晚些时候可以？我通常熬夜到凌晨3点左右。
- Martha: 如果你方便，我将在欧洲中部时间上午10点（太平洋时间凌晨1点）打给你，期待见到你。
- 埃隆: 好的。
- Martha: 非常感谢你抽时间，埃隆-请告诉我们你办公室里谁可以和我们的总法律顾问聊聊-睡个好觉！
- 埃隆: 你太客气了。很高兴交谈！

2022-03-27 [与上述交织]
- Brett Taylor: 我是Bret Taylor。请告诉我你今天什么时候有空谈谈。刚和Parag通完话，我知道他今天也急于和你谈谈。全天灵活。
- 埃隆: 今晚晚些时候可以-也许晚上7点？我得了轻微的新冠，所以有点不舒服。
- Bret: 听说很难受-它可能会让你倒下。7点听起来很棒。
- 埃隆: [“喜欢”了上面的消息]

2022-03-27
- Parag: 很想聊聊。请告诉我什么时间方便-我非常灵活。-Parag
- 埃隆: 也许今晚8点左右？
- Parag: 那可以！期待交流。
- 埃隆: [“喜欢”了上面的消息]
- 埃隆: 刚结束特斯拉自动驾驶工程会议。
- Parag: [“喜欢”了上面的消息]

2022-03-27至2022-04-24 [与上述交织]
- “Dr Jabour”: 嗨，E，疼痛缓解了吗？是时候让一位当代的古腾堡来复兴言论自由...并买下Twitter了。
- [2022-04-04] 埖隆: [“喜欢”了上面的消息]
- [2022-04-24] Jabour: 嗨E，看起来一位Twitter董事会成员在手忙脚乱地试图应对你的报价...我很喜欢你的策略，（视频来自我房子在Monica海滩）-Brad
- 埃隆: [“喜欢”了上面的消息]

2022-03-29至2022-04-01 [与上述交织]
- Will MacAskill [有效利他主义运动联合创始人，牛津大学教授，牛津全球优先研究所董事会主席]: 嘿-我在Twitter上看到了你关于Twitter和言论自由的投票。我不确定这是否是你在想的，但我的合作者Sam Bankman-Fried (https://www.forbes.com/profile/sam-bankman-fried/?sh=4de9866a4449) 一直有兴趣购买它，然后让它变得更好。如果你想和他谈谈在这个方向上的合作，他的号码是[已编辑]，他用Signal。
- 埃隆: 他有很多钱吗？
- Will: 这取决于你如何定义“很多”！他身价240亿美元，他的早期员工（有共同价值观）将这个数字提高到300亿。我问了他原则上能贡献多少，他说：“约10-30亿美元很容易-30-80亿美元我可以做到约80-150亿美元是可能的，但需要融资”
- Will: 如果你有兴趣讨论这个想法，我问过了，他说愿意在奥斯汀见你。
- Will: 他通常在巴哈马。我下周可能会去奥斯汀，如果你在的话？
- Will: 那是个开始。
- Will: 你想让我通过短信介绍你们认识吗？
- 埃隆: 你为他担保吗？
- Will: 非常愿意！非常致力于让人类的长期未来顺利发展。
- 埃隆: 好的，当然可以。
- Will: 太好了！会用Signal。
- Will: (Signal不行；改用imessage)
- 埃隆: 好的。
- Will: 另外，如果你想了解Sam，这里是他基金会Future Fund的4月1日推文，我为其提供咨询-我想你可能会喜欢：
- Will: https://twitter.com/ftxfuturefund/status/1509924452422717440?s=20&t=0qjM58KUj49xSGa0qae97Q
- Will: 这是实际的（信息量更大的）发布推文·今年将拨款1亿-10亿美元用于改善人类的未来：
- Will: https://twitter.com/ftxfuturefund/status/1498350483206860801

2022-03-29至2022-04-14
- Mathias Döpfner [Axel Springer CEO兼22%所有者，数字出版商和报纸出版商联邦协会主席]: 你为什么不买Twitter？我们为你运营。建立一个真正的言论自由平台。这将是对民主的真正贡献。
- 埃隆: 有趣的想法。
- Mathias: 我是认真的。可行。会很有趣。
- [2022-04-04] Mathias: 恭喜投资Twitter！快速执行 🤩 我们应该讨论一下我们是否应该加入这个项目吗？我的建议是认真的。
- 埃隆: 当然，乐意聊聊。
- Mathias: 我明天要去迈阿密一周。我们那时或周三聊聊，然后再定？
- 埃隆: 好的。
- [2022-04-06] Mathias: 关于Twitter的简短通话？
- Mathias: # 现状：它是事实上的公共城镇广场，但问题是它没有遵循言论自由原则。=> 所以核心产品相当不错，但 (i) 它不服务于民主，且 (ii) 当前的商业模式已经走进死胡同，这从股价持平就能反映出来。# 目标：让Twitter成为言论自由的全球支柱，一个真正符合第一修正案精神的思想开放市场，并将商业模式转变为广告支持和付费支持的组合 # 行动计划：1. “解决言论自由” 1a) 步骤1：通过大幅减少服务条款（现在有数百页）来使其免于审查，如下：Twitter用户同意：(1) 使用我们的服务发送垃圾邮件或诈骗用户，(2) 宣扬暴力，(3) 发布非法色情内容。🙃 1b) 步骤2：使Twitter抵抗审查 • 通过实施确Twitter长期不会受到审查的措施来确保抗审查能力，无论哪个政府和管理层。• 如何做？继续推进Twitter内部正在开发的去中心化社交网络协议项目（例如BlueSky）。这并不容易，但后端必须运行在去中心化基础设施上，API应该开放（回归本源！Twitter从一开始就因其开放API而起步并发展壮大）。• Twitter将是众多发布和消费内容的客户端之一。• 然后创建一个算法市场，例如，如果你是个雪花（玻璃心），不想看到冒犯你的内容，可以选择另一个算法。2. “解决股价” 业务现状：• Twitter的广告收入稳定增长，目前足以资助运营。• 月活跃用户持平，没有结构性增长 • 股价持平，对现有商业模式缺乏信心和/或
- [2022-04-14] Mathias: 我们《世界报》的主编刚刚接受采访，解释他为什么离开Twitter。他批评的正是你很可能想要改变的东西。我迫不及待想在你准备好时讨论Twitter的未来。太令人兴奋了。
- 埃隆: 有趣！

2022-03-31至2022-04-01 [与Bret Taylor、Parag和埃隆·马斯克的群聊，与上述部分交织]
- 埃隆: 我明天下午2点左右在圣何塞降落，午夜左右离开。我的特斯拉会议是灵活的，所以我可以在那10个小时内的任何时间见面。
- Bret: 你说的“明天”是指周四还是周五？
- 埃隆: 今天。
- Parag: 那10个小时内的任何时间我都可以。
- Bret: 我晚上8:30在奥克兰降落。也许我们9:30左右在某个地方见面？我正在努力看看能否改签从纽约起飞的航班，以便更早降落。
- Bret: 正在努力早降落并降落在圣何塞，这样我们可以在你附近吃晚饭。我会实时向你们俩更新。
- Bret: 好的，成功改签了航班，下午6:30降落圣何塞。正在找一个我们可以私下见面的地方。
- 埃隆: 听起来不错。
- 埃隆: Twitter上的加密货币垃圾信息真的需要被清除。它严重影响用户体验，并且诈骗了这么多无辜的人。
- Bret: 听起来我们确认了晚上7点在圣何塞附近的一个私人住宅见面。我们的助手就后勤事宜联系了Jehn。如果你们中任何人有任何顾虑或想调整，请告诉我。期待我们的对话。
- Parag: 对我来说可以。期待与你们俩本人见面！
- 埃隆: Jehn生了孩子，我决定试着几个月不要助理。
- 埃隆: 我也一样。
- Bret: 地址是[已编辑]。
- Bret: 晚上7点可以吗，埃隆？
- 埃隆: 大概那个时间。可能只能7:30到，但会努力早点到。
- Bret: 听起来不错。我会早点到，因为我的飞机降落得早，但整个晚上都有空，所以你一到我们就可以开始，Parag和我可以先聊聊。
- Bret: 这是我最近开会最奇怪的地方。我想他们是在机场附近找Airbnb，结果有拖拉机和驴子🤷
- 埃隆: 哈哈太棒了。
- 埃隆: 也许Airbnb的算法认为你喜欢拖拉机和驴子（谁不喜欢！）。
- 埃隆: 在路上了。大约15分钟后到。
- Bret: 还有废弃的卡车，以防我们见面后想开始餐饮业务。
- 埃隆: 听起来像后世界末日电影的布景。
- Bret: 基本上是的。
- 埃隆: 晚餐很棒：)
- Bret: 真的很棒。驴子和反乌托邦的监视直升机增添了氛围。
- 埃隆: 肯定是会载入史册的一次，哈哈。
- Parag: 因多种原因而难忘。真的很享受。

2022-03-31至2022-04-02 [与Will MacAskill、“Sam BF”和埃隆·马斯克的群组信息，与上述交织]
- Will: 嘿，介绍你们俩认识，Sam和埃隆。你们俩都对游戏、让非常长远的未来顺利发展以及购买Twitter感兴趣。所以我认为你们会有一场愉快的对话！
- Sam: 很高兴认识你埃隆-乐意随时聊聊Twitter（或其他事情）！
- 埃隆: 嗨！
- 埃隆: 也许我们今天晚些时候可以聊聊？我在德国。
- Sam: 我在东部时间-可以在今天德国时间晚上7点到10点之间聊吗？

2022-04-03至2022-04-04 [与Jared Birchall、“Martha Twitter NomGov”和埃隆·马斯克的群聊]
- 埃隆: 正在连接Martha（Twitter提名/治理委员会）和Jared（管理我的家族办公室）。
- 埃隆: Jared，有重要文件需要签署，以便我希望能加入Twitter董事会。
- Martha: 谢谢埃隆-感激不尽-嗨Jared-我会让Sean Edgett与你联系，他是Twitter的总法律顾问。
- Jared: 听起来不错。请让他随时打电话或发送文件到我的邮箱：[...]
- Martha: 👍
- Martha: 埖隆-你有空聊5分钟吗？
- Martha: 我想向你转达我们刚结束的会议。
- 埃隆: 当然。
- [2022-04-04] Martha: 早上好埃隆-你醒来就面对了很大的风暴...很高兴听到Bret说你同意我们今天可以快速推进此事-Jared，我猜是你我应该把他们讨论的停止协议发给你？它和Egon及Silver Lake承担的相同。如果应该发给其他人请告诉我-我们真的希望在未来几小时内完成。谢谢
- 埃隆: 你可以发给我们俩。
- 埃隆: 抱歉，Bret打电话时我刚醒来！我凌晨4点从柏林抵达。
- Martha: 无需道歉。那我们怎么发送？如果是邮件，请告诉我地址。
- 埃隆: 短信或邮件。
- 埃隆: 我的邮箱是[已编辑]。
- Martha: 👍
- Martha: <附件- application/vnd.openxmlformats-officedocument.wordprocessingml.document-Twitter合作协议-草案2022年4月4日.docx>
- Martha: 在这里-也通过邮件发送了。和Egon的相同，但更精简。
- Martha: 只是抄送你们俩确认已发送协议-根据你们的对话，非常希望快速完成此事。

2022-04-03
- Bret: 刚和Martha通完话。请告诉我你今天或明天什么时候有时间谈谈。听起来你可能要上飞机了—灵活。
- 埃隆: 听起来不错。我正要从柏林飞往奥斯汀，但明天随时可以聊。
- Bret: 我明天全天有空。有空时发短信。计划和妻子去徒步，只有那时我的信号可能不太好。期待交流。也期待与你合作！
- 埃隆: [“喜欢”了上面的消息]

2022-04-03 [与上述交织]
- Parag: 我想你已经听说了Martha和Bret的消息。我对这个机会感到超级兴奋，期待紧密合作，并找到方法最有效地利用你的时间来改善Twitter和公共对话。
- 埃隆: 听起来很棒！

2022-04-03
- jack: 听说有好消息正在发生。
- 埃隆: [“喜欢”了上面的消息]

2022-04-04
- Ken Griffin [Citadel CEO]: 太棒了！！
- 埃隆: [“喜欢”了上面的消息]

2022-04-04
- Bret Taylor: 嘿，你有空吗？
- Bret Taylor: 鉴于SEC文件，希望尽快通话协调沟通。你回来后请尽快打电话。

2022-04-04 [与上述交织]
- [已编辑]: 恭喜！！上面那篇文章☝️ [似乎指 https://www.revolver.news/2022/04/elon-musk-buy-twitter-free-speech-tech-censorship-american-regime-war/] 列举了一些可能发生的事情：第一步：指责平台及其用户第二步：协调施压运动第三步：蓝V用户外流第四步：平台封禁 “但这不会容易。这将是一场战争。让战斗开始吧。”
- [已编辑]: 这将是一场微妙的游戏，让右翼分子重新回到Twitter上，并如何驾驭它（特别是老板你自己，如果你愿意的话）我也会尽早制定标准，但让一个具有敏锐文化/政治观点的人担任实际执行的副总裁。
- [已编辑]: 布莱克·马斯特斯那种类型的人。

2022-04-04至2022-04-17 [与上述交织]
- Egon Durban: 嗨-如果你有几分钟，请随时打电话？飞往英国。
- 埃隆: 刚和Bret通完话。他的电话把我叫醒了哈哈。凌晨4点从柏林抵达。
- Egon: 🙏
- [2022-04-17] 埖隆: 你在给摩根士丹利打电话说我的坏话...

2022-04-04
- 埃隆致Jared Birchall: 请和Martha谈谈文件的事。
- Jared: 好的。

2022-04-04
- Bret Taylor: 你有五分钟时间吗？
- 埃隆: 当然。

2022-04-04
- 埃隆致Parag: 如果你想聊，我很乐意。
- Parag: 那将很有帮助。你有空时请给我打电话。
- 埃隆: 正在和Jared通电话。一结束就打给你。
- Parag: [“喜欢”了上面的消息]

2022-04-04
- “Kyle”: 所以你现在能把我们从Twitter监狱里放出来了吗哈哈
- 埃隆: 我没有那个能力。
- Kyle: 哈哈我知道我知道。但大动作啊，很高兴看到。

2022-04-04 [与Egon Durban、“Martha Twitter NomGov”、Brett Taylor、Parag Agrawal和埃隆·马斯克的群聊，与上述交织]
- 埃隆: 感谢你们考虑让我加入Twitter董事会，但经过仔细考虑，我目前的职务承诺使我无法成为一名有效的董事会成员。未来可能会有变化。埃隆

2022-04-04 [与上述部分交织]:
- Joe Rogan: 你要把Twitter从热衷审查的暴民手中解放出来吗？
- 埃隆: 我会提供建议，他们可能会也可能不会采纳。

2022-04-04
- Bret Taylor: https://twitter.com/trungtohan/status/1510994320471429131?s=10&t=qrv_fOhTfUzRVDe_IbJKlQ
- 埃隆: [“笑”了上面的消息]

2022-04-04至2022-04-05 [与上述交织]
- Parag: 你应该在邮箱里收到了更新后的协议。我有空聊天。
- 埃隆: 批准了。
- Parag: [“喜欢”了上面的消息]
- Parag: 有几分钟聊天吗？我渴望快速推进。
- 埃隆: 当然，我正在SpaceX发动机评审会议上。
- Parag: 之后请给我打电话。
- Parag: 我很高兴地宣布，我们将任命 @elonmusk 加入我们的董事会！通过近几周与埃隆的对话，我清楚地认识到他将为我们的董事会带来巨大价值。为什么？最重要的是，他既是这项服务的狂热支持者，也是其强烈的批评者，这正是Twitter和董事会为了我们的长期发展所需要的。欢迎埃隆！
- 埃隆: 听起来不错。
- 埃隆: 马上发布？
- Parag: https://twitter.com/paraga/status/1511320953598357505?s=21&t=g9oXkMyPGFahuVNDKcoBa5A
- 埃隆: 酷。
- Parag: 超级兴奋！
- 埃隆: 我也一样！
- 埃隆: 刚和杰克进行了一次很棒的对话！你今晚晚些时候有空聊吗？
- Parag: 有空，什么时间？
- 埃隆: 最好能解除永久封禁，除了垃圾邮件账户和明确鼓吹暴力的账户。
- 埃隆: 加州时间晚上7点？或者之后任何时间。
- Parag: 7点可以！回头聊。
- 埃隆: 几分钟后打回给你。
- Parag: [“喜欢”了上面的消息]
- 埃隆: 总结得相当好。
- 埃隆: https://twitter.com/stevenmarkryan/status/1511489781104275456?s=1O&t=LprG6-7KefKLzNX133IpjQ

2022-04-05 [与Jared Birchall、“Martha Twitter NomGov”和埃隆·马斯克的群聊]
- Martha: 我非常高兴你加入董事会。对于第一份协议的变动我感到抱歉-我不擅长管理律师。我真的很期待见到你。
- 埃隆: 谢谢Martha，我也一样。

2022-04-05 [与上述交织]
- Bret: 很高兴与你合作，并感激事情进展顺利。
- 埃隆: 我也一样。

2022-04-05 [与上述交织]
- jack: 感谢你加入！
- jack: https://twitter.com/jack/status/1511329369473564677?s=21&t=DdrUUFvJPD7Kf-jXjBogIg
- 埃隆: 绝对的。希望我能有所帮助。
- jack: 巨大的帮助。Parag是一位出色的工程师。董事会很糟糕。随时愿意与你谈论任何你想谈的事情。
- 埃隆: 什么时候适合保密谈话？
- jack: 随时都可以。
- 埃隆: 谢谢，谈话很棒！
- jack: 永远如此！我不能更高兴你做这件事了。我期盼已久。当得知这终于成为可能时，我非常激动。
- 埃隆: [“喜欢”了上面的消息]
- 埃隆: 如果我做了什么蠢事或者没做什么，请一定要直言不讳。我将不胜感激。
- jack: 我信任你，但绝对会的。
- 埃隆: [“喜欢”了上面的消息]
- jack: https://twitter.com/MattNavarra/status/1511773605239078914
- jack: 看起来在绝望的泥潭里有一个“认证”账户。https://m.facebook.com/Elonmuskoffifref=nf&pn_ref=story&rc=p (还推广加密货币！)
- 埃隆: 哈哈。
- [2022-04-26] jack: 我想确保Parag在交易完成前尽一切努力实现你的目标。他在被赋予明确方向时非常擅长完成事情。让我、你和他通个电话讨论下一步行动并明确需要什么是否合理？这样他就能快速行动并理清。大家目标一致，这甚至会更有帮助。
- 埃隆: 好的。
- jack: 太好了！我会安排。我不会让它失败，会尽一切努力。这太关键了，关乎人类。
- 埃隆: 绝对是。
- jack: <附件-图片/jpeg-屏幕截图2022-04-226日15.05.00.jpeg>
- jack: 我整理了一份草案清单，以使讨论更高效。目标是围绕1）我们要解决的问题，2）长期优先事项，3）短期行动达成一致，都使用你提到的更高层次指南。想想你会增加/删减什么。解决这个问题会提高速度。
- jack: 这是会议链接，你时间晚上7点。
- jack: [会议URL]
- 埃隆: 很好的行动清单。
- jack: 我们在Hangout上，等你准备好了随时开始。不着急。只是在完善文档。
- 埃隆: [“喜欢”了上面的消息]
- 埃隆: 它要求我登录谷歌账户。
- 埃隆: 你和我完全一致。Parag行动太慢了，试图取悦那些无论如何都不会满意的人。
- jack: 至少现在很清楚你们无法共事了。这很明确。
- 埃隆: 是的。

2022-04-06
- Ira Ehrenpreis [风险投资人]: 如果你计划加入提名/治理或薪酬委员会，告诉我，我可以给你一些建议！哈哈！🤪
- 埃隆: 哈哈，我甚至不想加入Twitter董事会！他们极力推动我加入。
- Ira: 你是个软心肠！😂
- Ira: 而且你已经让他们尝试编辑推文功能了！哦是的...它其实已经在开发中了。当然。
- 埃隆: 它实际上已经在开发中了，但我不知道。

2022-04-06至2022-04-08
- Justin Roiland [《瑞克和莫蒂》联合创作者]: 我他妈爱你成为Twitter的大股东。我的朋友David和Daniel有一个验证身份的程序，连接到Twitter会很好。就是说，如果人们选择使用它，它可以验证他们是真实的人而不是喷子农场。我应该介绍你们认识。
- 埃隆: 我只拥有Twitter 9%的股份，所以并不控制公司。
- 埃隆: 会向Parag（CEO）提出身份验证问题。

2022-04-06至2022-04-14
- Gayle King [CBS《今早》联合主持人，《奥普拉杂志》编辑]: 我是Gayle！你想我了吗（笑）你准备好和我坐下来好好聊聊了吗！太多要讨论了！特别是你的Twitter动作...我需要做些什么？？？另外我喜欢Twitter编辑功能带24小时时间限制...我们都会在气头上说一些后悔想收回的话...
- 埃隆: Twitter编辑按钮即将推出。
- Gayle: 整个Twitter事件被过度放大了。
- 埃隆: 拥有约9%的股份并不等于控制。
- Gayle: 我从没认为...而且我数学不好。
- 埃隆: Twitter应该向中间靠拢，但Parag在我到来之前就认为应该如此。
- 埃隆: [“笑”了“我从没认为...”]
- [2022-04-14] Gayle: 埖隆！你要买Twitter还是出价买Twitter 哇！现在你不觉得我们应该面对面坐下来吗现在的孩子们说这是一种“黑帮举动”我不知道股东怎么会拒绝...就像我说的，你和班上其他孩子不一样....
- 埃隆: [“喜欢”了上面的消息]
- [2022-04-18] 埖隆: 也许奥普拉有兴趣加入Twitter董事会，如果我的报价成功的话。关于人性的智慧和知道什么是对的，比所谓的“董事会治理”技能重要得多，根据我的经验，后者几乎毫无意义。

2022-04-07至2022-04-08 [与上述交织]
- Parag: 围绕这一点有很多想法值得探索-甚至比这摩擦更小的。
- 埃隆: 我有个想法可以一举两得。
- 埃隆: 对了，你的邮箱是什么？
- Parag: [...]
- Parag: 你下周能虚拟参加员工问答环节吗？我的行程导致延迟太久，而且只有约10-15%的听众会亲自到场，所以无论如何我们会为虚拟优化。下周三/四太平洋时间上午11点对你来说哪天方便进行45分钟的视频问答？-否则我可以建议其他时间。试图最大化跨全球时区的参与度。
- Parag: 下次交谈时很想听听更多-你明天有空吗？
- 埃隆: 当然。
- 埃隆: 听取Twitter工程团队的最新进展会很好，这样我的建议就不会那么愚蠢。
- Parag: 是的-会在问答之前安排一次产品+工程对话-他们说，我预计大多数问题不会深入具体想法/深度-而是更多围绕你对Twitter未来的看法、为什么它重要、你个人为什么想参与、你希望看到什么改变...-但也有一些来自那些不高兴你参与并且通常因为某种原因不喜欢你的人。正如你昨天所说，目标是让人们直接听你说话，而不是根据媒体故事对你做假设。下周四太平洋时间上午11点进行问答可以吗？
- 埃隆: 太平洋时间周三上午11点很棒。
- 埃隆: 确实如此。周四太平洋时间上午11点可以。
- Parag: 好的酷。那么将确认周三太平洋时间上午11点与少数工程和产品负责人进行交谈。周四太平洋时间上午11点进行AMA。
- Parag: 另外：我发给公司的关于AMA的邮件已经泄露了+内部Slack消息有很多泄露：https://www.washingtonpost.com/technology/2022/04/07/musk-twitter-employee-outcry/ -我认为很大一部分沉默的多数对你加入董事会感到兴奋，所以这不具有代表性。乐意讨论-这些都不意外。
- 埃隆: 黄色。
- 埃隆: *太棒了（该死的自动更正！）
- 埃隆: 如预期。是的，同步一下会很好。我明天晚上或这个周末任何时间都可以。我喜欢我们的对话！
- Parag: 明天太平洋时间下午5:30之后我完全灵活-告诉我什么时间合适。是的，这是预期的-我认为这有助于推动公司向积极方向发展。尽管内部动荡-我认为这对推动公司前进非常有帮助。
- 埃隆: 太棒了！
- 埃隆: 我有很多想法，但如果你觉得我逼得太紧就告诉我。我只想让Twitter变得尽可能棒。
- Parag: 我想听听所有的想法-然后我会告诉你哪些我会推进，哪些不会。以及为什么。
- Parag: 在这个阶段-只是花时间和你在一起很好。+让我的产品和工程团队与你交流，以便双方吸收信息。
- 埃隆: 我想了解Twitter代码库的技术细节。这将帮助我评估我的建议有多愚蠢。
- 埃隆: 我写了20年的重型软件。
- Parag: 我曾是CTO，在我们的代码库中待了很长时间。
- Parag: 所以我可以回答你很多问题。
- 埃隆: 我与能够进行硬核编程的工程师交流比与项目经理/MBA类型的人交流效果好得多。
- 埃隆: [“喜欢”了“我曾是CTO...”]
- 埃隆: 🔥🔥
- Parag: 在下次交谈时-把我当作工程师而不是CEO，看看我们能走到哪里。交谈之后我会知道谁可能是最适合连接你的人。
- 埃隆: 坦白说，我讨厌做管理类工作。我其实觉得任何人都不应该成为任何人的老板。但我喜欢帮助解决技术/产品设计问题。
- 埃隆: 你说了算！
- Parag: 期待明天的交谈。你喜欢日历邀请发送到你的邮箱地址吗？
- 埃隆: [“喜欢”了上面的消息]
- 埃隆: 我已经把两个日期放在我的日历上了，但给我补充资料也没问题。
- Parag: 如果你想聊聊Twitter的工程方面，我现在就有空。告诉我！
- 埃隆: 大约45分钟后打电话？
- Parag [“喜欢”了上面的消息]
- 埃隆: 稍后打回。
- 埃隆: <附件• 图片/png-屏幕截图2022年4月8日晚上10:10:09.png>
- 埃隆: 我真受够了这种东西。
- Parag: 我们应该发现这个。
- 埃隆: 是的。

2022-04-09至2022-04-24
- Kimbal Musk [埃隆的弟弟，The Kitchen Restaurant Group所有者]: 我有一个区块链社交媒体系统的想法，可以同时处理支付和类似Twitter的短文本消息/链接。你必须支付少量费用来注册你链上的信息，这将消除绝大多数垃圾邮件和机器人。没有喉咙可以扼杀，所以言论自由得到保证。
- Kimbal: 谜题的第二部分是一个大规模的实时数据库，内存中保存所有区块链消息的副本，以及你、你的关注者和你关注的人发送或接收的所有消息。
- Kimbal: 第三部分是手机上类似Twitter的应用程序，访问云端数据库。
- Kimbal: 这可能会非常庞大。
- Kimbal: 我想了解更多。我深入研究了Web3（不是太多加密货币），投票权非常强大且经过验证。在这里也可以做很多事。
- 埃隆: 我认为需要一家基于区块链并包含支付功能的新社交媒体公司。
- Kimbal: 会让他们用与服务相关的代币支付吗？你必须在钱包中持有代币才能发推。不一定贵，它会随着时间增值。
- Kimbal: 区块链防止人们删除推文。有好有坏，但让游戏开始吧！
- Kimbal: 如果你使用自己的代币，你就不需要广告，这是一种付费使用的服务，但价格很低。
- Kimbal: 随着规模扩大，它将成为一个巨大的业务，纯粹造福用户。我讨厌广告。
- 埃隆: [“喜欢”了上面的消息]
- Kimbal: 有一些好的广告。感兴趣用户（仅当您想时）的投票组成部分可以对增加价值的广告进行投票。广告商必须质押大得多的代币，但除此之外广告没有费用。它将激发创造力，广告可以政治不正确/艺术/激进主义/慈善事业。
- Kimbal: 投票权也可以众包踢出骗子。当我看到有人宣传你赠送比特币的骗局时，真让我抓狂。有很多坏人。
- [2022-04-24] 埖隆: 你想参与Twitter交易吗？
- Kimbal: 我们明天讨论吧。
- 埃隆: 好的。
- Kimbal: 我经常可以从我的团队中抽身。明天下午会发短信，如果你有空我们可以见面。
- 埃隆: 好的。

2022-04-09 [与上述交织]
- Parag: 你有权发推说“Twitter要完了吗？”或任何其他关于Twitter的话-但我的责任是告诉你，这在当前情况下无助于我改善Twitter。下次我们谈话时，我想向你说明目前的内部干扰程度，以及它如何损害我们工作的能力。我希望AMA能帮助人们了解你，理解你为什么相信Twitter，并信任你-我希望公司能变得更加坚韧，不受干扰，但我们目前还没有达到那个水平。
- 埃隆: 你这周完成了什么？
- 埃隆: 我不加入董事会了。这是浪费时间。
- 埃隆: 将提出将Twitter私有化的报价。
- Parag: 我们能聊聊吗？

2022-04-09至2022-04-10 [与上述交织]
- Bret: Parag刚才给我打电话，提到了你们的短信对话。你能谈谈吗？
- 埃隆: 请期待私有化要约。
- Bret: 我看到了短信内容。你能给我五分钟时间理解一下背景吗？我目前还不...
- 埃隆: 通过和Parag聊天来修复Twitter行不通。
- 埃隆: 需要采取激烈行动。
- 埃隆: 作为一家上市公司很难做到这一点，因为清除虚假用户会让数字看起来很糟糕，所以重组应该作为一家私营公司进行。
- 埃隆: 杰克也是这么认为的。
- Bret: 你能花10分钟和我谈谈这个问题吗？自从你加入董事会以来已经大约24小时了。我明白你的观点，但只是想理解一下突然的转变，并确保我深入理解你的观点和前进道路。
- 埃隆: 我马上要起飞了，但明天可以谈。
- Bret: 谢谢你。
- Bret: 嘿-今晚能谈谈吗？我看到了你的推文，更迫切地想了解你的前进道路。
- [第二天] Bret: 确认你昨天与Parag的短信，你拒绝加入董事会。这将在我们明天的8-K文件中体现。我已要求我们的团队今天将草案发送给你的家族办公室。我期待今天的谈话。
- 埃隆: 听起来不错。
- 埃隆: 在我看来，将Twitter私有化、重组并重返公开市场更好。这也是杰克与我交谈时的观点。

2022-04-12
- Michael Kives [好莱坞人才经纪人]: 明天有空在温哥华见Philippe Laffont吗？
- 埃隆: 也许吧。
- Michael: 什么时间最好？
- Michael: 任何时间最好？
- 埃隆: 他到底想要什么？
- Michael: 有一些关于Twitter的想法拥有特斯拉十亿美元曾参与最后两轮SpaceX融资 -并且想未来参与Boring Company（我告诉他帮助招聘）你真的可以在你的酒店待20分钟他非常聪明，好人。
- 埃隆: 好的，他今晚可以过来。香格里拉酒店1001房间。
- Michael: 需要给你找个好助理！我要去睡了我会告诉Philippe今晚降落时给你发邮件，以防你还醒着想见面。
- Michael: https://twitter.com/sbf_ftx/status/1514588820641128452?s=21&tZ4pA_Ct35ud6M60g3ng
- Michael: 和Sam Bankman-Fried一起做这个可能很酷。
- [2022-04-28] 埖隆: Twitter显然不会变成某种右翼疯人院。目标是尽可能广泛地包容。为绝大多数美国人做正确的事。
- Michael: [“喜欢”了上面的消息]

2022-04-13至2022-04-15
- 埃隆致Bret: 经过几天的深思熟虑-这显然是一个极其严肃的问题-我决定推进将Twitter私有化。我今晚将给你发送报价函，明早将公开。如果你有任何问题，乐意将你与我的团队联系。谢谢，埃隆
- Bret: 已收到。
- Bret: 确认我收到了你的邮件。另外，请使用 [...] 作为我的个人邮箱。
- 埃隆: 会的。
- [2022-04-14] Bret: 埖隆，正如你在我们的新闻稿中看到的，董事会已收到你的信函，正在评估你的提案，以确定其认为对Twitter及其所有股东最有利的行动方案。我们将在完成这项工作后与你联系。Bret
- 埃隆: 听起来不错。
- [2022-04-17] Bret: 埖隆，我只是确认一下，董事会正在认真审查你信中的提案。我们正在尽快

由 mimo-v2.5 模型翻译，花费 47956 tokens

未来学家的预测方法与准确性

Mon, 12 Sep 2022 00:00:00 +0000

我一直在阅读许多预测，这些预测旨在探讨人类在未来10到50年甚至更长时间内可能面临的问题，以便人们能够在这些关键领域工作。我好奇这些对未来的预测究竟有多准确。由于预测的时间跨度如此之远，当今做出这类预测的人中只有极少数有实际记录可循，因此，若要评估哪些预测是合理的，我们需要寻找记录之外的依据。

本文思路是基于独立选定的一组预测者（维基百科的知名未来学家列表¹）的预测进行研究。这些预测的时间足够长，可以评估其效果，从而理解哪些预测技术有效，哪些无效。这样我们就可以（主要在未来的文章中）评估使用类似方法的预测的可信度。

不幸的是，从独立选择的列表中，每位预测者的记录都很差。而抽查其他未来学家的一些预测后发现，未来学家们的预测记录往往相当糟糕。因此，为了对比有效的技术和无效的技术，我从记忆中选取了一些有不错记录的预测者，这是一个非独立的来源，引入了许多潜在偏差。

让我比通常更有信心的一点是，我在完成本文的评估并写下98%的内容之前，避免阅读对预测方法的独立评估。在阅读其他人的评估后，我发现我与特特洛克（Tetlock）的《超级预测者》（Superforecasting）在哪些方法有效、哪些无效的看法大致一致，尽管我们使用了完全不同的数据集。

具体而言，那些热衷于“宏大理念”、用少数几个大锤子套用在每个预测上，并且对特定主题的理解仅限于“鸡尾酒会想法”水平的人，无论他们偏爱的宏大理念是否正确，其预测效果通常很差。一些“宏大理念”的例子包括“环境末日即将来临，超级保护主义将渗透一切”、“经济增长将很快创造近乎无限的财富”、“摩尔定律极其重要”、“量子力学极其重要”等。表现不佳的预测者的另一个共同特征是，他们几乎从不认真评估过去的预测错误，这使得提升他们的直觉或方法变得不可能（除非他们私下进行）。相反，他们常常挑选几个准确或至少听起来与准确预测模糊相似的例子，以此向他人兜售他们的下一代预测。

相比之下，那些拥有（相对）准确预测的人对问题有深刻理解，并且往往有从过去的预测错误中吸取教训的记录。由于本文与特特洛克研究的数据集存在差异，这里的细节相当不同。我发现相对准确的预测者拥有深厚的领域知识，并且隐含地接触到了大量信息，他们能有效过滤这些信息以做出好的预测。特特洛克研究的是那些对广泛领域做出预测的人，这些领域通常超出了他们的专业范围，因此他发现的是，这些人深入钻研数据并深刻理解数据的局限性，从而做出相对准确的预测。但是，尽管人们运作方式的细节不同，但在高层次上，真正深入特定知识的做法是一致的。

由于本文篇幅很长，本文将包含每个预测者的非常简短的总结，然后是对每个预测者的中等长度总结。接着，我们将总结哪些技术和风格有效，哪些无效，完整的预测评分细节以及与其他评估者的比较将附在附录中。

雷·库兹韦尔（Ray Kurzweil）：准确率7%
- 依赖于：指数或超指数增长必然持续；基于过去趋势的延续预测未来；乐观地“上调”事实和对数据的解释；关于技术和计算机的“万能药思维”（panacea thinking）；在预测主题上使用“鸡尾酒会想法”级别的理解
雅克·弗雷斯科（Jacque Fresco）：预测大多过于遥远而无法判断，但对于可判断的预测似乎准确率极低
- 依赖于：关于人性、科学方法和计算机的万能药思维；确信人类价值观与弗雷斯科的价值观一致
巴克敏斯特·富勒（Buckminster Fuller）：预测太少无法评分，但对于可判断的预测似乎准确率极低
- 依赖于：在预测主题上使用“鸡尾酒会想法”，其程度即使对未来学家来说也极为极端
米奇奥·卡库（Michio Kaku）：准确率3%
- 依赖于：关于“量子”、计算机和生物技术的万能药思维；这些领域的指数增长
约翰·奈斯比特（John Naisbitt）：预测过于模糊无法评分；在大局准确性方面结果参差不齐，可能比这里除了迪克森（Dixon）之外的任何未来学家都好，但这与给出其他预测者的百分比不具可比性
- 依赖于：基于报纸分析的趋势预测
杰勒德·K·奥尼尔（Gerard K. O'Neill）：预测大多过于遥远而无法判断，但对于可判断的预测似乎准确率极低
- 依赖于：与其他未来学家错误做法相反的方式，可描述为基于近期涨幅较大的价格“试图低买高卖”；在奥尼尔认为被低估的领域乐观地“上调”事实和对数据的解释；在预测主题上使用“鸡尾酒会想法”
帕特里克·迪克森（Patrick Dixon）：准确率10%；在“大局”预测方面也远优于这里的任何其他未来学家（但与非未来学家预测者如耶格（Yegge）、盖茨（Gates）等不在同一水平）
- 依赖于：推断现有趋势（但乐观上调的程度远低于这里几乎任何其他未来学家）；指数增长；“第二千年思维”和“第三千年思维”之间的鲜明分野
阿尔文·托夫勒（Alvin Toffler）：预测大多过于模糊无法评分；在非模糊预测中，托夫勒有一种不可思议的本事，即在一个趋势即将停止时，将其标记为非常重要且可能持续
- 依赖于：已发生的指数增长必然持续；各种受指数增长预期启发的“鸡尾酒会想法”混合体
史蒂夫·耶格（Steve Yegge）：准确率50%；对未来的总体愿景通常相当准确
- 依赖于：深厚的领域知识，流入亚马逊和谷歌的信息流；观察正在兴起的事物
布莱恩·卡普兰（Bryan Caplan）：准确率100%
- 依赖于：接受人们对错误赌注/预测的“另一面”，并且主要依赖于做出非常保守的预测
比尔·盖茨/内森·梅尔沃德（Nathan Myhrvold）/旧微软领导层：预测时间框架过于模糊无法评分，但对未来的愿景以及各种技术的相对重要性有着不可思议的准确性
- 依赖于：深厚的领域知识，许多拥有深厚领域知识的人之间的讨论，流入微软的信息流

雷·库兹韦尔

雷·库兹韦尔声称其预测准确率为86%，这一说法经常被重复，例如彼得·迪亚曼迪斯（Peter Diamandis）所说：

自1990年代以来，库兹韦尔做出了147项预测，其中完全正确的有115项，另有12项被证明“基本正确”（相差一两年），这使得他的预测达到了惊人的86%准确率。

这篇文章的标题是“谷歌高管声称奇点将在2029年之前发生”，开头写道：“谷歌工程总监雷·库兹韦尔是一位著名的未来学家，拥有高命中率的准确预测记录。”它引用了维基百科上的这份预测列表。86%对于非显而易见的、重大的未来预测来说是一个惊人的好记录。这个说法似乎是其他人声称库兹韦尔具有高准确率的来源，例如这里和这里。我自己检查了迪亚曼迪斯引用的维基百科列表的准确率（使用archive.org获取他文章发表时的列表），发现准确率较低，为7%。

从根本上说，导致库兹韦尔许多预测失败的原因是，他依赖于这样一个观点：在他能想象到的几乎每个领域，以及在一些确实有重大增长的领域，增长都以指数级和加速方式进行，但增长并未达到他的预期。他的基本论点是，由于技术进步（改进技术等），我们不仅有指数增长，而且技术进步的反馈会加速指数增长，因此我们在许多重要领域（如计算机性能）拥有双指数增长（如e^x^x，不是2*e^x）。他反复谈论这种不可阻挡的指数或超指数增长，例如，他在1990年的书《智能机器时代》（The Age of Intelligent Machines）中说“我们可以对未来做出的一个可靠预测是，变化的步伐将继续加速”，并在1999年的书《精灵机器时代》（The Age of Spiritual Machines）、2001年关于加速技术增长的文章“加速回报定律”（The Law of Accelerating Returns）、2005年的书《奇点临近》（The Singularity is Near）等中再次讨论了这一点。

值得注意的一点是，尽管他早期工作中绝大多数可证伪的预测都是错误的，库兹韦尔每次仍继续使用相同的方法生成新的预测，这让人想起安德鲁·格尔曼（Andrew Gelman）关于预测者反复预测同一事物，即使面对旧预测错误的证据时的讨论。例如，他在2005年的《奇点临近》中指出“S曲线”的存在，即任何特定“事物”的增长不一定是指数级的，但正如他在1990年所做的那样，他得出结论认为指数增长将持续，因为某些新技术必然会被发明出来，从而使指数增长得以继续，并且“加速回报定律适用于所有技术，实际上适用于任何进化过程。它可以在基于信息技术的领域用非凡的精确度描绘出来，因为我们有明确定义的指数（例如，每美元每秒的计算次数，或每克每秒的计算次数）来衡量它们”。

2001年，他使用这种方法绘制图表，然后预测2011年之前人类寿命将是无限的（下面的引文在寿命无限方面并不明确，但如果你阅读整篇文章或他对寿命预测的澄清，就明确了，他说“我不是指基于出生日期的预期寿命，而是指你的剩余预期寿命”）：

你们中的大多数人（再次使用复数形式）很可能将看到奇点的到来。人类预期寿命的延长是另一个指数级趋势。在18世纪，我们每年为人类寿命增加几天；在19世纪，我们每年增加几周；而现在我们每年增加将近半年。随着基因组学、蛋白质组学、合理药物设计、我们自己器官和组织的治疗性克隆以及生物信息科学相关领域的革命，我们将在十年内每年增加超过一年。

库兹韦尔将预期发生日期推后了一年多（我最近看到的一次是2016年预测我们将在2029年之前拥有无限的预期寿命），这是库兹韦尔许多预测的特点。

许多人都说库兹韦尔的方法荒谬，因为指数增长在现实世界中不可能无限期持续，但库兹韦尔在他1990年的书《智能机器时代》中解释了为什么他认为这是不正确的：

这项新技术的一个显著方面是它几乎不使用自然资源。硅芯片使用微量的沙子和其他容易获得的材料。它们使用微不足道的电量。随着计算机变得越来越小，它们所使用的物质资源正在变得与其价值无关紧要。实际上，软件根本不使用任何资源。

我们正在进入一个自然资源丰富的世界，因为资源和电力与计算机无关，到目前为止这并不正确，但对库兹韦尔来说幸运的是，他预测会无限期持续的许多指数和双指数过程，在自然资源限制发挥作用之前很久就停止了，因此这不是库兹韦尔预测错误的主要原因，但如果他的预测不那么不准确的话，这可能会成为主要原因。

在元层面上，库兹韦尔方法的一个问题是，他倾向于“上调”以使增长看起来比实际更快，以符合他的模型。例如，在“加速回报定律”中，我们注意到库兹韦尔基于加速的预期寿命，预测2011年之前人类寿命将是无限的，当时“我们现在每年增加将近半年”。然而，美国的预期寿命增长（根据他的评论，这似乎是库兹韦尔写作的主要内容）每年仅为0.2年，长寿人群为每年0.1年，而全球预期寿命每年为0.3年。虽然从技术上讲，如果你四舍五入到最近的0.5，你可以将0.3四舍五入到0.5，但当你试图猜测何时会实现无限寿命时，这样做非常不合理，因为世界预期寿命的高增长率主要来自“追赶增长”，即大幅减少导致“非自然”缩短寿命的因素。

如果你想预测高端会发生什么，看看高端寿命的增长更有意义，而高端寿命的增长要慢得多。库兹韦尔“上调”的另一个方式是选择了一种框架，使其看起来我们正在看到预期寿命的极快增长。但是，如果我们简单地绘制自1950年以来的预期寿命随时间变化的图表，我们可以看到增长大致是线性的，并趋向于亚线性（即使在库兹韦尔写作时的2001年切断图表也是如此），其中有一些超线性时期，但最终趋向亚线性。库兹韦尔说他是使用指数等查看增长曲线的粉丝，但在这种情况下，他本可以轻松做到，却选择从空气中挑选一些数字，因为他“标准”的查看增长曲线的方法会导致对预期寿命增长放缓的相当无聊的预测，因此这里有三种上调在起作用：选择一个不合理的乐观数字、将该数字上调，然后选择性地不在时间序列上绘制大量点以描绘库兹韦尔想要呈现的画面。

库兹韦尔的“上调”也是他得出以下预测的原因，其中包括计算机性能/尺寸/成本和经济增长将遵循双指数轨迹。对于计算机成本/晶体管尺寸，库兹韦尔在硅片缩放曲线上绘制了多个点，加上一个来自硅片时代之前的一个非常古老的点，那时晶体管尺寸处于不同的缩放曲线上。然后，他拟合了一条似乎是三次曲线，由于三次曲线“倾向于”在未来具有高增长或高反增长，而前硅片点将三次曲线拟合在过去的很低位置，因此三次曲线拟合必须“倾向于”在未来上升，而库兹韦尔将这种三次增长上调为指数增长。这在库兹韦尔写作时晶体管缩放曲线的支持也非常薄弱。作为一个当时关注ITRS路线图的人，我记得ITRS设定了一个预测的摩尔定律缩放曲线，半导体公司竞相超越曲线，短暂地实现了看似超指数的缩放，因为他们会持续超越以摩尔定律为基准的路线图。然而，任何真正了解情况细节的人，或者与半导体工程师交谈过的人，而不是仅仅看缩放曲线，就会知道人们普遍认为超指数缩放是暂时的、不可持续的，并且登纳德缩放的终结以及晶体管延迟主导（而非互连延迟主导）的高性能处理器即将出现，这意味着晶体管尺寸的指数缩放不会带来以前伴随着晶体管缩放的历史性计算机性能提升；这种预期如此普遍，以至于当时在本科课程中就被讨论过。任何花最短时间了解半导体缩放的人，在库兹韦尔谈论我们正在进入双指数缩放时代的时，都会知道这些事情，并且会认为我们能幸运地拥有计算机性能的通用单指数缩放就不错了，但由于库兹韦尔观察的是曲线的总体形状而不是机制，这些知识并没有影响他的预测，而且由于库兹韦尔上调现有证据以支持他对增长加速加速的观点，他能够找到一组支持他寻求的曲线拟合的选择性数据点。

我们将在这里讨论的其他未来学家以及附录中讨论的长期主义者中看到这种类型的上调，我们还会反复看到一些相同的主题，特别是指数增长以及技术改进导致技术改进速率加速，从而产生更快的指数增长的观点。

雅克·弗雷斯科

1969年，雅克·弗雷斯科写了《展望未来》（Looking Forward）。弗雷斯科声称，通过了解人们未来的价值观，然后由此推导出未来可能的样子，就可以预测未来。弗雷斯科没有描述如何知道人们未来的价值观，并假设人们会拥有他自己的价值观，人们可能会将其描述为60/70年代的嬉皮士价值观。他用来预测未来的另一个主要机制是，未来的人们将更加科学并运用科学方法。

他写道，“科学方法”只被有限地应用，这导致了数千年的缓慢进步。但是，与20世纪不同，在21世纪，人们将摆脱偏见，并在生活的所有领域应用“科学方法”，而不仅仅是在做科学时。人们将完全开放地在生活的各个方面进行实验，并且所有人都将“习惯性地保持开放心态，同时严格坚持所有问题的表述方式必须允许事实核查”。

这将导致所有人都完全了解自身的局限性，并且由于次优的政治和社会结构而导致的不快乐将终结。

弗雷斯科用来推导其预测的第三个主要机制是，计算机将能够解决人们能想象到的几乎任何问题，而制造技术也将类似地发展。

弗雷斯科预测中起作用的每个主要机制都与魔法无异。如果在某个领域能想到一个问题，该机制就能解决它。当时还有其他魔法机制在起作用，通常是当时流行的想法。例如，行为主义和操作性条件反射在当时非常流行，因此弗雷斯科假设整个社会将能够通过操作性条件反射摆脱可能存在的任何社会问题。

尽管弗雷斯科的大多数预测在技术上尚无法判断，因为它们是关于遥远未来的，但对于他已经做出的、时间已到的预测，我没有看到一个准确的预测。

巴克敏斯特·富勒

富勒以发明测地线圆顶而闻名，尽管测地线圆顶实际上是由瓦尔特·鲍尔斯费尔德（Walther Bauersfeld）在富勒“发明”它们几十年前制造的。富勒也以其各种其他创作而闻名，例如戴马克松汽车，以及他的未来主义预测。

我找不到包含富勒大量预测列表的优质来源，但我找到了这次采访，其中他做出了一些预测。富勒基本上是用词语进行自由联想，通过词语的英文含义来做出预测（例如，传送预测），或者有时是更模糊的联系。

来自视频的预测：

我们将能够通过无线电发送人，因为原子有频率，无线电波也有频率，所以有可能拾取我们所有的频率并通过无线电发送它们
欠发达国家（相对于高度发达国家）将能够“通过月球”获得最先进的技术
- 我们将在月球上放人一年，这将需要将相当于一英里直径的地球活动放入一个重500磅的小黑匣子中，以便月球上的人能够在当地像在地球上一样运作
- 这将导致每个人都意识到他们只需要一个小黑匣子，就不再需要当地的下水道系统、水、电力等。
人类将完全自动化地摆脱体力劳动
- 中国和印度的生产能力将无关紧要，唯一重要的是谁能“获得”中国和印度的消费者
将有一个关于财富是什么的现实记账系统，这实际上与能量有关，因为能量守恒定律，这也意味着财富不会恶化和丢失
- 财富只能增加，因为能量既不能被创造也不能被毁灭，当你做一个实验时，你只能学到更多，所以财富只能被创造
- 这将使整个世界成功

对于那些听说过富勒预测比特币创造的人，最后一个关于财富记账系统的预测就是人们所指的。通常，这样说的人并没有实际听过他陈述整个预测的采访，他们自己也在使用富勒的自由联想方法。比特币来自花费能源来挖掘比特币，而富勒预测未来将有一个基于能源的财富系统，因此富勒预测了比特币的创造。如果你实际听了采访，比特币甚至不接近满足富勒所描述系统的属性，但如果你做富勒式的自由联想，这并不重要。

在本文中，富勒的预测评分比几乎其他任何人都少，所以如果我们有一个大约100个预测的列表，他的准确率会是多少尚不清楚，但我能找到的预测准确率为0%。

米奇奥·卡库

在维基百科的未来学家列表中，米奇奥·卡库可能相对知名，因为作为他科学普及工作的一部分，自2006年以来他有一个全美（美国）联合广播节目，并且经常出现在脱口秀节目中，接受新闻机构的采访。

在他的1997年著作《愿景：科学将如何彻底改变21世纪》（Visions: How Science Will Revolutionize the 21st Century）中，卡库解释了为什么其他未来学家的预测不太准确以及为什么他的预测与众不同：

……大多数对未来的预测都失败了，因为它们反映了一个个体古怪、常常狭隘的观点。

《愿景》则不是这样。在撰写众多书籍、文章和科学评论的过程中，我在十年期间有幸采访了来自不同学科的150多位科学家。

基于这些采访，我努力谨慎地界定某些预测将在何时实现，何时不会实现。科学家预计某些预测将在2020年之前实现；其他预测则要到更晚的时候——从2050年到2100年——才会实现。

卡库还声称他的预测比许多其他未来学家更准确，因为他是物理学家，以物理学家的方式思考问题可以实现准确的未来预测：

我认为，《愿景》与媒体上的预测之间存在一个重要区别。《愿景》涉及科学家本身的新兴共识，而媒体上的预测几乎完全由作家、记者、社会学家、科幻作家和其他技术的消费者做出，而不是由那些帮助塑造和创造技术的人做出。 …… 作为一名研究物理学家，我相信物理学家在预测未来的轮廓方面特别成功。在职业上，我在物理学最基础的领域之一工作，即追求实现爱因斯坦的“万有理论”之梦。因此，我不断提醒自己量子物理学如何触及了许多塑造二十世纪的关键发现。

过去，物理学家的记录是惊人的：我们深入参与引入了许多关键发明（电视、收音机、雷达、X射线、晶体管、计算机、激光、原子弹），解码DNA分子，通过PET、MRI和CAT扫描开辟了探测身体的新维度，甚至设计了互联网和万维网。

他还特别指出库兹韦尔的预测荒谬，说库兹韦尔对“未来几十年做出了荒谬的预测，从火星度假到消灭所有疾病”。

尽管卡库认为库兹韦尔的预测荒谬，但他的预测依赖于库兹韦尔依赖的一些相同机制。例如，卡库假设商品/原材料价格在不久的将来会暴跌，因为技术的进步会使原材料变得不那么重要，卡库还假设计算机芯片的性能和成本缩放将继续其在70年代和80年代的历史路径。像维基百科列表中的大多数其他未来学家一样，卡库也假设科学进步的步伐将迅速加快，尽管他的理由不同（他引用了量子力学、计算机科学和生物学这些重要领域之间日益增长的协同作用，他说这些领域如此重要，“未来若不具备对所有这些领域的基本工作知识，将很难成为研究科学家”）。

卡库假设紫外线光刻将耗尽动力，我们将不得不切换到X射线或电子光刻，而光刻也会耗尽动力，需要我们切换到完全不同的计算机基底（光学、分子或DNA）以保持性能和缩放的轨道，但其他基本计算基底的进步没有迅速实现，导致卡库的预测未能实现。卡库赋予他认为具有“量子”效应的东西非常高的权重，这就是为什么例如他认为微处理器到2020年将过时（它们不是“量子”的），而光纤不会过时（它们依赖于“量子”机制）。尽管卡库批评其他未来学家在对其讨论的主题没有真正理解的情况下做出预测，但不清楚卡库是否对讨论的许多主题有更好的理解，尽管作为物理学家，卡库具有更相关的背景知识。

上述未实现的假设组合导致卡库在《愿景》中的预测准确率相当低。

我没有读完《愿景》，但我读的那部分书（从开头到中间某处，以避免挑选）的预测准确率是3%（如果你给我完全分的那个预测一半分数，可以说是6%）。他做出了许多我没有评分的预测，他在其中说某些事情“可能”会发生。这样的预测当然是无法证伪的，因为无论事件是否发生，该陈述都是正确的。

约翰·奈斯比特

任何经常逛旧书店打折区的人都会在《大趋势》（Megatrends）的封面上看到这个名字，它肯定与李·艾柯卡（Lee Iacocca）的自传一样，是最常见的打折区填充物之一。

奈斯比特声称他能够通过对报纸进行“内容分析”来准确预测未来，他说这在二战期间曾用于提供深刻的见解，并且此后被情报界广泛使用，但直到他这样做之前从未在商业上应用过。奈斯比特解释说这之所以有效，是因为报纸的空间是固定的（显然报纸不能被创造或毁灭，也不能决定印刷更多或更少的新闻，或者决定印刷内容的编辑转变不会在更大社会中反映相同的改变）：

为什么我们如此确信内容分析是监测社会变化的有效方法？简单地说，因为报纸上的新闻空间是一个封闭系统。出于经济原因，报纸上用于新闻的空间量随时间推移不会发生显著变化。因此，当引入新内容时，其他内容或内容组合必须被省略。不减去就无法增加。这是封闭系统中的强制选择原则。

不幸的是，几乎无法判断奈斯比特的预测，因为他几乎只处理模糊的、像占星术一样的预测，这些预测很难被判断为正确或错误。如果你只是阅读《大趋势》来感受每章的基调，而不试图挑出单个预测，有些章节看起来相当好，例如“工业社会 -> 信息社会”，但即使你非常慷慨地给他的模糊预测评分，有些章节也绝对喜忧参半。这无法与本文中的其他未来学家进行比较，因为让模糊的预测听起来大致正确比让精确的预测正确要容易得多，但即便如此，如果是为了感受未来可能的方向而阅读，奈斯比特的预测比讨论的任何其他未来学家都要准确得多。

话虽如此，就我在他书中的阅读范围而言，我能找到的唯一具体预测是错误的，因此如果你想让奈斯比特与这里讨论的其他未来学家进行可比的评分，你可能会说他的准确率是0%，但误差范围很广。

杰勒德·K·奥尼尔

奥尼尔有两本相对知名的非虚构类未来主义书籍，《2081》（2081）和《技术优势》（The Technology Edge）。《2081》写于1980年，预测了此后100年的未来。《技术优势》讨论了奥尼尔认为美国在1983年需要做什么才能避免被日本淘汰。

奥尼尔花在讨论为什么以前的未来学家错了的篇幅比任何其他讨论中的未来学家都多。奥尼尔指出，“大多数[未来学家]高估了社会和政治变革对世界的改变程度，低估了技术变革的力量”，并引用吉卜林（Kipling）、凡尔纳（Verne）、威尔斯（Wells）、霍尔丹（Haldane）和贝拉米（Ballamy）作为这样做的例子。奥尼尔还说，“科学家往往高估了重大科学突破的机会，低估了在现有知识范围内直接发展的影响”，并再次引用霍尔丹。奥尼尔还引用太空飞行作为过去未来学家的一个重大失误，说他们往往低估了太空飞行发展的速度。

奥尼尔还说，即使不知道变革的确切机制，也有可能预测未来。例如，他声称即使内燃机没有被发明，汽车也可以被安全地预测，因为蒸汽也可以工作。但他接着说，有些事情是不可预测的，比如收音机、电视和电子通信，尽管这些的基础发现于1865年，并且基础发现与应用之间的时间间隔“通常相当长”，引用量子力学到集成电路是30-50年，相对论到超光速旅行是100多年，核能的发明至今没有“深刻影响”是50多年。

我认为奥尼尔从未真正令人信服地解释过为什么他的预测属于“汽车”类型。相反，他依靠做与他认为别人错误相反的事情。结果是他预测太空飞行的巨大进步，说我们应该期望到2081年有大规模的太空旅行和殖民，预示着2000年之前无线传输能源（指从卫星发射的能量）和2025年之前星际探测器（大概是不同于1977年发射的旅行者探测器的类别）。

1981年，他说“一支由1990年代的可重复使用飞行器组成的机队，数量远少于当今世界商用喷气式运输机队，将足以每年为数亿人提供进出太空的运输”，预测比美国宇航局航天飞机更先进的东西不久后就会生产出来。继续这种进步，“到2010年左右，将有许多太空殖民地存在，每年都有许多新的在建”。

奥尼尔的大部分预测是针对2081年的，但他确实偶尔做出1981年之前的预测。我能找到的所有可证伪的预测都是错误的，准确率约为0%，但误差范围相当大。

帕特里克·迪克森

迪克森以撰写《未来智慧》（Futurewise）而闻名，但他有很多关于未来的预测书籍。在本文中，我们只看《未来智慧》，因为它是迪克森最具预测导向的书，并且足够老，我们应该能够对他相当多的预测做出判断（《未来智慧》来自1998年；他另一本明显的候选书是《几乎所有事情的未来》，来自2015年，展望一个世纪）。

与本文中的大多数其他未来学家不同，迪克森在《未来智慧》中并没有明确说明你为什么应该信任他的预测，尽管他在致谢中隐含地这样做了，他提到与许多非常重要的人有过互动。

我非常感谢数百位高级管理人员，他们通过参与“未来的六个面孔”演讲塑造了这本书。内容是根据他们自身的经验铸造的。

尽管他没有明确提到自己，但他说商业成功将来自于倾听那些有远见的人：

那些经常正确的人会发大财。未来的趋势寻找将与七八十年代大不相同，那时一切更加确定。在一个全球化的市场中，有太多的变量，反向投影和正向投影无法可靠地工作……这就是为什么经济学家在涉及新技术时不能成为好的未来学家，以及为什么这么多大型公司的董事会在涉及2000年以后的思维量子跃迁时如此混乱的原因。

第二千年思维永远不会让我们到达那里……一家财富1000强公司的资深董事会成员最近告诉我：‘我很高兴我要退休了，这样我就不必面对这些决定’……‘我们能做什么？’另一位高管宣称……

后来，在《几乎所有事情的未来》中，迪克森列出了他所说的在写《未来智慧》时有效的方法，这些方法“经受住了17年以上的考验”。迪克森说：

所有可靠的、长期的预测都是基于强大的超级趋势，这些趋势在过去30年里推动了深刻、一致且相对可预测的变化。这些趋势是每个精心构建的公司战略和政府政策的基础 …… 这些更广泛的趋势对像我这样的大多数趋势分析师来说已经显而易见一段时间了，并且在过去20-30年里得到了很好的描述。它们的发展比繁荣与萧条，或社会时尚要慢得多。

并列出了趋势，例如：

大多数大规模生产物品的生产成本下降
对环境/可持续性的关注增加
数字技术、电信和网络的价格下降
各种无线/移动设备的快速增长
全球公司规模越来越大，合并、整合

迪克森拒绝提及他预测的未能实现的趋势（例如，他预测日益增长的部落主义将意味着大部分新财富由20人或更少员工的小公司创造，这些公司大多是家族拥有或控制的，或者他预测“旧经济学”的终结意味着我们可以无限期地实现高经济增长、低失业率且没有通胀压力），或者趋势进展导致迪克森的预测大错特错的情况，当基于指数趋势做出预测时，这是一个常见问题，因为增长率的相对较小的不准确可能导致最终状态的非常大的变化。

迪克森的网站充满了对他的赞扬，隐含或明确地声称他是伟大的未来预测者，以及更一般的声明，如“帕特里克·迪克森被评为当今在世最具影响力的20位商业思想家之一”。

回到《未来智慧》，迪克森严重依赖于“第二千年思维”和“第三千年思维”之间的鲜明分野这一概念，这在他的文本中反复出现。像几乎所有其他讨论中的人一样，迪克森也从许多现有趋势中推断出未能实现的预测，例如，他观察到电话线路成本的下降和价格的降低，预测到2005年人们家里将会有大量的电话线路，并且屏幕变薄意味着到2005年我们将广泛使用“薄如纸的显示片”。这种推断有时有效，迪克森10%的总体准确率与其他讨论中的“未来学家”相比相当好。

然而，当迪克森在我有一定理解的领域解释他的推理时，他似乎在流行词水平上运作，因此当他做出正确的判断时，通常出于错误的原因。例如，迪克森说软件总是有缺陷的，这似乎是正确的，至少到目前为止是这样。然而，他的理由是新计算机发布得如此频繁（他说“不到20个月”——指摩尔定律中的18个月时间线），编写好的软件需要很长时间（“至少20年”），所以程序员总是忙于为新一代机器重写软件（由于这本书的年代，他使用了“为奔腾芯片编写全新代码”作为例子）。

大多数缺陷，甚至作为缺陷比例的几乎任何缺陷，都不是由于程序员重写现有代码以在新的CPU上运行造成的。如果你真的仔细看，你可能会看到诸如安卓设备由于更新和向旧硬件反向移植更改的困难而有许多安全缺陷之类的事情，但这些类型的缺陷在所有缺陷中只占很小一部分，而且也不是迪克森真正谈论的内容。

同样，关于计算机备份未来将如何完成，迪克森基本上正确地说，家庭工作者将容易受到数据丢失的影响，认真保存数据的人将在线备份数据，“在线备份数据到其他城市的计算机作为终极安全”。

但迪克森陈述的理由是工作站已经有大的磁盘容量（>=2GB），而软盘容量没有跟上（<2MB），因此备份需要数千张软盘，这显然是荒谬的。然而，即使在当时，Zip驱动器（每张可移动磁盘100MB）也很常见，尽管没有流行起来，制造Zip驱动器的同一家公司也制造了1GB的“Jaz”驱动器。当然，磁带备份在当时也被使用，今天仍然使用。这种趋势一直持续到今天；大型可移动磁盘可用，而且我认识的很多人都在可移动磁盘上传输或备份大量数据。大多数人不进行磁盘/磁带备份的原因并不是备份本地计算机需要数千张磁盘（如果你看看人们在家里通常使用的计算机，大多数人都可以在每个故障域上用一个可移动磁盘备份他们的数据，甚至在一个磁盘上保留多个版本），而是因为在线/云备份更方便。

由于迪克森的推理是错误的（至少在我足够了解主题以了解推理适用性的情况下），似乎当迪克森正确时，不可能是因为陈述的原因，迪克森要么是巧合正确，要么是因为他看到了更广泛的趋势，并为预测提出了错误的合理化。但是，根据以上所述，要真正正确预测趋势随时间的增长率非常困难，因此如果不了解运作的机制，你也可以说基于一些粗略趋势而实现的预测也是巧合正确。

阿尔文·托夫勒/海蒂·托夫勒

像这个列表上的大多数其他人一样，托夫勒声称有一些重大的预测成功

托夫勒夫妇在其网站上声称，他们预见了苏联的解体、德国的统一和亚太地区的崛起。他在《人民日报》的采访中说，《未来的冲击》预见了有线电视、录像、虚拟现实和美国家庭规模的缩小。

在本文中，我们将看托夫勒最著名的著作，写于1970年的《未来的冲击》（Future Shock）。

根据许多来源，阿尔文·托夫勒的主要作品是与海蒂·托夫勒合著的。在书中，海蒂·托夫勒被承认为帮助很多的人，但不是作者，尽管其他地方有关于合著的说法。在本节中，我将托夫勒视为单数，但你可能想在心里替换成复数。

托夫勒声称，我们不仅应该通过理解过去来理解现在，还应该通过理解未来来理解现在：

以前，人们研究过去以阐明现在。我转动了时间之镜，确信一个连贯的未来图景也能为我们提供关于今天的宝贵见解。我们将发现，如果不把未来作为智力工具，我们将越来越难以理解我们的个人和公共问题。在接下来的页面中，我有意利用这个工具来展示它能做什么。

托夫勒通常做出模糊的、摇摆不定的陈述，因此真的无法对托夫勒的具体预测进行评分，因为给出的预测太少了。然而，托夫勒强烈暗示过去的指数趋势预计将持续甚至加速，并且由此引起的快速变化将导致“未来的冲击”，因此书名如此：

我创造了“未来冲击”这个术语来描述我们在个体身上施加的破坏性压力和迷失方向，方法是在短时间内让他们承受过多的变化。对这个概念着迷后，我花了五年时间访问了数十所大学、研究中心、实验室和政府机构，阅读了无数文章和科学论文，采访了数百位关于变化、应对行为和未来的不同方面的专家。诺贝尔奖得主、嬉皮士、精神病学家、医生、商人、专业未来学家、哲学家和教育家表达了他们对变化的担忧、对适应的焦虑、对未来的恐惧。从这次经历中，我带着两个令人不安的信念离开了。首先，很明显，未来的冲击不再是遥远的潜在危险，而是一种真正的疾病，越来越多的人已经在遭受这种疾病。这种心理生理疾病可以用医学和精神病学术语来描述。它是变化的疾病 …… 真诚的知识分子勇敢地谈论“为变化而教育”或“为未来做好准备”。但我们几乎不知道如何去做 …… 因此，这本书的目的是帮助我们接受未来——通过加深我们对人类如何应对变化的理解，来帮助我们更有效地应对个人和社会变化。

托夫勒到处使用的大锤是指数增长的推断，暗示这预计将持续。关于从曲线推断的一般概念，托夫勒的立场与库兹韦尔非常相似：如果你能在图表上看到趋势，你就可以用它来预测未来，而技术加速新技术发展的能力将导致创新比你天真预期的更快发生：

绘制在图表上，代表上一代人进步的线将垂直跃出页面。无论我们检查旅行的距离、达到的高度、开采的矿产，还是利用的爆炸威力，同样的加速趋势是显而易见的。模式，在这里和成千上万的其他统计系列中，是绝对清晰和明确的。几千年或几个世纪过去了，然后在我们这个时代，突然打破了限制，出现了惊人的激增。原因在于技术以自身为食。技术使更多技术成为可能，如果我们稍微看一下创新过程，就能看到这一点。技术创新包括三个阶段，相互连接成一个自我强化的循环……如今有证据表明，这个循环中每个步骤之间的时间已经缩短。因此，经常被指出的是，有史以来90%的科学家现在还活着，并且新的科学发现每天都在被发现，这些新想法比以往任何时候都更快地被付诸实践。

书中第一个N个主要例子是：

人口增长率（倍增时间为11年），这将不得不要求重大变化
经济增长（倍增时间为15年），这将增加人们拥有的东西的数量（这特别表述为东西的数量而不是财富）
- 强烈暗示这将持续至少70年
旅行速度；未说明倍增时间，但读者可以从以下几点进行推断：数百万年前人类奔跑速度、1880年代的每小时100英里、1938年的每小时400英里、1958年的每小时800英里、此后不久的每小时4000英里（绕地球轨道时每小时18000英里）
从构思想法到应用的时间缩短，用来支持增长将加速的观点

正如我们刚刚在讨论迪克森、库兹韦尔等人时指出的那样，通过推断指数增长来预测未来是充满风险的。托夫勒以某种方式实现了反预测的壮举，即标记了一系列即将停止的趋势，其中一些在托夫勒写作时已经有失败的迹象。

托夫勒从以上内容推断，预测所有事物的半衰期都会变短，这将颠覆社会运作的方式。

例如，公司和政府将在1995年至2020年之间用“特别机构”（adhocracies）取代官僚机构。随着公司规模扩大，人们担心自己会成为齿轮，但这种担忧是过时的，因为在特别机构中，自上而下的指挥控制概念将消失，被一切加速的步伐所淘汰。虽然一些公司的自上而下指导确实比托夫勒时代预期的要少，但许多公司却更多，这得益于技术允许雇主比以往任何时候都更严格地监视员工，使人们比以往任何时候都更像齿轮。

另一个例子是，托夫勒预测人类对海洋的殖民，“新亚特兰蒂斯”，“在公元2000年之前很久”。

法比安·吉森（Fabian Giesen）指出，无论托夫勒预测的准确性如何，文卡泰什·拉奥（Venkatesh Rao）的《欢迎来到令人作呕的未来》解释了为什么“未来的冲击”在技术发展非常快的领域没有发生。

维基百科列表中未包含的人

劳瑞·安德森（Laurie Anderson）
- 我无法轻易找到她的预测，除了据称预测了9/11的一些歌词，但非常“占星术”
阿瑟·哈金斯（Arthur Harkins）
- 他的维基百科条目后来因不显著原因被移除，在当时已被标记为不显著
斯蒂芬·霍金（Stephen Hawking）
- 我能找到的预测通常太遥远无法评分，而且更像是建议人们应该做什么，而不是预测。例如，上面的维基百科未来学家列表链接到一项2001年的预测，如果不进行基因工程改造以使人类跟上步伐，人类将被计算机/机器人超越，还链接到一项2006年的预测，人类需要向其他星球扩张以保护物种
索基尔·克里斯滕森（Thorkil Kristensen）
- 我无法轻易找到克里斯滕森的一套英语预测。索基尔·克里斯滕森与《增长的极限》有关联但不是作者，这是一本1970年代的反增长论战作品
大卫·西尔斯（David Sears）
- 当时或现在都不够显著，没有维基百科页面
约翰·泽赞（John Zerzan）
- 泽赞更像是一个因其政治观点而呼吁社会变革的人，而不是一个试图预测未来的“未来学家”

史蒂夫·耶格

正如我在开头提到的，维基百科列表中没有一个未来学家有非常准确的预测，所以我们将看看来自其他来源的其他几个人，他们通常不被视为未来学家，看看他们的排名如何。

我们之前在这里看过耶格的预测，这些预测写于2004年，通常是关于未来5-10年的，有些更远。有九个预测（技术上是十个，但有一个不是真正的预测）。如果按照书面形式评分，就像未来学家评分一样，我会给这些评分4.5/9，大约50%。

你可能会说这不公平，因为耶格预测的是相对较近的未来，但如果我们看看未来学家对相对较近未来的预测，他们的准确率通常远低于50%，所以我认为以某种方式比较数字并不公平。

如果你想给这些评分，就像人们通常给未来学家评分一样，他们因基本把握方向正确而获得分数，那么我会说耶格的得分应该在7/9到8/9之间，取决于他在一个问题上获得多少部分分数。

如果你想采取更整体的“如果耶格的愿景是正确的，世界会是什么样子，与我们今天的世界相比”的方法，我认为耶格也做得相当好，最大的失误是基于Lisp的语言还没有接管世界，尽管Clojure取得了成功。这与这里的未来学家有很大不同，他们通常预测了许多没有实现的巨大变化，例如，如果我们看看库兹韦尔对世界的愿景，到2010年，我们本该有自动驾驶汽车、治疗瘫痪的“疗法”、广泛使用AR等，到2011年，我们将有无限的预期寿命，到2019年，我们将广泛使用纳米技术，包括计算机已从晶体管转向纳米管，有效“缓解”失明和失聪，相当广泛部署完全现实的VR，可以通过真实的身体刺激模拟性爱，普遍的自动驾驶汽车（再次预测），全新的艺术和音乐领域等，以及所有这些暗示的东西，这是一个与我们实际生活的世界非常不同的世界。

如果我们看看其他未来学家，我们也会看到类似的情况，他们预测了诸如住在地下、生活在水下等事情；大多数人预测了许多真正改变社会的革命性变化，其中一些实现了。耶格则预测了许多适度的变化（以及一些变化比许多人预期的要慢的领域），并且他预测的领域变化比他预期的慢，但只慢了一点。

耶格将他的方法描述为：

如果你读得很多，你会开始发现趋势和暗流。你可能看到人们更频繁地谈论某些你认为即将兴起的主题或技术，或者你只是模糊地感觉到行业中正在发生某种临界点。或者在你的公司，就这件事而言。

我似乎有很多最好的见解是在写我已经知道的东西时想到的。我想到了写关于看似明显和不可避免的趋势可能有助于我浮现出一些不那么明显的趋势。所以我决定根据我注意到的一些趋势做出一些随机预测，看看会出现什么。这基本上是一种挖掘见解的心智练习

在这篇文章中，我将根据今年阅读科技内容时感受到的暗流做出十个预测。在我写这段话时，我还不知道我的十个预测会是什么，除了第一个。这是一个简单、明显的预测，只是为了启动创造性思维过程。然后我会抛出另外九个，当它们在我脑海中出现时，我会尽力证明它们合理，即使它们听起来很疯狂。

他并不是真的在尝试生成最好的预测，但通过依赖他的领域知识和一些关于他所见过的事物的直觉，仍然做得相当好。

在关于耶格预测的文章中，我们还注意到他在其预测文章之外做出了许多成功的预测：

史蒂夫还有一些文章不是明确关于预测的，然而却对事物的现状做出了相当可靠的预测，早在2004年就写好了。有《这不是软件》，它超前于其时代很多年，关于人们如何编写“软件”，编写服务器应用程序如何真正不同于编写包装软件，以至于使许多以前可靠的建议过时，比如乔尔（Joel）关于重写的格言，以及面向服务的架构是什么样的；《德尔菲的谷歌》（同样来自2004年）正确预测了ML和AI的重要性以及谷歌对ML的大量投资；一次旧采访中，他预测“网络应用程序编程将逐渐成为最重要的客户端编程。我认为它将基本淘汰所有其他客户端工具包：GTK、Java Swing/SWT、Qt，当然还有所有特定于平台的工具包，如Cocoa和Win32/MFC”；等等。史蒂夫内部的一些谷歌博客文章也做出了有趣的预测，但据我所知，这些是保密的。

耶格的许多预测在当时会被认为相当不明显，而且他在其他预测中的成功率似乎仍然相当高（尽管我并没有试图全面找到并对它们评分，我抽样了他的一些旧文章，发现总体成功率与他预测文章中的相似）。

对于耶格和其他为了让我们看到一些准确预测而选择的预测者，当然存在选择这些预测者时存在幸存者偏差的担忧。我怀疑耶格的情况并非如此，因为在我第一次注意到他似乎有准确预测之后，他继续保持准确，所以这不仅仅是因为我在事后挑选了一个有一段时间运气好的人。此外，特别是他在谷歌内部的G+评论中，做出了相当高维度的评论，最终因为他说的原因而正确，这提供了比仅仅连续抛硬币更多关于他的推理准确性的信息。这种关于推理深度的评论不适用于下面的卡普兰，因为我没有评估卡普兰的推理，但适用于1990年左右的微软领导层。

布莱恩·卡普兰

布莱恩·卡普兰报告说他的记录是23/23 = 100%。他比我们研究过的任何人都更精确地指定了他的预测，并试图给出一个精确的赌注，该赌注将很容易裁决，以及赔率。

卡普兰开始做出预测/赌注的时间大约与“赌注是对废话征税”这一概念流行的时间相同（意思是很多人愿意说任何话，但如果被要求进行真正的赌注，他们会安静下来，那些不这样做的人如果做出了糟糕的真赌注就会付出真正的代价），卡普兰似乎有一个策略，就是充当废话的征税员，他通常接受人们不应该做的赌注的安全面。安德鲁·格尔曼说：

卡普兰的赌注是一个有趣的混合。第一个赌注他提供了1比100的赔率，所以他赢了并不奇怪，但大多数赌注都是平赔。有几个他运气很好（例如，他在2008年打赌在2020年1月1日之前没有大国会离开欧盟，所以他在那个月仅仅幸免于难），但是，嘿，运气好是可以的，而且无论如何，即使他只赢了23场中的21场，那也是一个令人印象深刻的记录。

在我看来，卡普兰的诀窍在于，他对选择什么投球有良好的判断力。人们带着一些强烈的、不切实际的观点来找他，他善于将这些转化为赌注。用扑克术语来说，他等到他拿到坚果牌，或者接近坚果牌。23场赢了23场……那是一个伟大的记录。

我认为这样做有很大的价值，无论是从一般的“赌注是对废话征税”的意义上讲，还是更具体地说，如果你非常相信有人试图接受错误赌注的另一面，并且有良好的判断力，那么知道卡普兰式的赌徒接受了这个立场，即使你在主题上没有特别的专业知识，也会给你关于赌注的不错信号。例如，如果你看看我的赌注，尽管我有时会与明显错误的立场对赌，但我更经常地接受我有很大可能输的赌注，所以仅仅知道我接受了一个赌注提供的信息比知道卡普兰接受了一个赌注要少得多。

但是，当然，站在卡普兰的一方并不是万无一失的。正如格尔曼指出的，卡普兰至少有一次运气好，而且卡普兰似乎也可能会输掉卡普兰和塔巴罗克对阵鲍曼的全球温度赌注。对于这个特定的赌注，你也可以认为他应该输，因为他接受了3比1的赔率，但很多人会认为3比1的赔率远远不够长，不足以接受这个赌注。

卡普兰迄今为止使用的方法永远不会在重大变化非常可能发生之前产生积极的预测，因此这种方法无法像耶格、盖茨或其他接受更狂野赌注的相对准确的预测者那样，真正给你一个关于未来会是什么样子的愿景。

比尔·盖茨/内森·梅尔沃德/1990至1997年左右的微软领导层

由于针对微软的诉讼，一些备忘录被公之于众，这些备忘录阐述了微软高管对世界将如何发展（无论是否有微软参与）的愿景。这些备忘录没有列出带有时间线的具体预测，因此无法像本文对未来学家预测的评分方式进行评分。如果根据这些预测对未来的愿景的准确性进行评分，我会给它们与史蒂夫·耶格（得分为7/9或8/9）类似的评分，但这些预测的雄心要大得多，因此在控制预测范围的情况下，它们看起来更加令人印象深刻。

与我们讨论的未来学家相比，在多个方面，这些预测要详细得多（因此在给定准确度水平上更加令人印象深刻）。一个是微软高管对讨论中的事物及其相互影响有更深的理解。对于“我们”的未来学家，他们经常在高层次上讨论事物，当他们详细讨论事物时，他们会做出一些陈述，表明他们并不真正理解该主题，并且常常不知道他们写的词是什么意思。那个时代的微软高管显然对问题的运作机制有深刻的理解，这使他们能够做出我们的未来学家不会做出的详细预测，例如，虽然FTP和IRC等协议将继续使用，但互联网的近期未来是基于TCP的HTTP，浏览器将成为像Windows一样的“平台”，一个比任何操作系统都更重要和更庞大的平台（除非微软成功地采取行动阻止这一点，尽管微软高管预见到了可能导致微软未能拥有互联网的确切机制，但它并未成功）。微软领导层利用这种理解水平对我们的未来学家讨论的更大的事物做出预测，例如工作的性质以及这将如何改变。

真正理解问题的运作机制，而不仅仅是在典型的未来学家流行词水平上理解主题，使得微软领导层能够对未来的可能样子做出相当好的猜测。

关于盖茨为理解情况所付出的努力的一个有趣故事，请参见乔尔·斯波尔斯基（Joel Spolsky）关于他第一次比尔·盖茨评审的故事：

比尔转向我。

我注意到我的规范文件边距上有注释。他读了第一页！

他读了我规范文件的第一页并在边距上写了小注释！

考虑到我们大约在24小时前才给他规范文件，他一定是前一晚读的。

他在问问题。我在回答。它们相当简单，但我根本记不得它们是什么，因为我无法停止注意到他在翻阅规范文件……

他在翻阅规范文件！ [冷静点，你是个小女孩吗？]

…… [编辑：省略号来自原始文档] 每一页边距上都有注释。他读完了整个该死的东西并在边距上写了注释。

他读完了所有东西！[天哪，尖叫！]

问题变得更难、更详细。

它们似乎有点随机。现在我已经习惯把比尔当作我的伙伴了。他是个好人！他读了我的规范文件！他可能只是想问我几个关于边距注释的问题！我会为他的每个注释在错误跟踪器中打开一个错误，并确保它很快得到解决！

最后是致命的问题。

“我不知道，你们，”比尔说，“有人真的在研究如何做到这一点的所有细节吗？比如，所有那些日期和时间函数。Excel有那么多日期和时间函数。Basic会有相同的函数吗？它们都会以相同的方式工作吗？”

“是的，”我说，“除了1900年的1月和2月。”

沉默。 …… “好吧。嗯，干得好，”比尔说。他拿起了他标记过的规范文件副本……离开了

盖茨（以及其他一些微软高管）对情况了解得非常详细，同时还在考虑大局问题。

另一个帖子的主题是，微软领导层如何拥有比传统竞争对手（Novell、IBM、AT&T、Yahoo、Sun等）更有效的未来愿景，以及这如何导致微软成为一家价值2万亿美元的公司，而他们的竞争对手最多变得无关紧要，大多数甚至没有成功变得无关紧要，就不再存在。阅读旧的微软备忘录，很明显微软确实在密切关注竞争对手在做什么，他们常常对竞争对手的领导层效率低下感到惊讶，例如，关于Novell，比尔·盖茨说“我们的传统竞争对手刚刚开始涉足互联网。考虑到网络对Novell的重要性，它缺席得令人惊讶”；盖茨注意到当时的Novell CEO弗兰肯伯格（Frankenberg）似乎理解互联网的重要性，但弗兰肯伯格直到1994年才加入Novell，并于1996年离开，在诺瓦德（Noorda）领导下，他在Novell的大部分时间都在逆转公司采取的方向，当弗兰肯伯格“辞职”两年后，这并没有给Novell留下一个连贯的立场或计划。

在很多方面，讨论当时科技高管认为未来会是什么样子以及什么道路通向成功，比研究基本上不理解他们讨论主题的未来学家更有趣，但我开始这篇文章是为了研究未来学家对他们讨论的主题理解得有多好，而我不知道，事先，他们对主题的理解和由此产生的预测准确性会如此之差。

未来学家错误的常见原因

没有从错误中学习
- 好的预测者倾向于认真研究失败的过去预测并试图校准
基于鸡尾酒会想法水平对主题的理解进行推理
- 好的预测者倾向于深入探讨想法
推行一个或几个“宏大理念”
通常对未来具有高度确定性
- 更糟糕的是：假设缩放曲线，尤其是指数缩放曲线具有高度确定性
万能药思维
只看到技术变革的积极面（或消极面）
从无证据支持的假设开始

没有从错误中学习

我们在这篇文章中研究的未来学家倾向于给自己打很高的分，并且事后通常声称自己是伟大的未来预测者，以至于他们甚至会告诉你如何准确地预测未来。然而，在给他们评分后，最准确的未来学家（在做出足够具体、可以评分的预测者中）的准确率只有10%，慷慨的评分给了他们因错误预测机制而偶然实现的预测的分数（严格阅读他们的许多预测会降低准确率，因为他们说预测会因为他们的预测机制而实现，这是错误的，使得预测错误）。

这些未来学家使用了两个技巧才能做出如此崇高的声明。首先，他们中的许多人做出模糊的预测，然后如果任何与预测模糊相似的事情发生，就声称成功。其次，他们几乎都做出大量的预测，然后只计算那些成功的预测。看待4%准确率的一种方式是，你不应该依赖那个人的预测。另一种方式是，如果他们做出了500个预测，他们是一个伟大的预测者，因为他们做出了20个准确的预测。因为几乎没有人会费心去检查一份预测列表来计算总体准确率，当一个人这样做时，做出大量的预测然后挑选出那些准确的是成为一个著名未来学家的好策略。

但如果我们想找出如何做出准确的预测，我们将不得不研究其他人的策略。有些人确实做出了相当好的、总体方向准确的预测，正如我们在史蒂夫·耶格的预测记录中所指出的那样。然而，他们往往是自己预测的严厉批评者，正如史蒂夫·耶格在回顾他自己的预测记录时所做的那样，他说：

我看到了HN上关于丹·陆（Dan Luu）对这篇文章的评论的帖子，我觉得人们对评分有点太慷慨了。

一个相对较好的未来预测者给自己打分比我低并不奇怪，因为批判性地看待自己的错误并指出大多数人太小而不关心的错误是提高的好方法。我们可以在微软领导层的通讯中看到这一点，例如，他们指出自己未能预测缺乏向后兼容性会破坏像OS/2和LanMan这样的重大项目。像大多数未来学家那样，专注于那些成功的预测而不研究出了什么问题，并不是提高的好方法。

鸡尾酒会理解

我们在做出总体方向正确预测的人身上看到的另一件事，正如上面提到的史蒂夫·耶格文章、内森·梅尔沃德1993年的“信息高速公路上的车祸”、比尔·盖茨1995年的《互联网浪潮》等，是做出预测的人实际上理解该主题。在所有上述例子中，文件的作者显然对预测的主题有相当强的技术理解，并且在一般情况下，似乎拥有相对准确预测的人真正试图理解主题，这与本文讨论的未来学家形成鲜明对比，他们几乎都表现出在讨论的主题上具有流行词水平的理解²的明显迹象。

在某种意义上，如果你理解该主题并有权访问正确的数据，做出正确的预测并不太难。在加入一家大型跨国公司并观察未来展开之前，我认为像“信息高速公路上的车祸”和“互联网浪潮”这样的文件具有惊人的预见性，但一旦我在2013年加入谷歌，从外部不明显的许多趋势从内部看似乎相当明显。

例如，很明显移动设备对大多数类别的应用程序非常重要，以至于大多数成功应用将是“移动优先”应用，其中网络应用程序是次要的（如果存在的话），从内部可用的数据来看，这至少从2010年起就应该很明显。看看外部的人在做什么，许多在移动设备至关重要的领域的初创公司在2016年和2017年仍然以2009年对未来的理解运营，他们专注于首先拥有一个网络应用程序，并且没有移动应用程序，而且网络应用程序在移动设备上无法使用。另一个例子是，在2012年，谷歌内部相当多的人独立希望谷歌在深度学习上进行非常大的押注。很明显深度学习将是一件非常大的事情，值得在硬件上投资十亿美元，以加速谷歌的深度学习工作。

这并不是说问题很简单——许多拥有相同数据的人通常仍然做出不正确的预测。一个著名的例子是鲍尔默的预测，“iPhone不可能获得任何重要的市场份额。不可能。”³ 鲍尔默和其他微软领导层拥有与十年前微软领导层一样好的信息，但他们中的许多人的预测并不比我们在这里讨论的未来学家好。对于上面的深度学习例子，谷歌的一个竞争对手拥有相同的信息，却完全错过了，并且多年来一直错过，即使有多年额外信息的优势；由于未能理解如何实现有效的、实际的深度学习研发，他们现在仍然远远落后于谷歌。

假设高度确定性

不正确预测的另一个常见原因是高度确定性。这是一个普遍问题，在从过去的指数增长进行预测并将其外推到未来时，会被放大，因为错误预测指数增长发生重大变化的时间可能会产生非常大的影响，而且相对较小的持续变化在指数增长中也可能产生很大影响。一个暴露我们许多未来学家这些弱点的例子是他们对摩尔定律的解释，许多人将其解释为每18个月计算机相关的每项好处翻倍和/或每项坏事减半。这从来都不是摩尔定律的预测，但它是摩尔定律的普遍流行概念。其中一点说明性的是，预测者在90年代末和00年代初撰写时，仍然基于摩尔定律做出这些幻想性的预测，即使单线程计算机性能和摩尔定律都将面临重大挑战这一常识在当时的本科课程中就已教授过。任何花几分钟与该领域的专家交谈甚至本科生交谈的未来学家都会看到计算机性能缩放存在高度不确定性，但我们讨论的大多数未来学家要么不这样做，要么忽视会增加他们叙述不确定性的证据⁴。

随着计算能力的增加，所有的常数因子效率低下（“使用两倍的RAM”、“需要三倍的RISC操作”）往往会屈服于摩尔定律，留下多项式和指数增长的成本作为唯一合理的关注领域。因此，Flare愿意接受任何O(C)效率低下（单一、一次性成本），并且愿意接受大多数O(N)效率低下（常数因子成本），因为这两种成本都不会影响可伸缩性；Flare程序和程序空间可以在这些成本相对重要性不增加的情况下增长。你可以随着N的增加向O(N)问题抛掷硬件；向O(N**2)问题抛掷硬件很快就会变得非常昂贵。

对于计算机缩放，本可以做出

由 mimo-v2.5 模型翻译，花费 69407 tokens

为简单架构辩护

Wed, 6 Apr 2022 00:00:00 +0000

[AI 摘要] Wave公司以简单架构支撑十亿美元业务，证明复杂架构未必必要，简单方案更易实现且有效。

Wave 是一家拥有70名工程师、估值17亿美元的公司¹，其产品是一个用于增减数字的CRUD应用。与此一致，我们的架构是标准的CRUD应用架构，一个基于PostgreSQL的Python单体应用。从简单的架构开始，并尽可能以简单的方式解决问题，使我们能够扩展到目前的规模，同时工程师们主要专注于为用户创造价值的工作。

Stack Overflow成功地将单体应用扩展到相当规模（2013年架构 / 2016年架构），最终以18亿美元被收购。如果我们看流量而非市值，Stack Overflow是互联网上流量最高的100个网站之一（关于其他许多建立在单体应用之上的高价值公司，请参阅此Twitter线程的回复）。我们没有大量网络流量，因为我们是移动应用，但即使我们的网站基本上只是供人们查找应用的入口，且大多数人甚至不是通过网站发现该应用，Alexa仍将我们的网站排在全球前7.5万名之内。

确实有些类型的应用程序需求，使得基于无聊数据库的简单单体应用无法启动，但对于大多数类型的应用程序，即使在顶级100流量水平上，计算机速度也足够快，高流量应用可以采用简单架构来支撑，而这种架构通常比复杂架构创建得更便宜、更简单。

尽管简单架构有着惊人的有效性，但大多数媒体报道都倾向于复杂架构。例如，在最近的一次通用技术会议上，有六个演讲是关于如何构建或处理基于复杂微服务架构的副作用，而关于如何构建简单单体应用的演讲数量为零。关于量子计算的演讲（一个）比关于单体应用的演讲（零）还多。大型会议情况类似；最近在旧金山举行的一次面向企业的会议，有数十个演讲是关于如何应对复杂架构带来的复杂性，而关于如何构建简单单体应用的演讲为零。上次我参加那次会议时，令我印象深刻的是，有多少在企业工作的与会者，其低规模应用本可以采用简单架构构建，却照搬了在会议圈和Hacker News上流行的最新最复杂的技术。

我们的架构如此简单，我甚至懒得画架构图。相反，我将讨论我们做的一些无聊的事情，帮助我们保持事物的无聊。

我们目前使用无聊的、同步的Python，这意味着我们的服务器进程在等待I/O（如网络请求）时会阻塞。我们之前尝试过Eventlet，一个异步框架，理论上可以让我们更高效地利用Python，但遇到了如此多的bug，以至于我们认为等待事件的CPU和延迟成本不值得我们为处理Eventlet问题而承担的运维痛苦。Python还有其他知名的异步框架，但那些在规模上使用它们的用户也经常报告在规模上使用这些框架会带来重大问题。使用同步Python是昂贵的，因为我们在网络请求期间支付了CPU仅仅等待，但鉴于我们目前每月只处理数十亿请求，即使使用像Python这样较慢的语言并支付公共云的零售价格，其成本也很低。我们工程团队的成本完全主导了我们运行系统的成本²。

为了不承担让我们的单体应用异步化的复杂性，我们将长时间运行的任务（我们不希望响应被阻塞的任务）分发到队列。

有一个我们无法像希望的那样保持无聊的地方，那就是我们的本地数据中心。当我们只在塞内加尔和科特迪瓦运营时，我们完全在云端运营，但随着我们扩展到乌干达（以及未来更多国家），为了遵守当地的数据驻留法律法规，我们不得不拆分后端并在本地部署。这并非一个简单的操作，但任何用复杂服务导向架构做过同样事情的人都知道，这个操作比采用复杂服务导向架构要简单得多。

另一个领域是我们不得不自建（而不是购买）的软件。刚开始时，我们强烈倾向于购买软件而不是自建，因为只有少数工程师的团队承担不起自建一切的时间成本。尽管“购买”选项通常给你的是不好用的工具，但在当时是正确的选择。在供应商无法被说服修复对我们至关重要的阻塞性bug的情况下，确实有理由自建更多工具并在更多领域维护内部专业知识，这与公司应只在其核心能力上“自建”的标准建议相矛盾。大部分复杂性是我们不想承担的，但在某些产品类别中，即使经过相当广泛的研究，我们也找不到任何供应商可能提供适合我们的产品。公平地说，我们的供应商需要解决的问题比我们需要解决的问题复杂得多，因为供应商需要解决为每个客户的问题，而我们只需要解决一个客户——我们自己的问题。

我们在最初几个月犯的一个错误，至今仍有一些代价，那就是没有仔细界定数据库事务的边界。在Wave的代码库中，SQLAlchemy数据库会话是一个请求全局变量；每当访问数据库对象的属性时，它都会隐式开始一个新的数据库事务，Wave代码库中的任何函数都可以在会话上调用commit，从而导致其提交所有挂起的更新。这使得控制数据库更新发生的时间变得困难，增加了我们出现微妙数据完整性错误的频率，也使得利用数据库构建诸如幂等键或事务性暂存作业排空等功能变得更加困难。它还增加了我们意外打开长时间运行的数据库事务的风险，这可能会使数据库模式迁移在操作上变得困难。

一些我们不确定的选择（即这些是我们正在考虑更改，或会建议其他团队从头开始时考虑采用不同方法的事情）包括：使用RabbitMQ（就我们的目的而言，Redis可能同样适合作为任务队列，且仅使用Redis可以减少运维负担）、使用Celery（对于我们的用例过于复杂，并且已导致数次故障，例如由于版本升级期间的向后兼容性问题）、使用SQLAlchemy（使得开发人员难以理解其代码将发出哪些数据库查询，导致各种难以调试的情况，并涉及不必要的运维痛苦，特别是与上述数据库事务边界相关的点）以及使用Python（由于我们创始CTO的技术背景，这是一个正确的初始选择，但其并发支持、性能和广泛的动态特性让我们质疑它是否是大型后端代码库的正确选择）。这些都不是重大错误，对于其中一些（例如Python），缺点足够小，以至于我们继续承担增加的维护负担比投资迁移到理论上更好的东西更便宜，但如果我们今天从头开始构建类似的代码库，我们会认真思考它们是否是正确选择。

一些我们对其选择感到满意的领域，尽管它们可能听起来不像最简单的可行方案，包括：我们的API（我们使用GraphQL）、我们的传输协议（我们曾有一段时间使用自定义协议）以及我们的主机管理（我们使用Kubernetes）。关于传输协议，我们过去使用一个运行在UDP之上的自定义协议，带有SMS和USSD回退，原因如本次演讲所述，是为了性能。随着HTTP/3的推出，我们能够用HTTP/3替换我们的自定义协议，并且我们通常只需要USSD来应对像最近马里互联网关闭这样的事件。

关于使用GraphQL，我们认为对我们来说利大于弊：

优点：

精确返回类型的自文档化
精确返回类型的代码生成带来更安全的客户端
GraphiQL交互式浏览器提高了生产力
我们的各种应用（用户应用、支持应用、Wave代理应用等）可以大多共享一个API，降低了复杂性
可组合的查询语言允许客户端在单次数据包往返中精确获取所需数据，无需构建大量专用端点
消除了关于什么才算RESTful API的无谓争论

缺点：

当我们采用GraphQL时，GraphQL库还不够好（基础Python库是Javascript库的移植，不够Python化，Graphene需要大量样板代码，Apollo-Android生成的代码优化很差）
默认的GQL编码是冗余的，我们非常关注限制大小，因为我们的许多客户带宽较低

关于Kubernetes，我们使用Kubernetes是因为我们知道，如果业务成功（事实确实如此）并且我们持续扩展，我们最终会扩展到要求我们在该国境内运营服务的国家。具体法规因国家而异，但我们已经在扩展到一个要求我们将“主要数据中心”设在该国境内的主要非洲市场，其他一些国家则有法规要求，例如，我们必须能够故障转移到该国境内的数据中心。

对于我们来说，有一个不可避免的复杂领域是电信集成。理论上，我们会为所有事情使用SaaS SMS提供商，但主要的SaaS SMS提供商并非在非洲所有地方都运营，在所有地方都使用它们的成本将是高昂的³。前面关于工程师补偿成本主导我们系统成本的评论，如果我们为所有SMS需求都使用SaaS SMS提供商，就不成立了；提供电信集成的团队自身创造了数倍于其成本的价值。

通过尽可能保持我们的应用架构简单，我们可以在那些复杂性能为业务带来收益的地方花费我们的复杂性（和人员编制）预算。除非有充分的理由增加复杂性，否则尽可能简单地做事的理念，使我们能够用不算太多的工程师建立一个相当大的业务，尽管我们运营的是一项非洲金融业务——这通常被认为是一个难以进入的行业，我们将在未来的一篇文章中讨论（我们最早和最有帮助的顾问之一，他的建议对Wave的成功至关重要，最初建议Wave是一个糟糕的商业想法，创始人应该选择另一个，因为他预见到了如此多的潜在困难）。

感谢Ben Kuhn、Sierra Rotimi-Williams、June Seif、Kamal Marhubi、Ruthie Byers、Lincoln Quirk、Calum Ball、John Hergenroeder、Bill Mill、Sophia Wisdom和Finbarr Timbers的评论/修正/讨论。

如果你想计算一个比例，我们上次融资时约有40名工程师，当时估值为17亿美元。 ^[返回]
对于某些商业模式，情况并非如此，例如，如果我们是一家广告支持的社交媒体公司，随着公司增长，我们需要支持的流量水平将足够大，以至于如果我们不将大量工程时间用于优化和降低成本工作，我们将产生巨大的财务成本。但是，作为一个在应用的大量交互中收取真金白银的公司，我们单位收入的计算负载与社交媒体公司相比非常低，这很可能对我们来说直到我们比现在大一个数量级以上都是一个小问题；即使我们大两个数量级，这是否是主要问题也不确定，但在三个数量级的增长上，这肯定是一个问题。 ^[返回]
尽管有不应在价格上竞争的经典建议，我们（除了其他许多事情）确实在价格上竞争，因此必须关注成本。我们已经降低了非洲移动货币的成本，并且我们的竞争对手不得不大幅降价以匹配我们的价格，我们认为这对世界来说是一个积极的价值。 ^[返回]

由 mimo-v2.5 模型翻译，花费 6608 tokens

为什么买到好用的东西这么难？

Mon, 14 Mar 2022 00:00:00 +0000

我经常听到一种鸡尾酒会版的有效市场假说，大意是“市场强制执行效率，因此一家公司不可能存在重大低效并存活下来”。我们之前在这里和这里讨论过马克·安德森关于科技招聘不可能低效的引述：

让我们直接开始吧。我认为硅谷公司故意、系统性歧视的批评是错误的，有两个原因可以相信这一点。……第二，我们的公司求贤若渴。极其渴望。我们的公司渴求人才。他们就像躺在沙滩上喘气一样，因为找不到足够多的有才华的人来做这些工作。去寻找人才的动机高得难以置信。

我经常听到工程师和风险投资人重复的这一观点的变体是，公司是有效率的，或者产品基本上已经尽可能好，因为如果它们可能更好，早就有人通过竞争做得更好了¹。

这类说法有一种模糊的合理性，因此它经常成为我在随意谈话中经常听到的辩论话题，其中一人会指出某个明显的公司低效或产品错误，而另一人则会回应说，如果它如此明显，公司里早就有人修复了这个问题，或者另一家公司会凭借更高的效率或更好的产品胜出。纯粹从理论上讲，很难解决这个争论，但如果我们看一些具体例子，比如上面关于招聘的两个例子，事情就清晰了，我们可以观察到，无论人们提出什么抽象的论点，低效现象持续了数十年。

就购买产品和服务而言，在个人层面上，我认识的大多数检查过他们雇来的人（比如家庭装修或会计）的工作的人都发现了工作中的严重错误。虽然有可能找到不做劣质工作的人，但对于一个不是该领域专家的人来说，通常很难确定某人是否会做劣质工作。你可以尝试通过支付更多来获得更好的质量，但一旦你脱离了市场的非常低端，如何用金钱换取质量通常就不清楚了；例如，我的朋友和同事中，那些选择大型、知名会计公司的人支付的费用远高于选择小型、本地会计师的人，却得到了更高的错误率；作为一种策略，尝试聘请昂贵的本地会计师也没有好多少。好的会计师通常有点贵，但他们通常不收取最高费率，而且只有一小部分有点贵的会计师是好的。

更普遍地说，在许多市场中，消费者信息不灵，很难找出哪些产品甚至还算不错，更不用说好的了。当人们碰巧选择了适合他们的产品或服务时，通常是出于错误的原因。例如，在我的社交圈里，过去几年有两波人从iPhone转向Android手机。这两波都是由于苹果的公关失误造成的，导致很多人认为iPhone在某方面很糟糕，而实际上它在这方面比Android手机更好。幸运的是，iPhone并非严格优于Android手机，许多转换的人得到了一个对他们更好的设备，因为他们之前是因为苹果良好的公关而使用iPhone，这使得他们的错误相互抵消。但是，当人们主要根据营销和公关做决定，并且无法获得好的信息时，没有特别的理由认为一个总体上更好甚至严格优越的产品会胜出，而更差的产品会失败。在资本市场中，我们不需要那么多信息充分的参与者就能认为某种形式的有效市场假说成立，以确保“价格反映了所有可用信息”。一个不言而喻的道理是，关于市场低效的已发表结果在发表的那一刻就不再成立，因为人们会利用这种低效直到它消失。但是，在劳动力市场的例子中，尽管公司可以利用定价错误的劳动力，正如格林斯潘在成为美联储主席之前著名地那样，低效可以持续存在：

Townsend-Greenspan 作为一家经济学公司是不寻常的，因为男性为女性工作（我们大约有25名员工）。我雇用女性经济学家并非出于妇女解放。这只是非常有商业意义。我平等对待男性和女性，并发现由于其他雇主没有这样做，优秀的女性经济学家比男性更便宜。雇用女性……让 Townsend-Greenspan 用同样的钱获得了更高质量的工作……

但正如我们所看到的，单个公司利用定价错误的劳动力，对劳动力的需求有限，低效可以持续数十年，因为那些根据“所有可用信息”行事的公司购买的劳动力不足以将定价错误的人的价格推高到如果大多数或所有公司都理性行事时会达到的水平。

从理论上讲，在产品和服务方面，低效似乎也应该能够持续很长时间，因为同样，也没有一种机制允许系统中的参与者以一种直接将金钱转化为更多金钱的方式来利用低效，有时甚至几乎没有任何机制来赚钱。例如，如果你观察到人们因为认为苹果在进行邪恶的计划性淘汰而从iPhone转向Android手机是愚蠢的，而Android设备通常由于iPhone获得更新的时间更长以及iPhone在它们竞争的每一个价位上都更快而更快过时，允许手机在臃肿的网站上使用更长时间，你真的无法从这个观察中赚钱。这与你可以购买衍生品来赚钱（在预期中）的定价错误的资产不同。

对于不知道什么产品或服务好的问题，一个常见的建议是咨询该领域的专家或有资质的人，但这也经常失败。例如，我的一个朋友因为他的窗户空调噪音太大，启动时会把他吵醒而睡不着觉。他问了一个他信任的、从事空调工作的朋友，换一台新的空调是否可以改善这种情况，他的朋友说“不；空调基本上都差不多”。但任何比较过带电机产品的消费者都会立即知道这是错误的。工程师在保持功率和成本不变的情况下制造更安静的设备方面已经进步了很多。我的朋友最终买了一台更新的、更安静的空调，这解决了他的睡眠问题，但他问题持续的时间比需要的更长，因为他以为一个以空调工作为业的人会给他提供不糟糕的建议。如果我的朋友是空调专家，或者比较过随时间变化的其他类似消费产品的噪音水平，他本可以知道不该相信他的朋友，但如果他有那种专业水平，他一开始就不需要建议了。

到目前为止，我们关注的是在个人层面获得合适产品或服务的困难，但这个问题在公司层面也存在，并且通常更严重，因为市场往往更薄，可用产品更少，而且定价不透明，“请联系我们”。一些经常被重复的建议是公司应该专注于他们的“核心竞争力”，并将其他所有事情外包（例如，Joel Spolsky、Gene Kim、Will Larson、Camille Fournier 等人都这么说），但如果我们看中型科技公司，我们会发现它们通常需要拥有远超出任何人认为的核心竞争力的内部专业知识，除非，例如，每家社交媒体公司都将内核专业知识作为核心竞争力。原则上，公司可以将这类工作外包，但我认识的那些依赖外包的人，比如将内核专业知识外包给顾问或将应用工程师放在支持合同上，与他们通过雇用专职工程师所能得到的结果相比，都非常不满意，无论是在绝对值上（支持通常在几周甚至几个月内都找不到满意的解决方案，即使是一个好的工程师可以在几天内解决的问题），还是在金钱上（尽管工程师很昂贵，但大型支持合同通常可能比一个工程师更贵，同时提供的服务更差）。

这个问题不仅存在于支持方面，也存在于公司可以购买而不是构建的产品中。例如，Wave 的首席技术官 Ben Kuhn 在推特上发布了一些关于我们遇到的问题，并有几个后续。Ben 现在认为，他作为首席技术官犯下的一个大错误是没有在供应商选择上投入更多精力，即使决策看起来是板上钉钉的，并且更强烈地考虑尽早将许多系统迁移到定制的内部版本。即使选择了该领域领先（即规模最大、最受尊敬）的公司中的共识最佳产品，并使用公司的主要产品，该产品通常不仅不起作用，而且其设计就无法工作。

例如，我们尝试“购买”而不是“构建”一个将数据从 Postgres 同步到 Snowflake 的产品。从 Postgres 同步是主要产品（即拥有最多客户的产品）来自一家领先的数据同步公司，我们发现它会丢失数据、重复数据和损坏数据。深入研究后，发现该产品的设计依赖于数据源能够在变更日志上向后搜索。但 Postgres 在变更日志被消费后就会丢弃它们，因此 Postgres 数据源无法支持此操作。当他们的产品尝试执行此操作且操作失败时，我们最终会出现同步“卡住”的情况，需要供应商操作员的和/或数据丢失的人工干预。由于我们的数据仍然在 Postgres 上，可以通过完全重新同步来恢复，但数据同步产品的速度上限为 5MB/s，原因似乎不为他们所知，因此即使对于不是特别大的数据库，完全重新同步也可能需要数天时间。重新同步也会静默地丢弃和损坏数据，因此有时需要多轮完全重新同步后跟数据完整性检查来从数据损坏中恢复，这可能需要数周时间。尽管被广泛推荐并且是该领域的领先产品，该产品存在一些重大设计缺陷，意味着它实际上无法工作。

这与 Mongo 或其他存在基本设计缺陷导致严重数据丢失的产品没有太大区别，主要区别在于，在大多数领域，没有像Kyle Kingsbury 这样花费数年时间测试该领域各种产品，并耐心回应关于正确性的虚假声明，直到公关反弹导致该领域的公司开始认真对待正确性的人。没有这种压力，大多数软件产品基本上都不工作，因此上面有 Ben 的推特线程，他指出你可能想选择的“购买”解决方案大多不起作用²。当然，在我们的规模上，有很多我们近期不会去构建的东西，比如 CPU，但对于许多普遍认为应该“购买”的东西，“构建”似乎是一个合理的选择。即使对于大公司和构建 CPU 也是如此。十五年前，高性能（即非嵌入式级别的性能）CPU 被认为是疯了才会内部构建的东西，对最大的软件公司来说也是荒谬的，但 Apple 和 Amazon 已经能够在它们优化的维度上生产出同类最佳的 CPU，这是有原因的³。

这不仅仅是影响科技公司的问题；我们在许多不同的行业中都能看到这一点。例如，任何想向客户邮寄物品的公司都必须自己实现物流，或者处理不可靠物流的后果。作为用户，包裹是否能寄达给你，很大程度上取决于你住在哪里以及你住在什么样的建筑里。

当我住在房子里时，包裹通常无论使用哪家快递都会送达（尽管经常迟到）。但自从搬进公寓楼后，一些建筑就是收不到某些快递服务的配送。有一次，我住在一个邮政服务没有正确投递邮件的建筑里，我收不到很多邮件（虽然我经常收到寄给楼里其他人以及别处的人的邮件）。更常见的是，UPS 和 Fedex 通常不会尝试投递，只会在建筑门上贴一堆通知，上面是所有他们未投递的包裹的通知，通知错误地表示收件人不在家，但正确地指出，要拿到包裹，必须去某个取件点取件。

有一段时间，我住在一个城市，Amazon 使用第三方商业快递服务进行当日达的最后一公里配送。他们使用的服务以在未投递物品的情况下标记已投递而闻名，使得“当日达”配送比次日达甚至两日达还慢。有一次，我天真地联系了 Amazon 客服，因为我的包裹被标记为已投递但实际上没有投递。客服使用 Amazon 提供的标准脚本告诉我，我应该在包裹被标记为已投递三天后再联系他们，因为快递员经常标记包裹已投递但未投递，但他们通常会在几天内投递包裹。Amazon 知道他们使用的快递服务甚至不真正尝试投递包裹⁴，而他们唯一可用的短期缓解措施是告诉客服，让人们不要在包裹被标记为已投递时就认为它已到达。

Amazon 最终通过拥有自己的快递员或使用（按商业运输标准）极其昂贵的服务解决了这个问题（Apple 已为当日达这样做⁵）。在大规模运营下，没有你可以付费的商业服务能可靠地尝试投递包裹。如果你想要一个真正有效的服务，你通常需要自己构建，就像在软件领域一样。我当地的杂货店试图将此外包给 DoorDash。我尝试从杂货店送货3次，杂货只到了2次，这远低于大多数人认为可接受的命中率。为了获得可靠性而必须自建而不是购买，对生产力是巨大的拖累，尤其是对小公司而言（例如，想要与 Amazon 竞争并邮寄产品给客户的小商店不可能拥有可靠的配送服务，因为他们无法建立自己的配送服务）。

无法外包服务所产生的浪费量是惊人的，我在我工作过的每个地方都见过。另一个行业的例子：当我在一家小型芯片初创公司工作时，我们内部有能力进行端到端的芯片处理（除了没有自己的晶圆厂），这在小型芯片初创公司中并不常见。当新设计的第一片晶圆从晶圆厂出来时，我们会用航班把晶圆运给我们，然后有人会用晶圆切割机把晶圆切成单个芯片，以便尽快开始测试。这通常被认为是荒谬的，就像小型软件初创公司管理自己的本地硬件被认为是荒谬的一样。毕竟，晶圆切割机和从晶圆到工作芯片所需的专业知识在99%以上的时间里都是闲置的。拥有全职设备和你使用时间不到1%的专业知识，是应该外包的经典例子，但如果考虑到拥有能够完成这项工作的人员和设备，即使在相当低的产量下，在内部完成也更便宜，即使设备和专业知识闲置99%的时间。更重要的是，内部服务会好得多（周转更快），让你能够以更高的节奏发货。我既在尝试将此类事情外包的公司工作过，也与许多做过此事的人交谈过，你会得到更慢、更不可靠的服务，而且成本更高。

芯片软件工具也是如此；尽管将工具外包给大型 EDA 供应商是标准做法，但我们通过使用自己的定制工具（通常由一个人创建或维护）获得了很大收益，例如，我在那里的时候，大多数模拟周期都是在由一个人维护的定制模拟器上运行的，这为公司节省了每年数百万美元的模拟器成本（当时模拟器的标准价格是每个许可证每年几千美元，而我们有大约一千台模拟机器的农场）。你可能认为，如果一个人可以创建或维护一个对公司每年价值数百万美元的工具，我们的竞争对手也会这样做，就像你可能认为如果通过雇用一个知道如何切割晶圆的人能以更低的成本更快地发货，我们的竞争对手也会这样做，但他们大多没有这样做。

Joel Spolsky 有一篇旧文章说：

“找出依赖关系——然后消除它们。”当你是真正优秀的团队的一员，有优秀的程序员时，坦率地说，其他人的代码都是漏洞百出的垃圾，而且没有其他人知道如何按时交付。

我们有类似的态度，尽管我会说我们更谦逊一些。我们不认为其他人都在生产垃圾，但我们也没有假设我们无法以十分之一的成本制造出可以与我们购买的产品相媲美的东西。通过与一些竞争对手的人员交谈，我们的运作方式和他们的运作方式之间存在着相当大的文化差异。他们根本没有想到，他们不必接受标准的美国商业逻辑，即你应该专注于你的核心竞争力，你可以根据具体情况考虑内部做某事是否有意义，而不是将你的思考外包给一句简洁的格言。

我曾从内部观察过一家公司经历这种文化转变。一些领导层的人决定公司应该专注于核心竞争力，这意味着放弃用于基础设施的定制软件。这导致了大量从定制内部软件迁移到 SaaS 解决方案和开源软件。如果你观察关于各种项目“为什么”应该或不应该迁移的讨论，有一些异常“不讲理”的人试图根据每个案例的具体情况进行推理（在一篇关于抵制高层命令的文章中，Yossi Kreinin 称这些人是疯了的员工；我将在本文中指代同一个概念，但称之为“异常不讲理”的人）。但大多数人接受了党的路线，无论具体情况如何都推动迁移。

我认为有趣的是，领导层并没有告诉特定团队他们必须迁移，对于“异常不讲理”的人为了保持运行现有系统（出于合理原因）而抵制的团队，也没有真正的负面后果。相反，大多数人接受了这个想法，并试图为听起来合理但实际上与现实无关的理由进行迁移，导致一些有趣的结果，比如迁移到一个开源系统“以省钱”，而新系统显然效率低下⁶，并且可预见地需要更高的资本支出和运营支出。节省成本本应来自缩小团队规模，但运营成本的增加主导了团队成本的变化，而操作系统的复杂性意味着团队规模反而增加了。确实有一些迁移是有意义的，但陈述的迁移理由往往与实际有意义的理由无关或关系不大。一旦人们接受了公司应该专注于核心竞争力的思想，迁移就是由这种文化思想驱动的，而不是任何技术原因。

像上面这样的决策的普遍性——没有严肃技术考虑的技术决策——是公司制造好产品的选择压力如此微弱的一个主要原因。存在一些压力，但它非常嘈杂，以至于成功的公司常常绕过制造一个能工作的产品，就像上面的 Mongo 例子一样，Mongo 决定大声重复明显虚假的性能主张和做出明显错误的正确性主张，从商业角度来看，这比专注于实际的正确性和性能更优越；通过将资源集中在对业务重要的地方，他们成功地超越了那些犯了将大量资源投入到性能和正确性上的错误的公司。

Yossi 关于一个异常“不讲理”的人在他们看重的维度上能在公司产生超大影响的文章也适用于公司外部的影响。上面提到的 Kyle Kingsbury 就是一个例子。按我现在听说的Jepsen收费水平，Kyle 可以带来相当于大公司高级开发人员（真正的高级，不是头衔写着“高级”）的收入，但那是在多年的低于市场水平的长时间工作、在不确定的努力中进行的，在此期间他反驳了批评者的FUD（如果你阅读相关帖子下的回复，或者更糟的是，阅读他参与讨论的工单，多年来回复给 Kyle 的内容一直是一连串的胡言乱语，包括为供应商工作的人觉得他特别针对他们，贬低他的人格⁷，以及普遍贬低他）。我深深尊重那些尽管系统与他们作对，仍愿意推动解决这类问题的人，但尽管我尊重，基本上没有人会去做。一个需要像 Kyle 这样的人挺身而出，成功的公司才会在正确性而不是正确性营销上投入努力的系统，将会产生很多产品，它们擅长营销正确性，却没有真正的正确性属性（比如本文中提到的数据同步产品，其网站反复提到同步产品多么可靠和安全，尽管其设计存在根本性缺陷）。

在公司层面也是如此，通常需要一家异常“不讲理”的公司才能制造出真正卓越的产品，而不仅仅是被营销为卓越的产品，例如，Volvo，唯一一家似乎试图制造出超越 IIHS 测试所能证明的结构安全性的汽车制造商，其商业表现非常糟糕，以至于被迫转向高端市场，成为一家小众的豪华汽车制造商，因为尽管车祸是导致死亡的主要原因，也是预期寿命损失的重要来源，但消费者并不真正感兴趣于安全性。而且目前还不清楚 Volvo 是否能够持续作为一家“不讲理”的公司存在，因为他们无法作为一家独立的汽车制造商生存下来。当福特收购 Volvo 时，福特开始将 Volvo 转移到共享的福特 C1 平台，该平台在碰撞测试中表现并不出色。自从吉利收购 Volvo 以来，现在还太早，无法确定他们是否会保持 Volvo 为真实世界碰撞数据（而不仅仅是基准测试中报告的碰撞数据）设计的承诺。如果吉利拒绝继续 Volvo 对结构安全性的承诺，可能就无法买到一辆设计为安全的现代汽车了。

大多数市场都是如此，只是从一开始就从未有过像 Volvo 这样“不讲理”的公司。关于“不讲理”的员工，Yossi 说：

谁能够，有时也确实会，从底部清理变质的鱼？一个疯了的员工。一个发现叉子、崩溃等事情是对他的个人冒犯的人，并且会反复冒着惹恼管理层的风险，去阻止这些事情。尤其是那种把自己辛苦赚来的、管理层真正重视的政治资本，花在管理层并不真正重视的工作上的人——这样的人可以坚持战斗很长时间。有些人通过坚持直到管理层真正改变想法并奖励他们而成功地将其作为事业。无论成功的几率如何，普通人都无法理解试图完成这样壮举的人的动机。

很少有人愿意花费大量的个人资本去做正确的事，无论对某人来说这意味着什么，但更罕见的是，一家公司的领导层会做出这样的选择，花费公司的资本去做正确的事。

经济学家有一个术语，用于信息不对称导致买方无法区分好产品和“柠檬”的情况，“柠檬市场”，比如汽车市场（“柠檬”一词由此而来），或者招聘市场的双方。在经济论述中，关于汽车是否是柠檬市场存在争论，原因多种多样（允许人们退还有问题的柠檬车的柠檬法似乎没有改变市场的运作方式，当定义为具有严重可靠性问题的车辆时，很少有现代汽车是柠檬，等等）。但关注人们偶尔是否会买到有缺陷的汽车，是只见树木不见森林。可能只有一家汽车制造商真正认真地试图制造出超越标准机构测试水平的结构安全的汽车（而且有传言称他们在日益重要的软件测试方面偷工减料），因为消费者无法区分超过少数标准机构测试水平的安全性差异。那就是一个柠檬市场，几乎所有其他消费市场和企业对企业市场也是如此。

附录：文化

关于美国社会，我觉得有趣的一点是，有多少人认为，一个人因为未能保护自己应对所有突发情况而吃亏是“活该”（希望高度有效的组织通常通过拥有“免责”文化来避免这种情况，但很少有人接触过这样的文化）。

我最近看到的一些例子：

一个人在咖啡馆笔记本电脑被偷；被责备没有一直盯着笔记本电脑，因为没有一个理性的人会在转头和某人简短交谈时让目光离开自己的任何物品哪怕10秒钟
一个人发布了一份公共服务公告，说他们被一家公司服务条款的变更所困，其他人也应该注意同样的事情，人们说被困住的人很蠢，没有阅读他们收到的每一份服务条款更新的每一个字
（很多次，在 r/idiotsincars 上）：一个人发生了事故，从合理角度很难或不可能避免，人们告诉这个人他们是一个糟糕的司机，没有避免事故

至少有一次，这个人进行了逐帧分析，显示他在一帧的延迟内尽可能快地做出反应，但仍然被告知他应该避免事故
人们经常会说“我一开始就不会陷入那种情况”，在有人经过停放的车辆行驶的情况下，会导致诸如“我绝不会以超过10英里/小时的速度经过车辆”之类的荒谬言论，就好像发表评论的人在每条有停放或停止车辆的街道上都会减速到10英里/小时一样。

一个人在 flyertalk 论坛抱怨 Google 地图说明不清楚（如果你不是机器人的话，比如“在500米后右转”，这可能是多个交叉路口之一），人们回应说诸如“我从不在完全熟悉路线的情况下出门”之类的话，并且你应该事先规划好所有的驾驶路线，就像你在1992年用纸质地图进行公路旅行一样（这被用作事先规划所有旅行的合理性的理由——我当时就是这么做的，任何不蠢的人现在也会这么做）

那些持有此类负面反应的人获得了大量点赞；没有人建议改用 Apple 地图，它提供清晰的、基于地标的指示，如“通过红绿灯，然后在下一个路口右转”

如果你阅读这类讨论，你会经常看到人们声称“世界就是这样的”，并且进一步说世界不可能以任何其他方式存在，所以任何没有为此做好准备的人都是白痴。

回到笔记本电脑被偷的例子，任何旅行过，甚至阅读过其他文化的人都可以观察到，北美人认为基本上是大规模社会固有结果的东西是武断的。例如，如果你把包和笔记本电脑放在咖啡馆的桌子上几个小时后回来，在韩国，包和笔记本电脑极有可能还在那里我听说在日本也是如此。虽然那样占着桌子不礼貌，但你的包和笔记本电脑不太可能被偷。

而且，事实上，如果你稍微改变一下语境，这在美国基本上也是真的。进入一个空房子并偷走里面的东西，并不比从咖啡馆偷走东西难多少（学习如何撬锁相当容易，而打碎窗户则更容易）。然而，在美国的大多数社区，人们很少被入室盗窃，当有人发帖说被入室盗窃时，他们不会因为没有看好自己的房子而被痛斥为白痴。相反，人们大多表示同情。在公共场所无人看管的财产被偷被认为是正常的，而在私人空间则不是，但这更多是一种文化上的区别，而不是技术上的区别。

有一个相关的系列故事，是 Avery Pennarun 讲述的关于他作为美国人在韩国的文化冲击。其中一个故事是关于某种你可以使用的在线订购服务，有点像 Amazon。在 Amazon，当你订购某物时，你会收到一个带有多个条形码/二维码/其他代码的盒子，当你打开它时，里面还有另一个至少有一个代码的盒子。当然，另一个盒子需要条形码，因为它要经过大规模的物流中心，没人知道盒子是什么或需要去哪里，内盒也需要经过某种其他类型的处理，并且如果商品在零售商处销售，也需要能够被结账机器扫描。内盒里面是商品。如果你想退货，你把商品放回带有条形码的盒子里，然后把那个盒子放进运输盒里，然后在运输盒上贴另一个条形码，然后寄出。

所以，在韩国，有某个类似 Amazon 的服务，你可以订购一件商品，一两个小时后，你会听到敲门声。当你到门口时，你会看到一个没有标签的盒子或袋子，商品就在这个没有标签的容器里。如果你想退货，你“告诉”应用程序你想退货，把它放回它的容器，放在你家门口，他们会取走它。看到这种与美国截然不同的物流设置后，他问某人“他们怎么可能不弄混哪个盒子是哪个？”他得到的答案是“他们为什么会弄混哪个盒子是哪个？”。他的其他故事也有类似的感觉，他在其中描述了一些相当陌生的事物，询问当地人事情怎么会以这种陌生的方式运作，而当地人无法想象事情以任何其他方式运作，并回应说“为什么X不行？”。

就像咖啡馆笔记本电脑的例子一样，Avery 的许多故事都归结为在人们和组织如何运作方面存在完全不同的共同文化期望。

另一个例子是新冠。我的许多朋友在过去几年里大部分时间都呆在越南或台湾等亚洲国家，那里的新冠感染率低得多，以至于他们几乎完全没有封锁。我在那些国家的朋友基本上可以过上正常的生活，就好像根本没有新冠病毒一样（至少直到最近的变种，在此之前他们已接种疫苗，并且对于最严重的结果来说风险相对较低），同时几乎冒着零感染新冠病毒的风险。

在大多数西方国家，许多人的最初舆论认为封锁是无意义的，我们无法防止新冠病毒爆发The request was rejected because it was considered high risk

由 mimo-v2.5 模型翻译，花费 20053 tokens

人才误判

Mon, 21 Feb 2022 00:00:00 +0000

[AI 摘要] 文章通过棒球球探和科技行业招聘的例子，说明基于外貌、身高或背景等无关因素的人才评估会导致人才错配和偏见。

[点击展开/收起体育相关部分]

Twitter十年重大缓存事件回顾

Wed, 2 Feb 2022 00:00:00 +0000

[AI 摘要] 本文梳理了Twitter自2012年至2022年间因缓存引发的重大严重事故，旨在保存历史知识并揭示故障模式。

本文与姚越合著

本文汇编了Twitter从采用现行事故追踪系统JIRA（2012年）至2022年间，至少部分归因于缓存的严重事故（SEV-0或SEV-1级别，即最高严重等级分类）信息，并附带一件2012年之前的额外事故。不计额外事故，事故追踪系统中共记录了6起SEV-0和6起SEV-1事故至少部分与缓存相关，另有38起严重性较低的事故未在本文讨论。

我们记录这些历史知识的原因有二：首先，科技公司的历史知识流失速度极快，我们认为保存部分记录很有价值；其次，从特定角度审视事故与可靠性问题、将所有信息整合一处，有时能让某些规律变得尤为明显。

关于知识流失，当我们观察到关于某科技公司事件的病毒式推文或其他传播内容时，深入调查发现广泛流传的故事通常因平庸的原因而严重失真。其一，极度夸张的故事更易传播，因此往往被记住；其二，存在一种前高管/副总裁宣扬个人功绩的特色产业，这些故事往往（委婉地说）扭曲事实（尽管普通工程师也可能这样做，但传播最广的虚假故事常来自管理岗）。在这两种情况下，都存在一种故事领域的格雷欣法则——错误故事往往压倒正确故事。

即便真心尝试理解事件经过，知识也会快速流失。在我们进行的事故分析项目中，近几年的文档和工单链接通常仍可访问（90%以上概率），但更早的链接失效风险显著增高，到2012年的内容时失效概率接近0%。有时，人们会将资料保存在锁定文档、邮件中，但这些资料常链接至已完全失效的内容。了解事件经过需与多人交流，而由于人类记忆的特性，人们会提供需要整合的碎片化叙述¹。

关于特定角度的观察，广义审视失败并分类汇总所有失败固然有用，但深入剖析特定类别的失败同样具有价值。例如，丽贝卡·艾萨克斯和丹·卢曾对Twitter故障转移测试（2018-2020年）进行（内部非公开）分析，发现多项促成运营变更的问题。从某种意义上说，分析中并无新信息，因为我们获取的信息均来自现有文档，但将信息整合一处后，多年间分散发生的事故中那些原本不明显变得清晰可见。

本文档不会在Twitter内部引发变更，因为缓存事故的规律及应对措施已进行过梳理，但将这些内容整理归档对外部人员可能仍有价值。

至于为何关注缓存故障（而非其他系统故障）——缓存相对常见地牵涉重大事故，正如姚越在内部Twitter故障故事分享会上（指代Twitter在运营方面的"黑暗时代"）的评论所示：

目前每起事故都至少提及缓存。事实上，很长时间里，缓存可能是导致网站宕机的头号原因。

我入职前六个月，每次重启缓存服务器，在当今标准下都是SEV-0事故。顺利的话，重启一个缓存后，外部请求的成功率（SR）可能还有95%...

此外，Twitter绝大部分缓存采用（memcached的分支版本）²，该技术在其他领域广泛使用，使得相关知识比讨论完全定制的Twitter系统更具普适性。

更广泛地说，由于缓存结构简单，它是相对纯净的真实世界分布式系统常见故障模式案例来源。概念上，缓存服务器是高吞吐量、低延迟的RPC服务器加上管理数据（如内存/磁盘及键值索引）的库。对于内存缓存，数据管理侧应能轻松超越RPC侧性能（原生内存键值库每核心可达百万级QPS，而未采用用户空间网络、批处理/流水线等技术的原生RPC服务器性能可能不足其十分之一）。由于RPC栈外的组件简单，缓存可视为近似纯粹的RPC负载，这在服务密集型架构中常至关重要。

当规模与性能成为关注点时，缓存常采用分片集群，这使其受制于分布式系统的约束与陷阱（但因性能优先，同步问题较某些其他负载如强一致性分布式数据库而言强调较少）。同时，由于分布式系统的特性，缓存使用者将暴露于这些故障模式，并可能受其级联影响而受损。

缓存故障模式亦颇具研究价值，因为当缓存承担显著比例的请求或数据服务时，缓存中断或性能下降极易引发全面宕机——为缓存性能设计的架构不会（也不应）具备足以维持网站运行的备用数据库性能。

相较于多数负载，缓存对底层栈（如内核、固件、硬件等）的性能异常更为敏感，因其通常具有高吞吐量、低延迟的SLO（缓存的意义在于快速），且大量时间（排除用户空间网络等情况）耗费在内核（Twitter memcached运行常规内核网络时约80%）。此外，因缓存服务器常运行少量线程，易受共享底层资源（CPU、内存、磁盘等）的其他负载影响而被阻塞。高吞吐量与低延迟SLO会加剧导致"死亡螺旋"的正反馈循环——这是分布式系统的经典故障模式。

审视下文事故时，我们将发现多数事故并非源于缓存逻辑错误，而是某种异常引发了未被充分缓解的正反馈循环，最终演变为失控反馈循环。

因此，阅读下文事故时，关注缓存与栈上调用者及栈下交互层的互动方式将大有裨益。另一值得关注点是：重大事故多因先前事故的修复措施未完全执行，或工程师认定的严重运营问题未获优先处理所致。这与丽贝卡·艾萨克斯和丹·卢在故障转移测试失败原因分析中发现的常见模式一致。

2011-08 (SEV-0)

数月内，大量用户自主发起的变更（如用户名、显示名、密码）遭回滚。此风险持续存在数年。

背景

当时，Rails应用采用单线程工作器，由单个主进程管理健康检查、重新部署等。若工作器卡顿30秒，主进程将终止并重启该工作器。

团队在裸金属服务器上运行，未使用Mesos或Kubernetes等集群管理器。团队拥有硬件全权，负责内核升级等。

键的分片定位算法涉及哈希运算。若节点失效，原哈希至此节点的键将被哈希至其他节点。每个工作器客户端独立进行路由决策以确定与哪个缓存分片通信，即各工作器独立判断缓存节点存活状态及键的位置。若客户端判定某主机"状态不良"，该主机将被"剔除"。

事件

11月8日，某用户将姓名从[旧名]更改为[新名]。一周后，其用户名回滚为[旧名]。

11月8日至12月初，客服提交数十起类似工单。Twitter缺乏定位故障点的监控手段，因此前两周调查主要为Rails应用添加指标以定位问题根源。每次变更需与部署团队协调，耗时至少两小时。Rails应用监控完善后，所有线索指向缓存为问题源头。确定缓存是否为真正原因的全套变更又耗时一两周，包括添加缓存不一致性、缓存异常路径及主机剔除的监控指标。

添加监控后，某工程师在12月初的JIRA工单中评论：

今日启用代码以查看缓存用户与数据库用户在将缓存用户数据写回数据库时的不同步程度。该比例约为0.2%...
检查Twitter上150名热门用户所在缓存分片数（理论上应不超过1个）。多数用户存在于至少两个分片，部分用户甚至多达六个。

首个修复措施是避免将过期数据写回数据库。但这未解决同一数据在不同缓存分片存在多份副本的问题。第二个修复措施旨在减少键出现在多处的频率，即多次重试后再剔除主机。其逻辑是：若主机真正永久宕机，应触发警报，但宕机主机的警报未触发，因此导致剔除的错误应为暂时性，客户端持续重试应能找到键"应在的位置"。随后，为防止因主机暂时性错误过多导致键波动，延长了被剔除主机的屏蔽时间。

此变更经单个缓存测试后推广至全部缓存。推广后网站立即宕机，因剔除仍在发生，而更长的屏蔽时间导致后端承压。当时后端采用MySQL，其配置下高负载时响应时间可能无限延长。这导致工作器响应时间无限延长，主进程终止工作器，当此情况大规模发生时因可用工作器不足导致网站宕机。

回滚第二个修复后，用户仍可见过期数据——尽管过期数据不再写回数据库，但缓存更新可能发生在某位置的键上，而客户端随后从另一位置读取到该键的过期缓存副本。另一缓解措施是将用户数据缓存从高利用率集群迁移至低利用率集群。

进一步调试后发现，重试可解决"随机"原因导致的尾部延迟剔除，但仍有高剔除率源于非随机因素。监控指标显示有时出现高丢包率，且与入站数据包速率相关而非带宽占用。高数据包速率与丢包时段检查主机发现，CPU0耗费65%-70%时间处理软中断，表明丢包可能源于CPU0无法跟上数据包到达速率。

修复措施为设置IRQ亲和性，将入站数据包处理分散至主机所有物理核心。部署修复后，新迁移用户数据的集群观察到丢包和缓存不一致，而原集群未出现。

时值12月底。检查其他集群发现部分集群也存在丢包。深入观察发现，丢包每20小时40分钟在特定主机上发生。所有问题主机均为特定硬件SKU与特定BIOS版本（最新版）。该SKU较早BIOS版本的主机正常。实为该BIOS版本的主机触发BMC每20小时40分钟执行高开销健康检查，期间内核被中断，无法处理任何数据包导致丢包。

内核团队约六个月前已发现此问题，并尝试推送内核配置变更（增大数据包环形缓冲区容量以防缓冲区溢出时暂时性问题导致丢包）进行修复。尽管该工单标记为已解决，但修复未广泛推广，原因不明。

快速缓解措施为错开主机重启时间，避免集群内数据包丢弃同步发生。

因BMC版本需与BIOS匹配且BMC无法回滚，无法通过回滚BIOS解决问题。为推进BMC和BIOS更新，硬件工程团队需进行紧急测试/验证（尽快完成），随后BIOS修复得以推广，丢包问题消失。

整体耗时约两个月。

但这并非彻底修复——主机剔除行为未变，任何导致部分（非全部）客户端剔除缓存分片的随机问题仍将引发不一致。修复此问题需改变缓存架构，这无法快速完成（耗时约两年）。

缓解措施/修复：

增加可见性
设置IRQ亲和性以避免CPU0过载
修复导致主机周期性丢包的固件问题
修复缓存架构以容忍分区而不引发不一致

经验教训：

需提升可见性
运维缓存需具备底层系统知识
实施隔离变更（推广IRQ亲和性修复时迁移至新集群，此举混淆了问题——同时修复了一个丢包问题并引入了另一个）

2012-07 (SEV-1)

非个性化趋势对约10%用户约10小时未显示，用户看到空白趋势框。

Rails应用更新部署后，趋势缓存停止返回结果。仅影响非个性化趋势（因个性化趋势由独立服务提供）。

两小时后确认因趋势缓存刷新守护进程段错误导致，原因为内存耗尽。根因是部署的变更在Trend对象中增加了Thrift字段，使趋势缓存刷新守护进程内存使用量超限。

虽有守护进程失败的警报，但其仅检查守护进程是否成功启动，未检查是否成功完成。

缓解措施/修复：

增加ulimit
警报标准改为作业成功完成而非作业启动
全局仪表盘添加404率指标

经验教训：

警报标准应为作业成功而非作业启动

2012-07 (SEV-0)

此为外界较知名的Twitter事故之一，因用户看到无图片和CSS的公共错误页面：

Twitter currently down for <% = reason %>
We expect to be back in <% = deadline %>

网站严重受损约四小时。

此事故的记录不甚完整（因该时期文档高度缺失，相关JIRA工单注明"此事故已进行深度事后分析与评审，关闭事故工单"，但书面文档大多已丢失）。

事故触发点为两排机架断电。对缓存的影响为：48台主机断电，一小时供电恢复后重启。其中37台主机的缓存因脚本预期存在的目录未挂载而启动失败。"手动"修复这些主机的布局耗时30分钟，随后缓存恢复。

该目录对运行缓存服务器（至少在当时Twitter的运行方式下）并非必需。但有一个脚本在启动时检查该目录是否存在，而一个月前从布局配置脚本中移除此目录时，该检查脚本未同步更新。

增加调试难度的另一因素是：主机重启后/proc未正确挂载。尽管这非事故原因，但其异常性导致确认此问题非事故部分且为需修复的独立紧急问题耗费时间。

若网站其余部分运行完美，上述缓存问题不应引发如此严重事故，但多因素叠加导致全站宕机持续较长时间。

其他问题包括：

应5秒超时的慢请求未超时，反而持续30秒直至处理该请求的整个工作器进程被终止重启
- 原设计5秒超时的代码虽运行，但使用错误时间戳判断时长，故未触发超时
用户数据服务恢复缓慢
- 故障期间日志记录消耗大量资源并引发极高GC压力
多台非缓存主机重启后启动失败，问题包括卡在fsck或PXE引导循环
尽管网站和错误消息为静态，停机页面使用Ruby通配符，向用户显示模板消息
- 源于Twitter近期从Rails应用前端迁移至C++前端；错误资源直接复制而来，仍包含ERB模板
CSS未加载，因网站CSS的加载源宕机
前端过载，健康检查发现分片异常时重启失败

缓存缓解措施/修复：

修复配置布局的软件以防未来复发
审计现有主机以修复当前受影响主机的问题
确保内核升级时挂载/proc
建立软件更新/升级流程以降低未来引入缺陷概率
确保缓存主机（及其他主机）在故障域间更均匀分布

其他缓解措施/修复（高度不完整）：

在监控主机上设置磁盘/RAID健康与维护
将故障/异常主机送至SiteOps维修
移除停机页面的Ruby通配符
将CSS打包至停机页面，使其他组件宕机时CSS仍可用
为前端添加过载保护机制
将用户数据服务的日志库更换为开销更低的日志库，防止高错误率时GC压力导致服务终止
修复5秒超时以读取正确标头
在栈的其他层级添加独立超时机制，当请求完全无进展时亦应触发
更改前端健康检查与重启机制以强制终止节点而非尝试优雅关闭
确保任何时刻仅有一个健康检查脚本版本在节点上运行

经验教训：

需主动测试故障模式，包括导致主机重启或超时的故障模式
需制定机架多样性要求，使部分机架故障不会不成比例地影响少数服务

2013-01 (SEV-0)

网站宕机3小时30分

负载增加（据我所知，当日属正常水平，非异常峰值）导致缓存尾部延迟上升。缓存尾部延迟上升源于新缓存主机未设置IRQ亲和性，导致队列积压和延迟升高。

缓存延迟升高加之推文服务使用缓存的设计，导致使用缓存的推文服务分片陷入GC死亡螺旋（延迟增加→待处理请求增多→GC压力增大→分片负载增加→延迟进一步升高），进而导致剩余分片负载增加。

当时，推文服务缓存与用户数据缓存共置于相同主机，每台主机承载1个推文服务缓存分片和2个用户数据缓存分片。推文服务缓存新增主机未引发问题。用户数据缓存于傍晚逐步新增主机，初始亦未引发问题。但晨间流量高峰（因同时接近亚洲和美国使用高峰，亚洲国家使用高峰常非"朝九晚五"工作时间，美国使用高峰在工作时间）触发IRQ亲和性问题。推文服务受IRQ亲和性问题影响远甚于用户数据服务。

缓解措施/修复：

缓存主机需设置IRQ亲和性（参照2011-08事故）
- 将此设为服务器默认配置，而非缓存主机单独作为临时变更执行
调整推文服务设置
- 减少最大连接数
- 增加超时时间
- 未进行GC配置变更，因当时GC统计未作为指标导出，且GC日志未记录足够信息以判断不良GC设置是否为诱因
调整所有使用缓存的服务设置
- 将连接限制调整至稳态值的约2倍

2013-09 (SEV-1)

单数据中心网站整体成功率降至92%。用户受影响约15分钟。

时间线服务失去其使用的75%某缓存的访问权限。缓存团队对该缓存进行服务器集变更，而时间线服务未采用推荐机制消费缓存服务器集路径，导致其"未知"哪些服务器为缓存服务器。

缓解措施/修复：

时间线服务采用推荐机制查找服务器集路径
审计所有消费服务器集路径的代码，确保无服务使用非推荐机制

2014-01 (SEV-0)

单数据中心网站宕机，影响请求路由至该数据中心的用户约20分钟。

推文服务开始向缓存发送高负载。此前某变更移除了缓存连接数上限。当时缓存在约160万连接时将拒绝接受新连接。导致监控服务无法连接缓存分片，进而重启缓存分片引发宕机。

宕机前数月，已有五个工单描述此事故的多个诱因。

某工单（由C状态配置错误与SMI组合引发的较轻事故的后续）指出缓存在约160万连接时停止接受连接。某工程师深入调试此问题，查明原因并建议多种缓解路径。

关键因素之一是：尤其当缓存高负载时，尽管内核已建立TCP连接，缓存可能未accept连接。

客户端"未知"连接实际未对缓存开放，将发送请求并等待响应。若客户端"认为"需更高并发，Finagle可能开启多连接。150ms后请求超时。若缓存端队列过长，此时缓存可能尚未尝试处理该请求。

超时后，Finagle将重试并开启新连接，导致缓存分片每次过载加剧。

客户端侧，每个此类请求引发大量分配，导致高GC压力。

当时设置允许5次失败后将节点标记为不可用30秒，连接并行度为16，每个客户端尝试连接3台服务器。所有数值乘以分片数后，推文服务可在缓存接受连接限制前使其过载。

缓存侧有1个调度线程和N个工作线程。调度线程调用listen和accept，将工作放入工作线程队列。默认积压长度为1024。当accept因文件描述符限制失败时，调度线程在listen中将积压设为0，并忽略监听fd的所有事件。当连接关闭释放fd时，积压恢复为正常值并重新接受连接。

重大事故前观察到：当连接数"过高"时，连接开始被拒绝。一段时间后，拒绝连接产生的背压使缓存得以恢复。

问题的另一诱因是：某硬件SKU在缓存高负载下32KB页耗尽时发生OOM，增加未OOM的缓存负载。Twitter内核工程师在以下提交中修复：

commit 96c7a2ff21501691587e1ae969b83cbec8b78e08
Author: Eric W. Biederman 
Date:   Mon Feb 10 14:25:41 2014 -0800

    fs/file.c:fdtable: avoid triggering OOMs from alloc_fdmem
    
    Recently due to a spike in connections per second memcached on 3
    separate boxes triggered the OOM killer from accept.  At the time the
    OOM killer was triggered there was 4GB out of 36GB free in zone 1.  The
    problem was that alloc_fdtable was allocating an order 3 page (32KiB) to
    hold a bitmap, and there was sufficient fragmentation that the largest
    page available was 8KiB.
    
    I find the logic that PAGE_ALLOC_COSTLY_ORDER can't fail pretty dubious
    but I do agree that order 3 allocations are very likely to succeed.
    
    There are always pathologies where order > 0 allocations can fail when
    there are copious amounts of free memory available.  Using the pigeon
    hole principle it is easy to show that it requires 1 page more than 50%
    of the pages being free to guarantee an order 1 (8KiB) allocation will
    succeed, 1 page more than 75% of the pages being free to guarantee an
    order 2 (16KiB) allocation will succeed and 1 page more than 87.5%
    of the pages being free to guarantee an order 3 allocate will succeed.
    
    A server churning memory with a lot of small requests and replies like
    memcached is a common case that if anything can will skew the odds
    against large pages being available.
    
    Therefore let's not give external applications a practical way to kill
    linux server applications, and specify __GFP_NORETRY to the kmalloc in
    alloc_fdmem.  Unless I am misreading the code and by the time the code
    reaches should_alloc_retry in __alloc_pages_slowpath (where
    __GFP_NORETRY becomes signification).  We have already tried everything
    reasonable to allocate a page and the only thing left to do is wait.  So
    not waiting and falling back to vmalloc immediately seems like the
    reasonable thing to do even if there wasn't a chance of triggering the
    OOM killer.
    
    Signed-off-by: "Eric W. Biederman" 
    Cc: Eric Dumazet 
    Acked-by: David Rientjes 
    Cc: Cong Wang 
    Cc: 
    Signed-off-by: Andrew Morton 
    Signed-off-by: Linus Torvalds

此例再次说明Twitter规模的公司拥有内核团队的价值。

另一工单强调了缓存主机设置标准化的重要性（如IRQ亲和性、C状态、睿频加速、网卡绑定、固件版本），此为跟进更早工单中指出的推文服务部分主机延迟升高问题——最终查明源于某内核升级影响特定硬件SKU，因内核与固件版本交互导致SMI增加。

缓存缓解措施/修复：

将积压从1024降至128，使调度器过载时更快施加背压
降低文件描述符限制以避免部分分片内存耗尽
缓存使用固定哈希表大小以避免哈希表迁移期间大量分配和内存/CPU负载
低延迟memcached主机使用CPU亲和性

这些缓解措施的测试表明，即便客户端修复尚未实施（防止其"试图"压垮缓存），这些措施也能防止缓存于类似事故条件下崩溃。

推文服务缓解措施/修复：

调整超时、重试和客户端并发连接设置以避免过载缓存

经验教训：

硬件设置一致性至关重要
高积压深度后才施加背压可能危险
客户端设置重试策略时应"审慎计算"，避免采用在100%响应失败且施加最大背压时仍可能完全压垮缓存服务器的策略

2014-03 (SEV-0)

艾伦·德杰尼勒斯在奥斯卡颁奖典礼期间发布的推文被大量转发，导致搜索功能宕机约25分钟，并引发网站宕机，多数用户无法使用。

此事故涉及多环节。从缓存角度看，此为缓存因异常客户端行为过载的又一案例。

与2014-01事故相似，但当时为该事故实施的缓存侧缓解措施不足，因"攻击"客户端采用了比2014-01事故中推文服务更激进的参数，且此时部分缓存运行于共享Mesos的容器化环境，使其易受节流死亡螺旋影响。

对此直接问题的主要修复为为Finagle memcached客户端增加流水线支持，使多数客户端仅需1-2个连接即可获得足够吞吐量，降低客户端持续冲击缓存致其崩溃的概率。

其他服务实施近50项修复。部分主要主题：

在适当时机施加背压
- 施加背压时避免重试
确保数据（主要）流向同一数据中心以避免昂贵缓慢的跨数据中心流量
创建适当线程池防止关键工作被阻塞
为热点项目添加进程内缓存
高负载时返回查询的部分结果（不因结果不完整而拒绝请求）
制定缓存客户端配置指南以防对缓存发起DDoS

2016-01 (SEV-0)

日本前偶像团体SMAP（后转型为流行乐团及日本收视率常居首位的综艺节目主持人）举行发布会否认解散谣言。此事件导致单数据中心宕机，影响路由至该数据中心的用户约20分钟（直至流量切换至其他数据中心）。受损数据中心服务恢复耗时约六小时。

某数据中心推文服务负载激增，导致39台缓存分片主机OOM终止进程。集群管理器未自动将死亡节点移出服务器集——因死亡节点过多（节点少量故障时自动移除机制仍有效，但节点大量故障时自动化操作可能加剧灾难性故障——从缓存服务器集移除节点可能导致持久存储流量激增）。缓存运维人员手动清理死亡节点后，应重启节点的服务因Puppet变更意外移除了该服务的缓存相关配置而未能重启节点。回滚不良Puppet提交后，缓存分片启动但初期恢复过慢，随后恢复过快，导致推文服务成功率恢复耗时延长。

缓存分片主机因内核套接字缓冲区内存分配过多而OOM。

初始修复为将主机TCP缓冲区大小限制为4GB，但压力测试失败，查明因高运行时间（2年）主机内存碎片导致失败，缓解措施为更频繁重启主机以清理碎片。

缓解措施/修复：

每两年重启主机一次以上
为缓存主机添加Puppet警报以检测破坏性Puppet变更
改进集群管理器以处理大规模变更（因更早的小型事故，此变更已在进行中）

2016-02 (SEV-1)

此为上述2016-01 SEV-0事故中提到的压力测试失败。导致网站成功率轻微下降数分钟直至压力测试终止。

2016-07 (SEV-1)

计划中将用户数据缓存从专用主机迁移至Mesos引发单数据中心服务显著降级，随后另一数据中心轻微降级。部分现有用户受影响，所有基本为新用户注册失败约半小时。

集群管理器以最快速度将115个新缓存实例添加至服务器集，导致缓存命中率下降。预期集群管理器每20分钟添加1个分片，但配置变更意外修改了最小缓存集群规模，"迫使"集群管理器尽可能快速添加节点。

一次性添加大量节点使用户数据缓存命中率从常规99.8%降至84%。为阻止情况恶化，运维人员终止集群管理器以防其向服务器集添加更多节点，随后重新部署集群管理器至先前状态以恢复原配置，用户数据缓存命中率立即改善。

缓存命中率下降期间，备用数据库流量激增引发长时间GC暂停。导致缓存未命中的用户数据服务请求查询备用数据库时成功率为0%。

虽有限流机制防止过载备用数据库，但阈值设置过高未触发。为恢复备用数据库，运维人员执行滚动重启并部署严格限流。因单数据中心流量切换，严格限流在另一数据中心触发（因流量切换导致该数据中心流量升高），导致用户数据服务成功率轻微下降（请求被严格限流拒绝），故此事故亦影响未受初始缓存宕机影响的数据中心。

缓解措施/修复：

添加部署钩子，在向缓存集群添加或移除大量节点时警告运维人员
运维手册中增加部署、集群创建、扩容、缩容等操作的详细信息
为所有"零级"（关键）缓存部署添加检查清单

2018-04 (SEV-0)

计划中的测试数据中心故障转移导致网站部分宕机约1小时。故障转移开始1分钟后发现成功率下降。故障转移测试立即回滚，但网站完全恢复耗时近1小时。

初始网站降级源于用户数据服务错误率升高，由缓存热点键导致。原设计有缓存热点键机制：采样1%事件（采样用于减少开销，逻辑是若键为热点，即使采样亦应被发现），将采样键放入带哈希映射的FIFO队列以统计各键出现频率。

尽管此机制在过往高负载事件中有效，但在某些情况下（虽非事故根因）因值过大效果不佳——1%采样率无法使缓存及时"发现"热点键（当存在大（因此昂贵）值时）。原始热点键检测逻辑为推文服务缓存设计（最大键约5KB），后被用于其他缓存（键可能大得多）。设计热点键提升时，用户数据缓存未纳入考量——因其时最热键由进程内缓存服务，无热点键问题。

大键问题因使用FNV1-32进行键哈希而加剧（忽略最低有效字节）。问题数据集的方差集中于最后字节，使用FNV1-32导致所有大值键存储于少量缓存分片。早在2014年即有建议迁移FNV1-32，且更现代的哈希函数已加入工具库，但部分缓存所有者未选择迁移。

因热点键提升逻辑未触发，热点缓存分片的流量饱和了配备1Gb网卡的分片的NIC带宽（Twitter硬件通常异构——除非确保集群仅含特定规格；许多缓存主机配备10Gb网卡，但许多也配备1Gb网卡）。

修复/缓解措施：

调整用户数据缓存热点键检测
将相关缓存集群的所有硬件升级为配备10Gb网卡的主机
部分缓存从FNV迁移至murmur3

2018-06 (SEV-1)

测试数据中心故障转移期间，部分操作成功率降至约50%，直至约四分钟后中止测试故障转移。

缓存角度的问题在于：推文服务缓存分片处理流量的能力远低于预期（约50%），基于未反映真实流量的负载测试导致缓存配置不足。负载测试设置不真实的原因包括：

到达分布高度非独立，负载下因相关到达产生大尖峰。通常假设恒定或泊松到达分布，但审视指标数据时发现，负载生成器常用的恒定或泊松假设在实际流量下可能完全错误，导致真实负载与基于简单假设的负载生成器可达吞吐量差异无限大
负载测试使用的连接数远少于实际高负载时的连接数

缓存性能下降的另一原因为：每分钟有一次容器化性能计数器采集运行十秒，此操作开销较高——因采集的计数器远多于硬件计数器数量，内核需执行高开销操作切换采集的计数器。

性能下降导致计数器采集窗口期间延迟升高，缓存分片无法在容器节流限制前完成工作，延迟升高至推文服务请求超时。按配置，连续12次对单个缓存节点失败后，推文服务客户端将节点标记为死亡30秒并停止向其发送请求，导致节点30秒内无流量（客户端独立决定标记节点死亡）。这导致备用数据库请求量超过配额，请求被数据库拒绝，推文服务失败率升高。

缓解措施/修复：

推文服务客户端与缓存的连接数从4减至2，降低延迟
- 如前事故所述，添加流水线支持使缓存仅需1个客户端连接即可高效运行，但部分工程师担忧1个可能不足（因此前连接数远高），故选择4个"以防万一"。但标准Linux内核网络下，更多连接反而增加尾部延迟，因此降低性能
增加缓存节点以减少单个缓存分片负载
改进缓存热点键提升算法
- 此非特指本事故，但某工程师分析发现一年前引入的热点键提升算法在某缓存集群的缓存命中率仅约0.3%（源于多种问题）。改用更优算法显著提升缓存命中率与性能
修改缓存验证流程，使确定容量（节点数）的缓存性能更贴近真实世界性能
详细分析多路复用性能计数器采集的开销

感谢Reforge - 工程项目和Flatirons Development通过以主要赞助商级别赞助我，助力本文发布。

另感谢Michael Leinartas、Tao L.、Michael Motherwell、Jonathan Riechhold、Stephan Zuercher、Justin Blank、Jamie Brandon、John Hergenroeder和Ben Kuhn的评论/修正/讨论。

附录：Pelikan缓存

Pelikan旨在解决我们在大规模运维memcached和Redis时遇到的问题。本文档解释了Pelikan的部分设计动机。模块化/易于修改的特性使我们能发现新颖的缓存创新，例如解决现有淘汰算法问题的全新淘汰算法。

就本文讨论的问题类型而言，生产环境测试表明Pelikan相比现有缓存具有更可预测的性能、更优的中位性能和更优的尾部性能，这意味着我们以更低成本获得更高可靠性与容量。

知识高速流失并非Twitter独有。实际上，在我全职效力的所有公司中，我认为Twitter在知识保存方面做得最好。我曾任职的芯片公司Centaur除全面的错误报告外基本不认可书面文档，因此多种知识迅速流失。微软几乎同样糟糕——因文档默认锁定且需知即可，除少数拥有极广权限的人员外，几乎无人能查阅旧文档以了解历史脉络。

谷歌早期与Twitter现状相似，但随公司增长及对诉讼的担忧加剧（尤其在高管公开表示拟采取不道德和非法行动的多起尴尬事件后），其管控更趋严格，形似微软。
^[返回]
亦有部分Redis分支的使用，但平均情况性能显著较差，且尾部性能相对平均性能更差。同时，因其设计，大规模运维的直接负担更高，限制了其在我们的应用。
^[返回]

由 mimo-v2.5 模型翻译，花费 21950 tokens

鸡尾酒会想法

Wed, 2 Feb 2022 00:00:00 +0000

[AI 摘要] 本文批评人们在社交场合中对复杂领域进行浅薄讨论的现象，揭示了表面认知与专业深度间的巨大鸿沟。

你不必在派对上才能看到这种现象发生，但我经常在那些重视智力与聪明才智，却不同样重视实践知识或学术严谨性的社交圈的派对上，看到一种奇特的现象。人们常常讨论一些标准的时髦话题（我近期在多个派对上观察到的一些例子是：如何构建一个与谷歌搜索竞争的产品，以及如何解决交通建设成本高昂的问题），然后解释为什么该领域的现有从业者做法是错误的，接着再阐述他们自己会如何改进。我偶尔也会有符合这种模式的良好对话（与那些拥有深厚专业知识、多年来致力于改变该领域的人），但更常见的情况是，一个对某个领域只有“鸡尾酒会级别”了解的人，会对如何修复该领域提出自己的想法。

在我参加的那些充斥着这种肤浅伪技术讨论的派对上，询问人们为何认为他们的方案能解决该领域的有价值问题，已经成了我的一个爱好。当我询问细节时，我发现，在我有一定了解的领域里，人们通常不知道需要解决哪些子问题才能解决他们试图处理的问题，使得他们的方案毫无希望。多次尝试之后，我的观点是，根本原因通常是许多对某个主题有肤浅理解的人，认为该主题的复杂度等同于他们对其理解的深度，而不是意识到仅仅知道一点皮毛意味着他们不了解该主题完整的复杂性。

由于我经常参加程序员的派对，这意味着我经常听到程序员复述他们对另一个领域鸡尾酒会级别的理解（尽管上面提到了搜索引擎的例子）。如果你想在网上看看类似的评论，当程序员讨论“传统”工程领域时，通常可以看到。我欣赏的一个例子是这条推特线程，Hillel Wayne讨论了没有传统工程知识的程序员通常对传统工程的面貌持有不正确的看法，其中许多回复来自对传统工程几乎一无所知的程序员，然后他们以自己的误解回复Hillel。当Hillel完成他的交叉领域项目（他采访了那些既在传统工程领域又在软件行业工作的人）时，他收到了更多此类评论。即使人们被警告说，对一个领域的朴素看法很可能是错误的，许多人也忍不住，会立即对他们基本一无所知的领域发表自己的看法。

总之，在交叉领域项目中，Hillel比较了那些真正曾在多个领域工作的人对领域的看法与流行程序员对传统工程的看法。Hillel给出的众多例子之一是关于造桥的讨论，他指出程序员会说这样的话：

一个真正工程师的世界的可预测性是令人羡慕的。但我们所处的世界总是在变化，物理定律每周都在改变。如果我们不能迅速适应不可预见的状况，唯一可预见的事件就是我们自身的毁灭。

以及

没有人会在桥梁建造中途考虑移动起点或终点。

但是Hillel采访的一位土木工程师说，他们确实移动过一座桥！当然，土木工程师移动桥梁的频率不如程序员处理软件变更的频率，但是，如果你与实际工作的土木工程师交谈，许多土木工程师经常处理开始工作后需求变更的情况，这与程序员在工作中处理的情况并没有本质区别。那些在两个领域都工作过或至少与另一个领域的人交谈过的人，往往认为两个领域工程师面临的问题都很复杂，而那些对领域只有鸡尾酒会级别理解的人却经常声称他们不从事的那个领域很简单，不像自己的领域。

我常听程序员说，编程就像“必须在飞机飞行时建造它”，这隐含着编程比设计和制造飞机更难的论点，因为设计和制造飞机的人可以在飞机飞行之前完成这些工作¹。但是，当然，设计飞机的人也可以同样轻松地说，“天哪，如果我的飞机能达到4个9的正常运行时间，并且允许我的飞机每周崩溃一分钟并杀死所有乘客，那我的工作就会非常简单。”当然，不同项目类型和不同领域的约束使得不同的事情变得困难，但人们似乎常常很难看到其他领域存在而自己的领域没有的约束。人们可能认为，理解自己领域比外行天真想象的更复杂，会帮助人们理解其他领域也可能隐藏着复杂性，但情况通常并非如此。

如果我们看看Hillel引用的那句话的其余部分（来自Stack Exchange问题的最高票且被接受的答案），作者继续说道：

当提前确切知道要求你预测的内容时，做出准确预测要容易得多，而不是猜测并处理不断的变化。

绝大多数桥梁都使用极其成熟可靠的材料、架构和技术。一位罗马工程师被传送到两千年后，通常仍然能认出现代建筑工地上正在发生的事情。当然会有差异，但你仍然在用拱形结构平衡荷载，仍然使用许多相同的材料等等。另一方面，大多数正在建造的软件……

这是人们在讨论鸡尾酒会想法时所犯错误的典型例子。当不称职的高管（他们已经十年没当过程序员了）对正在进行的项目提出不合理的变更要求时，程序员确实会抱怨，但这与那些从未当过土木工程师的政治家在大型土木工程项目上要求变更相比，并没有太大不同，甚至更可能合理。我猜想，平均而言，编程项目比土木工程项目有更频繁或更大的项目变更，但领域内差异可能至少和领域间差异一样大。

当然，只有那些没有在物理世界中做过严肃工程工作的人才会说“一个真正工程师的世界的可预测性是令人羡慕的。但我们所处的世界总是在变化，物理定律每周都在改变”这样的话，认为物理定律的（相对）固定性意味着物理工作是可预测的。当我作为一名硬件工程师工作时，我项目中的很大一部分工作量和复杂性都用于处理物理不确定性，土木工程也是如此（如果有什么不同的话，土木工程师用于处理大型项目物理不确定性的工具要糟糕得多，导致更大程度的不确定性和因不确定性导致延误的能力下降）。

如果我们看看罗马工程甚至300年前的工程与现代工程的不同之处，一个主要差异来源是来自于物理世界的、我们对不确定性更好的理解。过去，在没有异常条件或刺激的情况下（例如建筑物倒塌，或由于铁轨铺设不正确导致的火车事故），建筑结构在建成不久后就失效并不令人震惊。这种情况现在在美国或加拿大已经很少发生，一旦发生就是重大新闻，这种理解也让我们能够在以前被认为难以建造中型结构的地方建造巨型结构。

例如，如果你看看温哥华地区一个建在三角洲（Delta, Richmond, 以及延伸到Hope的大片土地）上的大型建设项目，直到相对较近，我们才发现了必要知识，能够在这种地面上可靠地建造一些大型结构（例如较高的建筑物），这是现代土木工程中罗马工程师无法理解的众多部分之一。这很大程度上源于一个叫做岩土工程的领域，它是土木工程的一个分支（或者，可以认为是一个独立的领域，也可以认为是地质工程的一个子领域），涉及地面问题，即土壤力学、岩石力学、地质学、水文学等等。岩土工程的一个基本概念是将力学应用于土壤推理。已知的第一次将力学应用于土壤（这是岩土工程的一个基础部分）是在1773年，而当今意义上的岩土工程通常被认为始于1925年。虽然罗马工程师做了许多令人印象深刻的工作，他们当时运作的心智模型妨碍了理解现代土木工程的大部分内容。

自然，为了让这些知识能够改变我们能建造什么，它必须改变我们的建造方式。如果我们看看一个在温哥华可压缩三角洲土壤上、运用了现代知识的施工现场是什么样子，按挂钟时间计算，大部分时间看起来就像有人在工地上堆了一堆沙子（预压）。虽然罗马工程师知道一堆沙子是什么，但他们不知道有人如何算出需要多少沙子以及沙子需要堆在那里多长时间（在某些情况下，罗马人会使用桩或筏，这类似于我们今天使用预压解决的问题，但在许多情况下，他们对预压今天解决的问题无能为力）。

岩土工程以及由此产生的沙堆（预压）只是进行现代大型土木工程项目时你需要专业知识的数十个子领域之一，而罗马工程师需要相当多的教育才能真正理解它。

回到我听到的鸡尾酒会解决方案，一个常见的方案是如何修复高昂的建设成本和缓慢的施工进度。有一些时髦的想法被人们随意谈论，关于为什么事情如此昂贵，为什么项目比预期花费更长时间等等。有时，这些评论与我从参与项目的执业工程师那里听到的相似，但更多时候，原因大相径庭。当原因相同时，似乎那一定是巧合性地正确，因为他们似乎不理解进行工程权衡推理所需的知识体系²。

当然，像鸡尾酒会理论家一样，具有该领域专业知识的土木工程师也认为现代建筑是浪费的，但他们得出的原因通常与我在派对上听到的非常不同³。通过不理解问题、假设问题人为地简单，然后为想象中的问题想出解决方案，很容易为问题提出鸡尾酒会解决方案。要理解大型建设项目所需的数十个相互作用的工程子领域之间的权衡，并就权衡应该如何进行以及如何激励工程师和决策者改变权衡的落点进行实际相关的讨论，则要困难得多。

一项被广泛引用的关于人们普遍拥有对事物运作方式极其过度简化且不正确的模型的研究是Rebecca Lawson关于人们理解自行车工作原理的研究（研究链接），该研究指出：

最近的研究表明，人们常常高估自己解释事物运作机制的能力。Rozenblit和Keil（2002）发现，人们对复杂现象的理解力进行了过高的评价。这种解释深度错觉并非仅仅源于一般的过度自信；它特别存在于对因果复杂系统（如人造物：弩、缝纫机、微芯片；以及自然现象：潮汐、彩虹）的理解上，相对于其他知识领域，如事实（首都城市名称）、程序（烘焙蛋糕）或叙事（电影情节）。

以及

如果外行未能解释齿轮如何工作的复杂性或为什么自行车前叉的角度至关重要，这并不令人惊讶。事实上，甚至物理学家在看似简单的问题上也有分歧，比如为什么自行车是稳定的（Jones, 1970; Kirshner, 1980）以及它们如何转向（Fajans, 2000）。当前研究结果引人注目之处在于，有这么多人对自行车如何运作几乎一无所知。

在研究的“实验二”中，人们被要求画一辆能工作的自行车，并专注于使自行车工作的机制（而不是让图画看起来好看），94名参与者中有60人至少犯了一个严重错误，导致图画看起来甚至不像一辆能工作的自行车。如果我们看看一个大规模的真实世界土木工程项目，仅一个相关的子领域（如岩土工程）就包含了比自行车多出许多数量级的复杂性，并且可以相当有把握地猜测，精确到百分比的话，零百分比的外行（或罗马工程师）能够大致勾勒出相关运作部分是什么。

对于非土木工程的例子，Jamie Brandon引用了Jim Manzi的《Uncontrolled》中的一段话，这是对我在派对上经常听到的一个“聪明”小观点的反驳：

选择悖论是一个广为流传的民间故事，它基于一个实验：在超市展示中提供更多种类的果酱反而导致购买量减少。给出的解释是选择带来压力，因此一些人面对太多可能的果酱，干脆放弃，空手回家。这个实验在新闻和媒体中被不断引用，通常描述为“科学家发现选择对你有害”。但如果你去一个大型超市，你会看到大约1200万种果酱。他们没听说过果酱实验吗？Jim Manzi在《Uncontrolled》中写道：

首先，请注意，所有的推断都建立在总共只购买了35罐果酱的基础上。其次，请注意，如果果酱实验的结果有效且具有作为经济或社会政策基础所需的普遍适用性，那将意味着许多商店可以削减75%的产品，并导致销售额增加900%。这将是一个相当惊人的结果，并表明测量可能存在问题。

……原始实验的研究者 themselves were careful about their explicit claims of generalizability, and significant effort has been devoted to the exact question of finding conditions under which choice overload occurs consistently, but popularizers telescoped the conclusions derived from one coupon-plus-display promotion in one store on two Saturdays, up through assertions about the impact of product selection for jam for this store, to the impact of product selection for jam for all grocery stores in America, to claims about the impact of product selection for all retail products of any kind in every store, ultimately to fairly grandiose claims about the benefits of choice to society. But as we saw, testing this kind of claim in fifty experiments in different situations throws a lot of cold water on the assertion.

作为一个实际的商业案例，即使是对构成有用前向预测规则的因果机制进行简化，也不太可能像“将QwikMart商店重命名为FastMart将导致销售额上升”这样，而更可能是“在繁忙道路的高收入社区将QwikMart商店重命名为FastMart，只要商店因粉刷关闭不超过两天，将导致销售额上升”。我们极不可能在开始测试之前就知道所有可能的隐藏条件，并且能够设计并执行一个测试来发现这种充满条件的规则。

此外，这些因果关系本身也经常变化。例如，我们发现某个特定的销售促销活动与没有促销活动相比带来了净利润增长，但第二年，当发生大量变化时——我们的竞争对手推出了新的促销活动，整体经济恶化，消费者流量从购物中心稍微转向了带状购物中心，等等——这个规则不再成立。用之前的比喻来说，我们是通过撞到家具来在黑暗的房间里摸索前进，而未被观察到的顽皮小鬼（gremlins）一直在我们周围移动家具。由于这些原因，仅仅运行一个实验，发现一个因果关系，并假设它广泛适用是不够的。我们必须运行测试，然后在实际实施中测量从这些测试中得出的规则的实际预测能力。

到目前为止，我们讨论的都是没有某领域背景的人解释该领域如何运作或应该如何运作的例子，但当人们退后一步，以一种脱离细节的高层视角看待自己领域时，这种犯下“错误地假设事情很简单”的错误也会发生。例如，当我在Centaur工作时，我们尚未推出双核芯片，一位来自顶尖学校的即将毕业的计算机体系结构博士生问我：“为什么你们不直接把两个核心钉在一起做一个双核芯片，就像Intel和AMD那样？那是个轻松的胜利。”

那时，我们从单核转向多核的研究已经进行了一年多。将一个单核芯片变成多核甚至多处理器能力，且性能良好，需要对缓存和内存层次结构（芯片中逻辑最复杂的部分）进行显著额外的复杂设计。粗略估计，我认为，将一个为单核使用设计的芯片变成具有多处理器能力的芯片，至少会使生产一个可工作芯片所需的测试/验证工作量加倍（而芯片设计的大部分工作都用于测试/验证）。更普遍地说，计算机体系结构师的水平取决于他们对自己决策所影响的权衡的理解深度。优秀的架构师对他们必须交互的底层领域有深刻的理解。计算机体系结构师做出糟糕决策的一个常见原因是，他们对计算机体系结构下一层或两层的领域只有鸡尾酒会级别的理解。工业界多次发生的一个糟糕决策的例子是，当一个在职的计算机体系结构师决定在芯片上添加SMT，因为它基本上是白送的好处。你支付几个百分点的额外面积，就能获得大约20%的性能提升。我知道有多次尝试这样做都完全失败了，原因可以预见：架构师没有考虑到添加SMT带来的复杂性和验证成本。添加SMT比添加第二个核心带来的复杂性更多，因为逻辑必须贯穿所有部分，并且由于同样的原因，它导致验证芯片复杂性的爆炸性增长。英特尔在P4上添加SMT并著名地没有在其发布的第一代产品中启用，因为它太复杂了，无法在一代产品内验证，并且存在关键的、阻碍性的bug。经过他们多年的时间在一代架构上修复bug后，他们在下一代芯片中修复了SMT实现并发布。当他们迁移到Core架构并在其上添加SMT时，这种情况再次发生。一个在职的计算机体系结构师应该知道这在英特尔身上发生过两次，这意味着验证一个SMT实现是困难的，但仍然有多次有人对SMT的复杂性只有鸡尾酒会级别的理解，并建议将其添加到没有验证预算来发布带有SMT的可工作芯片的设计中。

当然，这并非计算机体系结构独有。我使用双核的例子是因为它恰好是目前我记忆犹新的一个，但我可以随口说出几十个类似的例子，并且我敢肯定，如果我花几天时间思考类似的例子，可以写出几百个。在一个领域工作的人仍然必须非常小心，以避免拥有不正确的、过于抽象的世界观，从而忽略细节，并因此得出荒谬的错误推论或结论。当领域外的人解释事情应该如何运作时，他们的解释通常比领域内忽略了关键考量的人更糟，而且他们通常提出古怪的想法。

结合罗马工程和CPU的例子，从1个核心到2个（以及一般而言，从1到2，例如从1个数据中心到2个数据中心，或从单体应用到分布式系统），是每个从业者都应该理解其困难性的，即使有些人并不理解。类似地，如果有人展示一个4 THz的处理器，其性能是4 GHz处理器的1000倍，这是任何从业者都应该认识到是他们绝对无法理解的外星技术。只有对该领域一无所知的外行才会合理地想，“它只是一个以1000倍时钟频率运行的处理器；一个能制造4 GHz处理器的工程师基本上会理解一个性能提升1000倍的4 THz处理器是如何工作的。”我们离通过将芯片运行速度提高1000倍来将性能扩展1000倍还差得很远，这样做将需要许多技术上的根本突破，并且很可能需要创造全新的领域，其工程知识量将超过当今世界所有工程领域的总和。同样，只有外行才会看着罗马工程和现代土木工程并认为“罗马人建造东西，我们建造的东西只是更大更多样；一个罗马工程师应该能够理解我们今天如何建造东西，因为东西只是更大了。”仅岩土工程就包含了比罗马时代所有工程领域总和更多的工程知识，而且它只是为使我们能够建造像今天这样的结构而必须发明的新领域之一。

当然，我并不指望随机程序员理解岩土工程，但我希望那些比较编程和土木工程的人至少对土木工程有一些了解，而不是仅仅假设该领域存在的知识量大致等于他们对该领域的了解，而他们对该领域基本一无所知。

尽管我似乎比大多数人更努力地避免陷入认为某事简单因为我看不懂它的陷阱，但我仍然经常陷入这个陷阱，我能想到的最好的防止方法，虽然聊胜于无，但并不可靠。

其中一部分是我试图培养注意到“对某事不甚了了却一掠而过”的感觉。我认为这类似于（甚至可能实际上就是）过去二十年变得流行的一种东西：关注情绪在你身体里的感觉，并通过注意身体里的感觉来理解你的情绪状态，例如，某种特定的紧绷感是我生气的一个确定信号。

当我以模糊、高层的视角看待某事，并在精神上一掠而过时，我的身体会产生一种特定的感觉。如果我不注意，我很容易错过它，我怀疑当我在一种连产生感觉的无意识大脑部分都不知道我在一掠而过的方式下忽略某事时，我也可能错过它。尽管注意到这种感觉本质上不可靠，但我认为，我可能做的其他所有独立检查我推理的事情都根本依赖于相同的机制（例如，如果我有一个清单，试图确定当我推理某个主题时是否没有一掠而过，这个过程的某些部分仍然依赖于感觉或直觉）。我确实尝试对错过这种感觉的案例进行事后分析，以弄清楚发生了什么，这基本上就是我发现我首先与这种错误相关联的感觉的方式（我思考过去是什么导致了这类错误，并注意到我通常与之相关联的一种感觉），但这永远不会完美，甚至非常出色。

另一个组成部分是做我认为是“检查输入我头脑的信息”的事情。当我在上高中时，我注意到相当大一部分“明显错误”的我说出的话，来自于让不正确的信息进入我的头脑。我过去没有，现在也没有一个好的、便宜的方法来标记信息的可靠性，因此我发现更容易在信息消费时就进行事实核查或丢弃信息。

另一件我尝试做的事情是获取反馈，这不可靠，并且在一般情况下也难以处理，因为获取反馈的速度远慢于思维速度，将一般思维速度降低到反馈速度会导致思想相对较少⁴。

虽然，不像某些领域，没有可以教授的、机械的、系统的步骤来解决这个问题，但我确实认为这是可以练习和提高的，并且在一些领域（通常是隐含地）教授了类似的技能。例如，在讨论高级或研究生水平教材的先决条件时，通常会看到书上说“自成体系。除数学成熟度外无先决条件”。这是一种简写，意思是“这本书不要求你具备任何高中生不会学到的特定数学知识，但你确实需要在解释和理解数学陈述方面克服几乎每个未受过训练的人都有的那种模糊思维。”拥有数学学位的人会在脑海中积累很多关于柯西-施瓦茨不等式和波尔查诺-魏尔斯特拉斯定理之类的显性知识，但能够理解这本书的重要知识不是显性知识，而是一般性的数学思维方式。

尽管在其他领域没有真正对应“数学成熟度”的术语，例如人们通常不把“系统设计成熟度”作为系统设计面试中寻找的东西，但类似的技能是存在的，即使它没有名字。同样，对于思考那些自己不是训练有素的专家的主题，比如一个非土木工程师思考为什么一个建设项目花费那么多时间那么多钱，存在一种一般性的思维成熟度⁵。

感谢 Reforge - Engineering Programs 和 Flatirons Development 通过在Major Sponsor级别赞助我，帮助使这篇文章得以发表。

另外，感谢Pam Wolf, Ben Kuhn, Yossi Kreinin, Fabian Giesen, Laurence Tratt, Danny Lynch, Justin Blank, A. Cody Schuffelen, Michael Camilleri, 和Anonymous的评论/更正讨论。

一位匿名博客读者给出了他们自己与鸡尾酒会想法斗争的例子：

你最近的一篇帖子再次引起了我的共鸣，因为我最近了解到我对如何让东西变冷基本一无所知，尽管我从事低温物理学研究已经将近10年了。虽然我知道冷却的大致轮廓，以及稀释制冷机的大致工作原理，但我并没有体会到将东西保持在毫开尔文（mK）温度的巨大挑战。我是团队中唯一的物理学家，其他成员都是机械工程师。我们发现，在mK级别，基本上每一纳瓦的耗散都很重要，每一个表面与表面的接触、每一种材料选择等等也都很重要。

确实，我们可以说，mK温度下的热传输物理已经被很好地理解了，我们可以写出描述这些系统中热传递随温度变化的定律。它们通常写作P = aT^n。我们知道不同类型的传输具有不同的指数n，这些指数是已知的。当然，正如你可能预期的，拥有“热”量子比特与拥有稀释制冷机基础温度（30 mK）的量子比特之间的区别，完全在于预因子a在我们特定系统中恰好取什么值。这个参数通常可以猜测，通常在10倍以内，有时在2倍以内。但真的，为了确保我们能够保持量子比特冷却，我们需要测量那些预因子。诸如紧固件类型（4-40螺钉与M4螺栓）、紧固件数量、材料选择（金？铜？）以及几何形状等因素都对系统的实际性能起着巨大作用。哦，还有，当你将金属从其正常状态变为超导态时，n会发生剧烈变化。有趣！

我们花了一年多的时间仔细建模我们的低温系统，并在此过程中发现了拥有15-20年低温测量经验的人所持有的巨大误解。我们发现了材料选择和设计决策，如果进行了实际的热建模验证，这些决策会被认为是疯狂的。

有趣的是，如果我们想复制学术实验室的结果（这些结果大多倾向于更简单的实验设计），这基本上没问题，但当我们离开学术界，朝我们自己的目的设计时，这就行不通了。

附言：量子计算似乎也受到一种想法的影响，即控制100个量子比特（IBM已经达到127个）与1000个或1,000,000个没有太大不同。我过去认为这只是公关屁话，这些公司负责扩展的人完全意识到这将是多么疯狂地困难，但在我自己的经历和阅读你的帖子之后，我有点担心他们大多数人并不真正理解我们前方的巨大斗争。

这只是长篇大论地说明，我曾在我拥有博士学位并理应是专家的领域持有鸡尾酒会想法，所以你的帖子对我来说非常及时。我喜欢把你的写作作为跳板来思考如何变得更好，这一直非常困难。很难定义什么是好的物理学家或他们做什么，但我确信，更努力地去识别和应对我自己知识的局限性似乎是一件好事。

关于清晰思考的更广泛、更高层次的讨论，请参阅Julia Galef的《侦察兵心态》：

当你想到一个拥有出色判断力的人时，你会想到哪些特质？也许你会想到聪明、机智、勇气或耐心。这些都是令人钦佩的美德，但有一种特质应该列在首位，它如此被忽视，甚至没有一个官方名称。

所以我给它起了一个名字。我称之为侦察兵心态：将事物视为其本来面目，而非你希望其模样的动机。

侦察兵心态让你能够认识到自己何时犯错，寻找自己的盲点，测试自己的假设并改变方向。它促使你诚实自问，比如“那场争论是我的错吗？”或“这个风险值得吗？”或者“如果另一个政党做了同样的事，我会如何反应？”正如已故物理学家理查德·费曼曾经说过的，“第一原则是你不能欺骗自己——而你是最容易被欺骗的人。”

作为改进思维的工具，这本书有几章提供了具体的检查方法，这使得它比这篇文章更具可操作性（或至少更容易操作），这篇文章只是建议你弄清楚当你对某事一掠而过时是什么感觉。但我不认为书中的思想是本文的替代品，因为书中建议的自检方法并没有直接针对本文讨论的问题。

在其中一章中，Galef建议拥抱困惑（例如，如果一些看似矛盾的信息引发了困惑感），我同意这一点。我要补充的是，还有很多其他感觉值得观察，这些感觉并没有很好的名字。当评估想法时，除了已经提到的“我正在忽略重要细节的感觉”，我试图注意的一些感觉还有“某种方法如果追求很可能会有回报的感觉”、“某种方法确实充满风险/危险的感觉”、“存在关键缺失信息的感觉”、“有些地方确实不对的感觉”，以及类似的没有好名字的感觉。

关于电影《不要抬头》如何宣扬世界很简单、我们可以轻松找到鸡尾酒会解决方案来解决问题的观点，请参阅Scott Alexander的这篇帖子。

另外，John Salvatier指出现实有着惊人数量的细节。

我常听到的另一个说法是，与传统工程师不同，程序员做的是前所未有的事情 ^[返回]
关于建筑延误的讨论同样忽略了岩土工程原因导致的延误。与上面一样，我使用岩土工程作为解释许多延误的子领域的例子，只是因为我恰好熟悉它，而不是因为它是最重要的，但它确实是延误的一个主要原因，并且在许多类型的项目中，是最大的延误原因。

回到我们这个罗马工程师最多只能肤浅理解的例子，我们在建造前将土堆到地面上的原因是，温哥华大部分地区的地质条件不利于建造大型建筑。地面松软，如果在上面建造重物，随着时间的推移会被不均匀地压低。沙子作为重量，用于预先挤压地面。

如上段所述，这听起来很简单。不幸的是，事实远非如此。实际上，我花了大量时间和一位地球物理工程师（一个相关但与岩土工程相当不同的领域）一起开车四处走。当我们驶过道路上的一个奇怪的凸起或凹陷时，她通常能指出导致该凸起存在的地质问题，或出于政治动机而忽视地质工程师指导的决定。我觉得有趣的是，尽管土木工程项目所进行的风险降低水平通常远高于我从事过的电气工程项目，而电气工程项目的风险降低水平又远高于我从事过的任何软件项目，但仍然有足够多的“bug”进入“生产环境”，以至于如果你开车四处转，具备知识并加以注意，一天可以看到几十或几百个错误。

根本问题在于，人类没有技术能够以合理的成本理解像主要高速公路这样的大型物理项目中的地面情况。我们有一个工具是用探地雷达对地面成像，但这会导致高度欠定的输出。我们还有另一个工具是使用岩芯钻或土壤螺旋钻，基本上是挖入地下查看情况。这也固有地产生欠定的输出，因为我们只能在钻孔的确切位置看到情况，而地面有时在其成分上存在大的空间变化，这从地表看并不明显。一个常见的例子是存在未标记的残留河床，它很容易“避开”土壤采样的位置。其他工具也存在，但它们在实际财务约束下使用时，同样给工程师留下了不完整和不确定的世界观。

当我听鸡尾酒会讨论为什么一个建设项目花了这么长时间，并将其与土木工程师告诉我的延误原因进行比较时，鸡尾酒会讨论几乎总是专门讨论土木工程师告诉我是错误的原因。延误有很多原因，“未预料到的地质条件”是常见的一种。土木工程师在这方面很为难，因为钻探岩芯既耗时又昂贵，而且当人们看到地面被挖开却没有进行“实际工作”时（同样，当施加预压时——“为什么他们不修高速公路？”），人们会生气，这给政治家带来压力，间接导致时间表不允许足够的时间来理解地质条件。这有时会导致项目期间出现地质意外（通常在技术报告中表述为“未预料到的地质条件”），这可能导致项目的大部分必须切换到更慢、更昂贵的技术，甚至更糟的是，可能需要项目的一部分返工，导致成本和进度超支。

我从未听过鸡尾酒会讨论将地质原因归咎于项目延误。相反，人们谈论的是对外行人听起来似乎合理但完全脱离现实的高层原因。但如果你想讨论如何更快、更便宜地建造东西、“进步研究”等，如果不理解岩土工程权衡（以及我们未讨论的其他土木工程领域的权衡），就无法合理地进行。
^[返回]
我们可能做的一件控制成本的事情是减少地质工作，并在某个风险界限内忽略地质意外。今天，一些“工作量”是由法规决定的，很大一部分是由判例法决定的，它大致指明了需要做哪些工作以避免在发生各种不良结果（如建筑物倒塌）时承担法律责任。

如果我们不使用判例法和责任风险来确定应该进行多少地质风险降低，而是根据每美元的质量调整生命年（QALYs）来计算，在边际上，我们似乎在地质风险降低上花费了大量资金，与许多其他干预措施相比。

这不仅对地质工作是正确的，对土木工程的其他领域也是如此，例如，美国和加拿大等地的建筑商比一些建设速度更快的国家做了更多的坍落度测试，这降低了建筑物过早坍塌的风险。如果建筑物因为建筑商没有进行在美国或加拿大会进行的坍落度测试而倒塌，那将是丑闻和严重的责任问题，但即使建筑商没有做像美国和加拿大那样多的坍落度测试，建筑物通常也不会倒塌。

不按与美国或加拿大大致相同严格的标准建造的国家，有时会有一些相对较新建造的结构倒塌，这在美国或加拿大会被认为是令人震惊的，但每挽救一条生命所花费的金钱与其他可以花钱的地方相比非常少。我们是否应该通过政策决定来改变这一点，是与建筑成本和时间表更相关的讨论，但我从未在土木工程圈子外听到这个或建筑项目成本的其他具体原因被提起过。

即使我们将自己局限于与土木工程相关的工作，而不是采取更广泛、更以EA为导向的方法，并将QALYs用于所有可能的干预措施，在建设期间投入资源进行风险降低与投入资源在持续基础上进行风险降低（检查、维护等）之间的权衡，其相对资源水平并非由一个应该产生接近最优结果的过程所决定。
^[返回]
有些人建议写作是一个好的中间步骤，它比获取外部反馈更快，同时比仅仅思考某事更可靠，但我发现写作太慢，无法用作理清想法的方式，而且在努力识别我何时有模糊想法之后，我发现尝试想清楚一个想法更可靠也更快。 ^[返回]
我认为这一点被那些自认为“聪明”的人低估了，即书本知识和思考某事在哪些情况下是足够的，而在哪些情况下需要该主题的实践经验。

一个快速阅读者可以在大约40-100小时内阅读大多数技术学位的教材。对于阅读慢的人，可能会慢得多，但时间仍然不算太长。对于问题的某些方面，这足以理解问题并提出好的、合理的解决方案。而对于问题的某些其他方面，这极其低效，需要数千小时的实际努力才能真正理解正在发生的事情。
^[返回]

由 mimo-v2.5 模型翻译，花费 19551 tokens

容器限流问题

Sat, 18 Dec 2021 00:00:00 +0000

[AI 摘要] 本文探讨Twitter容器化环境中CPU限流问题的成因、案例研究及多种解决方案，以提升性能与降低成本。

本文节选自我与David Mackey于2019年4月合著的一份内部文档。节选原因是原文大部分内容涉及在Twitter提高效率的不同方案对比，这些信息若无大量额外解释/背景，对Twitter外部读者意义有限。

在Twitter，大多数CPU密集型服务在容器CPU利用率约50%时开始出现性能下降，而几乎所有服务即使理论应能获得更高利用率，实际上也仅在略高于50%时即开始崩溃。由于负载通常无法在分片间均匀分布，且超过50% CPU利用率时分片级性能衰减严重，这使得实际负载上限远低于50%的理论值，即使在负载高峰期也是如此。

本文将描述解决此问题的潜在方案。首先将说明为何根据服务配置方式和所用Linux调度器的特性，此问题本就该出现。随后将通过具体案例研究，展示如何通过配置调整使特定服务容量提升1.5至2倍，这相当于为大型服务每年节省数十万至数百万美元。虽然针对大型服务进行手动优化值得实施（可带来数十万至数百万美元的总拥有成本节约），但逐个手动调整服务并不具备可扩展性。因此，我们还将探讨如何为大多数服务实施可大规模推广的改进措施。

理论层面的问题

Twitter几乎所有服务均运行在采用CFS调度器的Linux系统上，使用CFS带宽控制配额进行资源隔离，并采用默认参数。其设计初衷是允许不同服务在同一物理机上共存，避免某个服务的CPU过度使用影响其他服务，同时防止空闲物理机上的服务占用全部CPU资源。此前服务所有者在启用配额前，因性能不可预测而难以评估服务表现。配额机制限制每个容器的平均CPU使用量，但不限制作业在任意时刻可使用的CPU核心数。相反，如果作业在配额时间片内“试图”使用超过配额核心数，它会暂时使用超过配额的核心数，随后被限流（即基本进入休眠状态），以确保其平均核心使用量保持在配额以下。这对尾部延迟¹是灾难性的。

由于Twitter绝大多数服务使用的线程池规模远大于其Mesos核心预留量，当作业负载较重时，它们最终会请求并使用超过预留量的核心数，进而触发限流。这导致那些基于负载测试数据或负载下观测到的延迟来配置资源的服务，不得不超额配置CPU以避免违反其SLO。它们要么每个分片请求多于实际所需的CPU，要么必须增加分片数量。

此问题的一个旧例是JVM垃圾回收器。在JVM实现容器感知之前，每个JVM默认将GC并行线程池大小设置为物理机核心数。GC期间，所有这些GC线程同时运行，迅速耗尽CPU配额导致限流。其结果是，原本亚秒级的STW（Stop-The-World）GC暂停可能耗费数秒实际时间才能完成。虽然GC问题已修复，但此问题在几乎所有运行在Mesos上的服务应用层仍然存在。

实际案例研究

以service-1（Twitter规模最大、成本最高的服务）为例进行研究。

下图显示该服务在负载测试刚开始失败时的CPU利用率直方图——即刚超过服务在违反SLO前可处理的峰值负载时。X轴为特定时刻使用的CPU核心数，Y轴为在该利用率下花费的（相对）时间。该服务配置为20个核心，可见即使在接近峰值负载运行时，其利用率大多远低于此配置值：

问题在于超过20的那些小条形。这些尖峰导致作业耗尽CPU配额后被限流，引起延迟急剧增加，这就是即使平均利用率约8核心（占配额40%），SLO仍被违反的原因。需注意的是，该图的采样周期为10ms，配额周期为100ms，因此技术上可能在不触发限流的情况下观测到超过20的突变，但平均而言，若频繁出现突变（尤其远超20），很可能导致限流。

通过缩减线程池规模以避免使用过多核心并触发限流后，在负载测试中得到如下CPU利用率直方图：

此时负载（请求速率）为前一张直方图的1.6倍。由于该服务能处理如此高的负载直至故障，导致为其提供请求的负载测试工具无法注入更多负载（虽然这可以修复，但我当时无权快速修复）。[后续测试显示，调整线程池规模后服务容量约提升2倍]。

此案例并非孤例——Andy Wilcox对service-2进行了相同分析，在类似原因下发现了相似的性能提升。

对于关注延迟的服务，若优先追求延迟优化而非成本降低，可获得显著改善。以service-1为例，若保持配置容量不变而非削减2倍，延迟可降低20%。

针对个别大型服务进行此类调整的收益显著（以service-1为例，该服务本身每年可节约[七位数中段金额]，包含其克隆服务则达[八位数低段金额]），但手动调整每个服务并不具备可扩展性。这就引出一个问题：有多少服务受影响？

集群整体线程使用情况

若观察中等规模服务（≥100分片）的活跃线程数与预留核心数之比，会发现几乎所有服务都有远多于预留核心数的可执行线程。每个预留核心对应数十个可运行线程并不罕见。相比之下，service-1在负载下每个预留核心对应1.5至2个可运行线程的情况已相对温和。

观察这些线程来源，常见情况是程序包含多个线程池，每个线程池大小被设为预留核心数的2倍或物理机逻辑核心数的2倍。在Twitter内外，常见建议是将线程池大小设为物理机逻辑核心数的2倍。该建议可能源于类似gcc编译的工作负载——我们不希望在可执行任务时出现空闲资源。由于线程有时会阻塞导致空闲，采用2倍规模可通过降低任何核心完全空闲的概率来提升吞吐量，且2是一个整数。

然而，将此应用于Twitter应用存在几个问题：

大多数应用存在多个相互竞争的线程池
超过预留核心数限制会导致严重后果
执行计算的额外线程可能增加延迟

“应配置2倍逻辑核心数”模型假设我们仅有一个执行所有工作的主线程池，空闲线程无负面影响，且工作负载面向吞吐量而不关心特定任务的截止时间。

采用CFS调度器时，超过核心预留量的活跃工作线程不会空闲，它们会被调度运行，但这将导致限流，进而损害尾部延迟。

潜在解决方案

鉴于我们在许多服务上观察到与案例研究相似的情况，且难以将性能修复推送到大量服务（因为服务所有者缺乏实施动力），我们应如何解决整个集群（而非仅少数选定大型服务）的此问题？下文将列出潜在方案并逐一详细讨论。

优化跨集群线程池（eventbus、netty等）的默认配置
通过共享库协商线程池大小
CFS周期调优
CFS带宽片调优
其他调度器调优
CPU绑核与隔离
在Mesos调度器层面进行超额配置

优化跨集群线程池的默认配置

潜在影响：效率小幅提升
优势：相比任何全面解决方案工作量少得多，可与其他方案并行实施，即使其他方案已实施也能带来一定收益（减少锁竞争和上下文切换）。
劣势：无法解决大部分问题。

许多默认配置过大。Netty默认线程池大小为预留核心数的2倍。在[某组织]某些部分，他们使用的库会启动eventbus并分配大小为物理机逻辑核心数2倍的线程池（产生[超过100个]eventbus线程），而大多数eventbus用例仅需1-2个线程。

调整这些默认大小虽无法彻底解决问题，但能减轻其影响，且比下文方案工作量小得多，因此可在我们致力于更全面解决方案的同时实施。

通过共享库（API）协商线程池大小

[本节由Vladimir Kostyukov撰写]

潜在影响：可为大多数服务基本缓解问题。
优势：设计与实现相当直观；有可能在Finagle/Finatra中成为一等公民。
劣势：需要服务所有者明确采用（采用新API构建线程池）。

CSL的util库中有一个桥接应用与JVM集成点的包（util-jvm），这可能是承载协商应用所需线程池大小新API的良好载体。

此类API的形态实际上取决于协商所需的粒度。仅竞争分配给每个进程的总线程数虽易于实现，但无法区分应用线程与IO线程。而引入线程QoS概念（即“IO线程；不可阻塞”、“应用线程；可阻塞”）则可能使协商更精细。

CFS周期调优

潜在影响：通过缩短进程组CFS运行时配额刷新前的时间周期，小幅降低尾部延迟。
优势：相对直接的修改，只需最少改动。
劣势：增加调度器开销成本可能抵消收益，且未解决并行耗尽配额的根本问题。可能导致总限流量增加。

为限制CPU使用，CFS在称为CFS周期的时间窗口上运行。调度组中的进程从分配给cgroup的CFS配额中获取时间，该配额在CFS周期内通过CFS带宽片消耗。通过缩短CFS周期，配额耗尽导致限流与进程组能再次运行之间的最坏情况时间按比例减少。以默认值（CFS带宽片5ms、CFS周期100ms）为例，最坏情况下，高度并行的应用可能在第一个带宽片耗尽全部配额，导致95ms的限流时间，期间无线程可被调度。

总限流量可能增加，因为即使存在5ms的突增超过阈值，100ms内的调度时间可能未超阈值。

CFS带宽片调优

潜在影响：通过允许应用更好地利用分配的配额，小幅降低尾部延迟。
优势：相对直接的修改，仅需最少代码改动。
劣势：增加调度器开销成本可能抵消收益，且未解决并行耗尽配额的根本问题。

当CFS调度进程时，它会在全局池与CPU本地池之间转移运行时间以减少大型系统的全局记账压力。每次转移的量称为“片”。从调度器角度，较大的带宽片更高效，但较小的带宽片允许更细粒度的执行。在调试[内部JIRA链接]问题时确定，若被调度进程未能消耗其整个带宽片（默认5ms），因完成执行或阻塞于其他进程，该时间将对进程组丢失，降低其消耗所有请求资源的能力。

调优此值的预期开销最小，但应测量。此外，这可能并非普适调优项，但Mesos曾拒绝将其暴露为用户可调参数。确定调优此值的启发式方法并提供按应用设置的途径可能难以实现。

其他调度器调优

潜在影响：小幅降低尾部延迟并减少限流。
优势：相对直接的修改，仅需最少代码改动。
劣势：可能增加调度器开销成本抵消收益，且未解决并行耗尽配额的根本问题。

内核具有众多自动缩放和自动分组功能，其对调度性能和限流的影响目前未知。kernel.sched_tunable_scaling可在我们理解其值的情况下调整kernel.sched_latency_ns。kernel.sched_min_granularity_ns和kernel.sched_wakeup_granularity_ns可调优以允许更早抢占，改善资源共享并最小化延迟。kernel.sched_autogroup_enabled当前可能未遵循kernel.sched_latency_ns，导致更多限流挑战和调度低效。这些可调参数尚未深入研究，调优影响未知。

CFS调度器改进

潜在影响：提升整体CPU资源利用率并最小化因CFS低效导致的限流。
优势：改进对用户空间透明。
劣势：CFS调度器复杂，修改存在较大风险，且上游对某些类型修改的接受度可能具挑战性。

CFS调度器处理CFS带宽片中未用空闲时间的方式已被证明效率低下。内核团队有补丁确保这些未用时间返回全局池供其他进程使用，https://lore.kernel.org/patchwork/patch/907450/，以确保更好的整体系统资源利用。还有其他探索途径可提供进一步增强。此领域众多近期讨论之一源于k8s限流问题（https://github.com/kubernetes/kubernetes/issues/67577）：https://lkml.org/lkml/2019/3/18/706。

此外，CFS可能因错误而效率降低，如[内部JIRA链接]和http://www.ece.ubc.ca/~sasha/papers/eurosys16-final29.pdf。但我们尚未花费大量时间研究CFS在Twitter特定用例中的性能。更深入的考察可能发现提升效率的方法。

另一个具有更大潜力与风险的改变是使用CFS以外的调度器。

CPU绑核与隔离

潜在影响：通过使应用开发者心理模型中的CPU映射到物理CPU，从系统中消除限流概念。
优势：从应用开发者视角简化理解，调度器施加的限流不再是应用需应对的概念，提升缓存效率，显著减少资源干扰带来更确定的性能。
劣势：运维复杂性更高，超额订阅更复杂，需对当前运行环境进行重大变更。

允许限流发生的根本问题是，高度线程化的应用可拥有超过其“请求CPU数”的并行执行线程，导致可用运行时提前耗尽。通过将同时执行的线程数限制为应用请求的CPU数，现存在1:1映射，应用进程组可不受调度器干扰地自由使用逻辑CPU线程。此外，通过为应用分配CPU线程而非带宽片，应用现可充分利用CPU缓存优势，无需在被限流或上下文切换移出时与其他应用竞争同一CPU线程。

在Mesos中，实现CPU绑核已被证明相当困难。然而，k8s已有Intel名为k8s CPU Manager的项目带来希望。CPU Manager作为alpha功能在k8s 1.8中添加，自1.10起作为beta功能启用。它在beta阶段有些停滞，因似乎少有人使用，但核心功能已存在。CPU Manager项目推广的性能改进显著，如示例https://kubernetes.io/blog/2018/07/24/feature-highlight-cpu-manager/和https://builders.intel.com/docs/networkbuilders/cpu-pin-and-isolation-in-kubernetes-app-note.pdf所示。尽管这些基准测试应谨慎看待，但确实为探索此途径提供了有希望的前景。对该项目的粗略检查突出了一些需要工作的领域，但其已处于可用于验证方法的可用状态。底层，k8s CPU Manager利用内核中的cpuset cgroup功能。

潜在地，此方法确实降低了机器超额订阅的能力。然而，最小化跨Pod干扰、CPU限流、更确定执行轮廓等方面的效率增益可能抵消超额订阅的需求。当前，k8s CPU Manager确实允许少量超额订阅（允许系统级容器和daemonset超额订阅），但在Pod调度层面，CPU被保留供该Pod使用。

Brian Martin等人的实验显示CPU绑核带来显著性能收益，几乎与我们的超额订阅系数相当。

长期来看，超额订阅可通过多层方法实现：主要Pod类使用CPU绑核调度，而对延迟不敏感的次要Pod类允许在所有核心上浮动，消耗主要Pod的空闲资源。CPU Manager方面的工作将是广泛的。然而，最近Facebook在内核调度器方面的工作以最小化影响主要Pod类的方式进一步实现了此概念，我们可以扩展或发展。

集群调度器层面的超额订阅

潜在影响：可将机器利用率提升至任意高水平，并充分超额配置。
优势：集群调度器层面的超额订阅与本文描述的问题无关；以数据驱动方式执行可在无需尝试解决此处所述特定问题的情况下提升机器利用率。这可能同时解决本文问题（因避免限流而过度配置导致的低CPU利用率）和[另一问题描述文档]中的问题。
劣势：我们在[内部文档链接]中看到，运行在高负载主机上的服务分片性能下降。除非我们将Mesos调度器改为基于实际利用率（而非预留量）调度，否则某些主机会负载过高，分片落在这些主机上的服务性能将较差。

禁用CFS配额

潜在影响：防止限流，允许服务通过依赖“份额”机制而非配额使用物理机上所有可用核心。
优势：在某种意义上可实现最高可能利用率。
劣势：行为异常的服务可能严重干扰同一物理机上运行的其他服务。此外，服务所有者将更难预测其自身服务性能，因为空闲与负载状态间的性能变异性会大得多。

此方案是我们启用配额前所用的方案。从朴素硬件利用率角度，依赖份额机制似乎最优，因为这意味着若物理机未充分利用，服务可占用空闲核心；但若物理机高度利用，服务将回退至按核心预留量比例占用核心。然而，当我们使用此系统时，大多数服务所有者发现预测负载下性能过于困难，因而不可行。至少一家公司尝试此方案解决其限流问题，在负载下发生了严重事故。若我们现在切换回此方案，不会比启用配额前更好。

鉴于我们的容量分配方式，若要使此方案比之前更有效，需包含两个要素：对单个分片请求率的更精细控制，以及允许服务所有者理解负载激增期间真实情况的负载测试环境（与我们仅允许向单个分片注入不切实际负载的系统不同，这存在请求混合与真实负载激增期间不同、且注入负载的分片未看到同一物理机上其他服务升高负载的问题）。根据[另一内部文档]，我们知道影响分片级性能的最大因素之一是物理机的总体负载，且其对延迟的影响是非线性且难以预测，因此确实没有好方法从当今负载测试框架下的测试负载预测实际负载下的性能。

虽然这些缺失要素是重要且高影响力的问题，但解决任一要素均超出本文范围；[X团队]负责负载测试并正在改进，待问题解决后可能值得重新审视此方案。

一个中间方案是将调度器配额设置为大于Mesos预留核心数的值，这将限制“过多”CPU导致不可预测性能的影响，同时可能在高负载下减少限流（因为调度器将有效回退至份额机制）。例如，若cgroup配额为Mesos配额的两倍，在保留Mesos CPU使用量50%时崩溃的服务将改为在100%时崩溃。对于高负载物理机，更高的总体利用率将减少限流，因为来自其他核心的增加负载意味着拥有过多可运行线程的服务无法让其如此多线程执行。这具有禁用配额缺点的弱化版本——根据[内部文档]，来自其他服务的物理机负载是分片级性能差异的最大因素之一，若我们不改变物理机上Mesos核心预留量，这将增加物理机负载。若我们按比例减少物理机Mesos预留核心数，则此变更失去意义，相当于简单地将每个服务的CPU配置加倍（只是“秘密”加倍可能减少人们问“为何在负载测试中超过X% CPU时服务崩溃？”的人数）。

成果

本节未包含在2019年4月的原始文档中；写于2021年12月，描述因原始文档产生的工作。

更改默认线程池大小的建议被采纳并带来轻微改进。更重要的是，本文催生了两个主要项目。Vladimir Kostyukov（来自CSL团队）和Flavio Brasil（来自JVM团队）创建了Finagle Offload Filter，Xi Yang（当时我的实习生²，现为我团队全职员工）创建了消除容器限流的内核补丁（补丁仍为内部，但希望最终能上游化）。

几乎所有在Mesos上运行的应用都基于Finagle。Finagle Offload Filter使服务所有者能轻松将应用工作负载置于与IO不同的线程池（此前常未实现）。结合恰当调整线程池规模，在其他条件不变的情况下，应用延迟大幅降低，使其能削减配置容量并降低成本，同时满足SLO。根据服务不同，这带来15%至60%的成本节约。

内核补丁实现了显而易见的思路：防止容器在任意时刻使用超过容器配额的核心数，而非允许容器使用物理机上所有可用核心，然后在容器使用过多核心以将其平均核心使用量降低时将其置入休眠。

在运行Twitter主要服务的主机上实验显示，其产生了消除限流相关问题的预期影响，对未调优线程池规模的典型服务带来约50%的成本节约。事实证明，其净影响比我们撰写本文时认知的更大，因为防止服务使用“过多”核心后限流减少了干扰³。此外，虽然当时已意识到，但未在文档中注明限流问题使分片从“基本完全正常”进入“限流死亡螺旋”（类似于“GC死亡螺旋”），仅需少量额外负载即会触发，增加了可靠运行系统的难度。情况是，当服务处于高负载时会发生限流。限流不会阻止请求进入被限流的分片，因此当分片从限流中苏醒时，其待处理工作量比限流前更多，导致其使用更多CPU并更快触发限流，造成更多工作堆积。Finagle有可为状态极差的分片卸载负载的机制（与故障服务器通信的客户端将标记服务器为故障并停止发送请求一段时间），但分片往往在服务总体负载高时进入此状态，因此标记节点为故障仅意味着更多负载流向其他分片，后者将“想要”进入限流死亡螺旋。在限流可能导致死亡螺旋的环境下运行是本质上亚稳态的。消除这两个问题的影响可说与消除限流带来的成本节约一样大。

Xi Yang已试验上述朴素内核调度器变更的多种变体，但即使是朴素变更，与不变更相比也似乎相当有效，尽管朴素变更确实意味着服务在请求时通常无法获得全部CPU分配。例如，若服务在前半周期不请求CPU而后半周期请求无限CPU，在旧系统下将获得其周期分配CPU量，但在新系统下仅能获得一半。Xi的部分变体补丁以某种方式解决了此问题，但与防止限流本身相比影响相对较小。

Pratik Tandel推动的独立变更通过减少分片间差异影响来减轻限流对服务的影响，该变更是转向更少更大的分片。此变更的主要目标是减少跨所有分片发生的重复工作/内存开销，但它碰巧因更大的分片配额减少了随机噪声影响。总体而言，这带来Twitter大型服务0%至20%的CPU使用减少和10%至40%的内存使用减少（具体取决于服务）。

https://engineering.indeedblog.com/blog/2019/12/cpu-throttling-regression-fix/
增加突发性
- https://lore.kernel.org/lkml/20180522062017.5193-1-xiyou.wangcong@gmail.com/
- https://lkml.org/lkml/2019/11/26/196
- https://lwn.net/Articles/840595/
- 超出分配的容器仍将限流，但增加了“突发容量”概念，在保持基本相同平均核心利用率的同时，允许限流前有更大余量
  - 允许突发性独立于我们的修复（防止限流），原则上两者可同时应用，有点像启用htb qdisc的网络隔离工作方式
  - 鉴于Twitter的工作负载和配置，这并未解决我们关于实现极高每容器CPU利用率或防止限流死亡螺旋威胁所致亚稳态的限流问题，尽管它确实允许我们比不启用突发性时使用略高的平均CPU
运行时层面并行限制
- 由于Go通常使用单线程池，Uber通过https://github.com/uber-go/automaxprocs限制最大运行goroutine数绕过了此问题
  - 对Twitter不幸的是，包括service-1在内的多个最大最昂贵服务使用多种语言运行时，因此没有简单方法在运行时层面限制并行性
- .NET运行时拥有自适应线程池大小已十年，这是.NET技术栈比我们常见时尚科技公司更先进的众多方式之一

感谢Xi Yang、Ilya Pronin、Ian Downes、Rebecca Isaacs、Brian Martin、Vladimir Kotsyukov、Moses Nakamura、Flavio Brasil、Laurence Tratt、Akshay Shah、Julian Squires、Michael Greenberg @synrotek和Miguel Angel Corral的评论/修正/讨论

如果此物理机负载很高，因核心数不足，容器可能无法获得其请求的所有核心，但这不改变根本问题。 ^[返回]
我常开玩笑说实习生得到所有最有趣的工作，而我们全职员工则处理实习生不想做的工作。 ^[返回]
在一项独立工作中，Matt Tejo发现，对于固定的平均核心利用率，发生限流的服务比使用恒定核心数的服务对同一主机上其他服务造成更大的负面影响。这是因为高度负载且限流的服务在试图使用物理机所有核心和完全不使用核心之间切换，在其试图使用所有核心的期间造成极大量的干扰。 ^[返回]

由 mimo-v2.5 模型翻译，花费 16502 tokens

关于写作的一些思考

Mon, 13 Dec 2021 00:00:00 +0000

[AI 摘要] 本文探讨写作建议常陷入“照我这样写”的误区，强调有效写作应基于个人目标与情境，而非盲目模仿他人风格。

我见过许多标榜为写作建议的文章，实际上只是作者对自己写作方式的含蓄描述，其核心无非是“你应该像我这样写”。例如，写短文的人会建议你写短文。与技术话题一样，我认为许多不同的方法都可能有效，真正重要的是找到一种适合你自身及所处环境的风格。照搬他人成功的方法不太可能对你有效，因此“照我这样写”是一种糟糕的建议。

我们将首先审视那些对他人奏效的写作方法中存在多少多样性¹，接着探讨模仿他人风格为何如此困难，最后讨论我自己在写作中尝试的方法。

如果我查看从2000年到2017年在我社交圈中阅读量最高的编程博客²³，它们是Joel Spolsky、Paul Graham、Steve Yegge和Julia Evans（如果你不熟悉这些作者，请参阅附录中我认为能代表他们风格的摘录）。这份清单上的每个人在以下方面（以及其他方面）都有不同的风格：

主题选择
行文风格
文章长度
幽默类型（如果有的话）
技术细节水平
支撑证据的多少
细致程度

以一个易于量化的简单维度——长度为例。Julia Evans和我都在2013年开始写博客（她在2012年有一篇帖子，但她告诉我，她认为自己的博客是在2013年9月在RC时才真正开始，那也是我开始写博客的月份）。多年来，我们多次交流过，直到2017年底我暂停写博客，我们的博客总字数相近，尽管她发布的文章数量比我多大约一个数量级。

再看几个难以量化的方面，考虑一下Paul Graham这段典型的风格片段：

书呆子喜欢的是那种人们走来走去面带微笑的城镇。这排除了洛杉矶（那里根本没人走路）和纽约（人们走路，但不微笑）。我在波士顿读研究生时，一位朋友从纽约来访。从机场回来的地铁上，她问道：“为什么每个人都在微笑？”我看了看，他们其实没在微笑。只是与她习惯的面部表情相比，他们看起来像是在微笑。

如果你在纽约生活过，你就知道这些面部表情从何而来。这是一个你的头脑可能很兴奋，但你的身体知道它正在经历糟糕时光的地方。人们与其说是享受生活在那里，不如说是为了那份兴奋而忍受它。如果你喜欢某些类型的兴奋，纽约是无与伦比的。它是一个魅力中心，是所有半衰期较短的时尚和名望同位素的磁石。

书呆子不在乎魅力，所以对他们来说，纽约的吸引力是个谜。

它运用了有时被称为古典风格的多个方面。在这篇文章中，当我说“古典风格”时，我指的是Thomas & Turner所使用的术语，而非日常含义。其内涵实在过长，不适合在这篇文章中详细描述，但我可以说其中一部分是行文干净、直白且简单；一位以“删除多余词语”为信条的编辑不会有太多修改意见。另一部分是，这种风格的简洁性超越了文字本身，延伸到呈现的信息，以至于几乎不呈现支撑证据。Thomas & Turner说：“真理无需争辩，只需准确呈现。”Rochefoucauld的这段话既体现了这两点：

德·谢弗勒兹夫人智慧闪耀，野心勃勃，美貌十足；她轻佻、活泼、大胆、进取；她动用一切魅力来推动她的计划走向成功，她几乎总是给那些在路上遇到她的人带来灾难。

Thomas & Turner对Rochefoucauld这段话的评论是：

这段文字展示了一种与作者获知过程无关的真理顺序。作者摆出全知的姿态。这种姿态暗示作者拥有广阔而丰富的经验；否则他无法做出这样的观察。但这些个人历史、个人经历或个人心理并未进入表达。相反，这句话将作者的经验结晶成一种超越时间且绝对的序列，就像几何证明一样。

这很大程度上也适用于Paul Graham的那段话（尽管不完全适用，因为他讲述了一个朋友从纽约来访波士顿的轶事，并明确说“如果你在纽约生活过”你会知道什么，而不是直接陈述你会知道什么）。

我的风格在很多方面都与之相反。我经常写长句，思路迂回，不是出于任何特定的文学目的，而仅仅因为它反映了我思考的方式。Strunk & White要是看到我的写作，恐怕会有很多意见。在可能的情况下，我尽量构建有条理的论证，并尽可能提供证据，同时对证据不适用的情况加以说明。虽然不呈现证据能让文章读起来更干净，但那不是我的选择，因为我不喜欢读者基本上只能全盘接受或拒绝那些赤裸裸的断言，例如“书呆子喜欢的是那种人们走来走去面带微笑的城镇”，我更希望读者知道我为什么这么想，这样他们可以根据根本原因来同意或反对。

在长度、风格和其他提到的维度上，并没有正确与错误之分。许多不同的方法都能取得不错的效果。不过，如果目标是受欢迎，那么相比于Julia，我可能在长度上做出了次优选择；相比于Paul，我在文风上也可能做出了次优选择。如果我看什么能让别人获得关注，什么能让我的RSS流量增加，让更多人关注我的Twitter等，我发现频繁发布短文似乎比不频繁发布长文更有效。

我对文风对受欢迎程度的影响不那么确定，但我的感觉是，出于同样的原因，在工作中说很多自信的话（能让人晋升），写自信、不带保留的文章也能奏效（能吸引读者）。人们喜欢自信。

但是，在这两种情况下，即使做出次优选择，人们仍然可以非常受欢迎。对我而言，优化其他目标比优化受欢迎程度更重要。在长度上，我经常讨论那些无法轻易甚至根本无法用简短篇幅涵盖的话题。一个例子是我关于分支预测的文章，它有两个目标：为没有分支预测甚至计算机体系结构背景的程序员提供历史概述，并教会他们足够多的知识，以便能够阅读和理解现代最先进的关于分支预测的论文。这篇文章长达5800字。我看不出如何用人们推荐的博客文章长度（500字、1000字、1500字等）来达到同样的目标。文章或许可以稍微删减一些，但每个讨论到的预测器，除了agree预测器外，要么是解释后续预测器所必需的构建块，要么具有历史重要性。但即使不讨论agree预测器，讨论至少一种减少干扰的方案也很重要，因为干扰发生的原因以及如何减少它是分支预测中的一个基本概念。

这篇文章也可以有其他版本。一个解释分支预测存在的版本可能1000字就能写好。那篇文章如果写得好，会有更广泛的受众，更受欢迎，但那不是我想写的。

我对风格有类似的看法，因为我经常想以某种程度的细节和精确度来讨论事情，而这使得无法用干净的古典风格来写作。一个具体的小例子是，在最近一篇文章中，一位审阅读者要求我删除双重否定，但我拒绝了，因为在那种情况下，双重否定与可能替换它的肯定陈述有着不同的内涵，我想传达一些精确的东西，而这与简化句子后传达的内容不同。

一个更普遍的问题是，Paul从高层面讨论许多“大创意”。这适合用干净、简单的风格（Paul称之为优雅风格）来写作。但我对脱离低层次细节的“大创意”不感兴趣，而要有效地讨论低层次细节，很难不用Paul所说的不够优雅的风格来写。

一个具体的例子是我关于命令行工具和UNIX哲学的讨论。我们应该有“只做一件事并做好”、“编写程序来处理文本流，因为这是一个通用接口”的工具，还是使用有很多选项、能处理结构化数据的命令？几十年来，人们一直在来回重复同样的高层次反驳。但一旦我们看细节，看这些想法暴露在现实世界中会发生什么，我们立刻就能看出其中一套想法根本不可能像宣称的那样奏效。

回到写作风格，如果你试图弄清楚哪些风格选择适合你，你应该从你的目标和你的长处出发，而不是听那些告诉你像他们那样写的人。即使有人能描述出他们写作为什么奏效，那也不太可能对你有效，而且大多数建议都是由那些不理解自己写作为何奏效的人写的。如果你没有花很多时间分析写作，这可能很难看清，但如果你上过许多舞蹈课或接受过非优秀教练的体育指导，就很容易看出这是真的。例如，观察普通舞蹈教练并倾听他们的指导，你会发现他们的指导与他们实际做的大相径庭。那些倾听并遵循指令而不是尝试模仿教练动作的人，最终会把事情做得完全错误。大多数写作建议同样未能捕捉到重要之处。

不幸的是，模仿他人的风格也非易事；大多数人完全模仿错了东西。例如，Natalie Wynn指出，模仿她风格的人常常模仿表面的东西，却不理解是什么驱动了这些表面特征：

我注意到一件事，就是当人们没有表达任何东西的时候。比如有人试图做一个“左管视频论文”，他们往屏幕上堆满了奢华的东西，因为Contrapoints，但这与主题无关。这指的是什么？你在说什么？？

我做了一个关于羞耻的视频，造型是伊甸园中的夏娃，因为夏娃是第一个体验到羞耻的人。所以视觉效果与概念相关，并因此希望能引起更多共鸣。所以我想这就是我的建议，试着说些什么。

如果你探究那些在其领域出类拔萃的人说了什么，你经常会在其他领域看到类似的评论。例如，在实用射击中，Rob Leatham说：

我在课堂上忙于帮助学生学习如何思考。他们会说，“Rob像这样握枪…”，他们不知道我像这样握枪的原因不是为了让自己看起来那样。最终结果不是那样握枪；那样握枪是做其他事情的结果。

Brian Enos说：

当我开始…射击时，我对技术只有基本的概念。所以我做了我认为合乎逻辑的事情。我找到了当地最好的射手（他也在全国比赛中具有竞争力），问他我应该如何射击。他毫不犹豫地告诉我：左手食指放在扳机护圈上，左手肘弯曲向后拉，经典拳击姿势，等等，等等。我盲目地采用这套系统一两年，然后才想是否有一套更适合我的结构和态度、也更适合射击的系统。这最初采用的风格似乎不适合我，因为我感觉好像在努力控制枪支；我从未真正像现在感觉那样与枪支融为一体。我的实验促使我从所有类型的射击风格中汲取灵感：等腰三角姿势、改良的韦伯式、靶心射击，以及像Bill Blankenship、霰弹枪手John Satterwhite和武术家李小龙这样的人。

但来自你环境的想法只能引导你朝正确方向前进。这些想法本身就会限制你的思考……伟大的想法会产生于你内心的感受。这种直觉意识会让你接受任何对你有用的东西，抛弃任何没用的东西。

我引用这些例子是因为它们被写进了一本书，但我从各种活动的教练那里听过基本上相同的评论，例如我与之交谈过的舞蹈教练抱怨人们会问在某个动作中左脚应该交叉在右脚前面还是后面，这就忽略了重点，因为重要的是脚步放置在考虑到人的重心移动的情况下是合理的，这可能意味着根据具体情况，脚应该交叉在前面或后面。

更普遍的问题在于，不理解他们试图模仿的东西的人，最终会模仿他人行为中不重要的表面方面，而忽略了驱动这些表面方面的根本原因。即使有非常详细的说明，也会发生这种情况。虽然观察他人所做可以加速学习，特别是对于毫无头绪的初学者，但没有捷径可以达到足够深入的理解以促进做好一件事，这种理解无法用简单的规则（如“删除多余词语”）来概括⁴。

因此，我认为风格应源于你的目标，而目标最终是个人偏好。就我个人而言，我有时会有以下目标：

以几乎任何专业程序员都能理解的方式解释许多人似乎不理解的技术主题
- 例如：分支预测、malloc、缓存分区
为少数派观点（或当时是少数派的观点）辩护：
- 例如：文件难以使用、公共科技公司可以支付很高薪酬、单体仓库并不愚蠢
进行测量
讨论我认为有趣的现象：
- 例如：有趣的间断点、知识转移的难度、偏差常态化

当你将其中一个目标与详细讨论事情的偏好相结合时，你会得到一种与上面提到的任何作者都不同的风格，即使你想像Steve Yegge那样有效地使用幽默，像Julia Evans那样为更广泛的读者写作，或者像Paul Graham那样写得权威。

当我想起自己写作的主要组成部分时，我认为除了风格和目标之外，驱动我写作的主要因素是过程。与风格一样，我认为这是一个多种方法都可行的领域，需要你自己找出什么适合你。

就我而言，在开始写博客时，我有以下过程目标：

低前期投入，尽可能减少摩擦，如果我继续写博客，可能会随时间增加投入
通过每篇文章提高写作技巧/能力，而不必过于担心任何单篇文章的写作质量
只在我觉得值得发布时才发布
写一个我自己会想订阅的博客
在自己的平台上写作

低前期投入目标的原因是，当我审视我看过的博客时，最常见的博客格式之一是包含一篇解释该人开始写博客的文章，可能还有另一篇解释其博客设置的文章，但没有后续文章。另一种常见的博客格式是博客有一段时间定期发帖，然后是一段很长的休眠期，最后有一篇文章解释他们将重新开始发帖，然后就没有更多文章了（有些情况下，会有几篇这样的文章，间隔时间越来越长）。鉴于人们在开始写博客后继续写下去的比例很低，我认为我不应该费心投资博客基础设施，直到我知道我会写一段时间，所以尽管我已经拥有这个域名，但我没有费心去弄清楚如何将这个域名指向GitHub Pages，只是安装了一些流行博客软件的默认版本，甚至在我已经写了一篇文章之后才这样做。回顾过去，使用Octopress（Jekyll）是一个大错误；我选择它是因为当时我和一群做潮流东西的人混在一起，但事实证明它安装起来非常烦人，以至于人们组织了小型的“Octopress安装日”，这是一个坏兆头。结果发现，它不仅安装麻烦，还有相当多的故障，使用了一种无法获取上游更新的开发模型，而且速度极快地变慢了（没过多久，构建我的博客就需要整整一分钟，编译少量博客文章花费这么长时间太荒谬了）。我本应该只写纯HTML，直到有几篇文章，然后将其转换为自定义静态站点生成器，或者使用WordPress，它可以在几分钟内启动，并且可以轻松迁移。但是，低前期投入的一部分就包括不对此进行研究，并相信我周围的人做出了合理的决定⁵。总的来说，我支持保持低启动成本的想法，但如果我当时忽略了所有标准建议，要么做一些极简的东西，要么使用不流行但直接的选项，我本可以为自己节省很多工作。

“提高写作”这个目标是因为我发现我的写作尴尬得令人恼火，并想修正这一点。我经常写出在我看来笨拙的句子或段落，就像你拼错一个单词，无论你怎么重新拼写，它看起来都不对。拼写检查器现在已相当普及，你不再真正遇到拼写问题，但我们还没有能提高你写作水平的自动化工具（有些尝试，但它们往往会制造糟糕的写作）。我不担心任何特定的文章，因为我认为我可能需要花数年时间来改进我的写作，而且我不认为花数年时间重新编辑一篇文章会很令人满意。

正如我们之前讨论过的，获得反馈可以大大加快技能获取速度，所以我聘请了一位我尊重其写作的专业编辑，并附上说明：“我的写作笨拙而尴尬，我想修正它。我不太关心拼写和语法问题。你能据此编辑我的写作吗？”我收到了关于我许多文章的详细反馈。我试图解决反馈中提出的问题，但更重要的是，努力在我的下一篇文章中避免出现相同或之前提到的问题。我可能学得有点慢，所以有时需要几篇文章才能解决一个问题，但随着时间的推移，我的写作提高了很多。

只有当我感觉想发布时才发布，是因为我通常更喜欢过程目标而不是结果目标，至少对于个人目标是这样。我最初有一个目标是每月花一定时间写博客，但当我意识到无论是否将其作为一种义务，我都会花足够时间写作时，我就放弃了这个目标。我认为关于博客的结果目标对某些人确实有效（例如，“每周发布一篇文章”），但如果你的目标是提高写作质量，结果目标可能适得其反（例如，为了在有限时间内实现“每周发布一篇文章”的目标，有人可能专注于发布东西，而不考虑如何提高质量，因为从结果目标的角度来看，提高质量是浪费时间）。

以写我想订阅的内容为目标，当然是非常主观的。我不喜欢其他博客中的一些东西，所以我尽量避免它们。例如：

将可能是一整篇文章的内容拆分成多篇较小的文章
标题党
反复写同一话题却没有新意
- 这其中的一个子类别是拥有某种信念，然后每当出现支持该信念的证据时就写博客，却不提出现反证的证据
没有RSS或Atom订阅源

在自己的平台上写作是最次要的一个。一个主要原因来自平台的兴衰。在我开始写博客时，一些平台已经出现又消失。最近，Twitter收购了Posterous并将其关闭。有一段时间，Posterous是当时最时髦的平台，而Twitter决定完全关闭它，破坏了许多史上得票最高的HN文章的链接等。Blogspot，之前一个流行的写作场所，也被谷歌收购，之后严重降低了读者体验。避免时髦的平台效果很好。当我开始写博客时，人们纷纷使用的两个时髦平台是Svbtle和Medium。在我开始写博客后不久，Svbtle基本上就被废弃了，因为Medium在受众规模上显然将占据主导地位。而Medium从未找到良好的变现策略，并在尝试产生足够收入以证明其在融资1.6亿美元后的估值后，严重降低了读者体验。你无法信任别人的平台不会在你下面消失，或为了利润而彻底改变。

我想做的另一件相关的事情是在自己的空间（而不是在互联网评论中）写作。我过去写了很多HN评论⁶，但HN评论的半衰期很短。除极少数例外，一篇评论将获得的几乎所有浏览量都在最初几天。而对于博客，则恰恰相反。一篇文章最初可能会获得一波流量，但只要你坚持写下去，大部分流量会在之后到来（例如，对于我的博客，当一篇文章在HN上时，我通常会获得大约两倍于基准水平的点击量，当然我大多数时候并没有文章在HN上）。写一篇“真正的博客文章”并不比写一篇HN评论多费多少功夫，所以我倾向于写博客文章而不是HN评论。另外，当我在这里写作时，创造的大部分价值在我和读者之间分配。如果我在别人的平台上写作，大部分价值将在平台和读者之间分配。如果我做视频，我可能没有选择，只能在YouTube或Twitch上，但对于文字，我确实有选择。看看那些做出不同选择、决定为平台写评论的人后来怎样了，我认为我为正确的理由做出了正确的选择。我确实看到了在现有平台上评论减少的摩擦力的吸引力，但即便如此，我宁愿付出额外摩擦的成本，写一些在我自己空间里的东西，而不是写在别处。

所有这些加在一起基本上就是全部了。这就是我的写作方式。

与其他博主不同，我不会试图告诉你“如何有用地写作”或“如何写得好”之类的。我同意Steve Yegge的观点，他认为你应该考虑写作，因为它可能具有高价值，而且价值可能以你意想不到的方式出现，但如何写作应该真正源于你的目标和才能。

附录：方法随时间的变化

当我开始写博客时，我担心一篇文章会因为只包含一个简单想法而不够有趣，所以我经常等到能将两个或更多想法合并成一篇文章。回顾过去，我认为我早期的许多文章如果分成单独的文章会更好。例如，2016年这篇关于薪酬的文章包含了薪酬可能变得双峰分布的想法，以及考虑到与其他同样高薪的领域（如金融、法律和医学）的准入门槛相比，程序员的薪酬高得令人难以置信。我不认为把这两个想法合并成一篇文章有多大价值，而且我认为如果关于程序员薪酬异常高的部分没有捆绑到一篇关于薪酬双峰分布的文章中，会有更多人阅读它。

我过去还做的一件事是避免写那些看起来太明显的东西。但是，我逐渐认识到写下明显的东西有很多价值，我一些最有影响力的文章都是关于我以前认为太明显而不值得写的话题：

排除这些近期文章，告诉我https://danluu.com/look-stupid/改变了他们操作方式的人，比告诉我的其他所有文章加起来还要多（而之所以接近，仅仅是因为有很多人告诉我关于薪酬的讨论让他们意识到可以找到一份更喜欢且年薪比以前高出数十万美元的工作，这是从人们告诉我文章毫无意义因为每个人都知道科技行业能赚多少钱的评论最多的一组文章）。

一个主要且相对较新的风格变化是我正在尝试使用更多例子。这是受Ben Kuhn评论的启发，到目前为止我很喜欢。与大多数博主相比，我在早期并不缺少例子，但我注意到一点，增加比我自然倾向更多的例子确实能为读者澄清事情；“很多”例子能降低人们得出与我本意截然不同的想法的速度。一个具体的例子是，在一篇讨论达到95百分位水平表现需要什么的文章中，我只提供了几个例子，许多人填充了空白，认为远高于99.9百分位的表现就是95百分位，例如成为国际象棋大师是95百分位。

另一个做出这种改变的人是Jamie Brandon。如果你读他早期的文章，比如这篇，他经常有一个引人入胜的想法和漂亮的措辞，例如这段关于他与Chris Granger一起开发Eve时的内容：

人们经常告诉我，命令式编程是自然的编程形式，因为‘人们以命令式方式思考’。我能理解他们的意思。就在前几天，我还发现自己说：“嘿Chris，我饿了。我需要你走进厨房，打开橱柜，拿出一袋面包，打开袋子，取出一片面包，放在盘子上……”不幸的是，我没有说明盘子在哪里，所以这时Chris抛出了空指针异常并死了。

但是，尽管有些部分真的很吸引人，他的早期写作在某种程度上与现实世界脱节，这是Jamie回顾自己的旧文时不喜欢的。关于添加更多细节，Jamie说：

专注于具体例子并尽可能保持具体的关键在于：a) 让我更不可能出错，因为非具体的想法很难证伪，我很容易欺骗自己；b) 让读者更有可能吸收我试图传达的想法，而不是一些表面上相似但符合模糊文本的想法。

例子能固定想法，以便它们能被恰当地审视。

另一个重大变化，也是我唯一要在这里讨论的真正属于散文风格的变化，是我更努力地尝试写作中保持一种有时被称为“叙事语法”的连续性。Nicola Griffith的这篇文章有一些句子层面的例子，但我也会在写作的更大结构上思考这个问题。我不认为自己特别擅长这个，但更多地思考这一点使我的写作更容易理解。这个变化，尤其是在更大规模上，确实是与一位擅长发现使写作更难理解的结构性问题的专业编辑合作的结果。但同时，如果某事难以理解有原因，我也不会太担心。一个具体的例子是，如果你阅读ask metafilter或reddit上问题的答案，任何结构上非简单的问题都会有大量答案来自那些未能仔细阅读问题并回答错误问题的人，例如，如果有人问一个包含用and连接的两部分的问题，很多人只会读and的一半，并给出一个明显被and条件排除的答案。如果很多人连一个简短问题的and的两边都不愿意仔细阅读以给出满足两部分的答案，那么很多人也不会跟进任何人可能想写的最简单的东西。我认为试图引导那些连and两边都不愿意读的人通过一篇有结构的文章，对作者来说不是时间的有效利用，但我确实认为努力避免“叙事语法”问题是有价值的，因为这些问题可能让真正想阅读的人更难理解。

附录：获取反馈

正如我们之前讨论的，反馈可以极大地促进进步。不幸的是，那篇文章中的观点，即95百分位水平表现通常很差，也适用于反馈，使得大多数反馈适得其反。

我花了很多时间观察人们在私人渠道中获得反馈，并看到他们如何根据反馈改变他们的写作，至少在我观察的渠道中（程序员，而非专业作家或编辑的评论），大多数反馈被忽略了。而当反馈被采纳时，因为几乎所有的反馈都是糟糕的，而且人们通常并不完美，甚至不太擅长筛选好的反馈，所以被采纳的反馈通常是糟糕的。

根本上，大多数反馈都有本文提到的问题，是“你应该像我那样写”的一种形式，这通常行不通，除非反馈的作者在给出反馈时非常小心，但很少有人这样做。反馈往往是表面的建议，忽略了写作中严重的结构性问题。此外，反馈也往往是“最低公分母”式的反馈，将优美的散文变成Strunk-and-White风格化的平庸散文。我不认为我的散文风格特别好，但我见过一些拥有自然优美风格的人向程序员寻求反馈，结果他们的写作变成了任何人都能写出的无聊散文。

另一面是，当人们得到我认为好的、实质性的反馈时，最常见的回应是“算了，没事”。我认为这是大多数反馈都是“你应该像我那样写”的对立面。大多数人对反馈的回应是“我想怎么写就怎么写”。

尽管这篇文章侧重于多种风格都可以奏效，但同样真实的是，给定一种风格和一组目标，写作可以更好或更差。但是，大多数得到反馈的人对写作了解不够，无法知道什么是更好什么是更差，所以他们无法区分好反馈和坏反馈。

解决这个问题的一种方法是获得你信任其判断的人的反馈。如文章所述，我的做法是聘请一位我尊重其写作（和编辑）的专业编辑。

我做的另一件事，也是我个性的核心方面，与写作关系不大，是我相对认真地对待反馈，并努力避免对反馈有“算了，没事”的回应。我不会说这是最佳状态，因为我有时花了太多时间在糟糕的反馈上，但我思维方式的一个核心部分是我意识到大多数人过度自信，并且经常因为过度自信而出错，所以我不信任自己的推理，并花相对大量的时间和精力思考反馈，以试图降低我的过度自信率。

有时，我会花可笑的长时间思考一些现在看来非常糟糕且“显然”不正确的反馈，因为我一直担心因认为其不正确而错误地驳回它。我注意到的一件事是，随着人们获得受众，有些人变得越来越自信，最终变得极度过度自信。这很容易理解——当你声名鹊起时，你会获得更多的曝光和更多认为你总是对的“粉丝”，而另一方面，你也会得到更多“显然”错误的评论。

在几乎没人读我博客的时候，我得到的大部分评论都相当好。随着我读者越来越多，好评论的百分比下降了。从观察其他人如何处理这个问题来看，一种常见的失败模式是，他们会看到他们的文章吸引了大量明显错误的评论，然后错误地认为所有的批评者都是笨蛋，他们自己基本上从不犯错。除了“非常认真地对待批评”之外，我并没有真正的解决办法。由于这里的失败模式涉及判断中的盲点，我没有看到一个简单的方法来认真对待某条批评，同时又不会因为盲点而错误地驳回批评。

根本上，我的解决方案是避免查看大多数反馈，同时努力接受我信任的人的反馈。

当涉及散文问题时，我们在上面讨论过，聘请一位我尊重其写作和编辑的专业编辑，并在散文问题上听从他们的意见，效果很好。

当涉及逻辑严密性或一般趣味性时，这些更难外包给一个人，我有一组我信任其判断的人会看大多数文章。如果任何我信任其判断的人认为一篇文章有趣，我就认为这是一个强有力的确认，我基本上忽略那些说文章无聊或没意思的评论。我几乎所有在“告诉我的文章改变了他们生活”的人数中名列前茅的文章，都收到了一些我认为判断力不差的人说文章似乎无聊、无意义、太明显不值得写或根本不感兴趣的评论。我过去常常认真对待说文章不有趣的评论，但回想起来，那是一个错误，浪费了我很多时间，也没有提高我的写作。我认为这与那些说“像我那样写”的人没什么不同；相反，这是那些在“有趣性”方面有相似心智模型的人，他们无法想象其他人会觉得他们不觉得有趣的东西有趣。当然，不是所有人的思维都如此，但擅长模拟他人觉得什么有趣的人通常不会留下“这很无聊/毫无意义”之类的反馈，所以这种形式的反馈几乎可以肯定是无价值的。

当涉及论证的严密性时，我采取与对待趣味性相反的态度，即我非常认真地对待负面评论，而对正面评论则不太在意。有时，我因为这个在特定文章上浪费了很多时间。我的解决方法是努力忽略那些经常给出糟糕反馈的人的反馈。我认为这样做是危险的，因为有选择地忽略反馈是制造回音室的好方法，但真的认真花时间思考反馈，即使我没有看到逻辑漏洞，也是非常耗时的，考虑到我收到反馈时会重新评估自己的工作，我认为没有其他替代方法。

最近我开始做的一件事让我对此感觉好多了，那就是观察人们给别人的反馈。给我糟糕反馈的人通常给其他人的反馈方式也差不多一样糟糕。因为我不太担心自己存在某种认知偏差，会误导我认为当涉及他们对别人写作的反馈时我是对的他们是错的，我可以花几分钟时间看到他们对别人写作的反馈是胡扯，然后发现他们对我的反馈方式完全一样也是胡扯。

附录：我的想法从何而来

我经常被问到如何产生想法。我原本不打算说任何关于这个的内容，因为我没什么可说的，但Ben Kuhn强烈敦促我加上这一节，“以便其他人意识到你有多么另类”。

我的感觉是世界充满了有趣的东西，想法无处不在。我有大约一百篇草稿，我认为基本上可以发布，但出于各种原因没有优先完成。如果算上那些我已在脑海中构思但还没有写下来的帖子，数量肯定达到成千上万。如果我辞职，然后坐下来全职写作直到去世，我认为即使我只写已经有过的想法，也不会用完。世界是如此广阔、奇妙且具有分形般的趣味性。

例如，我最近开始玩冲浪皮划艇（一种皮划艇），可以说，在几周之后，我大概有二十个左右的博客文章想法，我认为这些可以以普通受众为目标写出来，就像这篇关于分支预测的文章是为普通受众写的，因为它不假设有任何硬件背景。我可以写两篇关于独木舟桨进化和设计的不同技术方面的文章，以及两篇关于文化因素及其如何影响不同独木舟桨设计发展的文章。皮划艇桨的设计在近代历史上要丰富得多，这很容易再写出五到六篇文章。船体设计的技术方面更为丰富，可以成为文章的不竭源泉，尽管目前我脑子里只有四篇特定文章的想法，但文化和历史方面对我来说似乎也很有趣，这补充了我脑海中关于这个话题的二十件事。

我脑子里有二十篇关于皮划艇和独木舟的文章，并不是因为我对皮划艇和独木舟特别感兴趣。一切似乎都足够有趣，值得写二十篇文章。我现有的很多文章，如果我有时间写出来，可能会成为一个更长系列的一部分。例如，这篇关于棒球决策的文章，在我脑海中是一系列关于决策的较长（10篇以上）文章的第一篇，我从未抽出时间写出来，我怀疑我永远不会写，因为有太多其他有趣的东西要写，而时间又不够。

附录：其他关于写作的文章

Richard Lanham：分析散文
- 我认为从这本书中直接提取可操作的东西并不容易，但我发现它剖析散文节奏的方式非常有趣
Robert Alter：摩西五经
- 关于Robert Alter在翻译中做出某些微妙选择的脚注
Francis-Noel Thomas & Mark Turner：清晰简单如真理
- 如果你想以干净、权威的风格写作
  - 将此书作为指南的人通常写得没有细致差别，并有很多不正确的陈述，但我认为这并非必要。此外，文章通常引人入胜，这是许多人更喜欢细致差别的方式；许多科技界的受欢迎作者使用类似的风格
Gary Hoffman & Glynis Hoffman：再见，Strunk & White：新学术散文手册
Tracy Kidder & Richard Todd：好散文：非虚构的艺术
- Kelly Eskridge向我推荐了这本书，因为它深入探讨了编辑和作者如何互动，我发现记住这一点在与编辑合作时很有用；读这本书可能是理解与优秀编辑合作是什么样的低效方式，但如果你好奇《新机器之魂》的作者如何写作，可能值得一读；如果你不确定编辑能为你做什么，这本书是很好的读物
Steve Yegge：你应该写博客
- 特别是“理由#3”，Jacob Gabrielson / Zero Config的故事，尽管整篇都值得阅读
Lawrence Tratt：关于撰写研究论文我目前学到的
- 写得很好，像Lawrence的其他作品一样。而且我认为有趣的是，Lawrence在大多数主要方面与我有着完全不同的过程，但最终的风格在比较所有编程博主时相对相似（当然比这篇文章正文中提到的任何作者都更相似）
Julia Evans：我如何撰写有用的编程漫画
- 很好地解释了Julia的小册子为何成功；也与我的方法完全不同，但这次结果也完全不同
Yossi Kreinen：写博客很难（这个标题与他的下一篇文章“底层很容易”形成对比）
- 一个罕见的例子，第一篇基本上是“我要写博客”的文章，既有趣，又有有趣的后续文章；还有Yossi的写作哲学
Phil Eaton：是什么造就了出色的技术博客
- Phil在技术博客中喜欢的属性的简要总结。它有点与人们通常从Thomas和Turner的《清晰简单如真理》中得出的相反

附录：增加受欢迎程度但我不常做的事情

以下是我通过观察他人发现有效但我自己不做的事情，但如果你想拥有广泛的受众，或许你可以尝试其中一些：

使用标题党
- 说脏话或说某事“是毒药”或“是X的越南战争”或其他高度情绪化的短语似乎特别有效
夸大声望/成就/头衔
使用权威的语气和/或风格
以愤怒的语气写文章或旨在引起愤怒的文章
频繁写作
获得他人背书
写热门、当前的话题
- 对近期事件发表看法
对主题使用故意惊世骇俗/有争议的框架

附录：一些写作摘录

如果你不熟悉提到的作者，以下是一些我认为能代表他们写作风格的摘录：

Joel Spolsky：

我真的在意的原因是微软正在吸纳太多的程序员。在微软，他们那些不道德的招聘人员向毫无戒心的大学生开出附带苛刻条件的爆炸性offer，而谷歌（你们在我的雷达上）向那些极限飞盘经验比Python还丰富的孩子们支付无法维持的薪水，他们的主要工作将在谷歌园区玩桌上足球，到处试图让某个人……任何人……来看他们用“20%时间”写的演示代码，做某种，让我猜猜，基于云的同步……在微软和谷歌之间，一个聪明的计算机科学毕业生的起薪正危险地接近六位数，而这些聪明的孩子，我们大学的精华，正在从事毫无希望和用处的架构天文学，因为这些公司就像癌症，不惜一切代价追求增长，即使他们想不出一件对我们有用的东西，但他们下周还需要3000-4000名计算机科学毕业生。而且该死的桌上足球不会自己玩它自己。

以及

1991年我开始面试程序员时，我通常允许他们使用任何他们想用的语言来解决我给出的编码问题。99%的情况下，他们选择C。如今，他们倾向于选择Java……Java通常不是一种足够难的编程语言，无法用来区分优秀程序员和平庸程序员……一个纯Java的计算机科学学位并没有真正筛掉那些缺乏处理这些概念所需心智敏捷性的学生。作为雇主，我看到100%采用Java的学校已经开始培养出相当多的计算机毕业生，他们根本不具备在比又一个Java会计应用程序更复杂的任何东西上工作的程序员素质，尽管他们勉强通过了新简化的课程。这些学生永远无法通过麻省理工的6.001或耶鲁的CS 323，坦率地说，这就是为什么作为雇主，麻省理工或耶鲁的计算机科学学位比杜克大学（最近全面转向Java）或宾夕法尼亚大学（用Java替代了Scheme和ML）的学位更有分量的原因之一。

Paul Graham：

几年前，一位风险投资家朋友告诉我他参与的一家新创公司。听起来很有前途。但下次我和他交谈时，他说他们决定在Windows NT上构建他们的软件，并且刚刚聘请了一位非常有经验的NT开发人员担任首席技术官。当我听到这个消息时，我想，这些人完蛋了。第一，首席技术官不可能是一流的黑客，因为要成为著名的NT开发人员，他必须自愿多次使用NT，而我无法想象一个伟大的黑客会这么做；第二，即使他很优秀，如果项目必须在NT上构建，他也很难招聘到优秀的人为他工作。

以及

什么样的人会成为讨厌鬼？任何人都能成为吗？我不确定，但我注意到一些模式。讨厌鬼通常是在非常特定的意义上的失败者：尽管他们偶尔有才华，但他们从未取得过什么成就。而且，任何成功到获得显著名声的人都不太可能将另一个著名人物视为骗子，因为任何名人都知道名声是多么随机。

Steve Yegge：

当我在2003年第一次读这本书时，我感到一种可怕的冰冷感，就像你刚意识到过去5年你一直穿着裤子上班但裤子掉在脚踝上那种感觉。第二天我随意地问了一圈：“是的，呃，你读过那本，嗯，《重构》书，当然，对吧？哈，哈，我只是因为我很久以前就读过，不是刚读完，所以问问。”在我调查的20人中，只有1人读过。谢天谢地，我们都把裤子掉在脚踝上了，不只是我。

这是一本关于如何写出好代码的精彩书，这样的书不多。可能没有。他们通常不在学校教你如何写出好代码，你可能永远学不会。可能需要几年时间，你可能仍然缺少一些关键概念。我肯定就是如此。 ... 如果你是一个相对有经验的工程师，你会认出书中80%或更多的技术，这些是你已经弄明白并开始习惯去做的。但它给了它们所有名称，并客观地讨论了它们的优缺点，我觉得这非常有用。它还揭穿了我从程序员生涯早期就珍视的两三种做法。不给代码加注释？局部变量是万恶之源？这家伙是疯子吗？读读它，自己判断吧！

以及

杰夫·贝佐斯是一个臭名昭著的微观管理者。他微观管理亚马逊零售网站上的每一个像素。他聘请了拉里·泰斯勒，苹果的首席科学家，可能是全世界最著名和最受尊敬的人机交互专家，然后完全无视拉里三年里说的每一个该死的事情，直到拉里最终——明智地——离开了公司。拉里会做这些大型可用性研究，并且毫无疑问地证明没有人能理解那个该死的网站，但贝佐斯就是无法放手那些像素，那些登陆页面上数百万语义密集的像素。它们就像他数百万自己珍贵的孩子。所以它们都还在，而拉里已经不在了。

微观管理并不是亚马逊做得比我们好的第三件事。我是说，没错，他们微观管理得很好，但我不认为这算是什么优势。我只是想在这里设定背景，帮助你理解发生了什么。我们谈论的是一个在公开场合多次严肃地说人们应该付钱给他才能在亚马逊工作的人。他分发印有他名字的小黄便利贴，在人们与他意见不一致时提醒他们“谁是公司老板”。这家伙是个典型的……嗯，史蒂夫·乔布斯，我猜。只是没有时尚或设计品味。贝佐斯非常聪明；别误会我。他只是让普通的控制狂看起来像吸了大麻的嬉皮士。

Julia Evans：

现在我正在从纽约到蒙特利尔的一百万小时火车旅途中。所以我在看strace的输出，因为，呃，strace很酷，它正在教我一些关于我经常使用的命令行工具如何工作的知识。

strace的作用是捕获执行程序时调用的每一个系统调用。系统调用是用户空间程序和内核之间的接口，所以看strace的输出是理解Linux如何工作以及运行一个程序到底涉及什么的一个有趣方式。

例如！killall！我运行了

strace killall ruby1.9.1 2> killall-log.

附录：GPT-4o认为人们如何写作

[2024年更新]

我见过相当多的人对GPT-3、GPT-3.5和GPT-4“模仿”某人并创作出其风格作品的能力赞不绝口，让你可以阅读假设的文章或与某人进行假设的对话。我发现这通常效果不佳。以下是提示“生成一段200字关于微软的引语，内容是X可能会写的。”的示例（我尝试了其他提示，结果同样糟糕，因为内容、语气和风格与这些人的实际产出不太相似）：

Joel Spolsky：

微软是工程卓越与商业智慧复杂相互作用的一个研究案例。他们不仅仅是一家构建软件的公司；他们是一个庞大的、多触手的庞然大物，几十年来，成功地将自己插入了科技行业的几乎每个角落。他们有过失误——有人记得Clippy或Zune吗？——但他们也取得了惊人的成功。微软的魔力在于他们转向和适应的能力，经常将看似巨大的失误转变为他们战略不可或缺的一部分。

他们最初的主导地位建立在Windows和Office之上，这对强大的组合定义了几十年来个人和企业计算。但真正令人着迷的是他们如何进化。在纳德拉领导下，微软从一个笨重的巨人转变为一个灵活的创新者，一头扎进Azure的云中，并拥抱了他们曾经排斥的开源社区。他们创建了一个强大且，我敢说，有趣的开发者生态系统。微软不再仅仅关乎软件；它关乎平台、服务和一个不断增长的互联工具宇宙。它们证明了即使是最大的公司，如果愿意不断地重新思考和重塑自己，也能保持相关性。

Paul Graham：

微软的历程是适应性战胜惰性的典型例子。在其早期，该公司体现了抓住机会的创业精神，从一个两人团队转变为一个通过智取更大、更成熟的竞争对手而形成的庞然大物。他们掌握了软件商品化的艺术，并建立了一个生态系统，使个人计算成为普遍现实。然而，成功滋生了自满。多年来，微软紧抱着Windows和Office这两个摇钱树，错过了移动和互联网革命，而年轻、更灵活的竞争对手重塑了行业。但微软的故事并没有结束。在萨蒂亚·纳德拉富有远见的领导下，该公司重新发现了其创业根基，转向云计算，并以类似于其早期的热情拥抱了开源。这种转型的能力，在面临深刻的行业变化时重新想象自己的能力，是使微软保持相关性的原因。这对每个初创公司和科技巨头都是一个教训：长寿的关键不仅是创新，还有不懈追求重塑。在微软的世界里，唯一不变的是变化，而公司真正的天才在于其适应和繁荣的坚定能力。

微软是一个引人入胜的探索对象，特别是如果你喜欢深入技术的细节并观察它们如何扩展复杂性。很长一段时间，如果你使用计算机，你无法避开这个庞然大物。Windows和Office就像你呼吸的空气——无处不在且不可或缺。但真正有趣的是微软如何进化。他们从桌面的守门人变成了云领域的先驱和开源的倡导者。

想想Azure。这是一个巨大的基础设施，为从小型初创公司到大型企业的一切提供动力，使开发者只需点击几下就能在全球部署代码。然后是他们对开源的拥抱。记得他们收购GitHub的时候吗？那表明微软是认真的支持开发者社区。这不仅仅是一次公关活动；他们正在贡献甚至领导我们数百万人依赖的项目。

他们的工具对我们许多人来说已经变得不可或缺。例如，Visual Studio Code，使用起来很愉快。它轻量、快速、可扩展——是微软如何学会构建开发者喜爱的产品的完美例证。这是一家不惧怕重塑自己的公司，并在此过程中让我们的科技生活变得更好、更有趣。

感谢Yossi Kreinin、Ben Kuhn、Laurence Tratt、Heath Borders、Jamie Brandon、Julia Evans、Vegard Nossum、Julien Kirch、Bram Delver和Pam Wolf的评论/更正/讨论。

“奏效”对不同的人可能意味着非常不同的事情，但在这一节中，我们将看看受欢迎的博客，因为当我知道的人在写了一段时间博客后沮丧地停止写作时，最常见的原因是他们的博客基本上没有读者。

当然，许多人写作不是为了拥有读者，有些人甚至试图避免拥有超过几个读者（通过某种方式“锁定”文章，使只有“朋友”可以访问），但是，我认为“奏效”的范围非常广泛，许多不同的风格都可以奏效，这一观点即使目标是让几个朋友阅读博客也不会改变。
^[返回]
这是相当随意的。在其他社交圈中，Jeff Atwood、Raymond Chen、Scott Hanselman等人可能在名单上，但这不会改变观点，因为所有这些人的风格也彼此不同，也与我名单上的人不同。
^[返回]
2017年是终点，因为我在那时前后减少了对编程网络文化的关注，不清楚在我认识的人中2017年后人们在读什么。
^[返回]
在体育运动中，真正弄清楚如何提示人们做正确事情的精英教练可以大大加速学习，但在体育运动之外，尽管不乏愿意提供指导的人，但很少能找到一个真正弄清楚可以给学生哪些提示，能帮助他们比仅仅天真地测量他们的行为并应用一点内省更快地达到正确结果的人。
^[返回]
事实证明，写博客对我来说非常棒（例如，我的博客让我找到了现在的工作，促成了我大部分朋友的相识，导致人们给我发送关于行业内各种动态的有趣故事等），但我认为在开始写博客之前，这不是一个可预测的结果。我的猜测是，基于基本情况，最可能的结果是失败。
^[返回]
例如这条关于与其他高薪工作相比编程工作多么舒适的评论（这变成了这篇关于程序员薪酬的文章的后半部分、这条关于写作报酬的评论和这条关于桌面游戏设计演变的评论）。
^[返回]

由 mimo-v2.5 模型翻译，花费 28416 tokens

延迟测量的潜在问题

Mon, 6 Dec 2021 00:00:00 +0000

[AI 摘要] 本文讨论了延迟测量中的潜在问题，包括不透明延迟、缺乏集群范围聚合和分钟级分辨率。

这是我在一两年前在Twitter做的一次简短闪电演讲的伪转录稿（实际用词已调整为比100%忠实转录更易读的形式），关于我们在使用延迟指标时遇到的陷阱（服务名称已根据通信要求匿名处理）。自那次演示以来，在基础设施方面已取得重大进展，因此现状较当时已有很大改善，但我认为这仍然相关，因为通过与同侪公司的同行交流，发现许多人正面临类似问题。

我们经常在Twitter使用尾部延迟指标。最常见的情况是，服务所有者希望获得其服务的集群范围或Twitter范围的延迟数据。不幸的是，由于我们延迟测量设置中的一些历史特殊性，服务所有者倾向于使用的数字与我们希望测量的数字存在差异：

不透明的、未被检测到的延迟
缺乏集群范围的聚合能力
分钟级分辨率

不透明的、未被检测到的延迟

当我们查看大多数服务的仪表盘时，显示和用于告警的延迟指标通常来自服务本身运行的服务器。一些由高级SRE（他们曾因不可见的延迟问题受过教训）设置的仪表盘的服务，也会包含来自服务调用者观测到的客户端延迟。我想讨论这种设置的三个问题。

在本次演讲的范围内，我们可以将客户端请求视为在客户端“用户”代码将请求传递给我们RPC层（Finagle）之后、客户端用户代码接收到响应之前，经过了以下管道（由于Finagle当前处理请求的方式，一旦请求移交给我们在使用的网络库（netty），我们无法获取特定请求的时间戳）：

客户端 netty -> 客户端 Linux -> 网络 -> 服务器 Linux -> 服务器 netty -> 服务器“用户代码” -> 服务器 netty -> 服务器 Linux -> 网络 -> 客户端 Linux -> 客户端 netty

正如我们之前在[一份内部文档中量化CFS带宽控制节流的影响以及我们使用过大的线程池如何导致节流]中所看到的那样¹，我们经常在netty中及以下层发生大量排队，这会产生连锁反应，导致服务被内核节流，这通常会导致大量不透明延迟，尤其是在高负载时——此时我们最希望仪表盘能显示正确的延迟数字。

当我们在服务器端采样延迟时，我们基本得到的是：

服务器服务“用户代码”的延迟

当我们在客户端采样延迟时，我们基本得到的是：

服务器服务“用户代码”的延迟
服务器端 netty 延迟
服务器端 Linux 延迟
客户端 Linux 延迟
客户端 netty 延迟

这里有两个问题：第一，仅凭指标数据，我们无法很好地分辨栈中不透明部分的延迟是来自客户端还是服务器端。作为服务所有者，如果你基于客户端延迟设置告警，即使你的服务运行平稳，当客户端延迟因netty或Linux中排队过多而上升时，你也会收到告警。

其次，鉴于我们暴露的数据，合理查看的客户端延迟指标会给出客户端与所有服务器通信的延迟，这与我们在服务器指标上看到的视图非常不同——服务器指标给出的是每台服务器的延迟数据，而且没有好的方法能聚合所有客户端的每服务器客户端数据，因此很难判断，例如，某个特定服务器实例的netty中是否存在高延迟。

以下是一些在客户端测量与服务器端测量的集群范围延迟差异的例子。这些例子是特意挑选的，以展示客户端与服务器端延迟差异的一个横截面。

这是一个累积分布函数图，采用了CDF的标准方向，纵轴是百分位数，横轴是数值，这意味着向下和向右表示更高延迟，向上和向左表示更低延迟，线越平缓表示延迟增长越快，线越陡峭表示延迟增长越慢。

由于该图表在两个轴上都是对数刻度，客户端与服务器端延迟的差异实际上很大，尽管这些线看起来并没有那么远。例如，如果我们看99%分位数延迟，在服务器端测量约为16毫秒，而在客户端测量约为240毫秒，相差15倍。或者，如果我们看一个固定的延迟值，比如240毫秒，然后向上查找百分位数，会发现这是客户端的99%分位数延迟，但在服务器端则远高于99.9%分位数延迟。

下面的图表具有类似的特性，尽管客户端与服务器端之间的差异会有所不同。

我们可以看到，客户端测量与服务器端测量的延迟常常存在显著差异，即使在较低百分位数差异较小的情况下，在较高百分位数时差异有时也会变得很大——因为更高的负载可能导致更多排队，从而在netty和内核中产生更多延迟。

需要注意的一点是，对于任何特定的测量到的服务器端延迟值，我们都能看到非常宽范围的客户端延迟值。例如，这是service-5的客户端与服务器端延迟的放大散点图。如果我们缩小范围，会看到对于一个服务器端测量延迟为10毫秒的请求，我们可能看到客户端测量延迟高达500毫秒。更普遍地说，我们看到许多请求的服务器端测量延迟与客户端测量延迟非常相似，但也有少数请求的服务器端测量延迟是对客户端测量延迟的非常不准确的表示。在几乎所有这些情况下，由于栈中我们不可见部分的排队，客户端测量延迟更高，而在极少数情况下，由于我们检测方面的一些问题，客户端测量延迟会更低。在下面的图中，由于我们追踪延迟的方式，我们对延迟只有1毫秒的粒度。下面图表上的点已随机抖动了+/- 0.4毫秒，以便更好地展示图表上非常密集点的分布情况。

虽然有可能通过netty和内核来检测请求延迟（在Finagle移交请求之后进行追踪）（内核甚至有一些钩子可以使这变得相对简单），但这可能在近期值得做的工作量太大。如果你想知道你的服务受不透明延迟影响的程度，利用Zipkin和Rebecca Isaacs、Jonathan Simms 和 Rahul Iyer 所做的工作，可以相当容易地获得一个大致的概念，这也是我生成上面那些图表的方式。这些代码的源代码在[我们monorepo中的一个路径]，如果你只是想检查另一个不同的服务，你可以插入你自己的服务名称。

缺乏集群范围的聚合能力

在上面的例子中，我们能够获得集群范围的延迟百分位数，因为我们使用了来自Zipkin的数据，该系统尝试以均匀随机的方式采样请求。由于各种原因，服务所有者主要依赖指标数据，虽然更完整（因为是无采样的），但不允许我们计算集群范围的聚合，因为我们是在每个分片基础上预计算固定聚合，并且无法从分片聚合中重建集群范围的聚合。

通过查看我们服务的仪表盘，最常见的延迟目标是分片级99%分位数延迟的分片平均值（一些位于请求树深处的服务，如缓存，使用更尾部的数字）。不幸的是，取分片尾部延迟的平均值违背了监控尾部延迟的目的。如果我们思考为什么我们想要使用尾部延迟，因为当我们有高扇出和深度请求树时，很小一部分服务器响应变慢就可能拖慢许多或大多数顶级请求，而取尾部延迟的平均值未能捕捉到使用尾部延迟的价值——因为它未能捕捉到“一小部分服务器响应变慢就可能拖慢许多或大多数请求”这一特性，同时也错过了查看集群范围平均值的优点（后者可以从分片平均值中重建）。

例如，当我们有几个坏节点返回慢响应时，这对分片平均尾部延迟的影响很小，尽管集群范围的尾部延迟会大幅升高。正如我们在[一份量化整个集群中机器级问题范围以及对数据完整性和性能影响]的文档中看到的那样²，我们经常遇到主机级问题，这可能使节点上的尾部延迟上升一个或多个数量级，有时甚至能使节点上的中位数延迟超过其他节点上的尾部延迟。由于少数甚至一个这样的节点就可能决定一个集群的尾部延迟，因此对所有节点取平均值可能会产生误导，例如，如果我们有一个100节点的集群，其中一个节点上的尾部延迟上升了10倍，这可能导致我们集群范围延迟的平均值增加0.99 + 0.01 * 10 = 1.09倍，而实际的尾部延迟增加幅度要大得多。

一些服务所有者试图通过取99%分位数的分位数（通常是90%分位数或99%分位数）来获得对集群范围尾部延迟的更好近似，但这也不起作用，而且通常，没有任何分片级分位数或其他分片尾部延迟的聚合可以重建集群级别的尾部延迟。

下面是人们在仪表盘上尝试使用实例级指标数据获取集群范围延迟的各种方法与某个服务上实际（采样的）集群范围延迟的对比图（对于较小的服务，分位数的分位数尝试会更不准确）。我们可以看到相关性非常弱，并且存在我们预期的问题：尾部延迟的平均值受异常分片的影响不如它“应该的”那么大，而各种常用的分位数要么受影响不足，要么受影响过度，平均而言与实际延迟的相关性也很弱。由于我们以分钟级粒度跟踪指标，下面图表中的每个点代表一分钟，其中采样的集群范围p999延迟在横轴上，仪表盘聚合指标值在纵轴上。由于我们从跟踪管道中获得的单个延迟测量值有1毫秒的粒度，这些点已水平抖动了+/- 0.3毫米，以便更好地展示分布情况（纵向没有施加此类抖动，因为我们的指标管道没有这种限制，因此数据精度更高）。

集群范围延迟与分片延迟聚合之间的相关性非常弱，以至于即使你选择了能产生正确平均行为的聚合方式，该值对于几乎所有样本（分钟）仍然相当错误。鉴于我们的基础设施，这里真正可行的唯一解决方案是扩展我们的跟踪管道以用于仪表盘和告警，或者在Finagle中添加指标直方图，并将该数据通过所有中间层传递到[仪表盘软件]，以便我们能够获得正确的集群级别聚合³。

虽然取尾部延迟的平均值很流行，因为它简单且人们熟悉它（例如，[隐去名称的同侪公司]的可观测性主管曾表示，他们应该只关注平均值，因为每个人都只想要平均值），但取分片级尾部延迟的平均值或其他聚合方式，既不具备人们想要的属性，也不具备人们预期的属性。

分钟级分辨率

另一个独立的问题，也是我们观察基础设施状况能力上的一个缺口，是我们在收集指标时只有分钟级的粒度。Rezolus可以以秒级（在某些情况下甚至是亚秒级）的粒度收集指标，但出于本次演讲范围之外的原因，它通常只用于系统级指标（少数例外除外）。

我们都遇到过某些突发的、亚分钟级事件成为问题根源的事故。让我们看一个此类事故的例子。在这个事故中，一个服务出现了延迟和错误率升高。查看我们导出的标准指标并无帮助，但查看亚分钟级指标立即揭示了一个线索：

对于这个特定的缓存分片（以及许多其他未显示的），在time 0处延迟大幅增加，随后30秒内请求率非常低。30秒的延迟是因为service-6的分片被配置为：如果service-6客户端遇到太多失败请求，就会将它们通信的服务器标记为死亡状态30秒。这个决定是分布式的，这就是为什么到受影响的cache-1分片的请求率不为零；在延迟升高期间，service-6的一些分片没有向cache-1的特定分片发送请求，因此没有将cache-1的该分片标记为死亡，并继续发出请求。

请求延迟的亚分钟级视图非常清楚地揭示了导致service-6中延迟和错误率升高的机制。

需要注意的一点是，缺乏亚分钟级可见性并不是这里唯一的问题。大部分升高的延迟发生在对延迟指标不可见的地方，这使得监控cache-1的延迟不足以检测到问题。下面，cache-1单个实例的报告延迟指标是蓝点，而客户端观测到的测量（采样）延迟是黑线⁴。报告的p99延迟是0.37毫秒，但实际的p99延迟约为580毫秒，差异超过三个数量级。

总结

尽管我们现有的延迟报告和告警设置运行得相当不错（网站通常能正常工作，并且与同等规模的同侪公司相比，我们的可靠性实际上相当好），但我们确实因为这种设置付出了一些显著代价。

一个代价是，我们经常遇到一些事故，不使用大多数人不使用的专业工具就很难看清发生了什么，这增加了值班的辛劳。另一个代价是，由于我们对集群范围延迟的估算存在较大的误差范围，我们必须预留大量的余地，并保持比实际希望达到的延迟严格得多的延迟SLO（服务级别目标），以避免用户可感知的事故。这增加了运营成本，正如我们在[一份比较每用户运营成本与提供类似类型和级别流量的公司的文档]中所看到的。

如果你喜欢这篇文章，你可能还想阅读关于单主机跟踪与采样分析器对比的内容。

附录：开环与闭环延迟测量

我们的一些合成基准测试设置，如setup-1，使用“闭环”测量，它们实际上发送一个请求，等待它返回，然后再发送另一个请求。其中一些允许一定程度的并行，即可以同时有N个请求在传输中，但这在真实性方面仍然存在类似的问题。

为了说明这个问题，我们假设有一个服务，在生产环境中每秒恰好收到1个请求，并且该服务的正常响应时间是1/2秒。在正常情况下，如果我们以每秒1次的频率发出请求，我们将观察到平均值、中位数和所有百分位数的请求时间都是1/2秒。作为读者的练习，请计算在基准测试运行的1分钟内，中间有一个请求耗时10秒的情况下，闭环与开环基准测试设置的平均值和90%分位数延迟（在开环情况下，基准测试设置以每秒1次的频率发出请求；在闭环情况下，以每秒1次的频率但等待上一个请求完成）。

附录：未加权平均值的使用

我研究过的一个仪表盘平均值常见问题，与我们取尾部延迟平均值时出现的问题无关，那就是未加权平均值通常会低估实际延迟。

我经常看到未加权平均值的两个地方是：有人通过跨数据中心取未加权平均值来获得整体延迟，以及有人通过跨分片取平均值来获得集群范围延迟。这两者都有同样的问题：负载较低的分片往往延迟也较低。当我们从某个数据中心故障转移时，这种情况尤其明显。错误地使用跨数据中心未加权平均值的服务，通常会显示延迟降低，尽管实际服务请求的延迟反而增加了。

感谢Ben Kuhn的评论/修正/讨论。

这是另一个有点过时的项目，因为这份文档促使了Flavio Brasil和Vladimir Kostyukov在Finagle上进行工作以减少此问题的影响，后来，我当时实习生Xi Yang的工作，对内核调度器进行了补丁，通过防止cgroup超过其CPU分配（与标准机制相反，后者允许cgroup超过其分配然后有效地让cgroup休眠直到其摊销的CPU分配不再过高，这对尾部延迟非常不利），基本上消除了该问题。 ^[返回]
这也是另一个过时的项目，因为内核、HWENG和新成立的集群健康团队已付出巨大努力来降低不健康机器的比例。 ^[返回]
这在今天也已显著过时。Finagle现在确实支持导出分片级直方图数据，并且可以通过单次查询访问导出的指标端点来查询这些数据。 ^[返回]
正如我们之前指出的，不透明延迟可能来自服务器或客户端，但在此案例中，我们有强有力的证据表明延迟来自cache-1服务器，而不是service-6客户端，因为来自service-6客户端的不透明延迟应该在所有来自service-6的请求上可见，但我们仅在到cache-1的请求上观察到升高的不透明延迟，而不是到它“交谈”的其他服务器。 ^[返回]

由 mimo-v2.5 模型翻译，花费 11332 tokens

本博客中的主要错误（及其纠正）

Mon, 22 Nov 2021 00:00:00 +0000

[AI 摘要] 该文是作者对其博客中存在的主要错误进行的整理和分类，并附带了相应的纠正与反思。

这是我认为本博客中相当严重的一系列错误列表。虽然我认为的“严重”当然是主观的，但我认为没有任何合理的方式可以完全避免主观性，例如，我会犯大量的拼写错误，多到许多文章的致谢部分主要是感谢通过邮件或私信向我指出拼写错误的人。

一个包含所有错误（包括拼写错误）的列表不仅对其他读者来说阅读价值不高，对我而言制作门槛也很高，这就是我划定一条界限的原因。一个我认为不算严重的错误例子是，在这篇关于我如何学习编程的文章中，我最初弄错了高中时那些竞赛程序员开始赚钱的时间（比我以为的晚了几年）。在那种情况下，以及许多其他情况下，我认为日期的错误并不会改变文章的重要内容。

虽然这篇博文的原始版本发表于2021年，但我预计这个列表会随着时间的推移而增长。我希望自己能变得更细心，未来的增长速度会比过去慢，但这仍有待观察。我认为列表中有很大一部分来自我2013年博客的前三个月，这是一个好迹象，但这绝不是自满的理由！

我在下面添加了一个我如何对这些错误进行分类的说明，但这种分类也是任意的，各个类别甚至并非互斥。如果我收集到的错误多到难以全部记在脑子里，我可能会创建一个标签系统来对它们进行分类，但我不希望积累如此多的重大错误，以至于需要一个标签系统方便读者浏览。

思考不充分
- 2013年：使用随机算法来降低好文章在Hacker News上“运气不佳”的概率：这个想法曾被尝试过，效果不如让人工介入，由人来决定哪些文章应该从遗忘中被拯救出来。
  - 由于这是一个提议而非断言，技术上讲这并非错误，因为我没有声称它一定会奏效，但我觉得我当时也应该考虑将人工纳入决策的解决方案。我没有那么做，是因为Digg曾因人工干预其首页而受到强烈反对，但回顾来看，我们可以看到以一种不会产生足以摧毁该网站的反对声浪的方式进行人工干预是可能的，并且我认为经过足够思考是可以预见到这一点的
天真/幼稚
- 2013年：创造卓越的机构知识和文化可能需要很长时间来建立：当时我还没有在软件行业工作过，认为这对软件来说没那么困难，因为许多成功的软件公司都是用新的/年轻的团队建立的。但回顾来看，区别并不在于那些公司不生产糟糕（不可靠、多、运行缓慢等）的软件，而在于产品市场契合度和网络效应非常重要，以至于软件糟糕通常也无所谓
- 2015年：在这篇关于人们不阅读参考文献的文章中，我对于类型系统的倡导者会引用不存在的强力证据感到困惑，这似乎与其他例子不同，在那些例子中，人们传播一个巧妙、反直觉的结论却从未读过它。我认为奇怪之处在于，与其他例子不同，这里没有被传播的不正确证据片段；“有证据”这一断言与任何证据（哪怕是被误解的证据）都毫无关联。回想起来，我天真地以为存在一个证据链接，而人们不会直接编造“存在支持他们信念的证据”这个想法然后传播开去。
对信息核实不足
- 2016年：构建搜索引擎并非易事：虽然我认为总体观点是正确的，但我所依赖的证据之一来自一位搜索引擎从业者告诉我的数据。但当我测量实际数据时，发现我被告知的数据偏差了好几个数量级。
- 2022年：未来主义者的预测，由@ESRogs向我指出：我误读了nostalgebraist对一份报告的总结，并不理解他所指的敏感性分析。我清楚地记得当时不确定nostalgebraist在说什么，并且最初同意了正确的解读。重新阅读后，我得出的却是错误的理解，并将其写进了我的文章。我对该解读的不确定性本应促使我直接复述他的分析，那会立刻澄清他的意思，但我没有那么做。这个错误并没有从根本上改变我自己的分析，因为我提出的更广泛的观点并不依赖于确切的数字，但允许自己在具有如此不确定性的状态下发布内容而不注明，我认为这是一个非常坏的习惯（考虑到文章本身的内容，这是一个颇具讽刺意味的错误）。导致这个错误，也导致我没有通过检查计算来发现这个错误的一个因素是，引入此错误的编辑是在我想立即发表而非推迟相当一段时间时，在一个很短的时间窗口内进行的最后时刻修改。当然，这本应导致我推迟发表，因此这是一个坏决定导致了另一个坏决定。
低级错误/失误
- 2015年：回顾Butler Lampson在16年后对计算机科学中哪些东西行得通的评述：在2015年说能力（capabilities）是“不行”的是错误的，考虑到它们在移动端的有效性，这在当时看来如此明显错误，我将其称为一个低级错误，而不是那种我经过相当思考但本应思考得更深入的情况。
- 2024年：规模不经济：我在做算术时搞混了哪个数字除以哪个，导致百分比出现多个数量级的错误。Sophia Wisdom在文章发布几小时后注意到了这个问题，我立即修复了，但这是一个相当愚蠢的错误。
晦涩难懂的解释
- 2013年：数据对齐如何影响内存延迟：这篇文章的主要图表使用了延迟比率，这增加了一层间接性，让很多人感到困惑。
- 2017年：达到95百分位的性能是很容易的：人们对这篇文章最常见的反对意见类似于“错误。你必须非常有天赋，并且/或者要达到[进入NBA / 成为国际象棋特级大师 / 获得2200的国际象棋等级分]是很难的”。James Clear在推特上提出了一个更弱的主张，也得到了类似的回应。在推特上确实没有空间详细说明，但在我这篇博文中，我应该包括更多具体的例子，说明不同性能水平对于那些难以估计不同百分位性能的人来说是什么样子的。举一个不那么离谱的说法为例，这里有一个说法，即2200的等级分是玩过在线国际象棋的人的95百分位水平，这个说法似乎偏差了大约四个数量级，上下浮动一个。
回顾之下的错误
- 2015年：博客变现：我通过查看当时Casey Muratori、Eric Raymond和eevee在Patreon上的收入，严重低估了我能在Patreon上赚到多少钱。我认为基于各种原因，他们三个人都会比我赚得多，这是不正确的。一个主要原因是，枯燥、长篇的文字变现效果比我预期的要好得多，这意味着与其他技术人士的做法相比，我在经济上低估了这一点的价值。
  - 几周前，我在文章顶部（而不是只隐藏在底部）添加了一个Patreon链接，并在推特上提到了我有Patreon。从那时起，我的收入增加了大约Eric Raymond的总收入水平，并且这个金额似乎在以不错的速度增长，这是在substack兴起之前我不会预料到的结果。但任何意识到个人写作者的文字变现能力有多好的人本可以创建substack，但直到Chris Best、Hamish McKenzie和Jairaj Sethi创建了substack才有人这么做，所以我认为这个错误在某种程度上是不易察觉的。另外，目前尚不清楚这种变现是否会扩大规模还是达到平台期；如果达到平台期，那么我的猜测只会偏离一个小的常数因子。

感谢Anja Boskovic和Ville Sundberg的评论/纠正/讨论。

由 mimo-v2.5 模型翻译，花费 4909 tokens

个体至关重要

Mon, 15 Nov 2021 00:00:00 +0000

[AI 摘要] 文章论述了在工作规划和团队管理中将人员视为可互换的模型往往失效，因为个体差异对生产力和结果有重大影响。

我在观察数据时发现，人们最常犯的错误之一是错误地使用过于简化的模型。其中一种特定变体已经使我看过的大多数工作路线图脱轨，那就是将人视为可互换的，仿佛谁做什么并不重要，仿佛个体无关紧要。

个体至关重要。

在路线图制定和评审过程中，我反复看到的一种模式是：人们会规划接下来几个季度的工作，然后为每个项目分配一定数量的人员——比如一个人负责一个季度，两个人负责三个季度等。名义上，这个过程能让团队理解其他团队的计划并做出相应安排。然而，我从未在任何一个组织中见到这种方法真正奏效，也从未见到它能让团队在依赖其他团队时有效执行。

我看到的情况是，当项目启动后，人们会询问谁在负责该项目，然后根据负责人是谁来猜测项目是否能按时完成、是否高效，甚至能否完成。“哦，乔在负责功能X？他从没交付过靠谱的东西。看来我们不能指望它，因为这根本行不通。我们做Y而不是Z，因为Z需要X才能正常工作。”路线图制定和评审过程表面上维持着人员可互换的客气假象，但所有人都知道这不是真的。高效且希望按时交付的团队在实际执行时无法配合，即使他们在与制定路线图的经理、总监和副总裁们表面上保持一致。

另一个因人员不可替代性而引发可预见问题的地方是团队管理方式。希望打造高效团队的管理者¹最终不得不与现有体制抗争。非工程部门大多将人员视为可互换的，而在我工作过的多家公司中，财务部门会要求工程部门以“人头”为单位做预算，从而迫使其将人员视为可互换的。公司当然花钱而不是买“人头”，但内部记账却用“人头”计算，因此某团队的X美元预算会被转化为类似“三个资深级别的人头”这样的指标。而“两个更高效、薪水更高的资深级别人头”²则无法体现为这种预算分配。如果你雇佣两名资深工程师而非三名，那么那个“人头”以及相关的预算最终会被转移到别处。

我反复看到的一个情况是：招聘经理想要雇佣一个他认为高效的人，或仅仅是一个拥有专业技能的人，但最终无法实现，因为公司已将预算转化为特定费率的“人头”，而不允许雇佣某些类型的“人头”。人力资源部门的“薪酬团队”或其他团体会提出异议，因为他们没有“高效工程师”或“难以招聘的专业技能”这样的概念；对于一个人来说，角色、级别和地点决定了他们的身份，而为某角色和级别支付过高薪水因此被视为一次糟糕的招聘。如果有任何理性人士掌握流程控制权并愿意使用它，这种情况就不会发生，但根据设计，官僚体制的建立使得很少有人拥有权力 3。

类似的情况也发生在人才保留方面。我认识的一位优秀工程师每年为公司创造约数千万美元的额外利润，当此人想回到葡萄牙的家乡时，公司将其现金薪酬削减了四分之三。公司还提出，如果他搬到西班牙而非葡萄牙，则只削减一半现金薪酬。他最终加入了一家不实行地区差异薪资的公司。此事被上报到总监级别，但这并不足以推翻人力资源部门的决定，因此他还是离开了。人力资源部门并不关心此人通过创造价值为公司带来的收益远超过他们为所有国际员工进行地区调整所节省的成本，因为该公司的人力资源部门没有“员工价值”的概念，只有成本、职位、级别和地点⁵。

相关的一个“手段”是我见过两次的例子（一次是远观，一次是亲身经历）：人力资源部门决定人员流失率太低了。一种情况下，人力资源主管认为公司约5%的流失率“不健康”，因为太低了；另一种情况下，人力资源部门认为公司略低于10%的流失率也太低。在这两种情况下，公司都采取了一些措施，导致流失率上升到人力资源部门认为的“健康”水平。在我远观的案例中，我在该公司的熟人认同，接下来一年里公司大多数最优秀的工程师离职了，其中许多人仅工作了几个月。在我亲身经历的案例中，我列出了我所知的最高效工程师的名单（就像上面提到的那位在陪产假期间就为公司增加了0.7%营收的人），当公司成功将整体流失率推高至10%以上时，最高效的工程师流失率是这个数字的两倍多（这甚至低估了其影响，因为他们往往是任期长且资历深的工程师，正常预期的流失率应远低于公司平均值）。

有些人似乎将公司视为《模拟城市》游戏：如果你想要更多钱，可以转动一个旋钮，提高税收，然后均匀地影响整个城市。但公司不是《模拟城市》游戏。如果你想要更高的流失率并转动一个旋钮，你得到的并非随机均匀增加的流失。作为整体的人不能被抽象地对待，认为公司领导层的行为对每个人都产生相同的影响。如果你转动的旋钮导致流失率上升，那么最高效的人离开的可能性会不成比例地高。

到目前为止，我们讨论了将个体人员视为可互换对公司的危害，当然，这在普遍意义上也行不通。例如，我的一位朋友曾在非洲做过大量“实地”开发工作，他抱怨说许多希望捐赠的人想要清晰、简单的标准来指导他们的捐赠（例如，随机对照试验表明该干预措施非常有效）。但许多有效的干预措施无法以任何简单的方式事前证明其影响，原因有很多，其中之一就是实施干预措施的团队构成很重要，导致随机试验或其他实验无法适用于试验团队以外的其他团队在试验背景下的实施。

一个例子是他们参与的一项干预措施，除了其他事情外，帮助在一个国家根除了几内亚虫。事后来看，我们可以说这是一项非常有效的干预措施，因为这是一个三人团队，在每人每天12美元⁶的预算下运作了相对较短的时间，使其成为一项高投资回报率的干预措施，但事前无法为该干预提供量化依据，似乎也不可能存在一组能够证明该干预合理性的随机试验或实验。

他们的干预并非根除几内亚虫，那只是一个副作用。该干预措施基本上是走遍全国各地，深入各地区政府办公室以了解他们的问题，然后建议/协助改进决策。在与人交谈并提出改进建议时，他们意识到通过更好的清洁水分配可以解决几内亚虫问题（饮用未过滤的水可能导致感染几内亚虫；给人们提供清洁水可以解决这个问题），而专门用于水利相关项目（如建造水井）的援助资金如果重新分配到国内因污染水源而导致几内亚虫高发的地区，而不是流向目前援助资金涌入的地方（这些地方往往因为靠近一个开展大量慈善工作的当地“办公室”等原因获得了大量援助资金），那么这些资金已经足够。这个团队为帮助根除几内亚虫所做的具体工作是向政府官员做PowerPoint演示，说明政府如何建议接受援助资金的组织更有效地安置水井。从边际效益看，仅在一个国家根除几内亚虫可能就足以使该干预成为高投资回报率项目，但这只是这个三人团队“回报”中极小的一部分。我提到它只是因为它是一个独立的、易于量化的改变。在地区政府办公室“提升”决策能力的大部分价值很难量化（即使能量化，误差范围也非常大）。

许多事前看似相同的干预措施，可能大多数，产生的影响微乎其微。我的朋友对许多组织有很多评论，这些组织派出大量人员做听起来类似的工作，但产生的价值很小，比如和平队。

我朋友的团队与大多数团队的一个主要区别在于，我朋友的团队由那些在各种环境下都有高效表现记录的人员组成。在之前的一份工作中，我的朋友在一家规模较大（年营收50亿美元）的政府公用事业公司开始工作，并立即被分配了一个问题，她当时不知道这个问题已经悬而未决多年且被认为无法解决。没人愿意碰这个问题，所以他们雇佣了她，想让她当替罪羊，在问题爆发时承担责任。相反，她解决了被分配的问题，还解决了许多其他被认为无法解决的问题。由三名这样的人组成的团队能够从许多潜在的高投资回报率干预中获益，而大多数团队不会成功，例如前往一个陌生国家，改善全国各地区政府办公室的决策能力，使政府能够解决困扰该国数十年的严重悬而未决的问题。

许多最高投资回报率的干预措施同样需要专业技能，不适用于简单的粗略计算，但我看到的大多数关于该主题的讨论，无论是在现实中还是在线上，都严重依赖简单但无关紧要的粗略计算。这不仅限于鸡尾酒会式的交谈。我朋友的干预措施差点被她所在的组织扼杀，因为该组织充斥着她所认为的“过于简化的有效利他主义思维”，导致组织领导层试图将资源重新导向那些预期回报计算更简单的项目，因为那些项目被认为影响力更大，而事后证明其影响力反而更小。当然，我们不应根据事后表现来判断干预措施，因为这会过分有利于高方差的干预措施，但我认为，一个愿意运用判断力而不是将其外包给简单指标的人，应该且能够说相关的干预措施在事前就是好的选择。

这种更容易理解的项目获得更多资金的问题，既存在于组织之间，也存在于组织内部。例如，我的朋友说，当GiveWell主要或只推荐那些具有简单可量化回报的慈善机构时，她基本上无法让在其他领域工作的朋友将资源投入到未被GiveWell认可的努力中。那些不了解她援助背景的人，在她建议将资源投向任何特定事业、项目或组织时，会说类似“你没听说过GiveWell吗？”这样的话。

我当时与一位在GiveWell工作过的朋友讨论了这个问题，据他说，GiveWell最初专注于慈善机构是因为它们的价值容易量化，而不是因为他们认为这些是最高影响力的慈善机构。相反，作为一个年轻的组织，他们需要建立可信度，而为价值容易量化的慈善机构建立可信的案例更容易。他本人不会，他认为GiveWell也不会，支持捐赠者将所有资源都投入给GiveWell认可的慈善机构而忽视其他改善世界的方式。但许多人希望世界简单，并应用“在GiveWell名单上的慈善机构=好；不在名单上的=坏”的算法，因为这使他们的世界变得简单。

对这些人以及整个世界来说，不幸的是，世界并不简单。

回到科技公司的例子，劳伦斯·特拉特指出了一些我也观察到的情况：

在大型组织中，我发现一件非常有趣的事情：当他们意识到需要做些不同的事情（即他们正在慢慢失败，想要扭转局面）时。显而易见的做法是让一个小团队基于他们可能大获全胜的可能性来承担风险。相反，他们往往成立无休止的委员会，这些委员会只是延续了导致其成立的漂移状态！我认为这是因为他们真的很难将人视为非同质化的，即使他们真的想：这几乎超出了他们摆脱组织模式的能力，即使这预示着长期失败。

我们可以用来审视正在发生事情的一个视角是可理解性。当你有一个复杂的系统，无论是拥有数千名工程师的公司，还是有数十亿美元投入援助工作的世界，这个系统对任何决策者来说都过于复杂，无论是公司的高管还是试图理解其资金应投向何处的潜在捐赠者。解决这个问题的一种方法是通过假设个体是可互换的来降低问题的感知复杂性，使系统更易于理解。这会产生相对低效的结果，但与试图理解手头问题不同，它具有高度可扩展性。如果说科技公司喜欢什么，那就是做可扩展的事情，将复杂的系统视为《模拟城市》或《文明》是高度可扩展的。当回报相对均匀分布时，为了可理解性而牺牲潜在的异常回报是一种好的权衡。但当投资回报率呈重尾分布时，当合适的人能够在陪产假期间就将一家巨型科技公司的营收增加0.7%，而全职工作时增加更多时，为了提高可理解性而严重压制分布右侧就是代价高昂的，可能会让你损失大部分潜在回报。

感谢劳伦斯·特拉特、帕姆·沃尔夫、本·库恩、彼得·巴特·哈金斯、约翰·赫根罗德、安德烈·米什琴科、约瑟夫·卡普特和索菲亚·威斯多姆的评论/修正/讨论。

附录：重组

我最近从一位朋友那里听到一个关于一家时尚科技公司的故事，他们试图将六个人调到另一个项目上，一个那些人不想做、认为没有意义的项目。结果是两名资深开发者辞职了，工程经理退休了，一名产品经理被解雇了（说来话长），还有三个人离开了团队。旧项目和新项目的团队都必须从头开始重建。

情况可能糟糕得多。在那个案例中，至少有一些人没有离开公司。我曾问过某人，为什么公开承诺的功能X尚未实现，并且整个子产品都坏了。答案是：在大约一年的工作后，当交付该功能被认为只差几周时，领导层决定这个之前被认为是首要任务的功能不再是优先事项，应该放弃。团队争辩说该功能离完成很近，他们只需要足够的时间来完成。当这个请求被拒绝后，整个团队都辞职了，此后该子产品逐渐衰落。多年后，团队有一次重组尝试，但由于超出本文范围的原因，由一名新经理管理应届毕业生进行，未能重建老团队的能力。

正如我们之前看到的，一个高效团队很难组建，因为团队中存在的机构知识以及团队文化，但摧毁一个团队却非常容易。

有趣的是，如此多的高管职位的人坚持认为他们可以像在《文明》游戏中打开城市视图并将工人从一项任务重新分配到另一项任务那样轻易地调动人员，而我交谈过的资深个人贡献者在预测这类调动何时会失败方面具有很高的准确性。

另一方面，也有一些管理者希望最大化其职业生涯回报。在我工作过的每一家非初创公司中，要做到这一点都需要向上晋升，而最简单的方法就是尽可能多地管理人。在我曾工作过的一家公司，明确的晋升标准基本上是“有多少人向这个人汇报”。

如果认为人基本是同质化的，那么将晋升和薪酬与管理人数挂钩可能说得通，否则这显然是个愚蠢的想法。
^[返回]
当考虑到留任预算（来自一个不属于该组织正常预算的池子的资金，通常用于匹配离职者获得的录用机会）等情况时，情况并非完全如此简单，但增加这种细微差别并不改变根本观点。 ^[返回]
一个人们没有权力的系统有其优势，例如减轻权力滥用、各种偏见、裙带关系等。有人可能会认为通过让人们无力来减少结果方差是理想的结果，但在赢家通吃或主导的市场（许多科技市场正是如此）中，迫使每个人都达到最低共同标准的效率，是沦为平庸之辈的良方。

一个具体的小规模例子是，那些没有官僚的公关/公关批准流程来发布技术博客的公司具有巨大优势。大多数公司拥有繁琐流程背后的理论是，公司可以避免因糟糕博客文章带来的下行风险，但糟糕的工程博客文章的例子很少，而且如果有繁琐流程本来是可以缓解的；而那些拥有良好公开写作流程的公司则获得了许多显而易见的价值。

一个更大规模的例子是，那些如今市值超过5000亿美元的大公司，都采取了在它们官僚主义盛行的竞争对手中不可能实现的大胆举措，这使它们得以横扫竞争对手。当然，许多其他下重注而非稳妥行事的公司比那些试图稳妥行事的公司更快地失败了，但这些公司至少有机会，而那些稳妥行事的公司则完全没有机会。
^[返回]
我通常对这类说法持怀疑态度。在我工作过的多家公司，如果你将声称的营收或用户增长收益加起来，并与实际营收或用户增长相比较，你会发现有些蹊跷，因为声称的总收益远大于观察到的总量。

纯粹出于我对测量的好奇，我有时会自己分析人们声称的收益，几乎每次我的估算都远低于原始估计。当然，我通常不会在内部公布这些结果，因为那通常会结下很多仇敌却不会带来任何改变。在一个极端案例中，我发现整个组织使用的一种实验方法有问题，导致他们在A/B测试中获得了虚假的胜利。我悄悄告知了他们，他们无动于衷，这是对他们来说唯一合理的选择，因为拥有系统性显示改进而实际上不存在的实验，是组织通过让其成员获得更多晋升和更多人员编制来获取更多权力的廉价而有效的方式。而且，如果任何掌握官僚体系权力的人关心结果的准确性，这种声称收益与实际结果之间的巨大差异从一开始就不可能存在。

总之，尽管我普遍怀疑声称的收益，但在自己核实后，我认为此人声称的收益高度可信。他们在陪产假期间完成的一个项目（之所以在休假期间做，是因为他们的经理以及实际上整个组织甚至公司都不支持他们所做的那种工作）为公司增加了0.7%的营收，通过长期持有实验组结果稳健且实际价值不断提升，并且在领导层因尴尬而允许他们做有价值的工作后，他们能够产生如此规模的收益。

附言：如果你喜欢在家里玩类似的游戏，在弄清楚哪些团队和组织实现了路线图目标后，你还可以玩另一个有趣的游戏。为了加分，可以绘制团队路线图目标完成率与人员编制增长的关系图，以及团队实现上季度目标对其实现下季度目标的预测能力如何。
^[返回]
我见过不少人在疫情期间因地区薪资调整而离开雇主。在一个案例中，人力资源部门坚持认为此人实际上得到了非常好的补偿，因为尽管此人表面上薪酬似乎不高，收入明显低于许多比他们低一级的许多员工，但根据人力资源部门的公式（包含地区薪资调整），此人在整个公司按标准化薪酬计算是他们级别中薪酬最高的人之一。抛开关于公平性的抽象考虑，对于员工来说，人力资源部门告诉他们，考虑到他们的地区，他们薪酬很高，就像人力资源部门有一个基于身高的公式，然后告诉员工他们的身高对应的薪酬很高一样。根据人力资源部门的任何公式，这可能都是真的，但实际上这对员工毫无意义，他们可以去一家身高薪资调整幅度较小的公司工作。

疫情前，公司能够进行大幅度的地区薪资调整而不产生任何成本。但疫情后，许多公司加大了远程招聘力度，其中一些公司的地区薪资调整幅度相对较小，这使得它们能够从那些仍然保持大幅度地区薪资调整的公司中不成比例地挖走它们想要的人。
^[返回]
严格来说，他们的最终预算比这个数字高，因为一名团队成员感染了伤寒并从个人预算而非组织预算中支付了部分医疗费用，但12美元/(人·天)的组织资金是一个很好的近似值。 ^[返回]

由 mimo-v2.5 模型翻译，花费 10856 tokens

文化很重要

Mon, 8 Nov 2021 00:00:00 +0000

[AI 摘要] 文章通过科技行业案例论证文化对员工行为和产出的影响，远超激励机制和流程，强调择业时应审慎选择文化环境。

公司影响员工行为的三大工具是激励机制、流程和文化。人们谈论这些概念时往往指代不同含义，因此我将分别举例说明，以确保理解一致（若你认为某个概念应使用其他词汇，可自行在心中替换）。

让员工准时参加会议
- 激励机制：迟到者扣工资
- 流程：迟到者不得进入会场
- 文化：员工高度重视准时到场
推动员工构建复杂系统
- 激励机制：将系统复杂度作为晋升考核标准
- 流程：制定繁琐的工作项创建/执行流程，迫使员工放弃简单工作
- 文化：员工乐于构建复杂系统，且/或因此获得同行尊重与地位提升
避免生产缺陷
- 激励机制：按合格品计酬，次品扣工资
- 流程：出货前设置质检环节，剔除次品
- 文化：员工崇尚卓越品质，竭力避免缺陷

若阅读"老派"思想领袖的著作，许多人倡导纯文化方案。例如肯·汤普森主张降低缺陷率的关键不在工具（本文将流程称为工具），而在于员工有意识地主动避免编写缺陷；或如鲍勃·马丁所言"解决软件危机的方法不是更多工具，而是更严谨的编程纪律"。

这类夸张言论引发的情感反应，与其易于反驳的特点，共同导致了对文化解决方案的反弹。人们开始声称"绝不应强调纪律，而应审视底层系统的激励机制"——正如十倍效率程序员现象及其相关评论引发反弹，导致人们宣称开发速度完全无关紧要，或程序员间效率毫无差异（正如杰米·布兰登所指出，开发速度很大程度上取决于对此的重视与投入，这同样是文化反弹的表现）。

但若观察量化产出，即便流程和激励机制是公司首选的一线工具，文化仍会产生重大影响。以制造缺陷率为例：某些国家长期保持低于他国的缺陷率（时间跨度达数十年）¹，且这种优势通常普遍存在于企业间——即使公司在多国运营工厂，并尽可能导入相同流程与激励机制，文化差异仍会深刻影响工作方式。

回到编程领域，杰米在"提升速度"的笔记中写道：

最关键的改变源于真正渴望提升速度。

早期我确实更关注编写"优雅"代码或使用流行工具，而非解决实际问题。这或许并非明确信念，但行动已清晰反映优先级。

我可能未曾意识到速度提升的巨大空间。职业生涯初期，我与同样缓慢且缺乏经验的同事共事。

逐渐地，我注意到有些人能产出我终生难以企及的项目。我渴望探寻实现之道，这意味着必须放弃既有观念，探索真正有效的方法。

我很幸运在职业生涯初期拥有相反体验：我的第一份全职工作在Centaur公司（当时该公司拥有极高的开发速度/生产力）。我曾在其他团队体验过类似效率，即我目前的团队——但这在科技公司中相当特殊（例如我们团队的中位数职级是"高级专家"）²。在高效公司开启职业生涯的副作用是：我通常认为大公司开发节奏缓慢，且不接受"行业常态"作为缓慢的理由。我与大公司同行交流时经常听到类似评论，这些人曾在功能正常但速度并非顶尖的初创公司工作过。某家顶级科技公司的定期调研会问："你感觉当前开发速度比上一份工作更快还是更慢？"回答呈现双峰分布——取决于受访者来自小公司还是大公司（该公司开发速度慢于初创企业，快于大企业）。

有个故事（据我回忆由布莱恩·恩诺斯讲述）：他进行限时训练时，原本目标是在习惯时间内完成特定任务。但他迟迟无法达到习惯时间，因比平时缓慢而感到沮丧，于是持续练习直至达成目标——此时才发现自己误记了目标，实际在挑战自以为不可能的新纪录。虽然"心想事成"过于简化，但我们几乎无人发挥出接近自身极限的能力，而自我设限往往是主要瓶颈。诚然，开发速度与质量存在权衡，速度无法"免费获得"。但就编程而言，我们远未达到帕累托前沿，只要意识到优化空间存在，就能实现零成本提升。

文化对此的影响方式之一：人们往往从所处环境中吸收对可能性的认知。非速度案例：我注意到参与RC（Recurse Center）后，许多在Deconstruct和Strange Loop等知名非学术/非企业技术会议演讲者都曾就读RC。多数人在参加RC前未做过演讲，当我询问时，许多人表示渴望演讲却不知成为"大型"会议演讲者的过程如此简单（形成想法→记录想法→将记录提交为提案）。实际上在会议演讲很简单，主要障碍在于认知可行性。在RC这样的环境中（大量人演讲，犹豫者会被告知流程简洁），许多人最终会走上讲台。博客写作同理，因此高阅读量的编程博主中，有超常比例是在RC学习后开始严肃写作的。对许多人而言，开始博客的障碍在于认知可行性，并意识到从技术层面讲，只要选择合理工具链并完成设置，创建博客极其简单。正因人们频繁演讲和写作，他们在这两方面持续进步，因此RC学员平均而言很可能比普通程序员更擅长演讲与写作，尽管RC几乎不进行技能转移或教学。

文化能显著驱动的另一类技能是高度依赖态度的技能，例如调试。正如茱莉亚·埃文斯指出，良好态度是调试效能的关键要素。Centaur在这方面非常擅长培养员工，以至于该公司技术部门几乎所有人都算得上优秀的调试者。

大公司常见现象：员工在数次无效尝试后就放弃调试。某中型科技公司的熟人曾告诉我，调试耗时超过数小时的缺陷毫无意义，因为工程师时间太宝贵——这种态度源于其首个团队的工作环境。形成此类调试态度者，在转变观念前很难成为优秀调试者。许多人（包括这位熟人）会长期保留第一份工作形成的态度和习惯³。

以科技行业标准衡量，Centaur是反向极端案例。设计CPU时，不允许放弃未理解的缺陷。即使缺陷症状不严重，底层原因可能危及重大隐患（芯片出货后才会显现），因此必须追查看似微小的问题。此外，缺陷常无可靠复现步骤，典型描述如"在特定系统运行这些程序，数小时或数日后系统将挂起/数据损坏"。调试此类缺陷会遭遇无数歧途和死胡同，某些可能耗费数周甚至数月。作为新员工观察这类工作，我看到同事们日复一日追踪缺陷，既不沮丧也不放弃。当这种文化氛围环绕，你自然会形成相同态度。许多实用调试技能源于大量问题的实践积累，这自然产生于持续积极调试（尤其接触高难度问题时）。

当然，大公司的多数缺陷不值得投入数月时间，但存在本质区别：某些缺陷确实不值得修复而主动搁置，与因从未调试严重缺陷导致技能低下，进而无法处理非平凡问题。

文化态度能驱动远超个体技能的影响。Centaur人均严重生产缺陷率远低于我任职过的所有公司（约100名工程师，年缺陷率远低于1次）。相比之下，我从未在规模仅其十分之一的团队工作过，其严重生产问题发生率却高出十倍以上。如同多数初创公司，Centaur流程极简，激励机制也比大公司宽松得多。

其构成要素之一是"问题归属文化"：无论身处何团队，发现任何问题都会主动修复；若问题有明确负责人，则会通知对方解决。无需路线图、站会、看板或其他机制推动员工处理关键问题，员工自发行动无需提醒或催促。

这与我在三家大公司中两家的见闻截然相反：中位数员工如同躲避瘟疫般规避团队职责外问题；政治敏感度低的员工向其他团队提出问题，常得到"抱歉，本季度路线图未涵盖，或许下下季度可纳入"的回应——数月后天真者再提同样问题，仍会得到相同答复。在我任职过的所有大公司中，因无人愿接手，价值巨大的严重问题常被遗漏。这种情况在Centaur从未发生。

大公司技术文化的副作用是：愿意做正确之事者，只需解决任何实习生都能处理的问题（若愿无视组织流程和激励机制），就能产生极高（正面）影响。随手都能发现价值超过我终生预期收入的问题，且每年轻松解决多个此类问题。当然，导致大量琐碎问题被忽视的同一股力量，也使解决者得不到应有回报⁴。

相反，在Centaur的八年里，我仅发现一个琐碎问题的修复价值超过我的终生预期收入，因为问题通常在此之前已得到解决。我见过多家大公司尝试用激励机制（如奖励解决重要问题）和流程（如创建约1000个项目的巨型清单，由专人排序，并建立官僚体系：所有人需通过JIRA持续汇报进度，以便项目经理向统筹数千工程师工作的决策者发送进展更新⁵）解决此问题，但效果均不及"主人翁文化"的一半（公平地说，有消息称Facebook运用激励机制效果显著，但我三次未通过其面试，因此未能亲身观察）。

导致相对低严重缺陷率的另一要素是：Centaur全公司普遍重视品质，这种程度在大公司连团队层面都罕见。当一群重视品质且认为"任何问题都该解决"的人协作，品质自然产生。员工入职时，只要文化不被新人潮压垮，他们也会逐渐吸收相同习惯和价值观，尤其应届毕业生。尽管不普遍，但确实存在众多保持卓越文化的小型公司，无需重型流程或高额激励即可维系——这在大公司行不通，因为它们都经历过快速增长期，无法维持这种（以主流标准衡量）极端的文化价值观。

迄今为止，我们主要讨论公司如何向员工传递文化，但我认为同等重要的是员工离职后如何传承这种文化。我从硬件转向软件领域后相当成功，我认为在可控因素中，最关键的是从首个全职工作中习得高效文化价值观，并持续以相同方式实践。我见过其他在职业上"成长"于卓越文化的人，在转向技能转移度更低的领域后（如从滑雪转向土木工程）仍保持高效。类似地，阅读高效领域从业者的著作（如布莱恩·恩诺斯的《实用射击》、丹·瑟林的《制胜之道》等），书中往往包含相同核心理念（严肃观察与技能提升、避免情绪自我破坏的重要性、直觉的重要性等）。

总之，我认为文化和技能的代际传承是择业时被低估的因素（我认为被高估的因素包括声望和总体声誉）。人们应审慎选择所处文化环境，因为很少有人能完全避免吸收周边文化价值⁶。

尽管本文聚焦技术领域，但此现象并非技术行业独有。典型例证是理想主义学生进入法学院时意图从事"拯救世界"类型工作，随后吸收周围学生声望传递的文化价值观，转而追求最光鲜职位——若非法官助理，通常是"顶级律所"工作，与"拯救世界"背道而驰。理论上每个人都认为"这不会发生在我身上"，但观察许多人加入最初极不认同其价值观与文化的组织后，几乎无人能保持原状而不吸收周边价值观；极少有人能坦然面对他人因自身价值观而投来的异样目光。

附录：湾区文化

我欣赏湾区的一点是其改变世界氛围的感染力。在我生活过的地方，人们都会抱怨问题（抵押贷款行业糟糕，卖房流程繁琐等）。在湾区外，抱怨仅止于抱怨；但在湾区，与一年前抱怨某事的人交谈，很可能发现他们已创业尝试解决所抱怨的问题。我不认为湾区居民与他处之人有本质差异，更关键的是当你周围都是愿意辞职颠覆传统行业的人时，效仿似乎相当合理（这还产生网络效应，从"技术"层面（如融资）降低难度）。这类抱怨和修复尝试蕴含的真诚易遭嘲讽，但我由衷敬佩这份真诚。

当然，湾区文化并非全然积极。除其他特点外，湾区有著名的"放鸽子"文化，程度令我初至时震惊。抵达不久后，我约老友晚餐并短信告知将迟到约15分钟。出现时他们大为惊讶，因他们认为"告知迟到"实际意味着"不会到场"（更令我惊讶的另一个极端规范是：对许多人而言，活动开始前未确认计划即视为取消，即计划默认取消）。

我听闻有人抱怨的另一相关规范是：管理层和领导者为避免冲突，在"讨好型"决策中对所有事都答"是"。这实际增加冲突，因为那些将"是"理解为"同意"而非"我说是为避免说不但实际并非如此"的人，事后发现"是"实为"否"时会大失所望。

附录：Centaur的招聘流程

当我谈及Centaur时，人们常有的评论是：该公司必然拥有极其严格的招聘流程才能招募精英工程师。但其招聘选择性远低于我工作过的任何"知名品牌"大公司（谷歌、微软和推特），且未必比我任职过的老派传统公司（IBM和美光）更严格。"独门秘诀"在于入职培训而非招聘。

应届生招聘方面（我们按比例招聘大量应届生），招聘难度高于我任职过的任何公司。资深岗位招聘并不困难（Centaur在奥斯汀本地声誉良好），但应届生中无人听闻我们且无人愿加入。我在招聘会招人时，需站在展位前拦截过路者才能获得交流机会。这意味着我们无法挑剔面试者。在杰夫·阿特伍德通过其极具影响力的文章《程序员为何不会编程？》普及"存在大量伪造程序员"观念（认为不通过基础编码题筛选就会招到不会编程的程序员）前后，我们开始大规模招聘应届生（下文加粗部分为其原文）：

任何所谓程序员在申请工作时无法编写最简单程序，这令我震惊。这是对以编程为业者的公然侮辱。 ... 如此严苛的预筛选竟只为获得面试真正能编程的程序员的奢侈，可悲又可叹

由于我们是偏重编码的硬件团队（验证工程师主要编写软件，设计工程师编写大量工具），我们尝试让应聘者根据斐波那契数列描述编写函数（允许朴素解法，不要求线性时间或更快算法）。但因无人能独立完成，需全程逐步引导，此问题对我们毫无区分度，故而废除。

尽管未真正考察编码能力，员工仍能编写复杂并发代码（内部处理器微码，常使用屏障作为并发控制机制），并以更快速度和更低缺陷率创建工具——速度与质量皆优于我任何其他工作经历。

放弃常规招聘方式对我们更有利，因为我们得以尝试雇佣其他公司不争抢的人才。若其他公司采用高效方法（如考察FizzBuzz编码和白板算法），这将毫无意义。虽然可能预期算法面试能筛选出能解决面试特定问题的人，但事实并非如此。我们还大幅降低声望门槛，从而招募其他公司甚至不会考虑的优秀工程师。

确实有少数人不适应，但从未出现"无法编写最简单程序的所谓程序员"。我确知两起雇佣无法编程的"伪造程序员"案例，均发生在拥有科技公司最严格编程面试的知名企业。一例中，此人能力不足的情况很快暴露，团队回查面试监控录像才发现代面试者并非入职者。另一例中，此人瞒过谷歌数年才被发现从未实际编写代码，任务完成均依赖他人。最终发现问题者安排结对编程环节，发现此人无法编写循环语句，甚至分不清=和==的差异——尽管他在谷歌"高级软件工程师"（L5/T5）职级任职多年。

我不否认编程题可能避免雇佣伪造程序员，但伪造程序员出现率极低，小公司十年不编程题也可避免；而大型诈骗目标公司即便编程题筛选仍难幸免。

附录：文化移植

尽管本文探讨公司文化对员工的影响，员工自然也会影响公司文化。招聘中（尤其高级领导者和高级独立贡献者）易被低估的是他们将带来的文化冲击。我多次近距离和远距离观察到：新聘高级人员成功移植与现有企业文化不兼容的自身文化，导致严重问题及高离职率——这通常发生在整合期后。

因资历渐深，我参与过多次高级职位招聘讨论，从未见他人提出候选人是否移植不兼容文化价值观的问题——除非明显问题（如候选人性情暴躁或发表种族/性别歧视言论）。

感谢彼得·巴特·哈金斯、劳伦斯·特拉特、朱利安·斯夸尔斯、安雅·博斯科维奇、陶·L、贾斯汀·布兰克、本·库恩、V·巴肯汉姆、马克·帕帕达基斯和杰米·布兰登的评论/修正/讨论。

哪些国家实际拥有低缺陷率制造业，通常与公众认知大相径庭。需查阅数据方能知晓，而这些数据常受保密协议限制，仅通过"酒吧闲谈"传播。 ^[返回]
Centaur拥有我有时称之为"全球最愚蠢商业模式"的定位：自1995年起与英特尔竞争x86芯片，因此需要极高生产力才能生存。在艰难岁月中，AMD通过出售业务部门资助x86研发得以存活，其他竞争对手（Rise、Cyrix、TI、IBM、UMC、NEC和Transmeta）全军覆没。若将Centaur与存续最久的倒闭竞争对手Transmeta相比，Centaur出货速度更快——这是Centaur能存续至2021年（被英特尔伪收购）而Transmeta于2009年烧完约10亿美元融资（含诉讼赔偿）后倒闭的主要原因。Transmeta创立于1995年，2000年推出首款芯片（当时属新建CPU/微架构的常规周期）；Centaur于1997年出货首款芯片，并保持高速出货节奏至2010年左右（从高速放缓至停滞被收购的过程是另一话题）。 ^[返回]
此人最初认为首任团队的流程和价值观荒谬，后因认知失调而成为企业文化的坚定拥护者——这在加入明显存在不良实践的公司时很常见。 ^[返回]
此例说明了激励机制与文化的非独立性。在某些此类工作未获奖励的环境中，我观察到：因文化因素，产生此类高影响力变动常需熬夜苦干，最终无任何奖励，导致倾向于主动担责并从事高影响力工作的员工流失率更高。在这种环境中，系统性地保留了不愿担责的人，使得新入职试图解决严重问题的新人更艰难且更易倦怠。 ^[返回]
我补充此注释是因为向人描述时，许多人认为这定是讽刺。但并非讽刺。 ^[返回]
与许多其他特质一样，公司内部与公司之间都可能存在巨大差异。例如我曾在某公司遇到一个团队，其客户服务理念与公司其他部门截然不同。新加入该团队且未迅速离开者，通常会吸收其价值观。

公司多数部门对内部客户态度友善，但该团队秉持"客户永远是错的"态度。有趣的是：当我与该团队协作时，若由未吸收该团队文化的新晋工程师值班，我获得最佳支持；有时资深工程师断言某问题不可能或不可行，后续却由新晋工程师轻松解决。
^[返回]

由 mimo-v2.5 模型翻译，花费 13329 tokens

甘愿显得愚蠢

Thu, 21 Oct 2021 00:00:00 +0000

人们经常¹认为我非常愚蠢。我对此并不感到惊讶，因为我不介意别人认为我愚蠢，这意味着我不会调整自己的行为来避免显得愚蠢，结果就是人们认为我很愚蠢。虽然别人认为我愚蠢有一些坏处，比如面试失败（面试官显然认为我很蠢），但我认为总体而言，甘愿显得愚蠢的好处远远大于坏处。

我不知为何这个例子一直留在我的脑海里，但对我来说，别人认为我愚蠢最令人难忘的例子来自大学时期。我有过很多次更多人认为我愚蠢、也有人认为我的愚蠢程度更深的情况，但这个例子对我真的很难忘。

大学时，有一群人，不管什么原因，在我看来是真正不理解课程内容的人。他们说话时表达的内容毫无意义，在课堂上挣扎，勉强及格。我不记得有过直接互动，但有一天，一个同样认识他们的朋友对我说："你知道[那群人]认为你真的很笨吗？"我觉得很有趣，就问为什么。原来原因是我问的问题听起来非常愚蠢。

特别是，经常有这样的情况：存在一个看似明显但实际上是错误的理由来解释某事为何成立，一个稍微不那么明显的理由解释某事看似不成立，然后是一个微妙而复杂的理由解释某事实际上为何成立²。我经常会发现那个看似明显的理由是错的，然后提出一个问题试图理解那个更微妙的理由，这对那些认为明显理由正确、或者认为推翻了那个明显但错误的理由就意味着此事不成立的人来说，听起来很愚蠢。

在大多数特定情况下，问一个听起来愚蠢的问题所带来的好处很小，但随着时间的推移，复利效应带来的好处非常大，而且我观察到，那些愿意问愚蠢问题、思考"愚蠢想法"的人最终对事物的理解会深刻得多。相反，当我观察那些对某个主题有非常深刻理解的人时，他们中的许多人经常问一些天真得听起来的问题，并继续运用那些让他们获得深刻理解的技巧之一。

我想我最初通过高中时玩竞技电子游戏，确信了我认为是这一潜在现象表征的事情。那时在线玩电子游戏的人很少，你基本上能认出所有玩同一款游戏的人，并能看到每个人进步了多少。就像我几年前尝试重玩电子游戏时看到的一样，大多数人在游戏中"死亡"时会责怪外部因素（延迟、运气、故障、队友、不公平等）。最引人注目的是，那样做的人几乎永远无法变得厉害，也永远无法变得伟大。我玩那款游戏玩得相当不错³，我的"独特技巧"是每次出错时都思考哪里出了问题，然后尝试改进。但大多数人似乎对找个借口避免当下显得愚蠢（或者可能感觉愚蠢）更感兴趣，而不是真正去改进，这当然导致他们在游戏中显得愚蠢的时刻更多。

总的来说，我发现甘愿显得愚蠢非常有效。这里还有一些例子：

走进苹果商店，要求（并购买）装在最小盒子里的电脑，我当时有充分的理由想要它

帮助我的店员虽然非常有礼貌，但也明显认为我是个傻瓜，并不断解释诸如"盒子的大小和电脑的大小不一样"之类的事情。我当然知道这一点，但我不想说"我设计CPU。我理解电脑包装盒大小和电脑大小之间的区别，我也知道关心盒子大小非常不寻常，但我真的想要那个装在最小盒子里的"之类的话。仅仅说最后一部分，在没有建立任何权威性的情况下，并不能说服那个人
我最终请他们将就我一下，把不同型号笔记本电脑的盒子都拿出来让我看看，他们照做了，尽管显然认为我的决策过程毫无道理（我也尝试解释为什么我想要最小的盒子，但那也没用）

新冠疫情：我很早就认真对待，并在2020年1月26日购买了半面罩呼吸器，在此之前一周已经在使用手头已有的N95口罩（在我看来，基于现有的SARS接触者追踪、空气过滤器过滤病毒以及病毒载量的文献，认为新冠是空气传播且空气过滤会有帮助的证据非常充分）

直到几个月后，人们才普遍不把我当作傻瓜看待，甚至在2020年8月，我偶尔还是会遇到一些人当面嘲笑我
另一方面，当时和我同住的人不想戴我给她弄的口罩，因为她觉得在无人乘坐BART（旧金山湾区捷运系统）或无人在创客空间时，为了往返创客空间的1小时BART行程而戴口罩太尴尬了。她成为旧金山湾区早期的新冠病例之一，这让她患上了长期新冠，卧床数月

当她感染新冠后，我试图说服她，她应该告诉她常去的创客空间的人她感染了新冠，这样他们就知道自己暴露了，可以采取适当的预防措施以避免意外传播新冠，但她也觉得承认自己可能把新冠传播给别人太尴尬了（回想起来，我应该直接打电话给创客空间告诉他们）

一个半相关的事情是，当加拿大开始接种疫苗时，我想打Moderna（莫德纳疫苗），尽管网上和我的社交圈里的普遍共识是Pfizer（辉瑞疫苗）更受欢迎

其中一个原因是，尚不清楚政府是否会允许混合接种疫苗，而且交付计划表明，第二剂Pfizer将非常短缺，而Moderna则供应充足
另一个闪过我脑海的想法是，Moderna基本上比Pfizer"成分更多"，在某些情况下可能提供更好的免疫力，就像某些人群接种高剂量流感疫苗以获得更好免疫力一样

工作：我通常不担心提案或行动显得愚蠢

我依然记得我第一次明确遇到这种情况。那是在我职业生涯早期，当时我从事芯片验证工作。在流片前不久，验证主管希望用我们的计算资源重新运行一组几乎不可能发现任何错误的测试（这些测试之前已经运行了数千次），而不是运行通常的测试组合（其中包括很多新生成的测试，这些测试发现错误的几率要高得多）。我争辩说我们应该运行那些能降低发布带有致命错误的产品的风险的测试（这会让我们损失数百万美元并延迟发布三个月），但小组负责人说，如果有错误能通过我们上次运行过的那些旧"金标准"测试捕捉到却漏掉了，我们会显得愚蠢和无能

当时我很震惊有人会为了减少可能显得愚蠢的几率（而且，实际上只是在那些不理解运行最佳可用测试组合逻辑的人面前显得愚蠢；因为管理层中没有任何非技术人员，任何称职的人都应该理解这个推理）而故意做错事，但现在我在多个行业的各种公司工作过，我看到大多数人会选择做错事，以避免在不称职的人面前显得可能愚蠢。我理解其中的逻辑，但我认为这样行事是自我破坏，而且我职业生涯中因坚持我认为正确的事情而获得的收益如此巨大，即使未来十次我这么做都不走运且没有成功，也无法抹去过去多次做正确事情所获得的收益

空气净化：我研究了一点空气质量对健康的影响，并于2012年为我的公寓购买了空气净化器

多年来朋友们一直因此调侃我，陌生人、约会对象和熟人有时会以不同程度的直白告诉我，我是在偏执和愚蠢
当我搬到野火风险较高的地区并研究了野火风险后，我增加了更多的空气净化能力，这导致人们以更高的频率和更直白的语气告诉我，我有空气净化器很奇怪

尽管经历了相当严重的野火季节两次，但我基本上完全没受野火影响
我认识的其他人则经历了一定程度的不适，有几个人在烟雾暴露后出现了持续性问题（其中一例是持续性哮喘，之前没有或至少之前没注意到）

学习对我来说困难的事：这是一个"感觉愚蠢"而非"显得愚蠢"的事情，但当我在某件事上挣扎时，我感觉自己真的很笨，就是说，我有一种感觉/情绪，我会用语言描述为"感觉很笨"

当我比较年轻的时候，我想是在青少年之前，我注意到当我学习困难的东西时会发生这种情况，并试图将这种感觉视为"学习某事的感觉"而不是"感觉很笨"，这起到了一半的作用（我现在将这种感觉与两者都联系起来）

提问：上面已经提到，但我经常在遇到不理解或不知道的事情时提问，从基础的东西，"某个词是什么意思？"到更微妙的东西。

另一方面，我看到初级工程师最常见的失败模式之一，就是有人因为害怕显得愚蠢而不敢提问，结果学习非常缓慢；在某些情况下，这严重到导致他们被置于绩效改进计划（PIP）然后被解雇

我确信还有其他原因会导致这种情况，比如不想打扰别人，但在那些我足够了解情况可以去问的案例中，总是因为尴尬和害怕显得愚蠢
我在指导实习生和初级人员时，会小心避免这种失败模式，并且通常很成功，但有时需要长达六周的时间才能说服他们提问是可以的，在那之前，我必须经常问他们进展如何，以确保他们没有卡住。如果那个人是我的实习生，这没问题，但我观察到许多指导实习生和新员工的导师并不这样做，这常常导致各方结果不佳

几乎每个案例中，那人都至少在其他公司实习过，但他们没有学会提问是可以的。附注：如果你在一个不允许提问的地方工作，并且情况允许，你应该另找工作

不为失败找借口：在电子游戏部分已经提到，但适用范围更广
学习时，刻意在成功与失败之间的区域摸索（这也适用于电子游戏、体育运动以及抽象的智力追求）

一个例子是，在学习攀岩时，反复以各种方式尝试同一个简单的动作，以理解什么方式效果更好，什么方式效果更差。我曾遇到陌生人嘲笑我，甚至指着我对他们的朋友说风凉话
学习开车时，我想设置一些锥桶，然后开车勉强撞上它们，以了解汽车的边缘在哪里。我父亲认为这个想法非常愚蠢，我应该只是不撞到东西，比如路缘石或锥桶

汽车保险：我上次购买汽车保险时，不得不确认三次我只想要为对他人造成的损害投保，不覆盖如果我方责任造成的对我自己车辆的损害。保险代理人每次都忍不住用看傻瓜的眼神看我，每次确认时都变得更加难以置信
本网站的样式和内容：我经常收到设计人员和字体排印师告诉我设计有多愚蠢，通常在我与他们互动时，很快变得居高临下

但是，当我测试从广受好评的Octopress设计切换到当前设计时，这个设计在用户访问网站时获得了更好的互动效果，而且似乎也被更多地传播了
当我将自己的流量数据与大型企业博客进行比较时，我的博客完全主导了大多数市值低于1000亿美元的公司（例如，它的流量比雇主的博客高出一个数量级，而我的雇主是一家市值500亿美元的公司）
当我开始写博客时（今天依然如此），关于编程博客的写作建议是保持简短，也许500到1000字。我的大多数博客文章是5000到10000字

接受我现在的工作，几乎所有人都认为这是个愚蠢的主意

密切相关：辞去在Centaur的工作去参加RC，然后最终转行进入软件领域（我认为现在这不会被认为是愚蠢，但在2013年，这被认为是非常愚蠢的事情）

学习一项运动或电子游戏：我尝试事物以了解当你做它们时会发生什么，这常常导致当该动作看起来很蠢时，别人认为我是个彻底的傻瓜，但愿意显得愚蠢帮助我相对快速地进步
医疗保健：我发现很多医生对自己的意见非常自信，如果你不同意，他们会很快变得居高临下

然而，在最极端的情况下，如果我听从我的医生，我会死；在次极端的情况下，我会失明
抽血时，我会向人们解释我的血管很难扎，并告诉他们过去什么方法有效

大约一半的时候，护士或抽血师会认真对待我的评论，通常能顺利且无痛或几乎无痛地完成抽血
大约一半的时候，护士或抽血师会用看傻瓜的眼神看我，并对我进行愤怒的和/或居高临下的评论；到目前为止，所有这样做的人要么未能抽到血，要么给我留下了血肿
有人告诉我说我陈述偏好的方式可能具有冒犯性，我应该更有礼貌；然后我邀请他们一起观察，但没有人提出建议让我如何以不同的方式陈述以获得更高比例的正面回应；总的来说，当人们看到护士和抽血师的反应时，他们都感到震惊和不快
回想起来，我大概应该在有人出现"糟糕"反应时就起身离开，这可能会增加那个人认为我愚蠢的感觉
我遇到的一个问题（不是导致"扎针难"的主要问题）是，在抽血过程中，血液会减慢然后通常停止。有些护士喜欢晃动针头看看是否能重新开始流动，这有时有效（大约50/50），但通常会给我留下一大片淤青或血肿，或者两者都有。这种情况发生过几次后，我问是否在抽血前通过大量活动让血液流动（例如在抽血前多活动）会有帮助，我问过的每个护士或抽血师都说那很傻，不会有任何区别。我还是试了试，这解决了这个问题，虽然我仍然存在很难正确扎针的问题

面试：我在面试中通常不会对抗，但我会尽量说出我认为真实的事情，并尽量避免说我认为虚假的事情，这经常导致面试官认为我很蠢（我面试的失败率通常相当高，所以谁知道这是否相关，但当你说了"愚蠢"的话后，有人用看傻瓜的眼神看你，或者开始用居高临下的语气和肢体语言，这似乎是个坏兆头）。
通常努力改进事物并保持真诚

甚至在"tryhard"（过分努力的人）成为贬义词之前，我社交圈里的很多人就认为做个"tryhard"是愚蠢的，一个人不应该努力，而应该装酷（这是在我成为工程师之前；作为一名工程师，我认为努力受到的尊重比我学校同学和当时我认识的网友都多）

通常承认自己在某些方面能力不足或没天赋，例如，在这篇文章中提到我学习编程很吃力；Jane Street的一位面试官深入探讨了我在那篇文章中写的内容，并因此对我大加抨击（这是我经历过最具敌意的面试，差距很大），当你真诚地表达自己时，有时会发生这种事情，但我仍然认为好处大于坏处
招聘：我有一个非传统的招聘说辞，坦率地先说缺点，经常导致人们说我是一个糟糕的招聘者（或者讽刺地说我是一个优秀的招聘者）；我还没有公开写下这个说辞（目前还没？），因为它负面到我担心把它放到网上会被解雇

我从未在招聘全职员工上失败过（有一次在招聘实习生上失败过），并吸引了很多原本不会考虑为我们工作的人。我的招聘说辞听起来可笑地愚蠢，但它比大多数人使用的标准招聘说辞有效得多

在互联网上发布内容：不言自明

尽管上面的大多数例子是"现实生活"中的例子，但甘愿显得愚蠢在工作中也非常有效。除了它能让你学习更快、变得更高效的明显原因外，它还让你更容易找到高投资回报率的想法。如果你追求时髦或听起来合理的想法，想要做一些真正非凡的事情，你必须比处理同一问题的其他人有更好的想法/执行力。但如果你思考的想法大多数人都认为太愚蠢而不予考虑，你经常会遇到既具有高投资回报率又简单易行的想法，只要他们不一开始就否定这个想法，任何人都能做到。从技术上讲，你仍然可能需要比尝试同样事情的其他人有更好的执行力，但如果没有人尝试同样的事情，那就很容易做到了！

我实际上不必像大多数人那样聪明或努力工作就能取得好结果。如果我尝试通过做其他人都在做的事情来解决某个问题，并去其他人寻找问题的地方寻找问题，如果我想要做一些有价值的事情，我必须比很多人做得更好，甚至可能比所有人都更好，如果问题非常困难的话。如果问题被认为很时髦，很多非常聪明和勤奋的人会探索同一领域，要做得比他们更好非常困难。但如果我有一个愚蠢的想法，一个听起来太蠢以至于没人愿意尝试的想法，我就不一定需要特别聪明、有天赋或勤奋就能想出有价值的解决方案。通常，愚蠢的解决方案是任何白痴都能想到的，而问题之所以没有解决，是因为没有人愿意思考那个愚蠢的想法，直到像我这样的白痴看了这个问题。

总的来说，我认为甘愿显得愚蠢的好处远大于坏处。对于那些不涉及社会评判的事情，比如赢得游戏、理解事物、或者由于有良好的理解而能够构建事物，这全是好处。对于涉及社会评判的事情，比如面试和约会，可能存在坏处，但即使在那里，我认为很多看起来像坏处的事情实际上是好处。

例如，如果一个约会对象因为我不知道一个词的意思而认为The request was rejected because it was considered high risk

由 mimo-v2.5 模型翻译，花费 12483 tokens

学什么好

Mon, 18 Oct 2021 00:00:00 +0000

[AI 摘要] 本文探讨了学习策略，主张应专注于符合个人天赋的技能及有利环境，而非盲目遵循通用建议。

常见有人提倡学习自己擅长的技能或使用自己熟悉的方法。例如，Steve Yegge 发表过一系列博文，建议阅读编译器书籍、学习编译器原理。他的理由大体是：如果理解编译器，你就能在各种场合发现编译器问题，并识别出那些人们未借助编译器知识而解决的案例。与其拼凑半成品方案，不如运用一些计算机科学知识，以更省力的方式解决问题。这没错，但这不是必须专攻编译器的理由，因为计算机科学和数学的许多其他领域都可以这样类推——比如排队论、计算机体系结构、数学优化、运筹学等。对此类反对意见的一种回应是“应该学一切”。尽管成为涉猎极广的通才可行，但如今要“对所有事物略知一二”并保持高效已变得困难得多，因为随着时间的推移，各领域在广度和深度上都在不断扩展。即使并非如此，我认为“应该”二字过于绝对；是否享受这种博学是个人品味问题。另一种可行方法更合我意：正如Gian Carlo Rota 所言，学习一些诀窍：

很久以前，一位年长的知名数论家对Paul Erdős的工作发表了些轻蔑评论。我和你一样钦佩数学贡献，所以听到那位数学家断然宣称Erdős的所有成果都可归结为几个反复使用的技巧时，我颇感恼火。但这位数论家没意识到，其他数学家——即使是最优秀的——也依赖几个反复使用的技巧。以希尔伯特为例。其论文集第二卷收录了他在不变式理论方面的论文。我曾仔细研读其中部分论文，令人惋惜的是，希尔伯特一些精妙成果已被彻底遗忘。但细读其在该领域深刻定理的证明时，我惊讶地发现希尔伯特的证明同样依赖相同的几个技巧。连希尔伯特都仅有几个技巧！

观察各领域的成功者，会发现这是普遍做法。例如，一项关于世界级柔道选手的分析发现，大多数人依赖少数几种投技，并得出结论¹：

柔道是专精的竞技。你必须使用最适合自己的技能。你必须坚持有效的方法，反复练习直至成为条件反射。

若观看格斗题材的动画或电视剧，角色常通过增加招式数量来提升实力——因为这在视觉上容易表现。但现实中，精进已有技能往往比掌握数百种“招式”更有效。

Joy Ebertz 也曾提及：

我曾得到一个建议：放大自身优势。人人都有优缺点，我们常把大量时间耗在“改进领域”上。人们容易认为最好的进步方式是消除所有弱点。但若某些方面确实薄弱，改变它们可能事倍功半。显然，你仍需确保没有真正糟糕的缺陷。但除此之外，应聚焦于放大优势。如何将你擅长的事物转化为超能力？

个人在多个领域验证了这一点。尽管难以客观衡量程序员效能，但在我从事过的某些事（例如很久以前、电竞尚无“真正”奖金时的竞技游戏）中，让我从还算不错的玩家进阶为顶尖玩家的关键，正是放弃练习不擅长的领域，全力提升那些我天赋异禀技能的优势。

这种方法在游戏和运动中有效，因为你可以通过策略将自己置于优势位置，避免暴露弱点。我认为在工作中这甚至更有效，因为在竞争环境中，对手会试图攻你弱点、迫使你远离优势领域。而工作中，假如我研究排队论而非编译器，同事不会阻止我参与排队论相关的项目，强迫我面对全是编译器知识的应用场景。

值得注意的是，技能不一定是通常认为的学科或离散技术。过去三年，我主要应用并提升的技能或许可称为“数据分析”——加引号是因为我找不到确切术语。我不认为这是多数人理解的“统计学”，因为我无需像逻辑回归那么复杂的方法，更不用说高深统计。或许有人认为这是数据科学家的工作，但对比我们雇佣的数据科学家实际工作内容和面试要求，我们似乎并不想招聘具备该技能的数据科学家，他们也不做我正在做的事（这个话题足够长，可能另写专文讨论）。

与 Matt Might 或 Steve Yegge 不同，我不会断言你应该采取特定方法，但可以说：专注少数领域、不刻意追求面面俱到，这种方法在多个截然不同的领域对我有效，对许多其他人似乎也管用。

若采用此法，仍需决定学什么技能。这是我最常被问的问题之一，我的答案可能非所期望、也不令人满意，因为它既显而易见又难以实践。

对我来说，决定学什么的两个要素是：具备相对天赋（相对于我可能做的其他事，而非与他人相比），以及拥有适合学习的环境。说“应寻找这些”过于模糊近乎无用，但仍比常规建议（即“学我所学”）更实在——后者常导向“职业建议：若想精通大规模真实环境中的复杂有状态分布式系统设计，应学函数式编程，因为技能集几乎完全一致”之类论调，或某些语言社区更极端的主张，比如Chuck Moore声称Forth的生产力至少是无聊语言的100倍。

职业生涯早期我采纳了泛泛的网络建议（包括语言建议，当时这类建议尚不成熟，无法轻易观察到：遵循此类建议的人往往效率平平，而高效人士通常不采纳这类建议）。我学了Haskell、Lisp、Forth等语言。职业生涯某阶段，我在两人团队中实现了可能是当今性能最高的Forth处理器（2GHz IPC导向），并为其编程（该处理器适合栈式架构，Forth是合理选择）。如同Yossi Kreinin，我认为自己投入的精力超过大多数人掌握Forth的水平；但和他一样，我不仅未发现其生产力达百倍，甚至不清楚是否真有1倍优势。公平地说，某些工具的生产力超过1倍，但总体而言，我认为追随网络建议的投入产出比很低，而那些高回报的技能并非人们推荐的内容。

回顾来看，当有人说“Forth生产力很高”时，我怀疑其真意是“Forth让我很高效，但我未考虑这如何适配不同天赋或不同环境的人”。Forth（或Lisp、Haskell等任何工具技术）对特定个体确实有效，但人们常高估“它对我有效”与“它对他人也有效”的关联性，导致建议通常无用，因为它未能区分天赋或情境特定的建议与普适性建议，这与真正讨论具体技术优劣的领域形成鲜明对比²。

教练可通过一对一或小组形式提供个性化建议，但互联网上难以做到，因此我能做的只是无用的模糊建议：“选择适合你的技能”。例如，对我来说容易掌握的两项技能是“具备对抗性思维”和“数据分析”。或许稍有用的建议是：若难以识别这些技能，可询问非常了解你的人——例如我的经理和Ben Kuhn不约而同指出，“提出跨越多个抽象层次的解决方案”是我常运用的技能（在他们点明前，我未意识到这点）。

另一种方法是寻找那些你情不自禁去做、而他人似乎不做的事。对我而言，“数据分析”和“对抗性思维”皆如此。以对抗性思维为例：我曾参与某公司定制Bug跟踪系统的测试，提交了首批Bug并在字段中填入异常值测试系统极限。有些人无法理解为何有人这么做，感到困惑、反感或惊骇，但少数人（包括作者们，我知道他们不会介意）很赞赏看到系统被推至极限。探索系统崩溃边界于我而言不像工作；若不想做，我必须刻意停止——这让十年来提升测试与验证技术的历程感觉像是“难以不做”之事。深入数据分析是我已坚持十余年的另一领域，对我来说，若不提升这项技能几乎感觉不对。

这些技能适合我，主要源于个人性格，而非人类共性。其他人会有不同的“感觉轻松/正确”的领域，这很好——倘若人人都热衷数据分析而无人建造事物，那将非常麻烦（尽管我认为数据分析平均而言被低估了）。

我尝试学习的另一要素是寻找适合学习与我技能匹配技能的环境。建议他人效仿听起来像无用的显而易见忠告，但根据我对人们选择团队和公司的观察，几乎无人这样做，因此讨论此事或许不全然无益。

一个典型反例：我偶然得知某位经理的团队流失了新转正的全职实习生。我询问此事，因为该经理通常善于留人、团队流失率低。原来实习生希望从事基础设施工作，但加入了该经理的产品团队，因为不知道可以要求匹配偏好的团队。经理知情后促成了转岗。此案例是双重打击：新员工既未尝试进入利于学习技能的环境，又加入了一家基础设施组织功能失调、设计与运维实践不佳的公司——使其在未尝试进入基础设施团队的前提下，更难学习相关知识。虽是异常糟糕的案例，但据我所见的典型情况，人们即便声称最渴望学习机会，其决策却很少带来良好的学习结果。

例如，Steve Yegge 曾指出：

大学候选人最常问的问题是：“贵公司提供何种培训或指导？” ……一位华盛顿大学受访者向我详述福特汽车的指导计划，福特显然将其作为面试宣传的一部分。[我略去细节，因其无关紧要。-stevey 3/1/2006] 该学生能惊人地复述细节，这不意外，因为候选人最关心的正是这点。

对我而言，幸运的是首份工作Centaur是培养测试与验证对抗性思维的理想环境。对比该验证团队的成就，其效率堪比其他公司用更大规模团队完成类似工作的同行项目，表明团队生产力极高——这使其成为绝佳的学习场所。

此外，我认为仅靠自学或遵循书籍/网络建议无法如此快速学习。真正擅长某事的人，其知识体量难以压缩成书籍，更不用说博文。体育领域中，优秀教练能逐步传达这类信息，但编程领域尚无类似机制，因此我认为提升学习效率的最佳途径是寻找充满专家的环境³。

对于“数据分析”，尽管在人们未真正重视数据的环境中工作使我技能大幅精进，但过去几年的进步速度更高——因为我能与精于理解数据局限性、且具备深厚领域知识的人交流碰撞想法。可以说，我在当前公司每年的进步超过以往十年。

或许应注意：环境（你日常生活的空间）具有局部性。我现雇主可能是我工作过的三大科技巨头中最不数据驱动的，但我的周边却是提升数据分析能力的绝佳环境，因为我相对多地与擅长数据的人（如Rebecca Isaacs）共事，相对少地与漠视数据的人协作。

本文讨论了若干策略及其价值动因，但我必须承认，向专家学习的动机并非创造价值。更多是因为我发现学习充满乐趣，且在某些领域，无论环境如何，我都渴望运用技能；向专家学习是如此美妙的乐事，难以抗拒。数十年实践下来，这确实有用——但我许久才意识到这点（且从硬件转向软件前，我完全不知此技能可迁移至新领域）。

许多职业建议围绕职业发展、成功或成长，常倡导设定长期目标或战略，其论点常类似“随机游走仅能在某方向移动sqrt(n)，而定向行走可移动n”。我认为这没错，但对许多人而言，该建议隐晦地低估了寻找适合领域的难度⁴，而我基本上通过试错完成此事。

附录：本文未详述的问题部分

一个未讨论的主要话题是如何平衡技能“层级”——从高层如“数据分析”，到中层如“贝叶斯多层模型”，再到低层如“打字速度”。这话题足够庞大，值得单独撰文，预计篇幅更长。目前可参考Gary Bernhardt关于相关主题的评论，我认为同样适用于此话题。

另一个未讨论的主要话题是选择较可能适用的技能。仅建议考虑学习有天赋的技能，而不思考适用性，过于天真。

但虽然容易挑出那些极难产生影响、赚钱或达成目标的技能（如“篮球”或“拳击”），在看似合理的技能间选择（如计算机体系结构与编程语言）则更困难。

但我认为，半合理技能只要与个体匹配，很可能高回报，因此在半合理技能中试错可行——尽管快速尝试的能力或许有帮助。

Ben Kuhn论真正学习某事是何体验
Holden Karnofsky论采用天赋优先而非职业路径优先的职业观，这类似于思考跨领域技能（如“数据分析”或“对抗性思维”），而不仅关注具体技能（如“编译器”或“排队论”）
Peter Drucker论如何理解自身优劣势，从事与性情相符的工作
Alexey Guzey论建议的有效性
Edward Kmett关于如何思考学习的另一视角
Patrick Collison论如何最大化有效学习并发现兴趣所在

感谢Ben Kuhn、Alexey Guzey、Marek Majkowski、Nick Bergson-Shilcock、@bekindtopeople2、Aaron Levin、Milosz Danczak、Anja Boskovic、John Doty、Justin Blank、Mark Hansen、"wl"和Jamie Brandon的评论/修正/讨论。

这是一项旧分析。若在今日进行，你会看到不同的投技组合，但专精者仍获巨大成功（例如Riner的大外刈） ^[返回]
为无差别、无背景的建议辩护：学习特定主题（如函数式编程）对我确实有效。我能想象，若这种思维方式（源于硬件背景）对我而言本不自然，那么“应学函数式编程以改变问题思考方式”的建议可能有用。但换个角度，该建议同样可能是“学硬件工程”。 ^[返回]
我样本量不足，也未广泛调查，因此无法确信此为通用方法。但就寻找世界级专家群体而言，对我有效的是寻找卓越经理人。我工作过的世界级专家密度最高的两支团队，皆由真正杰出的管理者领导。我对优秀管理的标准高于多数人；通过与多人交流发现，几乎无人接触过我认为优秀的管理者（且通常交流双方认同此观点，并非他们在我不在意的维度有优秀管理者而我没有）。由此推测，我认为优秀的管理者至少处于99.9%分位。如何找到此类管理者是长篇话题，可能另文详述。

无论如何，尽管此样本较小，我认为其机制合理：我所知的卓越管理者拥有极高留任率，且有大量候选人渴望加入，因此他们较易雇佣并留住世界级专家，因为行业整体状况太糟糕。

更常见的策略（我认为通常无效，我尝试时效果也一般）是从事最有趣或最难的问题。虽然我在尝试从事有趣/困难问题时确实遇到过一些优秀人才（包括我共事过的最顶尖工程师之一），但就与我想学习的人共事而言，此方法效果远逊于寻找优秀管理者。我认为此算法的普遍问题与因“电子游戏很酷”而从事游戏行业相同：太多人渴望参与激动人心的问题，导致功能失调的环境长期存在。

某案例中，我在一个九个月内流失率达100%的团队（若非一人转岗耗时过长，流失将达600%）。我同期加入的同批人平均年流失率约50%，我认为他们离职理由充分。此类流失不仅标志环境常令人不快，且往往导致我想合作/学习的人优先离开。例如，我在某团队（其主管不认同使用版本控制、自动化测试或流水线设计）时，曾与优秀的Ikhwan Lee共事。当然，Ikhwan很快离职，而那位主管仍在，六年后依然在职。
^[返回]
我在熟人中多次观察到：人们会在毫无头绪时就选定方向。往往经过许久（某些案例超十年）才意识到实际深恶此方向——有时因不匹配性情，有时因自己不擅长。无论如何，与沿不快乐方向前进n步相比，随机探索并沿快乐方向前进sqrt(n)步似乎没那么糟。 ^[返回]

由 mimo-v2.5 模型翻译，花费 11084 tokens

关于提升生产力和速度的一些原因

Fri, 15 Oct 2021 00:00:00 +0000

[AI 摘要] 本文探讨了提升生产力和速度的实际益处，并反驳了认为思考效率或努力工作在道德上或实践上是错误的常见观点。

我与密友们常讨论的话题是我们生产力中的瓶颈以及如何更快地执行。这与我在更广泛的社交圈中所见大相径庭，那里的人们常说速度无关紧要。在网上相关讨论中，我常看到人们更进一步，对此进行道德评判，声称试图提高速度、追求更高生产力或努力工作实际上是坏事（更多例子见附录）。

我看到人们认为生产力无关紧要（或实际上是坏事）的主要原因可分为三类：

做正确的事比快速做事更重要
做某事（X）的速度无关紧要，因为你花在X上的时间并不多
考虑生产力是坏事，你应该“享受生活”

我当然同意做正确的事很重要，但提高速度并不会妨碍你做正确的事。实际上，这两者相互促进，是彼此的力量倍增器。如果你善于选择正确的问题，强大的执行能力会变得更有影响力，反之亦然。

诚然，选择正确问题带来的收益可能大于提升战术执行能力带来的收益，因为前者的收益可能无限大。但提升战术执行能力也容易得多，并且这也有助于选择正确问题，因为更快的执行能力让你能更快地进行实验，从而帮助你找到正确的问题。

一个具体例子是我参与的一个量化车队机器健康状况的项目。该项目发现了许多严重问题（相当一部分主机正在积极破坏数据，或者存在会使尾部延迟增加超过两个数量级性能问题，或两者兼有）。问题严重到足以成立一个新团队来处理。

回顾起来，我最初量化问题的尝试注定失败，不可能真正奏效（或无法在合理时间内奏效）。我花了数周时间钻研那些行不通的想法，而能在“仅仅”几周后找到可行想法的关键部分，在于能够快速尝试并摒弃不奏效的想法。在之前某篇文章的部分内容中，我描述了这个过程中的一个小环节耗费了多长时间，结果有多人在网络评论中反对说这快得不可思议。

我觉得这有点好笑，因为我并非天生是高效的程序员。学习编程对我来说是真正的挣扎，我曾经在很长一段时间里都很慢（并且在那些我尚未练习的方面，我现在仍然很慢）。我的“独门秘诀”是我曾刻意练习，提升我经常做但大多数人没有刻意去提升的事情。我认为这种情况有点类似于人们真正开始科学训练之前的体育运动。很长一段时间里，许多运动员并没有认真训练，而一旦人们开始尝试训练，按现代标准来看，这些训练往往是错误的。例如，如果你阅读70年代的棒球评论，你会看到人们说棒球运动员不应该进行力量训练，因为这会使他们“肌肉僵硬”（许多人认为举重会导致“过多”的肌肉块，使人变慢、爆发力下降、敏捷性降低）。但今天，球员从使用增强肌肉僵硬程度的性能增强药物中获得了巨大优势，这表明仅靠力量训练不可能让人变得太“肌肉僵硬”。类似前面讨论过的评论，会说运动员不应该担心力量/力量，而应该提升技术，但力量能提升技术的回报，反之亦然。

回到编程，如果你刻意练习和训练，而几乎没人这么做，那么即使你像我一样，在编程方面没有多少天赋，起步也极其艰难，你也能做得比大多数人快。当然，总会有一些更有天赋的人，在花更少时间提升后执行得更快。但幸运的是，对我来说，认真尝试提升自己的人相对较少，所以我做得还不错。

总之，尽管我的操作速度被一些网络评论者认为是不可能的，但我也花了数周死胡同才找到可行方案。如果我的速度是人们认为的“正常”速度，我怀疑找到可行方案所需的时间会足够长，以至于我可能在花费一两个季度后就放弃了这个问题。似乎合理但行不通的方案数量，可能并非与这个问题尽管是多年关键问题却仍是未解难题无关。当然，比我更擅长想出点子的人可能无需走死胡同就能解决问题，但正如我们之前讨论的，在“执行速度”上找到低垂果实相对容易，而在“产生更好想法”上则不然。然而，通过快速尝试和摒弃想法，在一定程度上可以模拟那些比我想法更好的人（我也在努力产生更好的想法，但追求那些更容易获得的高回报收益是合理的）。快速尝试想法的能力也提高了我能产生更好想法的速度，因为其中关键部分是通过获取反馈来建立直觉。

下一个主要反对意见是，在特定任务（X）上提高速度无关紧要，因为花在该任务上的时间有限。从根本上，我不同意这个反对意见，因为尽管这可能对任何特定类型的任务都成立，但解决方案是尝试提升每种任务，而不是彻底否定改进的想法。人们的一个次级反对意见是类似这样的：“但我每周花20小时在毫无成效的会议中，所以我其他时间做什么都无关紧要。”我认为这大错特错。因为如果你只剩下20小时可能高效的时间，那么无论你对这段时间有什么样的生产力乘数，它仍然适用于你的整体生产力。此外，通常有可能退出那些注定无用的会议，并提高那些并非注定无用的会议的生产力¹。

更广泛地说，当人们说优化X没有帮助，因为他们不花时间在X上，也不在X上遇到瓶颈时，这与我的经验不符，因为我发现我在那些常被忽视的X上花费了大量时间并遇到瓶颈。我认为部分原因是，在X上变得更快实际上可能增加在X上花费的时间，因为时间分配存在一种良性循环反馈。另一部分原因如Fabian Giesen这条评论所阐释：

人们普遍接受（近乎陈词滥调）是，你不知道程序在哪里耗费时间，除非你实际进行分析；但由此衍生的结论，即你也不知道你自己的时间花在哪里，除非你进行测量，则远未被普遍接受。

当我查看人们实际时间花费与他们自认为的时间花费对比时，结果非常不准确。我认为一个根本原因是，除非他们进行测量，否则人们对自己时间分配的估计往往偏差很大。这被Fabian Giesen的另一条精辟总结（虽然是关于解魔方，但也适用于其他认知任务）所概括：

一位知名魔方玩家说：“你自己的停顿在解题过程中看起来从不糟糕，因为你的大脑在忙碌，你知道自己在想什么，但一旦你看了录像，你需要改进的地方往往就变得显而易见了。”这与通常针对程序的“不要假设，要分析”建议几乎一样，但适用于你全程专注忙碌的情况，而在编程圈的默认假设似乎是，只要你在实际工作，没有分心或偷懒，就不可能损失大量时间。

与大多数在线讨论此话题的人不同，我实际查看了我的时间流向，很大一部分花在了那些被当作“不值得花时间改进”的典型例子上。

其中一个例子，也是我见过最常被引用的“不该优化”的例子，是打字速度（讨论时，人们通常说打字速度不重要，因为思考花的时间比打字多）。但是，当我查看我的时间流向时，发现很大一部分时间花在打字上。

一个具体例子是，我在当前工作中写过几份有影响力的文档，当人们问写某份文档花了多长时间时，他们通常惊讶地发现只花了一天。就像机器健康状况的例子一样，速度有助于确定哪些文档会产生影响。如果我看看我写的文档，我会说大约15%真正有高影响力（促成了新团队的成立、改变了现有团队的方向、显著影响了公司的利润等）。部分原因是我并不总是知道哪些想法会引起他人共鸣，但部分原因也是我经常提出一些看起来太傻而不会被认真对待的、成功几率渺茫的想法（例如，我提出的解决容量危机的一个方案是，为每个机架关闭10%的容量，从而增加有效配置容量——这听起来简直傻到家了）。如果我写文档的速度慢得多，提出这种真正成功几率渺茫的想法就不划算了。按目前情况，如果我认为一个想法有5%的成功率，那么平均而言，我需要写大约20天的文档才能让其中一个成功。

我大约一半的写作时间花在打字上。如果我按某些人所说的“中等打字速度”（40 WPM）打字，而不是按某次随机打字测试的速度（110 WPM），这将导致 0.5 + 0.5 * 110/40 = 1.875倍的减速，这意味着每篇有高影响力的“渺茫希望”文档需要近40天，这会让这个提议变得风险更大。如果我同时没有优化写作工作流中非打字的部分，我认为总体上可能会慢10倍²，这意味着每篇高影响力“渺茫希望”文档需要大约200天，这足以让我认为我可能根本不会写这类文档了³。

更广泛地说，Fabian Giesen指出，这种速度的非线性影响很常见：

当你跨越某些阈值时（细节在某种程度上取决于具体问题），会出现“相变”，你的整个工作方式都会改变。 ... 有很多事情理论上我可以在任何速度下完成，但实际上做不到，因为随着迭代时间增加，它首先会变得令人沮丧，让我无法长时间进行，最终耗时太长以至于完全超出了我的短期记忆范围，因此我需要记笔记或以其他方式组织信息，否则根本无法完成。

当然，如果我能在交互式界面中通过拖动滑块完成实验，并在不到一秒的时间内看到结果，那么在这个阶段就是“不过滤”的，你想尝试什么就直接去做。

一旦你的迭代时间缩短到几秒钟内（比如使用静态编译语言的编译-链接周期），你不再只是尝试，你还会花时间思考它是否能提供信息，因为这会耗费足够的时间，以至于你宁愿不浪费一次运行。

一旦进入几分钟或几小时的迭代时间，就需要大量规划以避免浪费运行，并且由于等待期间会做其他事情，会出现上下文切换，还需要记笔记/做记录；此外，在这个级别上，错误代价更高（因为浪费的运行浪费了更多时间），也更频繁（因为你的注意力如此分散）。

当你把迭代时间进一步拉长，可能需要为相当数量的资源占用一段显著的时间，这需要审批和预算，这本身又需要会议等等。

一个在我的工作中，项目从一类转向另一类的具体例子是这个关于指标分析的项目。当时有多个关于如何解决这个问题的提案。大家普遍认为这个问题很重要，没有异议，但所有提案都是那种你会分配一个团队通过多个路线图周期去完成的。启动这样一个昂贵的项目需要大量的组织共识，以至于许多重要问题没有得到解决，包括这个问题。但事实证明，如果界定范围得当且执行合理，这个项目实际上是一个程序员一天就能创建出最小可行产品（MVP）的项目，启动它不需要任何组织共识。你不再需要多位总监和一位副总裁都同意这个问题是组织最重要的问题之一，只需要一个认为该问题值得解决的人即可。

回到人们常说“在X上速度不重要因为他们花在X上的时间不多”的X上，另一个我经常看到的例子是编码，我个人的经验也并非编码速度不重要。以上述机器健康状况项目为例，在我找出可行方案后，我花了一个月时间基本上只做这件事：编码、测试和调试。我记得那个月大约有6个小时的会议，除此之外加上吃饭等时间，我就是去上班，编码一整天，然后回家。我认为跨人比较编码速度要困难得多，因为很少看到人们做相同或非常相似的非平凡任务，所以我不会尝试与他人比较，但如果我看自己在刻意提升速度前的生产力和现在的对比，如果没有通过审视速度找到的这些提升，该项目可能根本不可行。

基于阿姆达尔定律的论点在固定基准测试（如SPECint的子任务）中寻找加速时可能是合理的，但当你的系统存在这样一个情况：在某个任务上变得更好会增加完成该任务的回报，并且可能增加在该任务上花费的时间时，说“你不应该花时间在某个任务上因为它不花很多时间”就没有意义了。我花时间在高回报的事情上，但这些事情通常之所以高回报，正是因为我花了时间提升速度，这降低了回报率（ROI）中的“I”（投入）部分。

我看到的最后一个反对提高速度的主要论点是，对考虑生产力和提升速度这个想法本身赋予了负面的道德权重。这类评论常常对各种休闲活动（如与朋友和家人共度时光）赋予正面的道德权重。我认为这个论点本末倒置。如果有人认为花时间与朋友和家人相处很重要，一个简单的办法就是在工作中更高效，从而减少工作时间。

就我个人而言，我刻意避免长时间工作，我怀疑我的工作时间并不比我所在公司的中位数多，而我认为我们公司的工作生活平衡整体相当不错。我的许多生产力提升都用于休闲而非工作。此外，刻意提升速度让我相对较快地获得晋升⁴，这意味着我比未晋升时赚得更多，这让我有更多自由去花时间做我重视的事情。

对于那些不是在争论“不该考虑生产力因为最好专注于休闲”，而是争论“根本不该考虑生产力因为这是不自然的，人应该过自然生活”的人，这最终归结为个人偏好。但对我来说，我太重视工作之外的事物，以至于无法不在工作中刻意提升生产力。

正如这篇关于测量理由的文章一样，虽然这篇文章是关于提高生产力的实用理由，但我个人努力提升生产力的主要原因并非实用。主要原因是，我享受在事情上变得更好的过程，无论那是某种极客桌游、一项我毫无天赋且对我永远不会有实际价值的运动，还是工作。对我来说，次要原因是，鉴于我的寿命有限，我希望将时间分配到我重视的事情上，而提高生产力让我能做更多这样的事，但这不是我在20岁之前就有的想法，那时我已经在提升大多数我花大量时间的事情的技能多年了。

另一个提升生产力的常见原因是，掌握和/或普遍擅长某事似乎对很多人来说都令人满足。这并非我个人的共鸣点，但当我问其他人为什么努力提升技能时，这似乎是一个常见的动机。

一个相关的想法，是Holden Karnofsky长期以来一直在讨论的，即如果你曾想以某种方式对世界产生影响，即使在那些不明显需要你更擅长工作的职位上，提升技能也是有用的，因为当你转向更符合你想实现的目标的事情时，已培养的技能会给你更大的杠杆来影响世界。

附录：一种思考改进方向的方法

以下是来自Gary Bernhardt的一个我喜欢的框架（未单独用引用块，因为除本句外，整个部分都是他的观点）。

人们在谈论效率时，往往固守单一粒度的分析。例如，“思考是最重要的部分，所以别担心打字速度”。如果我们退后一步看，对此的回应是：“效率存在于从年度战略一直到毫秒级按键的连续体的每个节点上。”我认为可以合理假设，较大规模的收益影响最大。但当我们转向更细粒度时，ROI在何处下降并不明显。以下是从粗到细的一些例子：

你开始时的宏观观点是：编程不仅仅是思考；它是思考加上像编辑代码这样的战术活动。更快地编辑意味着有更多时间用于思考。
但编辑代码的成本不仅仅是花在打字上的时间！编程高度依赖短期记忆。每次编辑的停顿都是一种干扰，你可能忘记正在处理的细节。较慢的编辑实际上削弱了你的短期记忆，从而降低了效率。
但编辑代码不仅仅是敲键盘！它是敲键盘加上这些按键所调用的编辑器命令。一个更高效的编辑器可以显著提高有效的代码编辑速度，即使你的WPM（每分钟单词数）与以前相同。
但每个编辑器命令并非孤立存在！通常有多种方式可以进行相同的编辑。一个Vim初学者在更高效的做法是“bdw”时可能会输入“hhhhxxxxxxxx”。一个高级Vim用户可能会使用“bdw”，却没有意识到尽管按键次数相同，它却比“diw”慢。（在QWERTY键盘布局下，前者全在左手，而后者是左右手交替。在140 WPM下，你大约每秒输入14个按键，因此每个手指只有70毫秒的时间定位并按键。左右手交替为下一个手指在前一个手指按键过程中留出了更多定位时间。）

我们必须选择思考这个问题的深度。我认为思考1-3点并让它们指导工具选择和练习，有明确的ROI。我不认为（4）值得过多思考。我们似乎自然会在那里找到“足够好”的点。但这确实为其他点提供了一个很好的参照框架。

附录：更多例子

速度无关紧要，来自Julia Evans，我相信她大约从2015年起就是阅读量最广的编程博主
在Ben Kuhn一篇关于他通过更好地分配时间将生产力提高50%的帖子的评论中，人们几乎一致对该帖子持负面态度，说他工作过度。尽管Ben在多个评论和帖子中澄清并非所有记录的时间都在工作，但评论者们忙于占据道德高地，并未真正回应帖子内容
关于Jamie Brandon的“速度重要”的评论
- 快速工作毫无意义，因为你将被迫做更多工作
- 如果你在做正确的事，速度就不重要；另外，即使速度这种东西真的存在，它也无法衡量，因此讨论它毫无意义
- 考虑生产力是不健康的。人应该放松
- 你只能在“好、快、便宜”中选择两项，因此努力提高速度是适得其反的
- 大幅度的加速是不可能的
- “作者把编程和打字搞混了”
- 等等。
- 与Ben的帖子一样，这些评论几乎都在帖子本身中得到了回应。我将不再赘述这种情况，因为它普遍适用于此处提到的帖子。
Michael Malis关于“如何提升在职程序员生产力”的帖子下的第三条评论：“去他的，整个工作环境似乎都在降低生产力……我为什么要费心……”
- 第四条评论：“如果我不想提升生产力呢？就慢慢来好了。”
  - 在最初的愤慨之后，这条评论继续并证明了评论者完全误解了要点，因为评论的其余部分解释了评论者如何高效地工作，而评论者似乎只要不以提高生产力的方式表述就可以接受，因为人们应该对有人想要提高生产力并与可能对此感兴趣的人分享技巧这件事在道德上感到愤慨
  - 在回复中，有人指出，更高效的人能有更多时间休闲；这条评论遭到了一致反对，因为“工作会膨胀到填满所有可用时间”，仿佛一个人如何花费时间是某种不可改变的自然法则，而非任何人可以控制的事情
- 另一条评论：“好吧。我们在优化什么？生产力？还是以下任何目标：达成更多、爬上公司阶梯、赚更多钱等？”
antirez关于生产力的文章下的评论
- 这篇文章谈的是10倍程序员的宇宙，而非大多数人生活的正常宇宙
- 努力提升生产力毫无意义，因为环境决定了生产力
- 高效的程序员很自私，不指导他人等，对团队不利，因为他们生产力的提升总是来自忽略更重要的事情，因此任何在编程上高效的人实际上对团队来说是适得其反的
  - 如果你阅读该帖子的所有评论，你会发现这是一个共同主题
Alexy Guezy关于生产力的想法的评论
- “严肃的问题：有什么比阅读他人的生产力想法更没有生产力的吗？这是拖延症和找出对你来说可能更有效（即带来负罪感）的东西的结合。”
- 一篇题为“反对生产力”的反生产力文章
打字速度无关紧要，因为你只花0.5%到1%的时间打字
- 尽管谈论的是8小时工作日，但我认为那些一天能有4小时真正工作的人通常被认为是极其高效的。0.5%到1%的4小时是每天1.2分钟到2.4分钟，或者对于一个打字速度为100 WPM的人来说，是在Slack、JIRA、电子邮件、实际代码、提交消息、设计文档、设计文档评论、文档等中总共240个单词；我不相信我认识任何打字这么少的专业程序员
“我觉得快速编程肌肉和技术债务之间存在相关性……但我们都有年轻的时候，我记得那时我认为唯一阻碍我的是4.77MHz”，这是对一篇比较不同机器构建时间的博客文章的评论（该文章中没有任何类似“唯一阻碍开发者的是构建时间”的观点）

等等。

一些利用生产力为“支持”他们所重视事物的正面例子包括Andy Kelley（Zig）、Jamie Brandon（多个项目）、Andy Matuschak（记忆媒介、多个项目）、Saul Pwanson（VisiData）、Andy Chu（Oil Shell）。我这里引用的是编程领域的例子，但你也可以找到很多其他例子，例如Nick Adnitt（Darkside Canoes），当然还有众多退休后追求完全不像工作那样兴趣的人。

附录：避免高效的另一个原因

在主要科技公司我的更广泛的社交圈中，一个越来越流行的观点是，人们应该避免工作并尽可能浪费时间，通常被称为“反工作”（antiwork），这似乎是“努力”（tryhard）成为一种侮辱的自然延伸。给出的理由通常是类似这样的：工作主要是让你雇主的高层管理人员和/或股东致富，而他们通常比你更富有。

我同情这种论点，并同意高层管理人员和股东获取了工作的大部分价值。但尽管我同情通过故意低效工作来“对抗老板”的想法，但我太重视将时间花在我想要做的事情上，以至于我宁愿快速完成工作，这样我就能做比我更喜欢的事情。此外，过去的高效工作为我提供了良好的工作选择，因此我拥有的工作比我那些拥抱“反工作”运动的科技圈熟人要喜欢得多。

你对环境的控制越少，就越有意义去拥抱“反工作”。主要科技公司的程序员相对来说对他们的环境有相当大的控制权，这就是为什么即使我同情这个事业，我也不是“反工作”的。

尽管是关于不同的话题，Prachee Avasthi的一条相关评论是关于避免有争议的工作，以及在获得终身教职前避免推动必要变革会养成终身教职后难以打破的习惯。如果一个人想永远“反工作”，那没问题；但如果一个人想在某个时候推动改变，在为一家大科技公司工作时养成“反工作”习惯会灌输适得其反的习惯。

感谢Fabian Giesen、Gary Bernhardt、Ben Kuhn、David Turner、Marek Majkowski、Anja Boskovic、Aaron Levin、Lifan Zeng、Justin Blank、Heath Borders、Tao L.、Nehal Patel、@chozu@fedi.absturztau.be、Alex Allain和Jamie Brandon的评论/修正/讨论

当我查看会议的效率时，有些人非常擅长让会议保持在正轨且有用。例如，我参加过会议的一个人，她异常擅长确保会议富有成效，她是Bonnie Eisenman。在我现在这份工作的早期，我问她如何能如此有效地让会议保持高效，并从此一直使用那个建议（我远不如她做得好，但即便如此，提升这点对我来说也是一个重大收获）。 ^[返回]
10倍可能听起来像一个不可思议的写作加速，但在一个关于写作速度的私密Slack讨论中，一位知名通讯作者提到，他们一篇5000字通讯的净写作速度略低于每分钟2个单词（WPM）。我的净速度（包括编辑等时间）是每篇文档超过20 WPM。

以110 WPM的测量打字速度，这可能听起来我只花了一小部分时间打字，但结果发现大约是时间的一半。如果我看我的写作速度，它比我的打字测试速度慢得多，似乎大约只有一半。如果我看实际时间花在哪里，大约一半时间花在打字上，一半时间花在思考上，半串行地进行，这造成了我打字时的长时间停顿。

如果我看这里最大的潜在收益在哪里，那就是思考和打字并行，这是我尝试通过更多练习打字而非更少来实现的目标。但即使无法做到这一点，并且拥有高于平均水平的打字速度，我仍然花了一半时间打字！

我的净速度远低于我写作速度的原因是我进行了多次修改和重写。有些时间花在重写时的阅读上，但我阅读速度比写作快得多，所以那只是很小一部分时间。原则上，我可以采用重写更少的方法，但我尝试过一些可能预期能达成此目标的方法，目前尚未找到适合我的（也许？）。

虽然这里的例子是关于工作，但这同样适用于我的个人博客，我的写作速度也类似。如果我写得比现在慢十倍，我认为我就不会有这么多博客了。我猜我可能会写几篇帖子或甚至几篇草稿，然后就止步不前，不会发布，接着就放弃了。

我享受写作并从中获得了各种各样的价值，但我足够重视生活中的其他事情，以至于如果我的净写作速度只有2 WPM，我不认为写作还会在我的生活中有一席之地。
^[返回]
另一个策略是写更短的文档。有一种风格的文档这样效果很好，但我经常写的文档会利用我的写作速度来讨论一个如果不写长文档就难以令人信服地讨论的问题。

我的文档较长的一个原因是我经常处理跨多个技术栈层次的问题，这意味着我最终会呈现来自多个技术栈层次的数据，并为那些不熟悉该层次的人提供足够的上下文，说明某个层次的问题如何引发或解决其他层次的问题——这是必要的，因为很少有读者能对理解问题所需的每个层次都具备深入的了解。

在大多数情况下，之前尝试推动/资助解决这个问题的努力都没有取得进展，因为没有建立起一个层次的问题与另一个重要层次问题之间的联系。我可以避免处理跨越多个技术栈层次的问题，但由于技术和组织原因，这类问题中存在很多低垂果实，因此我认为仅仅因为花一天时间写文档解释问题就忽视它们是不合理的（尽管如果需要十天，至少在人们可能对解决方案持怀疑态度的情况下，这样做可能是合理的）。
^[返回]
当然，晋升非常不公平，更高效并不能保证晋升。如果我只看哪些因素与职级相关，甚至对我来说，都不清楚生产力是否比身高与职级的相关性更强，但在可控因素中，生产力是最容易改变的因素之一。 ^[返回]

由 mimo-v2.5 模型翻译，花费 15754 tokens

内部专长的价值

Wed, 29 Sep 2021 00:00:00 +0000

[AI 摘要] 文章论述了大型科技公司（以Twitter为例）内部培养关键技术领域（如内核、JVM）专家团队的必要性和经济价值，这些专长虽非表面核心业务，但能解决关键问题、实现长期优化并创造显著收益。

这篇文章的另一个可能的标题是：“Twitter竟然有一个内核团队？”。迄今为止，我听到过太多次这种惊讶的感叹，次数多到已经记不清了（我猜大概超过十次，但不到一百次）。如果我们看看那些在规模上（无论是市值还是工程师数量）与Twitter相差不大的流行公司，它们大多没有类似的专业知识，这往往是路径依赖的结果——因为它们“成长”于云端，不像本地部署公司那样需要内核专业知识来维持运转。虽然从社交角度可以理解那些在更年轻、更潮流公司工作的人对Twitter拥有内核团队感到惊讶，但我认为在技术层面上这种惊讶是没有道理的。

无论是否拥有内核专业知识，一家与Twitter规模相当的公司都会定期遇到内核问题，从重大的生产事故到小的麻烦。如果没有内核团队或等效的专业知识，公司将在解决问题时步履维艰，遇到不必要的问题，并且需要不必要长的时间来缓解事故。以一个关键的生产事故为例，因为这件事已经公开撰文，我引用这篇文章，其中冷静地指出：

去年早些时候，我们发现了一个防火墙配置错误，它意外地丢弃了大部分网络流量。我们预计重置防火墙配置可以修复这个问题，但重置防火墙配置却暴露了一个内核错误。

这段话暗示但没有明确说明的是，这次防火墙配置错误是在我任职于Twitter期间发生的最严重的事故，我相信这实际上是自2013年左右以来Twitter经历的最严重的故障。作为一个公司，即使没有内核团队或另一个具备深厚Linux专业知识的团队，我们仍然能够缓解这个问题，但要理解为什么最初的修复不起作用需要更长时间，而这正是你处理严重故障时最不希望发生的。内核团队的成员已经熟悉各种诊断工具和调试技巧，能够快速理解为什么最初的修复没有奏效，而这在一些同行公司中并非共识（我曾调查过几家类似规模的同行公司，询问他们是否认为至少有一人具备快速调试该错误所需的知识，许多公司的回答是否定的）。

在内部各领域拥有专业知识的另一个原因是，它们很容易收回成本，这是大型公司应该比大多数人预期的规模更大这一普遍论点的特例，因为微小的百分比提升在绝对金额上价值巨大。如果在像内核团队这样的专家团队的生命周期内，有一个人发现某项持续性措施能降低总拥有成本（TCO）0.5%，那将足以永久支付该团队的成本，而Twitter的内核团队已经找到了许多这样的改变。除了有时会产生这种影响的内核补丁，人们还会发现具有同等影响的配置问题等。

到目前为止，我只谈到了内核团队，因为它是那个最常因其存在本身而引起人们惊讶的团队，但当人们发现Twitter拥有一批曾在Sun JVM团队工作、参与过HotSpot开发的专家时，比如Ramki Ramakrishna、Tony Printezis和John Coomes，我也会收到类似的反应。人们好奇为什么一家社交媒体公司需要如此深入的JVM专业知识。与内核团队一样，我们这个规模的使用JVM的公司会遇到奇怪的问题和JVM错误，拥有深厚专业知识的人来调试这类问题很有帮助。而且，与内核团队一样，对JVM的单独优化也能永久支付该团队的成本。一个具体的例子是Flavio Brasil的这个补丁，它虚拟化了比较并交换（CAS）调用。

这里的背景是Twitter大量使用Scala。尽管有很多相反的说法，但Scala比Java占用更多内存，速度也明显更慢，如果在大规模使用Scala，这会产生显著的成本，因此有必要进行优化工作，以减少地道Scala与地道Java之间的性能差距。

在补丁之前，如果你分析我们的Scala代码，你会看到在Future/Promise上花费的时间多得不合理，甚至在一些你天真地期望编译器能优化掉工作的场景也是如此。一个原因是Future使用了对JVM优化不透明的比较并交换（CAS）操作。上面链接的补丁在Future不逃逸方法范围时避免了CAS操作。这个配套补丁则移除了一些不太适合编译器优化的地方的CAS操作。这两个补丁结合使用，将使用地道Scala的典型Twitter主要服务的成本降低了5%到15%，其收益足以永久支付JVM团队的成本许多次，而这甚至不是Flavio那年发现的最大收益。

我不会逐一剖析那些自身价值远超成本的团队，因为这样的团队太多了，即使我只限定在“人们惊讶于Twitter竟然拥有这些团队”的范围内。

一个相关话题是人们如何讨论“购买还是自建”的决策。我见过一些讨论，有人主张“购买”，因为这将免去在该领域所需的专业知识。这有时可能是对的，但我看到这种主张被提出的频率远高于其正确性。我认为一个往往不适用的例子是分布式跟踪。我们之前研究过Twitter如何从跟踪中获得价值，这源于Rebecca Isaacs提出的愿景。另一方面，当我与规模类似的同行公司的人交谈时，他们中的大多数人尚未（或至今未能）成功从分布式跟踪中获得显著价值。这非常普遍，以至于我每年不止一次看到Twitter上关于分布式跟踪多么无用的热门话题。尽管我们选择了更昂贵的“自建”选项，但仅凭记忆，我就能想到多个跟踪的用例，其回报是构建跟踪系统成本的10到100倍，而许多选择更便宜“购买”选项的公司的人则普遍抱怨跟踪不值。

巧合的是，我刚和Pam Wolf讨论过这个完全相同的话题，她是一位拥有跨大洲（土木工程）行业经验的土木工程教授，持有一个相关的观点。对于大型系统（项目），你需要为不在自己公司内部处理的每个领域配备一名内部专家（业主方工程师）。虽然从技术上讲，可以再聘请另一家公司来担任专家，但这比培养或招聘内部专家更昂贵，从长远来看风险也更大。这与我作为电气工程师的经历非常相似，那些将职能外包给其他公司而不保留内部专家的组织，付出了非常高的代价，而且不仅仅是金钱上的。他们常常交付有缺陷的设计，并伴随着高昂的成本和长时间的延迟。“购买”可以且常常减少所需专业知识的数量，但往往无法消除对专业知识的需求。

这与另一个常见的抽象论点有关，即公司应专注于“其比较优势领域”、“最重要的问题”或“核心业务需求”，并将其他一切都外包出去。我们已经看到几个例子说明这并不正确，因为在足够大的规模下，无论某事是否是核心业务，拥有内部专业知识都更有利可图（人们可能会辩称所有内部化的事情都变成了核心业务，但这将使“核心性”这一概念失去意义）。这种抽象建议过于简单的另一个原因是，企业可以在一定程度上任意选择其比较优势是什么。一个大的¹例子是苹果将CPU设计内部化。自从以2.78亿美元收购PA Semi（前身是SiByte团队，更早之前是DEC的一个团队）以来，苹果一直在生产在手机和笔记本电脑功耗范围内明显领先的最佳芯片。但是，在收购之前，苹果并没有什么使其收购成为必然，也没有什么使CPU设计成为苹果固有的比较优势。但是，如果一家公司可以选择一个领域并使其成为比较优势，那么建议公司应专注于其比较优势就不是一个很有用的建议了。

2.78亿美元在绝对数额上是一大笔钱，但作为苹果资源的一部分，它微不足道。规模小得多的公司也可以通过投入一小部分资源来从事前沿工作，例如，Twitter以任何一家价值1亿美元公司都能负担的成本，创建了新颖的缓存算法和数据结构，并正在进行其他前沿的缓存工作。拥有优秀的缓存基础设施对Twitter业务的核心性，并不比为苹果创造优秀CPU更高，但它是Twitter可以用来赚取更多收入的一个杠杆。

对于小公司来说，为公司触及的所有领域都配备内部专家并不合理，但公司无需发展到非常大的规模，就可以开始在操作系统、语言运行时和其他人们通常认为相当专业的组件上拥有内部专业知识。回顾Twitter的历史，姚越指出，当她在Twitter早期（大约100名工程师）负责缓存工作时，她经常向内核团队寻求帮助来调试生产事故，在某些情况下，如果没有内核团队的帮助，调试可能需要10倍的时间。社交媒体公司通常在每用户和每美元基础上的规模相对较高，因此不是每家公司都会在拥有100名工程师时需要同样的专业知识，但在那些并非明显核心业务需求的领域，即使对于一个拥有100名工程师的初创公司，专业知识也会带来回报。

感谢Ben Kuhn、姚越、Pam Wolf、John Hergenroeder、Julien Kirch、Tom Brearley和Kevin Burke的评论/修正/讨论。

其他一些大的例子是韩国财阀，如现代汽车。虽然审视现代集团各公司之间如何关联到现代汽车公司可能并非正确视角，但我将使用这个视角，因为本博客的大多数读者可能已经熟悉现代汽车，而不熟悉韩国财阀的运作方式。

粗略地说，有许多例外，但美国公司至少从80年代起，往往倾向于采纳专业化、专注于自身能力的建议。这与韩国财阀所走的方向相反。现代不仅制造汽车，他们还生产汽车使用的钢铁、用于自动化生产的机器人、工厂使用的水泥、建造工厂的建筑设备、运输汽车（他们也经营）的集装箱和船舶、汽车的变速箱等等。

如果我们看某个特定部件，比如他们的8速变速箱与广受好评且广泛使用的采埃孚8HP变速箱相比，评测者通常略微偏爱采埃孚变速箱。但即便如此，拥有足够好的内部变速箱，以及许多其他公司通常会购买的内部部件，似乎对现代来说并不构成劣势。
^[返回]

由 mimo-v2.5 模型翻译，花费 5823 tokens

测量、基准测试和数据分析被低估了

Fri, 27 Aug 2021 00:00:00 +0000

[AI 摘要] 本文通过众多案例论述了测量、基准测试和数据分析如何推动产品改进和行业进步，但这一领域却被普遍低估。

我经常被问到这样一个问题：为什么要费心测量X，为什么不直接去构建点东西呢？更直白地说，在最近与一位通讯作者的对话中，他对一些我计划进行的未来测量项目（与其他项目类似，例如键盘与鼠标、键盘、终端和端到端延迟测量），带着一丝自得的表情和轻蔑的语气评论道：“所以你只是想上Hacker News头条？”

前一种暗示测量不如构建有价值，后一种则暗示测量根本没有价值（或许除了成名），但我并不认为测量是次要的，更谈不上无价值。如果有的话，因为测量和写作一样，通常不被重视，所以寻找高投资回报率（ROI）的测量项目比寻找高ROI的构建项目要容易得多。

让我们先来看几个高影响力的测量项目案例。我想到的首选例子是Kyle Kingsbury与Jepsen的工作。在Jepsen出现之前，只有少数几家大型公司（现在市值超过1万亿美元、被人们称为“超大规模”的公司）对其分布式系统进行了相当充分的测试。它们大多没有以能真正促使知识传播到整个行业的方式来讨论其测试方法。在那些公司之外，大多数分布式系统按照我的标准来看，测试得并不充分。

当时，在线讨论分布式正确性时常见的模式是：

A人：数据库X损坏了我的数据。
B人：我用着没问题。它从未损坏过我的数据。
A人：你怎么知道？你检查过数据损坏吗？
B人：你什么意思？如果发生数据损坏我会知道的（另一种答案：是的，我们有时会有数据损坏，但这可能是硬件问题，因此不是我们的错）

Kyle早期的工作发现，尽管当时的Jepsen远不如现在成熟，但它测试的几乎所有系统都存在严重缺陷：

Redis集群 / Redis哨兵：“我们展示Redis在分区期间丢失了56%的写入”
MongoDB：“在本文中，我们将看到MongoDB丢失了惊人的大量数据”
Riak：“我们将看到Riak中的最后写入获胜策略如何导致无限的数据丢失”
NuoDB：“如果您正在考虑使用NuoDB，请注意，该项目的营销和文档可能超出了其当前能力”
Zookeeper：这是Jepsen早期测试分布式系统中唯一没有发现灾难性错误的一个
RabbitMQ集群：“RabbitMQ丢失了约35%的已确认写入……这不是理论问题。我知道至少有两个RabbitMQ部署在生产环境中遇到了这个问题。”
etcd 和 Consul：“etcd的寄存器不是线性化的……Consul中‘一致’的读取会返回任何自认为是领导者的节点的本地状态，允许陈旧读取。”
ElasticSearch：“健康检查端点会说谎。它乐于在脑裂场景下报告一个绿色的集群……1961次写入中，有645次被确认然后丢失。”

其中许多问题已经存在了相当长的时间

真正令人惊讶的是，这个问题被忽视了这么久。最初的问题是在2012年7月报告的；距今已近整整两年。网站上没有相关讨论，文档中也没有提及，参加ElasticSearch培训的用户告诉我，这些问题在课程中也未被提及。

Kyle随后引用了一些在生产环境中遇到问题的用户，并干巴巴地指出：

有些人实际上提倡将ElasticSearch用作主要数据存储；我认为在当前这不太明智。

尽管我们无法进行A/B测试来比较Kyle存在与不存在的宇宙，也说不出在没有Kyle的宇宙中分布式系统要多久才能认真对待正确性问题，但根据我多年来观察开发者如何对待正确性错误的经验，我敢打赌，在类似Kyle这样的人出现之前，分布式系统会普遍存在正确性问题。当我看到灾难性错误被报告时，典型的反应是项目维护者假设错误报告不正确（如果你查看Kyle工作头几年的回应，你会看到很多例子）。当报告者无法重现该错误时（在分布式系统中这很常见），该错误将被认为不存在。

当报告者确实能重现错误时，下一道防线是论证这种行为是正常的（你同样可以从Kyle工作的回应中看到很多这样的例子）。一旦错误被确认为真实存在，下一个辩护是争辩说该错误无需修复，因为它非常罕见（例如，“很容易站在象牙塔上宣讲理论，但现实世界的成本效益是什么？你是在建造NASA航天飞机运输车来买杂货吗？”）。然后，在承认这个错误应该被修复之后，最后一道防线是争辩项目非常重视正确性，实在没有什么更多能做的了；开发和测试方法不需要改变，因为错误的出现只是偶然，没有方法论改变的情况下类似错误不会再次发生。

Kyle的工作突破了这些防线，如果没有类似的工作，我认为我们仍然会看到这些是对抗分布式系统错误的主要辩护（而不是那些实际上能够产生相当可靠系统的测试方法）。

这是一个特定的例子，但我发现一个普遍现象：在没有人发布产品测量/基准测试的领域，产品通常是次优的，而且一旦被测量，这些问题往往相对容易修复。以下是一些例子：

键盘：在我发布这篇关于键盘延迟的文章后，至少有一家宣传高速游戏设备的主要制造商实际上开始优化输入设备延迟。当时，很少有人测量键盘延迟，我只能找到另一个做过测量的人（我想寻找其他测量结果是因为我的测量结果高得令人难以置信，而我在线找到的唯一一个测量结果与我的测量结果处于同一范围）。现在，所有主要的游戏键盘和鼠标制造商都提供了延迟相当低的设备，而在此之前，生产游戏设备的公司专注于那些几乎没有影响的流行词优化（比如更高速的USB轮询率）
计算机：在我发布其他一些关于计算机延迟的文章后，一家之前并未认真进行UI延迟工作的主要软件公司的工程师告诉我，一些工程师已经开始测量和优化UI延迟；此外，alacritty的作者提交了这个工单讨论如何降低alacritty延迟
汽车前大灯：Jennifer Stockburger指出，当《消费者报告》开始测试前大灯时，汽车制造商的工程师们感谢CR为他们提供了让前大灯更有效的论据；此前，他们会输给那些想要外观更漂亮但效果较差的前大灯的设计师，因为通过设计更好的前大灯来使汽车更安全是一个很难推销的概念，因为没有商业案例，但让汽车在《消费者报告》评测中得分更高让他们有时能赢得辩论。没有第三方测量，以业务为导向的汽车高管没有理由听从工程师的意见，因为几乎没有新购车者会去做任何类似于好好测试他们的前大灯能照亮道路多远的测试，测试前大灯会让对向驾驶员眩目程度的人就更少了，因此设计师不受约束地创造出他们认为最好看的产品，而不管效果如何
汽车防抱死制动系统：在《消费者报告》和《Car and Driver》发现特斯拉Model 3的制动距离极长（从60英里/小时到0需要152英尺，从70英里/小时到0需要196英尺）后，特斯拉更新了用于调节制动的算法，这显著缩短了制动距离，使特斯拉从同级最差变为优于平均水平
汽车碰撞安全：除了沃尔沃，汽车制造商通常设计他们的汽车以在公布的碰撞测试中获得最高分数；当新测试公布时，他们会增加安全性以取得好成绩，但之前不会

任何人都可以做上面的项目（虽然《消费者报告》购买他们测试的车辆，但一些新兴的汽车评论员通过Turo租车）！

这篇文章解释了为什么测量事物是有价值的，但老实说，我进行测量的动力是好奇心。我只是想知道一个问题的答案。这在我有博客之前就经常做，即使现在有了博客，我也常常不把结果写出来。但即使你对与世界互动时实际发生的事情没有好奇心，你只是“想找点有用的事情做”，几乎所有东西都缺乏测量意味着寻找高ROI的测量项目很容易，至少在对世界的影响方面如此——如果你想赚钱，构建东西可能更容易变现。

附录：“所以你只是想上Hacker News头条？”

当我看到那些我喜欢的、登上Hacker News头条的文章，比如Chris Fenton的项目或Oona Raisanen的项目时，我认为很明显他们的动机不是Hacker News或其他名声，因为他们在博客在Hacker News或其他社交媒体上走红之前很久就在做这些有趣的项目。我不认识他们，但如果非要我猜他们为什么做这些项目，主要是因为他们觉得做这类项目很有趣。

我显然不能说没有人以登上Hacker News头条为主要目标来从事个人项目，但作为一种动机，它与我在Hacker News上阅读的个人项目内容的最明显解释（有人在享受乐趣、有人好奇等等）如此不一致，以至于我觉得有人认为这是一个合理的假定动机有点令人费解。

附录：我测量文章的动力

从某种意义上说，我为什么决定写这些文章并不重要，但如果我读到别人关于这个话题的文章，我仍然会好奇是什么促使他们写作，所以以下是我写测量文章的动力（就本列表而言，包括我整理数据但不进行直接测量的文章）。

danluu.com/car-safety：我当时在考虑买车，想知道鉴于美国测试中汽车大多获得高分，我是否应该预期制造商之间在安全性方面存在显著差异。
- 我没有把它写进文章是因为我觉得它太琐碎了（因为数量级很明显，即使不进行计算也能看出来），但我还计算了在车祸中死亡的概率，以及使用一辆较旧的二手车与一辆较新的二手车之间的预期寿命变化。
danluu.com/cli-complexity：当我看到Gary Berhardt展示如何计算ls单字母命令行选项数量时，我产生了这个想法，这让我想知道这是不是近期的变化。
danluu.com/overwatch-gender：我当时刚看到两个巨大的Reddit帖子在争论女性在线游戏中受到的待遇是否存在性别偏见，我觉得我获取相关数据的时间会比人们在那些帖子中写评论的时间短。
danluu.com/input-lag：我想知道我是否应该相信我的感觉，即我使用的现代计算机比我以前用过的旧设备延迟高得多。
danluu.com/keyboard-latency：我想知道有多少延迟来自键盘（显示延迟已经由https://blurbusters.com进行了很好的测试）。
danluu.com/bad-decisions：我看到理性社区有人为糟糕的棒球执教决策辩护，说它们不是什么大事，因为它们一年可能只让你输掉四场比赛，这不算什么，我想知道糟糕的执教决策到底有多大影响。
danluu.com/android-updates：我好奇由于大多数Android手机无法更新，有多少不安全的Android设备在外面。
danluu.com/filesystem-errors：我好奇文件系统在解决2005年一篇论文发现的数据损坏错误方面改进了多少。
danluu.com/term-latency：我觉得终端基准测试都在测量一些基本上与用户体验无关的东西（吞吐量），我想知道如果有人测量可能更重要的东西会是什么样子；我也想知道我感觉iTerm2很慢是真实的还是我的想象。
danluu.com/keyboard-v-mouse：关于键盘与鼠标生产力最被广泛引用的来源明显是虚假的，并且被陈述得极其自信；我想看看非虚假的测试是否会得出相同或不同的结果。
danluu.com/web-bloat：我在美国进行了一次公路旅行，在那里网络基本上无法使用，我想量化在没有非常快速的互联网访问时网络的不可用性。
danluu.com/bimodal-compensation：我好奇我们是否正在看到编程领域中层工作的空心化，就像我们在法律工作中看到的那样。
danluu.com/yegge-predictions：我印象中Steve Yegge对科技未来的预测异常准确，我想看看我的印象是否正确。
danluu.com/postmortem-lessons：我想看看关于事后分析原因有什么数据，看看我是否能改变我的运作方式并变得更有效率。
danluu.com/boring-languages：我好奇我使用的软件中有多少是用无聊的、古老的语言编写的。
danluu.com/blog-ads：我想知道如果我想让博客变现，我能赚多少钱。
danluu.com/everything-is-broken：我想看看我遇到这么多软件错误的印象是否正确。许多人告诉我，人们经常遇到很多软件错误的想法是选择性记忆造成的错觉，我想知道这对我来说是否属实。
danluu.com/integer-overflow：我曾与一位语言设计师讨论，他确信整数溢出检查太昂贵而不能做，理由显然站不住脚（因为如果你做100%是整数操作的基准测试，它确实昂贵），我想看看我快速心算的开销估算是否数量级正确。
danluu.com/octopress-speedup：在观看了Dan Espeset的演讲后，我想知道是否有我可以对当时的Octopress网站进行的简单优化。
danluu.com/broken-builds：我与某人进行了一系列讨论，他声称他们的项目有非常好的构建正常运行时间，尽管它经常中断；我想知道他的说法相对于其他类似项目是否正确。
danluu.com/empirical-pl：我想知道有哪些研究支持那些声称有坚实经验证据证明“花哨”类型系统优越性的人。
danluu.com/2choices-eviction：我好奇如果将“两次随机选择”应用于缓存淘汰会发生什么。
danluu.com/gender-gap：我想验证一篇声称科技领域薪资没有性别差距的文章中的说法。
danluu.com/3c-conflict：我想创建一个简单的例子来说明对齐对内存延迟的影响。

顺便说一句，写下这个列表让我意识到我脑中关于我何时以及如何开始认真对待数据的叙事一定是错误的。我以为这是我当前工作带来的东西，但显然不可能，因为我当前工作之前的相当一部分文章都是关于数据分析和/或测量事物的（我甚至没有列出一些我阅读论文并查看其中数据的数据驱动文章）。看到上面的列表后，我意识到我做上述项目不仅远在我有这份工作之前，甚至远在我有这个博客之前。

附录：为什么你不能相信某些评测

做好的测量既会增加也会减少其影响力，这一点的原因在于，大多数发布的测量效果并不好。这增加了理解如何做好测量以及进行良好测量的个人价值，但它削弱了对其他人的影响，因为人们通常不理解什么使测量无效，并且没有好的算法来决定信任哪些测量。

发布的测量/评测存在问题的原因多种多样。评测的一个主要问题是，在某些行业中，评测者严重依赖制造商提供评测样品。

汽车评测是其中最极端的例子之一。《消费者报告》是唯一独立采购评测车辆的主要评测机构，这常常导致他们与其他评测机构意见相左，因为他们会尝试购买大多数人购买的配置版本，而这通常与制造商提供给评测者的配置版本有很大不同，并且《消费者报告》通常能避免评测那些被特意挑选或调校过的不具代表性的车辆。有几次，《消费者报告》的评测员（他们也购买汽车）表示，他们认为有人意识到他们为《消费者报告》工作，然后说他们需要把车留宿一晚才能给他们刚刚购买的车；当这种情况发生时，评测员会放弃购买。

汽车之间存在相当大的个体差异，评测者得到的车往往是那些被挑选出来避免外观问题（油漆问题、面板间隙等）并且检查过更严重问题的车辆。此外，汽车的软件和固件可以被微调（例如，众所周知，宝马的评测车有引擎“调校”，如果你以类似方式改装你的车，会使保修失效）。

另外，因为《消费者报告》不是从制造商那里获取评测车，他们不必手下留情，可以写出非常负面的评测，这在汽车杂志上很少见，在汽车YouTube博主那里也不常见，你通常需要字里行间去解读才能得到诚实的评测，因为明确提到汽车负面内容的评测可能意味着失去访问权限（那个自称“savagegeese”的YouTube博主曾提到在给出诚实评测后难以获得一些公司的车辆访问权限）。

相机镜头是另一个有文献记录评测者会拿到异常好的样品的领域。镜头之间的个体差异巨大，因此供应商会挑选好的样品借给评测者。在许多情况下（例如任何FE卡口的ZA蔡司镜头或RX-1上的蔡司镜头），根据人们需要尝试和退回多少镜头才能得到一个好样品来看，似乎中等质量的镜头存在明显的制造缺陷，并且平均而言，可能只有十分之一的镜头没有明显缺陷（如果只有少数几个镜头有问题并被连续退回，也可能出现这种情况，但很少有摄影师真正检查他们的镜头是否存在制造差异问题）。由于获取大量镜头的成本很高，镜头个体差异的程度在镜头租赁开始测量之前一直未被量化；他们发现不同制造商可能有非常不同水平的个体差异，我希望这能对那些目前销售大量坏镜头却挑选好的样品给评测者的镜头制造商施加压力。

硬盘驱动器是另一个有文献记录评测样品不具代表性的领域。Extreme Tech曾多次报道，ADATA、Crucial和Western Digital向评测者提供的SSD评测样品与消费者购买的不同。我觉得这个案例有趣的一点是Extreme Tech说：

同意评测制造商的产品是各方信任的延伸。提供样品的制造商相信评测将是高质量的、彻底的和客观的。评测者则相信制造商提供的样品准确地反映了最终产品的性能、功耗和整体设计。当读者来阅读评测时，他们相信相关的评测者确实测试了硬件，并且发布的任何基准测试都是公平运行的。

这听起来像是评测者的工作是接受供应商交给他们的信任，然后运行好的基准测试，免除了评测者获取代表性设备并确保其代表性的责任。这让我想起SRE的座右铭，“希望不是一种策略”。信任供应商不是一种策略。我们知道供应商会为了在基准测试中表现更好而说谎和作弊。说这是供应商撒谎或作弊的过错可以推卸责任，但这不会导致评测变得准确或对消费者有用。

虽然我们只讨论了几个有已发表证据表明评测不可信、因为被公司损害的特定领域，但这并不特定于那些行业。作为消费者，我们应该预料到任何不是由可信的、独立的机构进行的、购买自己评测样品的评测都是被损害的，并且不代表中等消费者的体验。

评测的另一个问题是，大多数在搜索中排名靠前的在线评测实际上只是SEO联盟农场。

一个更普遍的问题是，评测也受到与未评测物品完全相同的问题影响：人们通常无法分辨哪些评测实际上是好的，哪些不是，因此评测网站是基于评测质量以外的因素被选择的。一个典型的例子是Wirecutter，它在科技人士中如此受欢迎，以至于注意到旧金山那么多科技公寓都摆放着Wirecutter推荐的相同物品已经是个老掉牙的笑话。对于没在旧金山生活过的人，你可以通过阅读这篇关于如何“不可能”不买Wirecutter推荐物品的帖子的评论来一窥这种心态，评论中充满了人们向发帖人保证，由于其时间的高价值，不做其他任何事情将是不负责任的。

我觉得有趣的是，如果你认真对待基准测试（在任何领域），只需阅读中位数Wirecutter评测的方法论，甚至无需尝试评测中的物品，你就能看出方法论很差，并且他们通常会选择平庸、有时甚至是同级最差的物品。对此的彻底探讨真的值得专门写一篇文章，但我在这里举一个评测不良物品的例子：在https://benkuhn.net/vc中，Ben Kuhn研究了如何创造良好的视频通话体验，其中包括尝试各种麦克风和网络摄像头。自然，Ben尝试了Wirecutter推荐的麦克风和网络摄像头。网络摄像头相当差，不比使用一台古老的2014年iMac或他的2020年MacBook的摄像头好（而且在我看来，实际上差得多；稍后详述）。麦克风也大致相当于使用他笔记本电脑的内置麦克风。

我有很多使用Wirecutter推荐网络摄像头的经验，因为很多人都有它，并且它差得惊人且很独特。Ben指出，如果你看一张静态图片，当他使用的那个房子里，白平衡很糟糕，如果你和其他使用过这款摄像头的人交流，这是个常见问题。但我觉得更严重的问题是，在许多条件下（我认为大多数情况下，因为经常见到），网络摄像头会定期重新对焦，导致整个视频反复失焦然后再对焦（另一个问题是它经常对焦在错误的东西上，但这不那么常见，我并非在每个使用Wirecutter推荐网络摄像头与我通话的人那里都看到这个）。实际上，就在昨天，我和一个朋友通话，他用的不是我通常看到的配置，而是那个平庸但完全可接受的MacBook摄像头。他的视频每10-30秒就会失焦一次，所以我问他是不是用的Wirecutter推荐的网络摄像头，他当然是，因为除了这个，科技人士还会买哪个有同样问题的摄像头？

这种评测质量水平在Wirecutter评测中相当典型，并且它们似乎是科技人士中最受尊敬和使用最广泛的评测网站。

附录：资本主义

我上高中时，有一群早期的“愤世嫉俗者”会做一些事情，比如读《钟形曲线》并把它的论点向任何愿意听的人宣扬。

他们最喜欢的话题之一是自由市场如何自然会导致生产好产品的公司脱颖而出，而生产差产品的公司会消失，从而使事物通常安全、物有所值等等。我仍然经常看到科技行业的人持这种观点，包括那些用Wirecutter推荐物品填满公寓的人。我觉得人们一边争辩市场通常会导致产品变好，一边自己却购买价格虚高的垃圾，这种并列充满了讽刺意味。公平地说，并不全是价格虚高的垃圾。有些是价格虚高的平庸之作，有些实际上还不错；只是它和你在亚马逊上不读第三方评测而随意购买的东西没有太大区别。

附录：测量（或缺乏测量）影响的其他例子

电子稳定控制系统
- 丰田RAV4：评测前评测后
- 丰田Hilux 评测前评测后
- 日产Rogue：在《消费者报告》发现稳定控制系统问题后进行了重大改进。
- Jeep大切诺基：评测前评测后
工作上的一些无聊事：一年前，我写了这两篇文章，关于工作中的可观测性基础设施。当时，这项工作已经带来了8位数的成本节省，现在这个数字已经远超9位数。这可能值得单独写一篇文章，但大部分工作在有人真正能观察到发生什么之后就变得直截了当了。
- 相关地：在看到几个问题影响生产服务后，我写了一个小型（5千行代码）解析器，用于解析各种主机级日志中出现的每一行，作为检查那些未在我们的指标中捕获的问题是否被记录。这发现了那些未使用自动化解决方案来捕获和补救主机级问题的集群中的重大问题；对于某些集群，超过90%的主机正在主动损坏数据或存在严重的性能问题。这导致创建了一个新团队来处理这类问题。
轮胎
- 几乎所有制造商（米其林除外）随着轮胎磨损，其湿滑路面、雪地和冰面性能都会严重下降
  - Jason Fenske说其中的技术原因之一是（还有其他原因）提高抓地力的刀槽花纹通常不会被切到全深度，因为这样做会显著增加制造成本，因为切割刀槽的设备需要更强且磨损更快。
  - 一个非技术原因是许多发布的轮胎测试都是在全新轮胎上进行的，因此轮胎制造商通过仅制作部分深度的刀槽花纹就能获得几乎相同的营销基准值。
- 随着Tire Rack知名度的提高，一些轮胎制造商使其刀槽花纹更具多向性，以改善转弯时的操控性，而不是主要或仅垂直于行驶方向切割花纹（这主要只对加速和制动有帮助，《消费者报告》的雪地和冰面评分分别基于在雪地上直线加速和在冰面上直线制动，而Tire Rack的冬季测试评分则强调全方位的雪地操控性）
- 测量影响如何受限制的一个例子：米其林冬季轮胎项目经理Farrell Scott表示，在设计米其林X-ICE Xi3的后继产品时，主要设计标准之一是改变轮胎的外观，因为米其林发现客户认为X-ICE Xi3尽管与普利司通Blizzak WS80一起被认为是最佳的全能冬季轮胎（在某些方面略好，某些方面略差），但潜在客户通常会选择其他轮胎，因为它们看起来更像人们心目中“有侵略性”胎块的冬季轮胎（著名的诺记Hakkapeliitta轮胎系列在这方面做得更好得多）。他们也改了名字；新轮胎没有按数字递增，而是命名为米其林X-ICE SNOW，以强调该轮胎适用于雪地和冰面。
- 尽管有些消费者确实阅读评测，但许多（可能大多数）消费者并不阅读！
用于实时视频的HDMI转USB转换器
- 如果你阅读Camlink 4k的文档，他们会指出该设备在Windows上应使用批量传输，在Mac上应使用等时传输（如果使用他们的软件，它会自动进行此调整）
  - Fabian Giesen告诉我，这可能是出于和他同事测试特定USB3设备在Windows上只有5个测试的芯片组中有1个正确支持等时传输（其余会蓝屏或死机）相同的原因
- 我尝试了各种便宜的HDMI转USB转换器作为Camlink 4k的替代品，至今尚未找到一款便宜且能在各种计算机上正常工作的。它们通常至少在我能访问的一台计算机上、使用至少一款我想用的软件时能工作，但在某些情况下根本无法工作或提供非常扭曲的视频。也许有人应该发布HDMI转USB转换器质量的基准测试！
HDMI转VGA转换器
- 许多这类转换器会变得非常热，然后过热，在15分钟到2小时内停止工作。有些甚至摸起来都不热。祝你好运，弄清楚哪些能用！
水过滤
- Brita声称他们的“长效”滤芯能去除铅。然而，两位不同的亚马逊评测者表示，他们在过滤前后测量了受污染水中的铅含量，发现铅含量并未降低。
- 以前水流经“长效”滤芯的速度非常慢，这是购买该滤芯用户常见的投诉。现在一些（或许是所有）“长效”滤芯过滤水的速度快得多，但过滤效果未达到Brita声称的水平。
体育裁判
- 棒球裁判以做出正确判罚能力差而闻名，我们拥有做出近乎完美判罚的技术已有数十年了，但许多人争辩说，由人类做出不正确判罚是“比赛的一部分”，如果计算机参与判罚，比赛就不会那么真实了。
- 一些体育项目已部分屈服于在可能时做出正确裁决的压力，例如在橄榄球中，NFL教练在1999年被允许基于录像资料每场比赛挑战两次判罚（如果前两次挑战成功，2004年开始为三次），模仿了小众的USFL在1985年创建的系统。
储物容器
- 乐柏美储物容器（Rougneck和Toughneck）过去以其质量和耐用性而闻名。当然，从短期来看，减少使用材料和容器强度更有价值，所以另一家公司收购了该品牌并继续使用它，生产外观相似但以堆叠容器时会压弯而闻名的容器，而这正是可嵌套/可堆叠容器的全部意义。我没有看到有人真正对储物容器的承重能力进行过认真基准测试，所以通常你无法知道这是否会发生在你身上。
扬声器振动隔离方案
- Ethan Winer得出结论，这些是发烧友的安慰剂

感谢Fabian Giesen、Ben Kuhn、Yuri Vishnevsky、@chordowl、Seth Newman、Justin Blank、Per Vognsen、John Hergenroeder、Pam Wolf、Ivan Echevarria和Jamie Brandon的评论/修正/讨论。

由 mimo-v2.5 模型翻译，花费 17031 tokens

反对本质复杂性与偶然复杂性

Tue, 29 Dec 2020 00:00:00 +0000

[AI 摘要] 该文批判布鲁克斯《没有银弹》中关于编程本质复杂性占主导、技术改进空间有限的观点，认为偶然复杂性占比巨大且可通过工具与实践持续削减，布鲁克斯严重低估了技术进步潜力。

在经典的1986年文章《没有银弹》中，弗雷德·布鲁克斯认为，在某种意义上，几乎没有太多方法可以提高程序员生产力。他的推理是，编程任务包含一个核心的本质/概念复杂性¹，这种复杂性从根本上无法通过任何潜在的技术进步（如语言或工具）来攻克。然后他运用了阿姆达尔定律的论证，指出由于复杂性的1/X是本质的，因此通过技术改进永远不可能获得超过X倍的提升。

在文章接近尾声时，布鲁克斯声称编程中至少一半（大部分）的复杂性是本质的，将所有技术创新组合起来的潜在改进上限限制在最多2倍²：

所有针对软件过程中偶然问题的技术攻击，都从根本上受到生产力方程式的限制：

任务时间 = Σ（频率_i * 时间_i）

如果我相信，如我所信，任务的概念组成部分现在占据了大部分时间，那么无论对仅仅是概念表达的任务组成部分进行多少活动，都无法带来大的生产力提升。

布鲁克斯陈述了程序员生产力可以提升的上限。但是，在实践中，要正确陈述这个上限，就必须能够构想出那些由于当前技术摩擦过大而无人会合理尝试解决的问题。

在无法预测未来的情况下，这是无法估计的。如果我们知道未来，可能会发现程序员可以高效使用的计算能力或存储资源存在某种实际限制，从而限定了程序员可用的资源，但要界定偶然复杂性的程度，仍然需要正确推断程序员将如何能够使用比现在多无数倍的资源，这如此困难，我们不妨称之为不可能。

此外，对于每一类可能存在的工具，人们必须有效地预见所有可能的创新。布鲁克斯的策略是查看现有的工具类别，并指出每一类要么无效，要么虽有效但已发展到头。这不仅是错误的，因为它低估了当时尚未存在、尚未有效或他不熟悉的工具类别（例如，他否定了形式化方法，却没想到提及fuzzing工具、不完全形式化验证代码的静态分析工具、valgrind之类的工具等），而且还因为布鲁克斯认为每一个有重大改进的工具类别都已发展到头，但事实证明它们都没有。例如，布鲁克斯认为编程语言已基本发展到头，而就在“脚本语言”兴起之前，以及在GC语言接管绝大多数编程之前³。尽管你偶尔会听到类似的说法，但没有多少人会主动用C语言编写一个web应用程序，因为现代语言带来的收益不可能只是相对于现代语言的2倍。

布鲁克斯否定的另一个领域是人工智能，他说“用于语音识别的技术与用于图像识别的技术似乎没什么共同点，而且两者都与专家系统中使用的技术不同”。然而，这当然不再正确——神经网络在图像识别和语音识别方面都非常有效。它们作为编程工具是否有效尚待确定，但布鲁克斯反对人工智能论证的一个关键点已被证伪，认为一个显著改进的GPT-2可能会给程序员带来显著的生产力提升并非牵强。当然，布鲁克斯无法预见神经网络在语音和图像识别方面变得有效，这是合理的，但正是这一点使得布鲁克斯否定人工智能以及计算机科学其他所有领域的所有未来进步变得不合理。

布鲁克斯还低估了实践和支持实践的工具所带来的收益。仅举一例，看看老派编程大师的主张，我们有肯·汤普森认为语言安全性毫无用处，bug的发生是因为人们编写了脆弱的代码，如果他们不想有bug就不应该这样做；还有杰米·扎温斯基认为，在紧迫的期限下，自动化测试是浪费时间，“第一次就做对有很多好处”而无需测试。布鲁克斯承认测试的重要性，但他唯一提到的可能改进是能让初学者测试更容易的专家系统。如果你看看中等规模现代软件项目的复杂性，它们已经远远超出了80年代所见过的任何软件项目。如果你真正思考一下使用老派正确性实践来处理这些项目意味着什么，我认为从那些实践到现代实践的加速对于一个典型团队来说是无限的，因为大多数使用那些实践的团队如果面临许多大公司已独立解决的问题（例如，生产一个具有某种声明式SLO的分布式数据库），根本无法产出一个可工作的产品。有人可能会质疑无限加速的说法，但任何参与过认真对待正确性的复杂项目的人都会使用能带来巨大开发加速的工具和技术，轻松超过相对于80年代实践的2倍提升，这种可能性似乎布鲁克斯从未想到，因为他认为由于测试涉及的本质复杂性，重大的测试改进是不可能的。

另一个基本的工具/实践例子是版本控制。一个支持多文件提交、分支、只要开发人员不修改同一行就能正常工作的自动合并等功能的版本控制系统，是一项相当现代的发明。在90年代，微软处于软件开发的前沿，他们直到Win2k之后才设法获得一个能支持他们所需仓库规模（Win2k开发的3000万行代码）并支持分支的版本控制系统。分支是通过简单地复制整个源代码树，然后手动尝试合并源代码树的副本来模拟的。更改源代码树需要特殊批准，由于手动合并的痛苦，整个Win2k团队（5000人，包括1400名开发人员和1700名测试人员）在顺利的情况下每天只能合并100个更改（在构建团队因花时间修复构建中断而停滞的糟糕日子里，则是0）。这是布鲁克斯写作十年后的事情，仅仅通过更好的版本控制工具、测试工具和实践、机器加速允许更快的测试等，就仍然存在着轻松一个数量级的加速机会。请注意，除了没有意识到版本控制和测试工具后来会带来巨大的生产力提升外，布鲁克斯还声称硬件加速不会显著提高开发人员的生产力，尽管硬件速度被认为是Win2k开发速度的一个主要限制因素。布鲁克斯无法想象有人会构建像Win2k这样复杂、真正能利用更快硬件的项目。当然，使用布鲁克斯时代的工具和实践，实际上不可能构建像Win2k这样复杂的项目，但工具和实践进步如此之快，以至于十年后就成为可能，即使由于“石器时代”的工具和实践，开发速度与我们今天习惯的相比慢如蜗牛。

从上面另一个子部分来看，布鲁克斯没有将CI/CD列为潜在的生产力改进，因为他甚至无法想象会有能够支持现代构建实践的工具。1995年写作时，布鲁克斯提到微软有人告诉他他们每晚构建。对此，布鲁克斯说启用每天（至少）一次构建可能工作量太大，并指出贝尔北方研究公司（Bell Northern Research）非常合理地每周构建一次。布鲁克斯写完后不久，谷歌成立了，谷歌的工程师甚至无法想象满足于微软那样的设置，更不用说每周构建了。他们不得不编写大量定制软件，将谷歌规模的单体仓库纳入今天被认为是现代实践的水平，但他们做到了。我工作过的一家成立于1995年的初创公司也建立了自己的CI基础设施，支持从HEAD进行持续合并和构建，因为任何着眼于可能实现而不是认为所有可能实现的事情都已完成的人都会这么做。对于大型项目，仅仅拥有CI/CD并保持干净的构建，相对于每周构建，应该轻松实现2倍的生产力提升，这比布鲁克斯声称的一半复杂性是本质所允许的更大。幸运的是，谷歌、我工作过的那家初创公司以及许多其他地方的工程师们并不相信不可能获得2倍的提升，并且实际上构建了能够带来巨大生产力提升的工具。

从某种意义上说，审视《没有银弹》非常类似于我们查看Unix并发现Unix大师们说我们应该像70年代那样编写软件，以及他们发明的语言和任何语言一样安全。早在计算机发明之前，长辈们就一直告诉下一代，他们已经做完了所有能做的事情，下一代将无法取得更多成就。在计算机时代，我们在编程之外也看到了无数类似的预测，比如克利夫·斯托尔现在臭名昭著的预测，即互联网不会改变任何东西：

有远见者看到了一个远程办公工作者、交互式图书馆和多媒体课堂的未来。他们谈论电子城镇会议和虚拟社区。商业和商务将从办公室和购物中心转移到网络和调制解调器上。数字网络的自由将使政府更加民主。

胡说八道。我们的计算机专家是不是缺乏常识？事实是，没有在线数据库能取代你的日报……那电子出版呢？试试在光盘上读一本书。最好的情况，这也是一种不愉快的苦差事：笨重电脑的近视光芒取代了书本友好的页面。而且你不能把那台笔记本电脑带到海滩上。然而，麻省理工学院媒体实验室的主任尼古拉斯·内格罗蓬特预言，我们很快就会直接通过互联网购买书籍和报纸。呃，当然……然后是网络业务。我们被承诺了即时目录购物——只需点击即可获得超值优惠。我们将通过网络订购机票、进行餐厅预订并协商销售合同。商店将过时。那么为什么我本地的购物中心一个下午的营业额就超过了整个互联网一个月的处理量？

如果你稍微搜索替换一下，斯托尔说的和布鲁克斯一样。当然，过去的技术改变了事物，但我无法想象新技术会如何改变事物，所以它们根本就不会改变。

即使对编程一无所知，我们也能看到这类论点在历史上从未站得住脚，并且相当有信心长辈们这一次并非正确。

布鲁克斯在成为实践者之后很长一段时间里一直在写作软件，但在1964年进入学术界后，并没有费心去跟进工业界发生的事情，这一点从我们审视的1986年文章中已经很明显，但如果你看他2010年的书《设计之设计》，这一点就更加明显，他在其中依赖于他早期文章和书籍中使用的相同例子，其大部分新材料来自他建造的一所房子。我们已经看到程序员试图将他们的知识推广到土木工程时，通常会说出任何土木工程二年级学生都能观察到是错误的愚蠢言论，结果证明，试图从房屋建造技术中提炼出关于软件工程设计技术的深刻见解同样不可行，但既然布鲁克斯没有跟上行业步伐，这就是他所能提供的。虽然存在超越时代和行业的永恒见解，但布鲁克斯有非常具体的建议，例如像鸡尾酒会式的外科手术团队那样管理软件团队，这些想法源于思考如何改进布鲁克斯在50年代IBM看到的开发实践。但事实证明，工业界已经远远超越了IBM在50年代的软件实践，那些相对于IBM在50年代实践有所改进的想法在70年后并非特别有用。

回到本文的主要话题，结合事后诸葛亮来看他关于偶然复杂性的具体论述，我们可以看到布鲁克斯1986年关于“我们基本上已经获得了高级语言所能提供的所有生产力提升”的说法，与1955年汇编语言程序员说汇编语言和任何语言一样好⁴的说法没有太大区别，而他对其他类别的主张也类似。这些主张主要证明的是缺乏想象力。当布鲁克斯提到概念复杂性时，他指的是使用1986年布鲁克斯所熟悉的（在他认为是编程问题的）问题上的概念构建块的复杂性。没有任何理由认为布鲁克斯1986年对编程的理解是根本性的，就像我们不应该认为1955年汇编程序员的想法是根本性的一样。人们经常嘲笑那句传言的“640K应该对任何人都足够”的话，但布鲁克斯说在所有潜在的生产力改进类别中，我们已经完成了大部分可能的事情，这是类似的，而且并非传言！

如果我们展望未来，可能是偶然的复杂性比例实际上是无限的。有人可能会争辩说，如果我们审视现在，这些术语并非毫无意义。但是，尽管这会因领域而异，我个人从未参与过一个不是完全被偶然复杂性主导的非平凡问题，这使得本质复杂性的概念在我参与过的任何值得讨论的问题上都毫无意义。

附录：具体问题

让我们看看我最近在工作中做的几件事如何印证这个本质复杂性的说法：

从一堆主机scp以读取和下载日志，然后解析日志以了解问题的范围
查询我雇主所有软件每个实例两年的指标数据，针对某些类别的软件，然后生成各种图表，以了解我对我们的软件正在做什么以及如何使用计算机资源的一些疑问

日志

如果我们把这个任务分解一下，我们有：

从几十万台机器scp日志到本地机器
- 用一个Python脚本来完成这个，以获得比pssh/parallel-scp更好的并行性和更健壮的错误处理
  - 编写脚本大约1分钟
在日志下载时做其他工作
- 解析下载的日志（几TB）
  - 用一个Rust脚本来完成这个，写几分钟（这里用Rust而不是Python是出于性能原因——仅仅是打开日志并逐行扫描的惯用Python实现，在我不想将任务分发到多台机器时，就已经比我想要的慢了）

在1986年，也许我会用telnet或ftp代替scp。现代脚本语言还不存在（perl创建于1987年，而perl5，第一个有人认为是现代版本的，于1994年发布），因此编写一个具有并行性和“足够好”的错误处理的代码，会比今天花费多一个数量级以上的时间。事实上，我认为仅仅在管理连接池的同时实现半体面的错误处理，就很容易比我完成这个整个任务（不包括在后台下载日志的时间）所花费的时间长一个数量级。

接下来是解析日志。比较“1TB”这样的绝对数字是不公平的，所以我们只称之为“足够让我们关注性能”（我们将在指标示例中更详细地讨论规模）。今天，我们可以选择高性能语言，轻松编写快速、安全的代码，并利用库（例如，正则表达式库⁵）的力量，这些库使我们能够轻松编写一个快速而粗糙的脚本来解析和分类日志，将工作分配到我计算机的所有核心上（我认为Zig也能做到这一点，但我用了Rust，因为我团队有相当数量的Rust程序员）。

在1986年，不会有可比的语言，但更重要的是，我无法轻松找到、下载和编译相应的库，而不得不手动编写所有解析代码，将一个几分钟的任务变成一个运气好也要花一个小时才能完成的任务。此外，如果我不知道如何使用库或知道可以使用库，我可以轻松地在StackOverflow上找到如何解决问题的方法，这将大大减少偶然复杂性。不用说，1986年并没有真正的相当于谷歌搜索StackOverflow解决方案的东西。

而且，即使在今天，这个任务，一个非常标准的程序员开发/SRE任务，在比1986年的类似任务至少快一个数量级之后，仍然几乎完全是偶然复杂性。

如果数据导出到我们的指标系统中，或者如果我们的集中式日志工作方式稍有不同，整个任务将是微不足道的。如果两者都不成立，但日志格式更统一，那么在获取日志后我就不需要编写任何代码；rg或ag就足够了。如果我看一下我在任务本质概念核心上花费了多少时间，它如此之小以至于难以估计。

查询指标

我们真的只需要一个反例，但我认为通过一个更复杂的任务来看看布鲁克斯的论点如何扩展，更具说明性。如果你想跳过这个冗长的例子，点击此处跳到下一节。

我们可以将我的指标查询任务视为由以下子任务组成：

编写一组Presto SQL查询，有效地扫描大约100TB的数据，从一个数据集中（如果我不维护只包含相关数据子集的表，该数据集大约为100PB的数据）
- 编写第一个查询大约30秒，查询完成需要几分钟，使用大约1个CPU年的CPU时间
编写一些ggplot代码来绘制我好奇的各种属性
- 不确定这花了多长时间；比查询完成的时间短，所以没有增加这个任务的总时间

这些任务中的第一个在今天完成起来比1986年快了多个数量级，我甚至无法在1-2个数量级内大胆猜测今天快了多少，但让我们把第一个任务分解成组成部分，以了解任务变得更容易的方面。

将绝对数字如100PB转换到1986年是不公平的，但仅仅是拥有一个收集和持久化综合数据的管道，类似于我作为消费软件公司正在研究的数据（关于我们软件资源使用和效率的各种数据），在1986年会被认为是荒谬的。在这里，我们看到了偶然-本质复杂性概念作为生产力改进上限的一个致命缺陷：具有太多偶然复杂性的任务甚至不会被认为是可能的。布鲁克斯所看到的偶然复杂性限制实际上是他想象力的限制，而不是根本性的。

布鲁克斯明确否定了增加计算能力是提高生产力的一种方式（“嗯，一个人能有效使用多少MIPS？”，后面会更多讨论），但存储和CPU能力（更不用说网络速度和RAM）是如此巨大的偶然复杂性来源，以至于它们限制了布鲁克斯能够构想出的问题空间。

在这个例子中，假设我们在1986年以某种方式有足够的存储来保存我们想要查询的数据。接下来的部分将是调度大约1个CPU年的资源，并让查询在几分钟内完成。与存储问题一样，这在1986年也会是荒谬的⁶，所以我们遇到了第二个如此巨大的非本质复杂性，以至于会让1986年的人根本想不到这个问题。

接下来是编写查询。如果我是在为Cray-2编写并想要高效，我可能会用Cray的Fortran 77方言编写查询。我能在每个查询不到300秒内完成吗？没门；我用Scala/Scalding甚至都无法接近，我认为即使用Python/PySpark也很悬。这是我们看到收益最小的一个方面，而我们仍然明显超过一个数量级。

在我们处理完数据后，必须生成图表。即使使用今天的技术，我认为不使用ggplot也会在生产力上损失至少2倍。我尝试过每一个据称等效的主要绘图库（无论哪种语言），我尝试过的每个库要么在绘制我认为在ggplot中是基础的图表时存在多个阻塞性错误，要么太底层，以至于我被迫手动完成在ggplot中微不足道的事情，损失了超过2倍的生产力。在2020年，仅仅一个库的存在就在这一个步骤上为我节省了2倍。如果我们回到1986年，在图形语法概念和任何合理的实现出现之前，即使假设有一些神奇的工作站硬件能够在合理的时间内完成我所做的绘图操作（我的机器渲染图表非常慢；Cray-2根本无法在合理的时间范围内完成渲染），我在绘图上损失的时间也不可能少于两个数量级。

从1986年到今天，这个问题偶然复杂性减少的数量级之多，我甚至无法估计，然而这个问题仍然包含如此大比例的偶然复杂性，以至于再次难以猜测复杂性的哪一部分是本质的。写下我能想到的所有偶然复杂性将需要至少2万字，但仅仅为了提供一点复杂性的风味，让我写下几件事。

SQL；这是一件表面简单但实际上极其复杂的事情
- 还有，Presto SQL
任意Presto限制，有些来自Presto本身，有些来自我们操作Presto的具体方式以及我们使用的版本
- 当我以特定方式同时使用numeric_histogram和cross join unnest时，会触发一个内部Presto数据结构断言失败。因为编写会暴露该bug的查询、等待它失败然后再重写它是浪费时间，所以我有一个心算的启发式方法来猜测，对于任何同时使用这两个结构的查询，我是否会遇到该bug，并应用它来避免编写两个查询。如果启发式方法适用，我会编写一个更冗长、执行更慢的查询，而不是那个更直接的查询
- 我们按日期对数据进行分区，但当我在查询中连接表时，Presto会丢弃这一点，导致在连接长时间跨度的数据时出现非常大且昂贵的连接，尽管原则上这可以是一系列廉价的连接；如果连接大到导致我的查询失败，我本质上会编写一个小查询编译器来执行逐日查询，然后根据需要对数据进行后处理，而不是编写朴素的查询
  - 有很多情况下，查询中的某种优化可以使查询可行，而无需跨天拆分查询（例如，如果我想将主机级别的指标数据与包含主机所在集群的表连接，这是一个跨多年数据的非常慢的连接，但我也知道哪些类型的主机在哪些集群中，这在某些情况下使我能够过滤掉主机级别指标数据中的主机，如核心计数和总内存，这可以使这个连接的较大输入足够小，从而使查询能够成功，而无需手动分区查询）
- 我们有一个“快”但内存限制“低”的Presto集群和一个“慢”但内存限制“高”的集群，所以我需要在心中估算查询所需的每个节点的内存，以便将其调度到正确的集群
- 等等
出于性能原因，我应该在Presto中计算CDF或直方图，还是留到最后让ggplot计算
我需要对数据进行多少降采样（如果需要的话）才能让ggplot处理，以及这可能会如何影响分析
任意ggplot的东西
- 在散点图中大约需要多少个点，我才应该停止使用size = [number]，而应该切换到单像素绘图，因为将点绘制为圆太慢了
- 点的最小允许不透明度是多少
- 如果我超过散点图中可以看到渐变的最大密度限制，我需要将图像制作得多大以适当降低密度（我什么时候会这样做而不是使用热图值得单独写一篇文章）
- 等等
所有这些都涉及我用来编写和检查查询的工具，但还有一个关于在编写查询以生成有效结果时必须考虑的所有数据问题的思维模型，包括时钟偏差、Linux计费错误、指标管道问题、由于底层数据源问题导致的数据问题等。
等等

对于Presto和ggplot，我都在脑海中隐含地记住了数百件事，以使我的查询和图表能够工作，我选择使用这些，因为它们是我知道的可用工具中开销最低的。如果有人问我必须处理的复杂性中有多少是本质的，我会说它如此之低，以至于无法估计。对于某些查询，可以说它是零——我的工作之所以必要，仅仅是因为某些任意的怪癖，没有这个怪癖就不需要工作。但即使在某些查询似乎必要的情况下，我也认为令人难以置信的是，本质复杂性可能超过我必须处理的复杂性的1%。

重新审视布鲁克斯关于计算机性能的观点，即使我在2020年处理由于硬件性能限制而带来的复杂性，并且希望今天有更快的计算机，但布鲁克斯在1986年否定了更快的硬件对开发者生产力几乎没有提高作用：

个人工作站功率和内存容量的确定而快速的增加，能为软件艺术带来什么收益？嗯，一个人能有效使用多少MIPS？程序和文档的编写和编辑完全得到了当今速度的支持。编译可以得到提升，但10倍的机器速度肯定会……

但这至少在两个层面上是错误的。首先，如果我能够使用更快的计算机，我大量的偶然复杂性会消失（如果计算机足够强大，我就不需要像Presto这样复杂的工具；我可以在我的本地计算机上运行查询）。我们现在有了快得多的计算机，但拥有更快的计算机仍然会使许多复杂的工程任务变得微不足道。正如詹姆斯·黑格（James Hague）指出的，在80年代中期，由于性能限制，编写拼写检查器是一个严肃的工程问题。

第二，（仅举一例）ggplot之所以存在，是因为计算机速度如此之快。从事性能工作的人们一个常见的抱怨是，当你查看工具执行的基本操作与当今硬件的速度相比时，工具X存在2到10个数量级的效率低下⁷。但有多少程序员能够实现现代多路服务器一半的潜在性能？我猜不到千分之一，我肯定说不到百分之一。而且性能知识并非与其他知识无关——在年龄和经验相同的情况下，它与“系统”以外领域的知识呈负相关，因为花时间学习实现计算机一半潜在性能所需的深奥偶然复杂性，就是花时间不学习“直接”应用的领域知识。当我们看到需要大量领域知识（例如ggplot）或规模大到需要大型团队实施（例如IntelliJ⁸）的软件时，如果机器慢了几个数量级，编写可用软件需要榨取机器的大部分性能，那么这些软件的大部分都不会存在。幸运的是，硬件变得快得多，使绝大多数开发人员可以忽略与性能相关的偶然复杂性，而专注于在当今提高生产力所需的其他所有偶然复杂性。

更快的计算机既减少了工具用户遇到的偶然复杂性，也减少了工具创建者需要处理的偶然复杂性，从而允许更有生产力的工具得以存在。

2022年更新

很多人都说这篇文章是错误的，因为布鲁克斯显然说的是X，而布鲁克斯并不是指我在本文中引用的内容。但人们对于布鲁克斯真正意思的说法五花八门，因此总的来说，这些反驳是自相矛盾的，因为他们认为布鲁克斯“显然”指的是某个特定的东西，但如果这么明显，人们就不会对布鲁克斯的意思有这么多不同的想法了。

当然，当遇到像布鲁克斯文章这样的罗夏墨迹测试文章时，这是不可避免的，文章陈述了各种不同且矛盾的内容。

感谢Peter Bhat Harkins、Ben Kuhn、Yuri Vishnevsky、Chris Granger、Wesley Aptekar-Cassels、Sophia Wisdom、Lifan Zeng、Scott Wolchok、Martin Horenovsky、@realcmb、Kevin Burke、Aaron Brown、@up_lurk和Saul Pwanson的评论/修正/讨论。

我在下一节中讨论的偶然性。首先让我们考虑本质

软件实体的本质是相互交错的概念的构建：数据集、数据项之间的关系、算法以及函数的调用。这个本质是抽象的，因为这个概念构建在许多不同的表示下是相同的。然而它非常精确且细节丰富。

我相信构建软件的困难部分在于规范、设计和测试这个概念构建，而不是表示它和测试表示忠实性的劳动。我们仍然会犯语法错误，当然；但与大多数系统中的概念错误相比，它们微不足道。

^[返回]
奇怪的是，他也在同一篇文章中声称，没有任何单一改进能在十年内带来10倍的提升。虽然这在技术上并不与他的阿姆达尔定律论证加上“大多数”（即至少一半）复杂性是本质/概念的说法相矛盾，但不清楚为什么他还要加入这个说法。

当布鲁克斯在1995年《没有银弹：重燃》中重审他的文章时，他声称自己是正确的，是基于1986年提出的三个主张中最弱的一个，即在十年内，没有任何单一改进会导致一个数量级的提升。然而，他随后确实重申了1986年提出的最强形式的主张，并在1995年再次提出，这次是说没有任何一组技术改进能将生产力提高2倍以上，这是真的：

这只是我的观点，我认为偶然或表示部分的工作现在已经下降到总量的一半或更少。由于这个比例是一个事实问题，原则上可以通过测量来确定其值。如果失败，我的估计可以通过更知情和更当前的估计来纠正。重要的是，公开或私下写过文章的人中，没有人断言偶然部分大到9/10。

顺便说一句，我发现有趣的是他说没有人对这个9/10的说法提出异议。根据本文正文的内容，我会说我日常工作的复杂性远高于9/10，而如果我试图在1986年解决同样的问题，这个比例会高到人们甚至不会想到这个问题。作为从事硬件工作十年的附带结果，我也做过与一些人在1986年面临的工作没有太大不同的工作（为DOS编写的微码、汇编和C），我同样会认为那份工作轻松超过9/10。

我发现他后续内容中另一个有趣的部分是，他引用了哈雷尔1992年的《咬银弹》，该文章一方面认为十年期限对于一个数量级的改进是武断的。布鲁克斯对此的回应是

十年限制还有其他原因：对候选银弹的主张都有某种即时性……我们肯定会在未来40年取得实质性进展；40年一个数量级并不神奇。

但根据布鲁克斯自己在1995年重申论点时的话，如果9/10的复杂性是本质的，那么无论如何缩减它，都不可能获得超过一个数量级的生产力提升：

“NSB”无可争辩地指出，如果工作中偶然部分少于总量的9/10，将其缩减到零（这需要魔法）也不会带来一个数量级的生产力提升。

他的原始文章和1995年的后续文章都写得很有魅力，并且包含一种局部逻辑，其中文章的每一部分如果不太深入思考并且忘记文章说的其他一切，听起来都有些合理。与原文一样，学究可能会争辩说这在技术上并不自相矛盾——毕竟，布鲁克斯可能在说：
- 最多9/10的复杂性是偶然的（如果我们忽略后来的1/2说法，这是阅读文章时必须做的一种记忆/怀疑暂停）
虽然这在技术上是一致的（同样，如果我们忽略不一致的部分），并且是人们可以提出的一组主张，但这将意味着从1986年起40年后，即2026年，工具、语言或任何其他潜在改进来源在生产力提升方面没有任何空间是不合理的。但这是荒谬的。如果我们查看布鲁克斯文章的其他部分并结合它们的推理，我们会看到其他不一致和荒谬之处。
^[返回]
我们在这里看到的另一个问题是布鲁克斯坚持在类别之间划清界限。本质与偶然复杂性。“类型”的解决方案，如语言与“构建还是购买”等。

布鲁克斯承认“构建还是购买”是攻击本质复杂性的一种途径。也许他会同意购买一个正则表达式包会减少本质复杂性，因为这样我就可以避免在简单任务上将编写解析器相关的所有概念记在脑中。但如果我不购买正则表达式，而是使用一种将它们捆绑在标准库中或以其他方式随语言分发的语言呢？或者如果我不需要编写自己的并发原语，而是将它们捆绑到语言中呢？或者就此而言，一个完整的HTTP服务器呢？库中“购买”的东西（如今许多是免费的）与语言捆绑的库之间没有清晰的界限，因此不可能在语言带来的收益与可以“购买”的收益之间划出明确的界限。但如果这里没有明确的界限，那么就不可能说其中一种可以减少本质复杂性而另一种不能，并在本质复杂性和偶然复杂性之间维持明确的界限（在回应布鲁克斯时，哈雷尔反对存在清晰的区分，而布鲁克斯的回应是说确实存在明确的区分，尽管他没有提供新的论据）。

布鲁克斯一再坚持这些错误的区分，意味着文章中的推理是不可组合的。正如我们在另一个脚注中已经看到的，如果你从文章的一部分取推理，并与文章另一部分的推理一起应用，很容易产生荒谬的结果，有时甚至是直接的矛盾。

我怀疑这就是为什么关于本质与偶然复杂性的讨论如此混乱的原因之一。这不仅仅是布鲁克斯含糊其辞、挥舞手臂，他实际上并不自洽，因此不可能且不可能有连贯的启示。迈克尔·菲瑟斯（Michael Feathers）指出人们通常无法正确识别本质复杂性；正如他所说，一个人的本质复杂性是另一个人的偶然复杂性。这正是我们应该从文章中预料到的，因为思考其中不同部分的人最终会有不兼容的观点。

当批评布鲁克斯时，这也是一个问题。不可避免地，有人说布鲁克斯真正意思是指完全不同的东西。那会是真的。但布鲁克斯在说完全不同的意思的同时，也会意味着他所说的一些内容。为了支持我在正文中提出的观点，这是一个连贯的观点，人们在1986年可能就持有过。布鲁克斯的许多陈述甚至作为独立的陈述都没有意义，更不用说与文章的其他部分交叉引用了。例如，关于未来十年内没有任何单一开发会带来一个数量级提升的陈述。由于布鲁克斯没有定义并且没有人能明确说明什么是“单一改进”，所以这个陈述毫无意义。而且，如上所述，如果那真的是他想说的，布鲁克斯的文章读起来相当奇怪，基本上没有意义。对布鲁克斯大多数其他解读的另一个问题是，即使布鲁克斯下了功夫使它们定义明确，这些立场本身也是毫无意义的。如果是一个还是两个改进带来一个数量级的提升，这有什么关系？如果是两个，我们会同时使用它们。
^[返回]
顺便说一句，这不仅仅发生在1955年。我曾与一些在这个世纪的人一起工作过，他们告诉我汇编语言基本上和任何高级语言一样高效。这对几乎每一个阅读这个博客的人来说可能听起来很荒谬，但如果你和整天编写微码或汇编的人交谈，你会偶尔遇到这样的人。

认为你个人使用的工具是尽可能好的，是一个容易掉入的陷阱。
^[返回]
另一个怪癖是，虽然布鲁克斯承认代码重用和库可以提高生产力，但他声称语言和工具差不多已经发展到头了，但这两个主张不能同时成立，因为库和语言/工具之间没有明确的界限。 ^[返回]
我们任意使用一个摩托罗拉68k处理器，带有FP协处理器，可以执行200 kFLOPS作为参考，来了解我们在消费级CPU中可能拥有的计算能力（FLOPS由于多种原因是不好的指标，但这只是为了了解获得1个CPU年计算资源需要什么，布鲁克斯本人使用MIPS这个术语，就好像它有意义一样）。相比之下，Cray-2可以达到1.9 GFLOPS，大约是其性能的10000倍（我认为如果我们进行可比的比较而不是使用不可比的GFLOPS数字，实际上会少一些，但让我们慷慨一点）。一年中有525600 / 5 = 105120个五分钟时间段，所以为了在五分钟内获得相当于1个CPU年的计算量，我们需要105120 / 10000 = 10台Cray-2每查询，不包括跨Cray-2聚合结果的开销。

认为1986年的一家消费软件公司会有足够的Cray-2，能够让任何随机程序员在想要进行一些数据分析时快速运行CPU年量的查询，这是不合理的。一个来源声称Cray-2在整个生产周期（1985年至1990年）内只制造了27台。即使我的雇主拥有全部，而且它们都在1986年之前生产出来，这也不足以提供我在2020年拥有的那种临时查询能力。

今天，初创公司的人甚至可以对十年前进行类似的论证。你过去必须运营一个对初创公司来说运营起来会非常麻烦的集群，除非初创公司非常专业化，但你现在可以使用Snowflake，基本上获得Presto，但只为使用的计算能力付费（加上健康的溢价），而不是为拥有集群以及确保集群可操作所需的所有员工付费。
^[返回]
我实际上每次发布新文章时都会遇到其中一个。我在Google文档中写文章，然后将它们复制到运行在Alacritty内的tmux内的emacs中。我的文章很小，适合L2缓存，所以我可以有64B/3.5周期的写入带宽。然而，复制粘贴操作可能需要约1分钟，慢到我可以看到文本被粘贴进来。由于我的芯片正在全力工作以确保复制粘贴发生，它运行在完整的非睿频频率4.2GHz，提供76.8GB/s的写入带宽。对于一篇40kB的文章，1分钟 = 666B/s。76.8G / 666 ≈ 8个数量级的性能被闲置。 ^[返回]
在这个具体情况下，我确信有人会争辩说Visual Studio在2000年就很不错，并且在慢得多的计算机上运行（调试器可以说比当前版本更好）。但在Linux上没有类似的工具，也没有任何类似于今天在VSCode类空间中的选择，即易于学习的编程编辑器，提供特定于编程的功能（而不是记事本的增强版），而无需成为全功能的IDE。 ^[返回]

由 mimo-v2.5 模型翻译，花费 20641 tokens

汽车在样本外碰撞测试中表现如何？

Tue, 30 Jun 2020 07:06:34 +0000

[AI 摘要] 本文分析汽车制造商如何针对特定碰撞测试进行优化而非整体安全，基于IIHS新测试引入时的数据。

每当有一个基准测试被认真对待时，有些人就会开始针对基准进行优化。计算机领域的一些著名例子包括CPU基准测试specfp和视频游戏基准测试。在specfp中，Sun通过编译器调整将179.art（specfp的一个子基准测试）的得分提高了12倍，这本质上是重写了基准测试内核，使得Sun UltraSPARC的整体specfp得分提高了20%。有时，GPU厂商会在驱动程序中添加专门的基准测试检测代码，在基准测试期间降低图像质量以产生更高的基准测试分数。当然，针对基准进行优化并非计算机独有，我们看到人们在其他领域也这样做。这种行为并不令人惊讶，因为通过作弊来提高基准测试分数比通过实际改进产品来提高分数要便宜得多（因此投资回报率更高）。

因此，当人们过分重视高度具体和知名的基准测试时，我通常持怀疑态度。如果没有其他数据，你不知道当条件与基准测试条件不完全相同时会发生什么。对于GPU和CPU基准测试，大多数人都可以使用略微调整的条件来运行标准基准测试。如果结果在条件的小变化下发生显著变化，这就表明厂商即使没有作弊，至少也在掩饰真相。

物理设备的基准测试可能更难以复现。车辆碰撞测试就是一个典型例子——它们是高度具体和知名的基准测试，并且在测试运行中会消耗一辆汽车。

虽然有多个组织进行碰撞测试，但每个组织都遵循特定的规程。汽车制造商，如果有意愿，可以针对碰撞测试分数而不是实际安全性来优化他们的汽车。检查碰撞测试是否被过度具体的优化所操纵，对于非亿万富翁来说并不真正可行。我们能检查的最简单方法是查看当新测试添加时会发生什么，因为这让我们可以看到制造商并未为了获得好分数而进行优化的碰撞测试结果。

虽然有汽车碰撞测试结果显然比没有好，但这些结果本身并没有告诉我们当发生与基准测试不完全匹配的事故时会发生什么。不幸的是，如果我们发生车祸，我们无法要求碰撞车辆的驾驶员改变他们的位置、撞击角度和速度，以使碰撞符合IIHS、NHTSA或*NCAP的测试规程。

在本文中，我们将查看IIHS在添加（驾驶员侧）小重叠和乘客侧小重叠测试时的得分，这些测试分别于2012年和2018年添加。我们将从结果摘要开始，然后讨论这些结果的含义以及评估汽车安全时需要考虑的其他因素，随后是方法的详细信息。

结果

以下排名主要基于车辆在2012年添加驾驶员侧小重叠测试时的得分表现以及在修改后改善测试结果的模型得分。

第一梯队：无需修改即表现良好
- 沃尔沃
第二梯队：无需修改时表现一般；修改后表现良好
- 无
第三梯队：无需修改时表现差；修改后表现良好
- 梅赛德斯
- 宝马
第四梯队：无需修改时表现差；修改后表现一般
- 本田
- 丰田
- 斯巴鲁
- 雪佛兰
- 特斯拉
- 福特
第五梯队：修改后表现差或未进行修改
- 现代
- 道奇
- 日产
- 吉普
- 大众

这些描述是近似的。本田、福特和特斯拉最不符合这些描述，福特可以说介于第四和第五梯队之间，但也可以说优于第四梯队且不符合分类，而本田和特斯拉并不真正适合任何类别（他们的类别是最接近的拟合），但有些其他类别也不完美。详细信息如下。

总体评论

如果我们看看美国的整体死亡率，汽车事故在相当大的年龄范围内是主要死因。虽然数字会因我们查看的数据集而异，但当驾驶员侧小重叠测试被添加时，IIHS估计25%的车辆死亡来自小重叠碰撞。同样值得注意的是，自90年代以来，小重叠碰撞就被认为与相当一部分车辆死亡有关；这在2012年并不是一个新概念。

尽管小重叠碰撞很重要，但从IIHS在2012年和2018年添加驾驶员侧和乘客侧小重叠测试的结果来看，几乎所有汽车制造商都在优化基准而非整体安全性。除了沃尔沃，所有被调查的汽车制造商在驾驶员侧小重叠测试添加之前生产的汽车在驾驶员侧小重叠碰撞中表现都很差。

当2012年添加驾驶员侧小重叠测试时，大多数制造商修改了他们的车辆以提高驾驶员侧小重叠测试分数。然而，直到IIHS在2018年添加乘客侧小重叠测试之前，大多数制造商都忽略了乘客侧。当新测试添加时，他们也加强了乘客安全性。公平地说，有些汽车制造商在2012年驾驶员侧测试添加时就意识到了小重叠碰撞的问题，并且不需要进一步修改就能在乘客侧小重叠测试中获得好成绩，包括梅赛德斯、宝马和特斯拉（可能还有其他几家，但其他情况的数据较薄；沃尔沃不需要提示）。

其他基准测试限制

我们可以在多个其他领域观察到大多数汽车制造商在以安全为代价优化基准。

性别、体重和身高

另一个问题是碰撞测试假人的过拟合。长期以来，成人NHTSA和IIHS测试使用1970年代的50%男性假人，身高5'9"，体重171磅。监管机构在1980年要求使用女性假人，但由于里根时代的预算削减，最初计划被搁置，NHTSA直到2003年才将女性假人放入汽车中。女性假人是男性假人的缩小版，缩小到1970年代的5%身高和体重（4'11"，108磅；另一种型号是4'11"，97磅）。在正面碰撞测试中，使用女性假人时，她总是乘客（一个5%女性在驾驶员座位上出现在NHTSA侧面碰撞测试和IIHS侧面碰撞测试中）。作为参考，2019年美国成年男性平均体重为198磅，美国成年女性平均体重为171磅。

使用1970年代美国成年男性碰撞测试假人会导致对1970年代50%男性的一定程度过拟合。例如，从90年代开始，制造商开始添加系统以防止颈部扭伤。沃尔沃和丰田使用一种系统，可以减少男性和女性的颈部扭伤，并且似乎对女性略有更多益处。大多数汽车制造商使用的系统减少了男性的颈部扭伤，但平均而言，对女性颈部扭伤影响很小。

看来我们也看到了类似的一般碰撞优化，而不仅仅是颈部扭伤。我们没有这方面的碰撞测试数据，并且查看真实世界安全数据超出了本文的范围，但我将指出，在NHTSA将5%女性假人放入一些碰撞测试之前，大多数非沃尔沃命名的汽车制造商在侧面碰撞中存在基于性别的显著死亡率差异（男性死亡率较低，女性死亡率较高）。

沃尔沃声称几十年来一直在使用计算机模型模拟如果女性（包括孕妇）卷入车祸会发生什么。

其他碰撞

据说沃尔沃有一个碰撞测试设施，他们进行许多测试机构不进行的其他碰撞测试。他们在小重叠测试添加时得分高的一个原因是在IIHS开始进行小重叠碰撞测试之前，他们就已经在进行小重叠碰撞测试了。

沃尔沃还表示，他们测试翻滚（IIHS测试车顶强度，NHTSA根据车辆属性计算车辆翻滚的难易程度，但两者都不测试真实翻滚事故中发生的情况）、后部碰撞（沃尔沃声称如果有儿童在3排SUV的第三排，这些测试尤其重要）和驶出道路（沃尔沃有一个他们使用的“标准”沟渠；他们声称这个测试很重要，因为驶出道路与很大一部分车辆死亡有关）。

如果其他汽车制造商进行类似测试，我找不到太多详细信息。根据碰撞测试分数，在2012年之前，他们似乎没有进行甚至没有考虑小重叠碰撞测试。根据2018年乘客侧小重叠测试添加时许多汽车制造商得分较低的情况，我认为如果其他汽车制造商有大量测试机构未进行的碰撞测试套件会令人惊讶，但理论上可能他们进行了，只是没有包括乘客侧小重叠测试。

注意事项

我们不应从这些测试结果过度概括。正如我们上面指出的，碰撞测试结果测试非常具体的条件。因此，当几个新碰撞测试添加时，我们能得出的结论也非常具体。此外，在解释这些结果时，我们还应记住许多其他事情。

有限的样本量

这些数据的一个局限性是我们没有大量相同型号副本的结果，因此我们无法观察型号内变化，这可能是由于测试条件的微小、实际上随机的差异以及相同型号不同副本之间的制造差异造成的。我们可以观察到这些确实重要，因为有些汽车在测试相同型号的两个副本时会看到不同的结果。例如，这是IIHS关于道奇Dart报告中的一段引用：

道奇Dart在2013车型年推出。Dart进行了两次测试，因为第一次测试期间车载（汽车内部）摄像头的电源中断。在第二次Dart测试中，当铰链从门框撕裂时，驾驶员门打开了。在第一次测试中，铰链严重损坏，下方铰链撕裂，但门保持关闭。在每次测试中，Dart的安全带和正面及侧面帘式气囊似乎充分保护了假人的头部和上身，并且来自假人的测量显示头部和胸部受伤风险很小。

看起来，如果车载摄像头的电源没有断开，将只有一次测试，就不会知道由于铰链撕裂导致门脱落的风险。一般来说，我们没有关于如果测试相同型号的另一个副本会发生什么的直接信息。

仅使用IIHS数据，我们在这里可能做的一件事是考虑同一制造商制造的（或基于相同平台构建的）不同型号的结果。虽然这不如同一型号的多次测试好，但同一制造商不同型号之间的测试结果是相关的，并且知道例如一个型号的第二次测试偶然显示显著更差的结果应该降低我们对同一制造商其他测试分数的信心。有些事情使这复杂化，例如，如果查看丰田，雅力士实际上是马自达2的重新贴牌，所以也许这不应被视为汇总测试结果的一部分，并且进行这种统计分析超出了本文的范围。

实际测试的车辆可能不同

虽然我认为这不应影响本文的结果，但查看碰撞测试结果时要考虑的另一个问题是结果如何在型号之间共享。正如我们刚才看到的，相同型号的不同副本可能有不同的结果。有些相似的车辆通常被视为用于碰撞测试目的的相同车辆，并将共享相同的分数（只有一个型号会被测试）。

例如，起亚Stinger和Genesis G70就是如此。起亚Stinger比G70长6英寸，一辆全轮驱动的全加载Stinger比基础型号G70重约500磅。IIHS测试的是G70型号——如果你查找起亚Stinger，你会得到Stinger的分数，备注为基础型号G70被测试。考虑到名义上相同的汽车（如上面提到的道奇Dart）可能得到不同的分数，这是一个相当大的差异。

质量可能随时间变化

我们也应谨慎不要过度概括时间。如果我们查看最近沃尔沃（基于沃尔沃P3和沃尔沃SPA平台的车辆）的碰撞测试分数，分数非常出色。然而，如果我们查看基于较旧福特C1平台¹的沃尔沃型号，其中一些的碰撞测试分数不那么好（特别是，虽然S40得分不差，但在某些类别中得分为可接受，而不是全部良好）。尽管沃尔沃最近的碰撞测试分数出色，但这并不意味着他们一直或将永远拥有出色的碰撞测试分数。

型号可能因市场而异

我们也不能概括不同市场销售的汽车，即使对于听起来可能相同的车辆也是如此。例如，查看这段欧洲销售的日产NP300与非洲销售的日产NP300的碰撞测试视频。由于欧洲汽车经过EuroNCAP测试（类似于美国汽车经过NHTSA和IIHS测试），在欧洲销售的车辆经过优化以在EuroNCAP测试中获得好成绩。对在非洲销售的汽车进行碰撞测试只是最近才开始，因此汽车制造商没有公共关系压力来优化他们的汽车以进行基准测试，他们会生产更便宜的型号或表面上相同型号的更便宜变体。这似乎与大多数汽车制造商在美国或欧洲所做的一样——只要他们能做到而不使基准测试分数变差，他们就在优化成本。只是由于没有非洲碰撞测试基准，这意味着他们可以全力以赴地在成本-安全性权衡上追求成本²。

这份报告比较了美国和欧洲汽车型号，并发现了由于法规差异导致的安全差异。他们发现欧洲型号在正面/侧面碰撞中受伤风险较低，并且驾驶员侧后视镜的设计方式降低了车道变换碰撞的风险，相对于美国设计，而美国车辆在翻滚中更安全，并且车灯使行人更可见。

非碰撞测试

随着时间的推移，碰撞安全的“低垂果实”越来越多，使得碰撞避免相对更加重要。碰撞缓解测试与碰撞测试相比相对原始，我们看到碰撞测试过去和现在都有重大漏洞。人们可能期望，根据我们在碰撞测试中看到的，沃尔沃为他们的碰撞避免技术（牵引力控制、稳定性控制、自动制动等）使用一套特别好的测试，但与熟悉车辆安全测试的人进行的“酒吧间”讨论似乎表明情况并非如此。最近有一些沃尔沃车辆被召回，因为安全系统错误地没有触发。我不打算在这里讲述这个故事，但我会说这相当可怕，表明存在严重的系统性问题。从其他后台讨论来看，作为汽车公司，宝马在安全软件方面相对认真，但这种测试缺乏严谨性，对于见过主流CPU发布过程的人来说将是可怕的。

碰撞避免变得更加重要也可能有利于那些拥有更用户友好的驾驶辅助系统的公司，例如，在多次测试中，《消费者报告》给通用的Super Cruise系统最高评分，而他们一再指出特斯拉的Autopilot系统促进了不安全行为。

不同重量车辆的分数不可比

一辆得分为良好的2700磅小型车可能比一辆得分为可接受的5000磅SUV表现更差。这是因为小重叠测试涉及将车辆撞向固定障碍物，而不是具有特定重量的参考车辆或类车辆障碍物。这在某种意义上等同于将车辆撞向相同重量的车辆，因此就像2700磅小型车被测试通过撞向另一辆2700磅小型车，而5000磅SUV被测试通过撞向另一辆5000磅SUV。

如何增加信心

我们讨论了一些应该降低我们对碰撞测试分数信心的原因。如果我们想增加对结果的信心，我们可以查看其他测试机构的测试结果并汇总，还可以查看公开的碰撞死亡数据（稍后会更多讨论）。我没有查看其他机构分数的条款和条件，但一个复杂情况是IIHS不允许你使用其API或数据转储来显示任何类型聚合的结果（我为了这篇文章没有使用他们的API，因为那很耗时）。

使用真实世界碰撞数据

公开的碰撞死亡数据很复杂，值得单独一篇文章讨论。在本文中，我将指出，如果你查看美国人最容易获得的相关数据，这些数据并未显示沃尔沃特别安全（或不安全）。例如，如果我们查看这份涵盖2014型号的2017年报告，两个沃尔沃型号进入报告，两者在其类别中得分大致中等。在上一份报告中，一个沃尔沃型号被包含，它是同类中最好的之一，在下一份报告中，一个沃尔沃型号被包含，它是同类中最差的之一。我们可以在其他型号中观察到这种方差。例如，在2014型号中，大众高尔夫在所有车辆中（不仅仅在其类别中）有最高死亡率之一。但在2017型号中，它在所有车辆中有最低死亡率之一。不清楚有多少变化来自随机方差，有多少是因为2014和2017大众高尔夫之间的差异。

总的来说，噪声似乎是结果中的一个重要因素。如果我们查看提供的信息，我们可以看到几件奇怪的事情。首先，有许多车辆的死亡率95%置信区间从0到N。我们应该有很强的先验信念，即没有2014型号车辆如此安全以至于在车祸中死亡的概率为零。如果我们采用贝叶斯方法（尽管我认为报告的作者不是），有人告诉我们一辆车的真实死亡率不确定性区间有≥5%包含零，我们会说要么我们应该使用更具信息性的先验，要么我们应该使用一个可以纳入更多数据的模型（在这种情况下，也许我们可以尝试理解同一类别中不同型号死亡率之间的方差，然后使用该类别的死亡率作为先验，或者如果我们认为相关，可以纳入同一品牌下其他型号的信息）。

有些人反对使用信息性先验作为偏见洗白的一种形式，但我们应该注意IIHS分析中使用的先验并非完全无信息。报告的所有区间都停止于零，因为他们利用车辆不能创造生命的事实将区间限制在零。但我们有几乎同样强大的信息，即没有2014型号车辆的预期死亡率为零，使用该信息与将区间限制在零并报告死亡率不确定性区间的负数没有根本不同。

此外，IIHS数据只包括驾驶员死亡。这是可以理解的，因为这是标准化乘客数量的最简单方式，但这意味着我们不可能看到汽车制造商在乘客侧小重叠安全性方面的改进（直到2018年乘客侧小重叠测试添加），以及沃尔沃认为重要的情况（3排SUV第三排儿童）缺乏后部碰撞测试的结果。这也意味着我们无法观察沃尔沃所做的一些事情的影响，例如，非常早期在自动制动系统中进行行人和骑车人检测，在驶出道路事故中添加溃缩区以减少背部伤害（他们观察到这些事故经常导致改变生活的脊柱损伤，由于车辆掉落的冲击）等。

我们还可以观察到，在IIHS分析中，许多可能想控制的因素没有被控制（例如，没有控制行驶里程，这将使卡车看起来相对更差，豪华车辆看起来更好；也没有控制农村与城市行驶里程，这也将产生相同方向的影响）。看到数字受混杂因素影响的一个方法是查看汽车的全轮驱动或四轮驱动与两轮驱动版本。它们通常有截然不同的死亡率，尽管安全差异并不大（而且差异通常有利于两轮驱动车辆）。一些合理的原因包括随机噪声、购买同一车辆不同版本的人的差异，以及车辆使用方式的差异。

如果我们想回答“哪些汽车品牌或型号更安全或不那么安全”的问题，我不认为任何公开可用的汇总令人满意，我认为我们需要查看源数据并进行自己的分析，以查看数据是否与我们在碰撞测试结果中看到的相符。

结论

我们查看了12个不同汽车品牌以及当IIHS添加小重叠测试时它们的表现。我们看到只有沃尔沃在公司因IIHS公开羞辱小重叠安全性差之前就认真对待这种事故，尽管小重叠碰撞至少自90年代以来就被认为是死亡的重要来源。

虽然我没有预算进行其他测试，例如在完全占用的车辆中进行后部碰撞测试，但似乎合理甚至可能的是，大多数非沃尔沃的汽车制造商如果测试机构决定添加另一种类型的碰撞测试，将会得到一般或差的测试分数。

额外：“真正的工程”与编程

正如Hillel Wayne所指出的，尽管程序员通常对“真正的工程师”做什么有理想化的看法，但当你比较“真正的工程师”所做的与程序员所做的，通常并没有那么不同。特别是，程序员常见的抱怨是他们不需要为他们的错误或糟糕设计承担责任，即使在那些造成生命损失的情况下。

虽然汽车公司可以在某些情况下因不安全设计而承担责任，但仅仅优化一组小范围的基准测试（这肯定导致了额外的死亡，而不是优化安全性而不是基准分数），并不是工程师或公司通常被追究责任的事情。

额外：声誉

如果我看看我扩展社交圈的人对车辆安全的看法，特斯拉的声誉遥遥领先。如果你看广泛的消费者调查，情况就不同了，沃尔沃通常获胜，其他制造商争夺遥远的第二名。

我觉得特斯拉的事情很有趣，因为他们的回应基本上与你从一家认真对待安全的公司所期望的相反。当发生严重问题（关于安全或其他方面）时，他们通常有非常快速的回应，基本上是“一切正常”。我期望一个认真对待安全或改进的组织回应“我们正在调查”，然后发布详细的事后分析解释哪里出了问题，但这似乎不是特斯拉的风格。

例如，在驾驶员侧小重叠测试中，特斯拉有一个相关得分的型号，即使在修改后改进分数，它也得分为可接受（低于良好，但高于差和边缘）。特斯拉对结果提出异议，称他们制造“历史上最安全的汽车”，并暗示应忽略IIHS，因为他们有不良动机，转而支持一个客观且没有不良动机的机构的碰撞测试分数，即给予特斯拉好分数的机构：

虽然IIHS和世界各地数十家其他私人行业组织有自己的方法和动机以适合其主观目的，但目前最客观和准确的独立车辆安全测试由美国政府完成，该政府发现Model S和Model X是其测试过的所有汽车中受伤概率最低的两辆车，使它们成为历史上最安全的汽车。

正如我们所看到的，特斯拉并不罕见地优化一组特定的碰撞测试并在意外类型的碰撞中获得一般的分数，但他们的回应是不寻常的。然而，从愤世嫉俗的公共关系角度来看，这是有道理的。正如我们在过去几年中看到的，大声宣称某事，无论是否真实，即使有确凿证据表明它是不真实的，似乎不仅有效，这种夸大的言辞似乎吸引超级粉丝，他们会积极捍卫品牌。如果你在youtube上观看汽车评论员，他们有时会提到他们收到仇恨邮件，因为他们像评论任何其他汽车一样评论特斯拉，而他们没有看到任何其他品牌有类似情况。

苹果在90年代和00年代初也有效地使用了这个剧本，当时他们在性能上迅速落后，并没有通过提高性能来回应，而是进行了一系列广告宣传活动，声称他们拥有世界上最好的性能，并在桌面上发布“超级计算机”。

另一个声誉怪癖是我认识相当多的人认为他们能买到的最安全的汽车是“60年代和70年代制造的美国汽车，不是塑料制成的”。我们没有直接相关的小重叠碰撞测试分数对于旧车，但我们确实有的关于旧车的测试数据表明，它们在整体安全性方面与现代汽车相比表现极差。例如，查看这辆1959年雪佛兰Bel Air与2009年雪佛兰Malibu的碰撞测试。

附录：方法摘要

顶部结果部分使用小重叠测试的分数，因为我认为它是测试测量的安全性最难偷工减料的，并且它已经存在足够长的时间，我们可以看到修改现有型号和后续型号变化的影响，这对乘客侧小重叠测试不成立（其中许多型号仍未测试）。

对于乘客侧小重叠测试，有人可能争辩说驾驶员侧更重要，因为你几乎总是有驾驶员在车祸中，可能有前排乘客也可能没有。此外，对于小重叠碰撞（模拟只有25%重叠的头对头碰撞），驾驶员侧碰撞比乘客侧碰撞更可能发生。

除了检查沃尔沃的分数，我没有查看车顶碰撞测试分数（于2009年添加）。我不打算详细描述车顶测试，但对于车顶测试，有人可能争辩说车顶测试分数应与车辆的翻滚概率评分一起使用，因为车顶测试只测试车顶强度，这只与车辆翻滚相关。我认为，鉴于数据所示，这种反对在许多情况下不成立（车顶测试分数最差的车辆通常是翻滚率相对较高的车辆），但在某些情况下成立，这将使分析复杂化。

在大多数情况下，我们每个型号只得到一个报告的测试结果。然而，一个型号可能有多个版本——包括在进行旨在改进测试分数的安全变化之前和之后。如果对型号进行了以改进安全性的更改，测试分数通常是在更改之后，我们通常看不到更改之前的分数。然而，有许多例外情况，这些在详细结果部分有说明。

在本文中，分数只在型号在新测试引入之前或附近引入时才计数，因为后来引入的型号可能有针对测试进行优化的设计更改。

附录：详细结果

在每个测试中，IIHS给出一个整体评级（从最差到最好）为差、边缘、可接受或良好。测试有子分数，但我们不打算在此分析中使用。在每个子部分中，我们将查看当小重叠测试添加时有多少型号获得了每个分数。

沃尔沃

所有被检查的沃尔沃型号在测试添加时（车顶、驾驶员侧小重叠和乘客侧小重叠）都得分为良好（最高可能分数）。一个型号，2008-2017 XC60，在2013年进行了更改以在侧帘气囊在小重叠碰撞中触发。其他型号未经修改即被测试。

梅赛德斯

在三个具有驾驶员侧小重叠测试结果的预先存在的型号中，一个未经修改得分为边缘，两个在结构修改后得分为良好。我们只有未经修改测试分数的型号（梅赛德斯C级）在2014年后不久进行了全面重新设计，就在驾驶员侧小重叠测试引入后不久。

如上所述，我们通常只能看到未经修改的型号或经过修改的型号的公共结果，因此，对于得分为良好的型号，我们实际上不知道如果你在梅赛德斯更新设计之前购买车辆会如何得分，但我们拥有未经修改的一个型号的边缘分数是一个负面信号。

此外，当乘客侧小重叠测试添加时，梅赛德斯车辆通常也得分为良好。这表明梅赛德斯不仅在驾驶员侧增加了保护以提高测试分数。

宝马

在两个我们有相关测试分数的型号中，两个都在修改前得分为边缘。在其中一个案例中，还有在2017型号中进行结构更改后的分数（回想一下驾驶员侧小重叠测试于2012年引入），该型号之后得分为良好。另一个型号在2016年后进行了全面重新设计。

对于五个我们有相关乘客侧小重叠分数的型号，所有都得分为良好，表明为提高驾驶员侧小重叠测试分数而进行的更改不仅仅是在驾驶员侧进行。

本田

在五个我们有相关驾驶员侧小重叠测试分数的本田型号中，两个得分为良好，一个得分为边缘，两个得分为差。得分为边缘的型号在2015年进行了结构更改和安全带更改，将其分数改为良好，其他型号未更新或没有更新的IIHS分数。

在六个我们有乘客驾驶员侧小重叠测试分数的本田型号中，两个未经修改得分为良好，两个未经修改得分为可接受，一个在修改保险杠后得分为良好。

所有这些型号在驾驶员侧小重叠测试中都得分为良好，表明当本田增加驾驶员侧安全性以在驾驶员侧测试中得分为良好时，他们没有将相同的更改应用于乘客侧。

丰田

在六个我们有未经修改型号相关驾驶员侧小重叠测试分数的丰田型号中，一个得分为可接受，四个得分为边缘，一个得分为差。

得分为可接受的型号进行了结构更改以将其分数提高到良好，但仅限于驾驶员侧。该型号后来在乘客侧小重叠测试中被测试并得分为可接受。在四个得分为边缘的型号中，一个在2017年进行了结构修改，将其分数提高到良好，另一个进行了气囊和安全带更改，将其分数提高到可接受。得分为差的型号在2014年进行了结构更改，将其分数提高到可接受，随后进行了进一步更改，将其分数提高到良好。

还有四个型号我们只有修改后的分数。其中，一个得分为良好，一个得分为可接受，一个得分为边缘，一个得分为差。

总的来说，更改似乎只进行在驾驶员侧，并且在乘客侧小重叠测试引入时，车辆乘客侧小重叠分数与修改前的驾驶员侧分数相同。

福特

在两个我们有未经修改型号相关驾驶员侧小重叠测试分数的型号中，一个得分为边缘，一个得分为差。这两个型号都生产到2019年，两者都没有更新的测试结果。在三个我们有修改车辆相关结果的型号中，两个得分为可接受，一个得分为边缘。还有一个型号在小重叠测试引入的年份发布，另一个在之后一年发布；两者都得分为可接受。不清楚这些是否应被视为修改，因为设计可能在发布前进行了最后一刻的更改。

我们只有三个相关的乘客侧小重叠测试。一个是良好（对于2015年发布的型号），另外两个是差；这些是上面提到的在驾驶员侧小重叠测试中分别得分为边缘和差的两个型号。这些型号似乎继续生产到2019年，没有进行安全更改。这两个未经修改的型号都是卡车，这对于卡车来说并不罕见，这也是卡车死亡率普遍较高的一个原因——直到最近，许多卡车基于旧平台，很长时间没有更新。

雪佛兰

在三个我们有修改前相关驾驶员侧小重叠测试分数的雪佛兰型号中，一个得分为可接受，两个得分为边缘。其中一个边缘型号在2015年进行了结构更改以及导致侧帘气囊更早展开的更改，这将其分数提高到良好。

在四个我们只有修改后相关驾驶员侧小重叠测试分数的雪佛兰型号中（所有都进行了结构修改），两个得分为良好，两个得分为可接受。

我们只有一个相关的乘客侧小重叠测试分数，那个分数是边缘。那是在修改以将驾驶员侧小重叠测试分数从边缘提高到良好的型号上，表明更改是为了提高驾驶员侧测试分数而不是提高乘客安全性。

斯巴鲁

我们没有任何型号在修改前有相关乘客侧小重叠测试分数。

一个型号进行了更改以使其气囊在小重叠测试中展开；它得分为可接受。两个型号进行了某种结构更改，其中一个得分为良好，一个得分为可接受。

进行气囊更改的型号在2015年进行了结构更改，将其分数从可接受提高到良好。

对于一个我们有相关乘客侧小重叠测试分数的型号，分数是边缘。此外，对于一个进行结构更改的型号，据指出，在更改中，包括防火墙左侧部分的更改，表明更改是为了提高驾驶员侧测试分数，而不是提高乘客侧小重叠碰撞中的乘客安全性。

特斯拉

只有一个型号有驾驶员侧小重叠测试的相关结果。该型号在修改前和修改后都得分为可接受。

现代

在五个我们有相关驾驶员侧小重叠测试分数的车辆中，一个得分为可接受，三个得分为边缘，一个得分为差。我们没有迹象表明型号被修改以提高其测试分数。

在两个我们有未经修改型号相关乘客侧小重叠测试分数的车辆中，一个得分为良好，一个得分为可接受。

我们还有一个型号的分数，该型号进行了结构修改以得分为可接受，后来进行了进一步修改，允许其得分为良好。该型号于2017年推出，在未修改的情况下在驾驶员侧小重叠测试中得分为良好，表明它被设计为在驾驶员侧测试中取得良好分数，而没有对乘客侧碰撞的类似考虑。

道奇

在五个我们有未经修改型号相关驾驶员侧小重叠测试分数的型号中，两个得分为可接受，一个得分为边缘，两个得分为差。还有两个型号在2015年为安全进行了结构更改后有测试分数；两个都得分为边缘。

我们没有任何型号的相关乘客侧小重叠测试分数，但即使有，修改后型号的糟糕分数意味着我们可能无法知道是否进行了类似的更改到乘客侧。

日产

在七个我们有未经修改型号相关驾驶员侧小重叠测试分数的型号中，两个得分为可接受，五个得分为差。

我们有一个型号只有修改后型号的测试分数；正面气囊和安全带在2013年进行了修改，侧帘气囊在2017年进行了修改。修改后的分数是边缘。

一个得分为差的型号在2015年进行了结构更改，将其分数提高到良好。

在四个我们有相关乘客侧小重叠测试分数的型号中，两个得分为良好，一个得分为可接受（该型号在驾驶员侧测试中得分为良好），一个得分为边缘（该型号在驾驶员侧测试中也得分为边缘）。

吉普

在两个我们有未经修改型号相关驾驶员侧小重叠测试分数的型号中，一个得分为边缘，一个得分为差。

有一个型号我们只有修改后的测试分数；该型号的气囊和安全带进行了更改，更改后得分为边缘。该型号后来也在乘客侧小重叠测试中被测试并得分为差。

另一个型号有相关的乘客侧小重叠测试分数；它得分为良好。

大众

两个我们有未经修改型号相关驾驶员侧小重叠测试分数的型号都得分为边缘。

在两个我们只有修改后分数的型号中，一个在2013年进行了修改，修改后得分为边缘。它然后在2015年再次修改，修改后得分为良好。该型号后来在乘客侧小重叠测试中被测试，其中得分为可接受，表明更改有差别地有利于驾驶员侧。另一个在2015年进行更改后得分为可接受，然后在2016年进行进一步更改后得分为良好。2016型号后来在乘客侧小重叠测试中被测试并得分为边缘，再次表明更改有差别地有利于驾驶员侧。

我们有另外两个型号的乘客侧小重叠测试，两者都得分为可接受。这些是在驾驶员侧小重叠测试引入很久之后于2015年推出的型号，并在驾驶员侧小重叠测试中得分为良好。

2021年更新

IIHS发布了他们新的“升级”侧面碰撞测试的第一组结果。他们一直在谈论做这个已经有一段时间了，并提到在真实世界数据（一些）严重碰撞中，他们观察到车厢侵入显著大于他们测试中所见的。他们提到一些车辆在新测试中表现相对较好，一些表现较差，但直到现在才发布官方分数。

新侧面碰撞测试的结果与本文中描述的结果不同。到目前为止，只有小型SUV的结果被发布，只有马自达CX-5得分为“良好”。在本文中测试中表现良好的三个制造商中，只有沃尔沃有公共结果，他们得分为“可接受”。我有一些问题：

沃尔沃的其他型号（他们的大多数车辆基于与具有公共结果的车辆不同的平台）会得分更好吗？
沃尔沃会快速更新他们的车辆以在测试中获得最高分吗？与许多其他制造商不同，我们没有来自沃尔沃的最近数据，因为他们不需要更新他们的车辆以在最后两个新测试中获得最高分
宝马和梅赛德斯要么在新测试中得分良好，要么再次快速更新他们的车辆以得分良好吗？
其他马自达车辆也会在没有更新的情况下得分良好吗？

2024年更新

在2024年对2018-2022年每英里死亡率的分析中，最差的汽车制造商从最差开始是特斯拉、起亚、别克、道奇，然后是现代。别克在本文中未排名，起亚和现代被视为等同，因此在排名的四个品牌中，三个在这个评级中得分最差。并且，正如本文最初指出的，特斯拉不太适合分类，并且显示为安全最差的迹象，也可能平均，并且在某些维度上（ADAS / 自动驾驶），特斯拉似乎安全性非常差，因此有充分的理由认为特斯拉也应被置于最差类别。

还要注意，三个评级良好的制造商中没有一个在每英里最高死亡率型号列表中有一个型号。但很难说有多少是关于汽车的，有多少是关于其他属性（如汽车的使用方式），因为每英里死亡率与汽车价格呈相当强的负相关，并且所有三个制造商都是豪华品牌，其售价远高于平均。豪华车也往往比平均更大更重，而重量也与每英里死亡率负相关。

在排名的时间段内，特斯拉似乎拥有最高的平均售价（甚至高于三个顶级豪华品牌），并且每辆车重量也远高于中位数，使得特斯拉成为每英里死亡率的极端异常值。

附录：杂项

一些名牌汽车品牌未被包括。有些因为它们在美国的销量相对较低和/或迅速下降（三菱、菲亚特、阿尔法·罗密欧等），有些因为测试的车辆重叠度很高（起亚、马自达、奥迪），有些因为没有具有驾驶员侧小重叠测试分数的相关型号（雷克萨斯）。当一家公司拥有多个品牌时，如FCA拥有吉普、道奇、克莱斯勒、公羊等，这些没有被汇总，因为大多数不是汽车迷的人不会认识到FCA，但可能认识到吉普、道奇和克莱斯勒。

如果API的服务条款允许你以任何方式使用IIHS数据，我会包括较小的品牌，但由于API附有关于如何显示或讨论数据的非常严格的条款，这些条款与探索性数据分析不兼容，并且在查看数据之前我不知道我想要如何显示或讨论数据，所以我手动提取了所有这些结果（并且没有点击任何最终用户许可协议等），这相当耗时，因此在更全面覆盖和我生活的其余部分之间存在权衡。

附录：我应该买什么车？

这取决于你在寻找什么，没有办法提出全面的建议。有关特定车辆的实用信息，Alex on Autos是我知道的最佳来源。我通常不喜欢视频作为实用信息的来源，但汽车杂志往往比youtube汽车评论员信息量少得多。有更受欢迎的汽车评论员，但他们的受欢迎似乎来自于有魅力的联合主持人之间的机智聊天或其他不仅不直接提供信息，实际上还减少了信息提供的事情。如果你只想知道汽车如何工作，Engineering Explained也相当不错，但那里的信息通常不实用。

对于可靠性信息，《消费者报告》可能是你最好的选择（你也可以查看J.D. Power，但他们聚合信息的方式使其对消费者来说用处大大降低）。

感谢Leah Hanson、Travis Downs、Prabin Paudel、Jeshua Smith和Justin Blank的评论/纠正/讨论

这包括2004-2012沃尔沃S40/V50、2006-2013沃尔沃C70和2007-2013沃尔沃C30，这些是在福特拥有沃尔沃期间设计的。虽然C1平台是福特、沃尔沃和马自达工程师的合作项目，但工作是在福特副总裁的指导下在福特设施完成的。 ^[返回]
公平地说，正如我们在IIHS小重叠测试中看到的，并非每个制造商都做得很差。在2017年和2018年，8辆在非洲销售的汽车被碰撞测试。一辆在美国或欧洲得到我们考虑为一般或差的分数，五辆得到我们考虑为差的分数，“只有”三辆得到我们考虑为极差的分数。日产NP300、达特桑Go和奇瑞QQ3是三辆得分最差的车辆。达特桑是日产的一个子品牌，奇瑞是中国品牌，也称为奇瑞。

如果我们查看在印度销售的汽车，我们会看到同样的情况。最近，对印度市场的一些汽车进行了一些测试，来自达特桑、雷诺、雪佛兰、塔塔、本田、现代、铃木、马恒达和大众的多款车型得分极差，在美国或欧洲会被认为是不可能差的。
^[返回]

由 mimo-v2.5 模型翻译，花费 23242 tokens

寻找故事

Tue, 2 Jun 2020 07:05:34 +0000

[AI 摘要] 本文批评《星际迷航：航海家号》未能充分利用其设定，探讨了电视剧角色发展与叙事的内在矛盾。

这是一篇90年代匿名发表的旧文存档，作者使用的化名似乎已从互联网上消失。

我注意到《星际迷航：航海家号》新增了一个角色，一个博格人。（从剧照看，24世纪他们仍在为女性培育胸部尺寸。）让我恼火的是制片人的评论（我概括一下），"七的加入将为我们提供无限的故事可能性。"

哦。真的吗。

听着，他们根本没有认识到自己已有的故事潜力。我看了几集《航海家号》，当我的"胡扯探测器"爆表时就弃剧了。（也许只看几集就评判他们不太公平。但让我忍受"全息肺"这种玩意儿也不公平啊。）

对于那些不看《星际迷航：航海家号》的人，其设定是这样的：星舰"航海家号"，一种太空轻型护卫舰，被传送到了距离其应到之处亿万光年之外的地方。以最高速度计算，他们需要超过七十年才能返回家园与亲人团聚。出于某些我们无需在此深究的原因，船员由忠诚的星际联邦成员和叛军混合组成。

在纸面上，这看起来不错。船员间有不稳定的联盟，有返航途中的探索，还有整套"太空孤岛"的戏码。而且《航海家号》远没有《进取号》那么大——人在上面待那么久对心理健康不利。

但是这个点子真能撑起一整部剧吗？连续看五年"船员斗嘴"或者"他们找到超光速星际旅行的新线索但又落空"会有趣吗？我认为不会。

（事实上，船员们太快就安顿下来了。）

电视剧集的需求颠覆了设定。电视剧的基本需求是让观众认识并关心我们的常驻角色——我们希望他们每周都出现在客厅。我们必须关心他们的变化、需求和愿望。当他们陷入险境时我们必须担心。但我们知道这是电视剧，所以很难真正担心。我们知道角色下周还会回来。

而故事的需求则要求某人自愿改变，认识到某种差异。改变的需要可以从外部强加，但实际的改变必须是自我驱动的。（这是电视剧的基本悖论：唯一被允许改变的是客串角色，但促成改变的工具必须是常驻角色，因此剥夺了两个角色做有趣事情的机会。）

具有严格剧集连续性的剧集（第二集必须承接第一集）允许改变——但它们在剧集停播后进入联合播放时更难销售。经济因素有利于角色一成不变。

一些剧集——比如《希街蓝调》——通过让角色真正可有可无来规避险境问题。有些角色出场几集后就死了，提醒我们常驻角色也可能如此。有时常驻角色确实会死。

（当角色在试播集就发生改变时，可能会有问题。一位被邀请为玛丽·泰勒·摩尔最后一部剧工作的编剧从设定中看出，它只够精彩六集，之后便无路可走。福克斯电视台由蒂娅·里奥尼主演的首部剧集《飞行盲区》，试播集非常有趣，但设定了一个无法维系的情境。）

有人告诉我，《航海家号》唯一有趣的角色一直是那个可以改变的医生。他是唯一被允许成长的角色。

因此，《航海家号》的第一个问题是角色不允许改变——或者改变是外部强加的。（顺便说一句，强加的改变是开始故事的好方法。角色随后会反抗，这很有趣。但它也是结束故事的糟糕方式。）

第二个问题是他们没有利用好手头的元素。回到第一季。有一集讲船上有个叛徒，和珍威舰长一样聪明。（精神病学测试怎么会漏掉这个，我不知道，但星际迷航宇宙的精神病学一直运气不佳。）在牵着珍威鼻子走了五十分钟后，她识破了他，并与他对质。他承认了——然后传送离开了飞船，方便地与当地人达成了交易。

对电视剧来说这很完美。我们有了一个据称聪明的反派在外面可能回来，珍威也遇到了对手——但我感觉被耍了。故事在哪？结局在哪？

我认为他们应该这样做。这不是传统电视剧的做法，但我认为它会是更好的故事。

首先，这集应该在珍威与坏人对质并逮捕他时结束。他被关进禁闭室——并且一直关着。观众会在这里获得一些胜利感。

但现在禁闭室里有个和珍威一样聪明的人。突然间，我们设定了《沉默的羔羊》。（我不介意"借鉴"，如果借鉴的是好来源。）每当问题足够大时，珍威就有这个选择：她可以去禁闭室，试图与坏人达成交易。"飞船完蛋，你也完蛋。"不仅如此，船上还有个与他有独特关系的人——一种不受正式军衔约束的关系。坏人到底想要什么？

每当珍威情绪低落时，他可以嘲讽她。"顺便说一句，我想到一个办法能让大家用十分之一的时间回家。你呢，舰长？"

你不会让他每集都出现。但任何时候你需要那额外的推动，他就在那里。记住，我们可以通过与原集相同的戏法让他随时逃脱。

此外，抓住他是一回事；关住他是另一回事。你可以用一次囚犯越狱尝试来生成另一整集故事。但那会是中间部分。让我们谈谈我希望看到的结局。

让我们虚构一场危机。博格能发电机爆炸；我们深处曲速空间；我们出色的技术员团队拼凑修复了传感器，发现了一颗可能适合修复的M级行星。只是它太远了。余量很小——但并非不可能。船上多了两个人。每个人需要一定量的食物、空气、水等。在压力下，尼利克斯承认他的族人可以进入假死状态，于是他这么做了。医生英勇尝试，但负责维护博格能发电机的工程师死了。（嗯。电力不足。医生只能在某些关键时刻被唤醒。）看起来不错——但他们一直在消耗空气直到死亡；必须再死一个船员，其余人才能活下去。

有人想起了禁闭室里的那个人。"他有罪的问题，"图沃克说，"已经解决。舰长的权威是绝对的。你完全有权举行简易军事法庭并判处他死刑。"

珍威拒绝了。"星际联邦不这样做。"

但如果她不这么做，所有人都会死。压力现在来到了珍威这边。作为珍威，她在寻找技术解决方案。"找到答案，该死！"最后期限临近。过了某个时点，囚犯必须死，连同另一个人一起。

一名船员（常驻角色）自愿赴死。在珍威接受前，另一名（常驻角色）船员也自愿了，珍威被迫做出决定。——图沃克指出，虽然如果该成员自愿赴死在道德上可以辩护，但飞船没有这两个船员中任何一个都无法继续运行。没有囚犯却可以继续。显然囚犯不如那些船员有价值，但她是舰长。必须做出这个决定。

我们无畏的技术团队认为可能有解决方案，但会耗尽几乎所有储备，他们需要另外六个小时来评估可行性。船上有人试图为她解决问题——杀掉囚犯——失败消耗了更多宝贵电力。现在最后期限提前了，超过了六小时的期限。技术团队的方案不再可行。

就囚犯而言，他现在开始讨价还价。他说他有办法帮忙。真的吗？他曾试图摧毁飞船。而且他不会在获得完全赦免前透露方法。

（这些都是基本的情节设计：不断堆积困难。在角色面前放个胡萝卜，不断把它拽走。）

棘手的部分是结局。要求结局必须合乎逻辑地从前文推导出来。如果你要使用技术解决手段，就必须在剧集前半段做好铺垫。否则就是技术废话。就是机械降神。（每当有人在最后广告休息后说："当然！如果我们反相抗波子流，就没事了！"我就想给编剧脑袋来一下。）

根据这里设定的情境，我们有三种可能的结局：

某位船员试图通过自我牺牲来解决问题。（记住，麦考伊和史波克这么做过。）这是个薄弱的解决方案（除非珍威这么做），因为它转移了对珍威决定的焦点。
珍威与囚犯达成协议，他们一起想出解决方案（不涉及抗波子流）。这会产生有趣的后续影响：给予囚犯自由——同时船上所有人都恨透了他。至少可以作为另一集的素材。
珍威杀死囚犯但拒绝举行军事法庭。她可能侥幸成功——囚犯可能幸存；他们一直祈求但不能依赖的百万分之一机会实现了——但她决定杀死囚犯而非自己的船员。

我倾向的结局是第三种，即使囚犯不必死。我们设定的决定是艰难的，且意义重大。这是一个指挥决策。她最终是否杀死囚犯并不重要；重要的是她决定这么做。

约翰·加利肖曾将所有故事归类为成就故事或决策故事。决策故事更难写，因为两种选择都必须有意义。

由 mimo-v2.5 模型翻译，花费 5358 tokens

获取追踪更多价值的简单方法

Sun, 31 May 2020 07:06:34 +0000

[AI 摘要] 本文描述了如何构建追踪基础设施和工具，以克服常见问题并从分布式追踪中提取实际价值，使其对公司值得。

许多人似乎认为分布式追踪没有用，或者至少没有极大力气就不值得，对于比FB小的公司来说更是如此。例如，这里有一些公开对话，听起来像我经历过的许多私下对话。当然，价值存在于某处，但解锁它的成本太高了。

我认为这高估了从追踪中获取大量价值所需的工作量。在Twitter，Rebecca Isaacs能够描绘出从追踪中获取价值的愿景并加以执行（得到了许多其他人的帮助，包括Jonathan Simms、Yuri Vishnevsky、Ruben Oanta、Dave Rusek、Hamdi Allam等许多人¹），使得工作很容易收回成本。本文将描述我们构建的追踪“基础设施”，并描述一些我们发现其有价值的用例。在此之前，让我们先了解Rebecca愿景实现前的一些背景情况。

在高层次上，我们可以说我们有一个以追踪视图为导向的系统，并遇到了所有可能预期的那些问题。这些问题在Cindy Sridharan的这篇文章中有更详细的讨论。然而，我想更详细地讨论我们遇到的具体问题，因为我认为看看哪些具体事物导致了问题是有用的。

总的来说，这些问题足够严重，以至于追踪多年缺乏所有权，甚至可以说是无人负责。有些人利用业余时间维护或改进，但缺乏从追踪中获取明显价值导致了一个恶性循环：从追踪中获取价值的高壁垒使得组织难以资助，从而使得让追踪更可用变得困难。

一些导致追踪投资回报率低的问题包括：

模式使得无法在“原位”运行简单查询
没有真正的聚合信息方式
- 无法找到有趣或有代表性的追踪
无法知道实际采样率，采样高度非代表性
时间

模式

模式实际上是一组追踪，其中每个追踪是一组跨度，每个跨度是一组注释。每个非根跨度都有一个指向其父跨度的指针，因此可以确定追踪的图结构。

就本文而言，我们可以将每个追踪视为包括所有子RPC的外部请求，或请求的子集，而不是在请求顶部作为根。我们也追踪一些非请求的东西，如构建和git操作，但为简单起见，我们将在本文中忽略这些，尽管我们将讨论的技术也适用于它们。

每个跨度对应一个RPC，每个注释是开发者选择记录在跨度上的数据（例如，RPC负载大小、跨度时系统中各种队列的队列深度，或中断RPC的GC暂停的GC暂停时间）。

从具有集合（集合）模式中产生的一些问题包括：

执行任何使用追踪固有图结构信息的查询需要读取追踪中的每个跨度并重建图
因为没有每个追踪信息的索引或摘要信息，任何对追踪的查询都需要读取追踪中的每个跨度
实际上，由于上述两项在查询时以临时方式执行成本过高，人们运行的唯一查询是“给我几个匹配简单过滤器的跨度”的某种变体

聚合

直到大约一年半前，查看追踪的唯一支持方式是去UI，从搜索框和下拉菜单的组合中按服务名过滤，然后查看最近追踪的列表，其中您可以点击任何追踪以获得“追踪视图”。每个搜索返回N个最近的结果，这些结果不一定代表所有最近的结果（原因在下面的采样部分提到），更不用说代表任何其他时间跨度的所有结果了。

根据上述模式部分讨论的问题，由于跨大量运行查询成本过高，无法提出诸如“我正在查看的任何追踪是否代表常见追踪，或者我正在查看的是奇怪的边缘情况？”或“显示特定尾部事件的追踪，例如，当服务A到服务B的请求超时或当服务A到某个后端数据库的写放大> 3倍时”，或甚至“只显示我完整的追踪，即我们没有丢弃追踪中的跨度的追踪”之类的问题。

此外，如果您点击一个“太大”的追踪，查询会超时，您将无法查看追踪——这是缺乏任何速率限制逻辑加上模式的另一个常见副作用。

采样

在多个地方做出了采样或不采样的决定。没有列出所有这些地方的文档，甚至无法猜测采样率，而无需审计所有代码以找出采样决定的位置。

此外，在多个地方由于实现而做出了无意的采样决定。跨度从启用追踪的服务发送到本地代理，然后到“收集器”服务，然后从收集器服务发送到我们的后端数据库。跨度可能在这些点中的任何一个被丢弃：在本地代理中；在收集器中，其节点经常崩溃并丢失所有数据；以及在后端数据库中，后者因热键或一般高负载而拒绝写入。

这种以追踪ID为数据库键的设计，没有中间逻辑来调节写入，意味着一个1M跨度的追踪（我们有）会在几秒内导致1M次写入同一个键。另一个问题是有成千上万扇出的请求（在我工作过的每家科技公司都存在），这可能在几毫秒内导致数千次写入同一个键。

另一个采样怪癖是，为了避免错过不从前端开始的追踪，逻辑导致每个RPC独立采样决定。如果你做一下数学计算，如果你有一个像我们这样的面向服务的架构，采样率听起来像中等偏低，比如，你最终大部分跨度将从叶子RPC开始，导致单跨度追踪。对于非叶子RPC，大部分将从叶子的第二层开始，以此类推。我们大部分负载和存储成本来自这些实际上无用的追踪，从或接近叶子开始，如果你想对跨度做任何分析以了解整个系统的行为，你必须在计算所有其他独立采样决定的同时考虑这个采样偏差。

时间

没有真正针对时钟偏移进行调整（有一些，但它试图进行本地成对调整，这实际上没有改善情况，反而使合理考虑时钟偏移更加困难）。

如果您只是天真地计算跨度花费的时间，甚至使用来自单个主机的时间戳（这消除了许多可能的时钟偏移来源），您会得到很多负持续时间的跨度，这当然是不可能的，因为结果不能在创建结果请求之前返回。而且如果您比较不同主机上的时间，结果更糟。

解决方案

这些问题的解决方案分为我认为的两个桶。对于诸如收集器节点崩溃或后端数据库丢弃请求导致的跨度丢失等问题，有一些使用众所周知且广泛使用的技术的直接工程解决方案。对于这一对特定问题，短期权宜之计是进行一些GC调优，将收集器节点崩溃率降低约100倍。这只需要两分钟，然后我们用真正的队列替换了收集器节点，该队列可以吸收更大的流量突发并调节写入数据库。对于我们在每次RPC上掷采样骰子导致过采样叶子级跨度的问题，这是大多数人在面试中会做对的小问题之一，有时在作为较大系统的一部分时可能会丢失，有多种解决方案，例如，由于每个跨度都有父指针，我们可以在相关位置知道RPC是否有父节点，并且我们可以做出采样决定，并仅当跨度没有父指针时创建traceid，这导致每个跨度被采样的均匀概率，每个采样追踪都是完整追踪。

另一个桶是构建数据集和工具（并添加注释），允许用户回答他们可能有的问题。这不是一个新想法，Dapper论文的第5部分在2010年就讨论过。

当然，一个主要区别是Google可能在Dapper上投入了至少两个数量级的努力来构建工具，而我们在追踪基础设施上投入的工具建设少得多，因此我们的许多工具粗糙得多，例如，Dapper论文的图6显示了一个追踪视图，显示一组相关直方图，使理解追踪上下文变得容易。我们还没有做那个UI工作，所以类似的视图需要运行一个简单的SQL查询。虽然这并不难，但向用户提供数据比让用户查询数据是更好的用户体验。

在已完成的工作中，最简单的明显高ROI的事情是构建一组包含人们可能想查询的信息的表，结构使得常见的查询不需要做大量工作。

我们按天分区有以下表：

trace_index
- 高级追踪级信息，例如，追踪是否有根；根是什么；如果相关，命中的请求端点是什么等。
span_index
- 关于客户端和服务器的信息
anno_index
- 人们经常想查询的“标准”注释，例如，请求和响应负载大小、客户端/服务器发送/接收时间戳等。
span_metrics
- 计算的指标，例如，跨度持续时间
flat_annotation
- 所有注释，以防您想查询不在anno_index中的内容
trace_graph
- 对于每个追踪，包含追踪的图表示，用于需要图结构的查询

仅仅拥有这组表，可以通过SQL查询（或在某些情况下使用Scalding或Spark作业，例如进行图查询时Presto SQL不理想）查询，就足以让追踪收回成本，从难以证明合理到明显高价值。

我们可以用这组表回答的一些问题包括：

对于这个有问题的服务，给我一组有代表性的追踪
对于负载增加的服务，显示是哪个上游服务导致了负载
给我所有对下游服务X有异常写放大的服务列表
- 来自特定服务或特定端点的流量是否导致异常写放大？例如，在某些情况下，我们看到B到C的总写放大没有异常，但当B由A调用时，B到C的放大率非常高。
显示我们对各种请求在序列化/反序列化上与“实际工作”相比花费的时间
显示不同类型的请求在后端工作方面的成本
对于移动端检测到的高延迟请求，显示后端发生了什么
显示此请求端点的延迟关键路径集（使用我们目前的注释，这有一些问题，可能值得单独发文）
显示此服务依赖的服务的CDF
- 这是一个分布，因为特定服务是否调用另一个服务是数据相关的；一个服务平均每1000次调用才调用另一个服务并不罕见

我们正在构建和构建其他工具，但仅仅能够轻松地对追踪数据（包括最近和历史数据）运行查询和聚合，就足以收回我们想要进行的所有其他工作的成本。这类似于我们在查看指标数据时看到的情况，获取我们已有的数据并以一种让人们立即运行任意查询的方式暴露出来立即产生了回报。为追踪这样做不如为指标这样做直接，因为数据更丰富，但它不是一个根本不同的想法。

我认为拥有除了原始数据之外的东西查看对追踪也比对指标更重要，因为指标的原始“追踪视图”等价物，一个“仪表板视图”其中您只是查看图表，显然且直观有用。如果那是您为指标拥有的全部，人们不会说不值得资助您的指标基础设施，因为仪表板真的很有用！然而，很难看到如何从原始追踪视图中获取价值，这是许多关于追踪无价值评论的来源。指标数据和追踪数据之间的这种复杂性差异使得高层追踪视图的附加值大于指标。

将我们的数据以非NoSQL数据库中块状格式存储也使我们更容易在追踪数据上构建工具，让不想运行SQL查询的用户从我们的追踪数据中获取价值。一个例子是服务依赖探索器（SDE），主要由Yuri Vishnevsky、Rebecca Isaacs和Jonathan Simms构建，得到了Yihong Chen的帮助。如果我们尝试查看单个请求的RPC调用图，我们会得到相当大的内容。在某些情况下，调用树的深度可能达到数百层，并且在某些层看到20或更多的扇出也很常见，这使得天真可视化难以解释。

为了了解SDE的工作原理，让我们看一个较小的例子，其中相对容易理解正在发生什么。想象我们有8个服务，A到H，它们如下树所示相互调用，我们有服务A被调用10次，总共调用服务B10次，B分别调用D、D和E 50、20和10次，其中两个D通过不同的RPC端点（调用）区分，即使它们是同一个服务，等等，如下所示：

如果我们从节点E的角度看SDE，我们会看到以下内容：

我们可以看到直接呼叫者和被呼叫者，E的100%调用来自C，并且E的100%调用也调用C，并且当调用C时我们有20倍负载放大（200/10 = 20），与我们在上面RPC树中看到的相同。如果我们查看间接被呼叫者，我们可以看到D有4倍负载放大（40 / 10 = 4）。

如果我们想查看E下游C直接调用的内容，我们可以选择它，我们将获得指向C的直接后代的箭头，在这种情况下，是E的所有间接被呼叫者。

对于更复杂的例子，我们可以查看服务D，它在我们的原始树中以橙色显示。

在这种情况下，我们的摘要框显示：

在2020年5月28日，有...
- 10个总TFE根追踪
- 110个总追踪到D的RPC
- 2.1千个总由D引起的追踪RPC
- 3个从TFE端点到D端点的唯一调用路径

我们在树中看到D三次的事实在摘要框中指示，它说我们有3个从我们的前端TFE到D的唯一调用路径。

我们可以展开对D的调用，在这种情况下，看到两个调用以及每个调用的流量比例。

如果我们点击其中一个调用，我们可以看到特定调用call4的上游和下游依赖关系，如下所示，我们可以看到即使服务D对于call3访问服务C、H和G，它也从不访问这些服务。类似地，我们可以看到其上游依赖包括直接被C调用，间接被B和E调用，但不被A和C调用：

我们从SDE可以轻松看到的一些事情是：

服务或RPC调用引起的负载
- 我们有异常负载放大的地方，无论这是服务的一般情况还是仅发生在某些调用路径上
什么导致服务或RPC调用的负载
我们在哪里以及为什么得到循环（对于Strato等非常常见）
什么导致奇怪的超深追踪

这些都是用户可以通过查询我们存储的数据获得的事情，但拥有一个带有UI的工具，让您实时点击探索事情，降低了发现这些事情的障碍。

在上面显示的例子中，有少数服务，因此您可以从更常用的节点海洋视图中获得类似信息，其中每个节点是一个服务，可视化上有一些注释，但当我们查看真实追踪时，显示数千个服务和全局视图使得很难看清发生了什么。Rebecca的一些早期分析使用了这样的视图，但我们发现您需要很多隐含知识才能很好地使用这样的视图，一个丢弃更多信息并突出显示几件事的视图使得没有恰好具有正确隐含知识的用户更容易从查看追踪中获取价值。

虽然我们在这里演示了RPC计数/负载的视图，但我们也可以显示其他内容，如延迟、错误、负载大小等。

结论

更一般地说，这只是对我们在拥有基本分布式追踪设置后从数据中构建的几件事情的简要描述。您可能不想完全按照我们所做的做，因为您可能有不同的问题，并且您极不可能遇到我们的追踪基础设施遇到的确切问题集。通过与其他公司人士的私下交流，我不认为我们遇到的问题水平是唯一的；如果有什么不同的话，我们的追踪基础设施比许多或大多数同行公司（不包括FB/Google/Amazon等巨头）处于更好的状态，因为它基本上可以工作，人们可以并且确实使用我们拥有的追踪视图来调试真实的生产问题。但正如他们所说，不快乐的系统以自己的方式不快乐。

像我们之前对指标分析的看法一样，这项工作是增量完成的。由于追踪数据比指标数据丰富得多，在编写生成本文提到的表的Scalding（MapReduce）作业之前，我们花了更多时间进行临时数据分析，但个别分析足够有价值，以至于在最初的几周清理一些最糟糕的数据质量问题并使用现有基础设施运行（极其痛苦的）临时分析之后，这个项目集几乎没有不收回成本的时候。

回顾关于是否值得从事追踪基础设施工作的讨论，人们经常指出多家公司的众多失败来证明购买（而不是构建）决策的合理性。我认为这并非完全不合理，类似项目的基础失败率不应被忽视。但另一方面，描述的大多数工作并不超级棘手，除了获得组织认同和清楚了解追踪可以带来的价值之外。

有一点超出了本文范围，可能值得单独发文，那就是追踪和指标虽然不完全正交，但互补，只拥有其中一个会让你对许多问题视而不见。你将为此付出高昂代价，以各种方式：不必要的事件、额外的调试事件时间、由于运行基础设施效率低下而导致的更高货币成本等。此外，虽然指标和追踪各自比单独拥有任何一个提供更好的可见性，但一些问题需要同时查看两者；我做过的最有趣的分析之一涉及连接（通常使用字面SQL连接）追踪数据和指标数据。

具体来说，一个容易用追踪看到但用日志看很烦人的东西（除非您添加日志试图特别查找这一点，您可以为任何单个案例这样做，但可能不想为追踪使其可见的数千件事这样做），是我们上面看过的：“显示从负载均衡器到A的特定调用路径导致对服务B高负载放大的情况，B可能在调用图中距离A多跳。在某些情况下，这会很明显，因为A通常导致B高负载放大，但如果只在某些情况下发生，用追踪仍然容易处理，但如果您只看指标，那会非常烦人。

一个您需要连接追踪和指标数据的例子是查看像坏主机对延迟的性能影响。通常，您无法注释经过主机的适当跨度，因为如果您知道主机在跨度时是坏的，主机就不会在生产中。但您有时可以用历史数据找到一组坏主机，然后查看经过主机的延迟关键路径以确定坏主机的端到端影响。

每个人都有自己的偏见，关于追踪，我的偏见通常来自尝试直接改进成本、可靠性和延迟的工作，因此示例集中在这些方面，但追踪也有许多其他用途。您可以查看《Distributed Tracing in Practice》或《Mastering Distributed Tracing》以获取其他视角。

致谢

感谢Rebecca Isaacs、Leah Hanson、Yao Yue和Yuri Vishnevsky的评论/修正/讨论。

这几乎肯定是一个不完整的列表，但其他参与的人包括Moses、Tiina、Rich、Rahul、Ben、Mike、Mary、Arash、Feng、Jenny、Andy、Yao、Yihong、Vinu和我自己。

注意，贡献者名单相对较长并不与这项工作的高ROI相矛盾。我估计在本文讨论的所有事情上投入的工作量不到2人年。例如，虽然我花了相当多时间做使用追踪基础设施的分析，但我认为我只在基础设施本身上花了大约一周时间。

如果上面还不明显，尽管我正在写这篇文章，但我是这项工作的相当次要的贡献者。我之所以写这篇文章，是因为当这项工作进行时，我坐在Rebecca旁边，并对她的过程和结果都印象深刻。
^[返回]

由 mimo-v2.5 模型翻译，花费 12965 tokens

从指标数据中获取更多价值的简单方法

Sat, 30 May 2020 07:06:34 +0000

[AI 摘要] 该文章介绍了 Twitter 内部一个名为 LongTermMetrics 的系统，它通过长期存储和查询关键指标数据，以极低的初始成本发现了价值数百万美元的优化机会。

我们花了一天时间¹构建了一个系统，该系统立即发现了一个价值七位数的优化（最终得以实施）。在第一年，我们因此每年节省了八位数的成本。这个系统引入的关键功能是能够跨所有主机、所有服务以及任意时间段查询指标数据（自系统创建以来），因此我内部将其称为长期指标系统（LTM），因为我喜欢起无聊但描述性的名字。这件事始于我寻找一个既能帮助我理解 Twitter 基础设施栈，又能带来易于量化价值的入门项目。Andy Wilcox 建议查看一些大型服务的 JVM 幸存者空间使用情况。如果你不熟悉幸存者空间是什么，你可以将其视为 JVM 中的一个可配置、固定大小的缓冲区（至少如果你使用 Twitter 默认的 GC 算法）。当时，如果你随机查看一个大型服务，通常会发现以下情况之一：

缓冲区太小，导致性能不佳，在高负载下有时会灾难性地变差。
缓冲区太大，导致内存浪费，也就是金钱浪费。

但与其随机查看服务，我们完全有理由查询所有服务，并得到一个可以改进配置的服务列表，按性能降级或成本节省排序。如果我们为 JVM 幸存者空间编写了这个查询，它同样适用于其他配置参数（例如，其他 JVM 参数、CPU 配额、内存配额等）。然而，由于数据一致性和性能问题的组合，为所有服务编写一个工作的查询比我预期的要困难一些。数据一致性问题包括：

任何给定指标可能有约 100 个名称，例如，我发现了 94 个不同的 JVM 幸存者空间名称
- 我怀疑还有更多，这些只是我通过简单搜索找到的
相同的指标名称可能对不同服务有不同含义
- 可能是计数器或计量器
- 可能有不同单位，例如，字节与 MB 或微秒与毫秒
指标有时被标记为错误的服务名称
僵尸分片可以在集群管理器启动新分片实例后继续运行并报告指标，导致特定分片名称的指标重复且不一致

我们的指标数据库 MetricsDB 是专门用于处理监控、仪表板、警报等的，不支持通用查询。这完全合理，因为监控和仪表板在可观测性需求的马斯洛层次结构中低于通用指标分析。在其他公司人士的非正式讨论中，围绕 MetricsDB 的整个系统似乎解决了困扰其他类似规模公司的问题，但其专业化意味着我们无法对 MetricsDB 中的指标运行任意 SQL 查询。

另一种查询数据的方法是使用写入 HDFS 的 Parquet 格式的副本，它允许人们运行任意 SQL 查询（以及编写消费数据的 Scalding（MapReduce）作业）。

不幸的是，由于指标名称数量众多，HDFS 上的数据无法以列式格式存储（每个名称一列）——Presto 如果列数过多会出问题，而我们有足够多的不同指标，远远超过了那个限制。如果不使用列式格式（并且不应用任何其他技巧），任何非平凡查询都会读取大量数据。结果是，你无法跨所有服务或所有主机运行任何非平凡查询（甚至许多平凡查询）而不超时。Scalding 没有类似的超时限制，但其性能要差得多，一个简单的 Scalding 查询针对一天的数据通常需要三到二十小时，具体取决于集群负载，这使得 Scalding 不适合任何探索性数据分析。

鉴于已有的数据基础设施，解决这两个问题的一个简单方法是编写一个 Scalding 作业，存储我们关心的性能或容量相关查询中 0.1% 到 0.01% 的指标数据，并将其重写为列式格式。我猜测至少 90% 的指标是几乎在任何情况下都几乎没人会想看的东西，而在任何人在乎的指标中，绝大多数与性能无关。这样做还有一个可喜的副作用，因为只有极小一部分数据是相关的，所以长期存储它的成本很低。标准的指标数据转储在几周后会被删除，因为其规模大到长期存储成本过高；更长的指标记忆期对于容量规划或其他更倾向于拥有历史数据的分析将很有用。

我们保存的数据包括（但不限于）每个服务的每个分片的以下内容：

各种缓冲区的使用率和大小
CPU、内存和其他利用率
线程数、上下文切换、核心迁移
各种队列深度和网络统计
JVM 版本、功能标志等
GC 统计信息
Finagle 指标

以及每台主机的：

来自 procfs 的各种信息，如 iowait 时间、空闲 等
机器所属的集群
主机级信息，如网卡速度、主机核心数、内存
主机级"健康"问题统计，如热节流、机器检查等
操作系统版本、主机级软件版本、主机级功能标志等
Rezolus 指标

对于变化非常频繁的东西（如主机网卡速度），我们每天存储一次，但大多数内容都以与其他指标相同的频率和粒度存储。在某些情况下，这显然是浪费的（例如，对于 JVM 临时阈值，这通常在服务的所有分片中都相同且很少变化），但考虑到我们现有的指标基础设施，这是最简单的处理方式。

虽然这个项目的初衷是找出哪些服务的 JVM 幸存者空间配置不足或过度，但它始于 GC 和容器指标，因为这些是非常明显的观察点，此后我们一直在逐步添加其他指标。为了了解我们可以查询的内容类型以及如果你懂一些 SQL，查询有多简单，这里有一些示例：

极高的 p90 JVM 幸存者空间

这是最初目标（找出配置不足/过度的服务）的一部分。任何具有极高 p90 JVM 幸存者空间使用率的服务，其幸存者空间很可能配置不足。类似地，任何在峰值负载下 p99 或 p999 JVM 幸存者空间使用率极低的服务，很可能配置过度（此处未显示查询，但我们可以将查询范围限定在高负载时段）。

一个 Presto 查询，用于获取跨所有服务的极高 p90 幸存者空间：

with results as (
  select servicename,
    approx_distinct(source, 0.1) as approx_sources, -- 服务的分片数量
    -- 实际查询使用 [coalesce and nullif](https://prestodb.io/docs/current/functions/conditional.html) 处理边缘情况，为简洁起见省略
    approx_percentile(jvmSurvivorUsed / jvmSurvivorMax, 0.90) as p90_used,
    approx_percentile(jvmSurvivorUsed / jvmSurvivorMax, 0.50) as p50_used,
  from ltm_service 
  where ds >= '2020-02-01' and ds <= '2020-02-28'
  group by servicename)
select * from results
where approx_sources > 100
order by p90_used desc

无需查看大量仪表板，我们可以直接获取列表，然后向相应的团队发送配置变更差异，或者编写一个脚本，获取查询输出并自动生成差异。上述查询为任何基本的利用率数字或比率提供了模式；你可以用类似的查询查看内存使用情况、新旧代 GC 频率等。在一个案例中，我们发现一个服务浪费了足够的 RAM，足以支付我十年的工资。

我正在逐步远离使用简单百分比的阈值来发现问题，但我展示这个查询是因为这是人们通常想做的、有用的事情，而且我可以编写它而无需花费大量篇幅解释为什么这是合理的事情；我更倾向于做的事情超出了本文的范围，可能值得单独写一篇文章。

网络利用率

上述查询是跨所有服务的，但我们也可以跨主机进行查询。此外，我们可以进行连接主机属性、功能标志等的查询。

使用一组查询，我们能够确定有相当多的服务尽管主机级网络利用率很低，却触及了网络限制。然后，计算平台团队逐步推出了网络上限的更改，我们使用类似下面的查询进行监控，以确定没有出现性能下降（理论上，如果增加网络上限导致主机或交换机触及网络限制，可能会发生这种情况）。

通过网络更改，我们能够观察到更小的队列深度、更小的队列大小（字节数）、更少的数据包丢弃等。

下面的查询仅显示队列深度以保持简洁；添加所有提到的数量只需多输入一些名称。

我们可以做的一般事情是，对于平台或服务级功能的任何特定推出，我们可以看到其对实际服务的影响。

with rolled as (
 select
   -- 推出在时间段内对所有主机是固定的，可以从时间段中任意选择一个元素
   arbitrary(element_at(misc, 'egress_rate_limit_increase')) as rollout,
   hostId
 from ltm_deploys
 where ds = '2019-10-10'
 and zone = 'foo'
 group by ipAddress
), host_info as(
 select
   arbitrary(nicSpeed) as nicSpeed,
   hostId
 from ltm_host
 where ds = '2019-10-10'
 and zone = 'foo'
 group by ipAddress
), host_rolled as (
 select
   rollout,
   nicSpeed,
   rolled.hostId
 from rolled
 join host_info on rolled.ipAddress = host_info.ipAddress
), container_metrics as (
 select
   service,
   netTxQlen,
   hostId
 from ltm_container
 where ds >= '2019-10-10' and ds <= '2019-10-14'
 and zone = 'foo'
)
select
 service,
 nicSpeed,
 approx_percentile(netTxQlen, 1, 0.999, 0.0001) as p999_qlen,
 approx_percentile(netTxQlen, 1, 0.99, 0.001) as p99_qlen,
 approx_percentile(netTxQlen, 0.9) as p90_qlen,
 approx_percentile(netTxQlen, 0.68) as p68_qlen,
 rollout,
 count(*) as cnt
from container_metrics
join host_rolled on host_rolled.hostId = container_metrics.hostId
group by service, nicSpeed, rollout

变得容易回答的其他问题

X 的延迟、CPU 使用率、CPI 或其他性能影响是什么？
- 增加或减少每个容器监控的性能计数器数量
- 调整内核参数
- 操作系统或其他发布版本
- 增加或减少主机级超额订阅
- 一般的主机级负载
- 重试预算耗尽
对于上面相关的项目，在一般情况下或特定条件下，X 的分布是什么？
哪些主机在控制了负载等因素后，其上所有服务都表现出异常差的服务级性能？
- 这通常被证明是由于硬件配置错误或故障
除了对主机级负载的一般影响外，哪些服务与其他服务"相处不融洽"？
故障转移或其他高负载事件的延迟影响是什么？
- 考虑到未来的高负载事件和当前增长，我们应该预期未来会有什么水平的负载？
- 哪些服务在故障转移期间负载增加，哪些服务负载不变，哪些介于两者之间？
对于任何固定大小的缓冲区或分配，我们可以进行哪些配置更改以在不增加成本的情况下提高性能或在不降低性能的情况下降低成本？
对于某些特定的主机级健康问题，如果我们看到 N 次，它再次出现的概率是多少？
等等，有许多问题在你可以对历史指标数据编写任意查询时变得容易回答

设计决策

LTM 是一个尽可能无聊的系统。每个设计决策都源于采取阻力最小的路径。

为什么使用 Scalding？
- 它是 Twitter 的标准工具，集成使得一切都变得简单。我尝试过 Spark，它有一些优势。然而，当时，使用 Scalding 我可以免费获得我需要的集成，而 Spark 则需要手动集成工作。
为什么使用 Presto 而不是像 Druid 这样允许实时切片和切块查询的工具？
- Rebecca Isaacs 和 Jonathan Simms 当时正在做相关的链路追踪工作，我们知道我们希望 LTM 与他们创建的任何系统进行连接。这在 Presto 中很简单，但当时使用像 Druid 这样的工具需要更多的规划和工作。
- George Sirois 将一部分数据导入了 Druid，以便我们可以试用它，它提供的功能非常好；可能值得在某个时候重新审视它。
为什么不用 Postgres 或类似的工具？
- 我们想要存储的数据量使得这在没有大量努力的情况下不可行；尽管数据存储成本相当低，但它仍然是一个"大数据"问题。
为什么用 Parquet 而不是更高效的格式？
- 在支持的标准格式中，它是最合适的（另一个主要支持的格式是原始 thrift），引入新格式将比这个项目大得多。
为什么系统不是实时的（至少延迟一小时）？
- Twitter 的批处理作业管道很容易构建，只需要阅读一些关于其工作原理的教程，然后编写类似的东西，但具有不同的业务逻辑。
- 几年前，在我加入 Twitter 之前，有人提出了一个关于构建实时分析管道用于指标数据的方案，但最终没有建成，因为（我估计）制作一个 MVP 需要一到四个季度的工作，并且不清楚哪个团队有合适的授权来做这件事，同时有四个季度的人手。但增加一个批处理作业只需要一天，你不需要为一天的工作进行路线图和规划会议，你可以直接去做，然后增量地进行后续工作。
- 如果我们寻找的是配置错误或优化机会，它们很少在一小时内消失（如果它们消失了，那它们的总体影响一定很小），而且实际上它们通常会持续数月到数年，所以我们放弃实时性并不会损失太多（我们确实失去了将输出用于某些监控用例的能力）。
- 实时版本将会是一个系统，其显著的运营成本使得一个人无法在不承担过度负担的情况下操作它。这个系统比我预想的有更多的运营/维护负担，平均每月大约需要我 1-2 天的时间，这在目前构成了系统总成本中相当大的一部分，但它从不需要报警，而且工作量很容易由一个人处理。

无聊的技术

我认为撰写关于像这样仅仅是无聊工作的系统的文章被严重低估了。我阅读的许多帖子和演讲都使用了热门技术系统。我对新的热门技术没有任何意见，但许多有用的工作来自于将无聊的技术组合在一起并做显而易见的事情。由于关于无聊工作的帖子和演讲相对较少，我认为撰写像这样的东西比它理应具有的价值更大。

例如，几年前，在当地由 Matt Singer 为我们这类规模的公司组织的基础设施讨论会上（基本上是比 FB/Amazon/Google 小的公司），我询问是否有人做过类似我们刚完成的工作。当时没有一个人在做（或者至少没人承认），两家不同公司的工程师表示震惊，我们竟然可以存储如此多的数据，而不仅仅是每个时间段的平均值，甚至还有一些直方图信息。这项工作过于直截了当和显而易见，不可能是新颖的，我确信许多地方的人已经构建了类似的系统。这实际上只是将指标数据长期存储在 HDFS（或者，如果你喜欢更通用的术语，数据湖）上，采用允许交互式查询的格式。

如果你计算一下在我们这类规模的公司中，像这样的指标数据存储项目的存储成本，它基本上就是四舍五入的误差。我们单独发布的变更就很容易支付了数十年的存储成本。我认为当人们一直部署成本更高的分析和可观察性工具时，没有理由对存储几年甚至十年的指标感到震惊。但事实证明，这很令人惊讶，部分原因是人们不撰写如此无聊的工作。

另一个不相关的例子是，前段时间，我在一家类似规模的公司遇到一个人，他想从指标数据中获得类似的见解。他们没有从像这个项目这样一天就能完成的东西开始，而是从深度学习开始。虽然我认为将机器学习和/或统计应用于基础设施指标是有价值的，但他们将一个可能在几个人天内为公司带来显著价值的项目变成了一个需要人年的项目。如果你只打算要么应用由具有基础设施经验的人指导的简单启发式方法和简单统计模型，要么天真地应用深度学习，我认为前者具有更高的投资回报率。将复杂的统计/机器学习和实践者指导的启发式方法结合起来可以比单独使用任何一种获得更好的结果，但我认为从一个需要一天构建、再花一两天开始应用的简单项目开始，而不是从一个需要数月或数年构建和应用的项目开始，更有意义。但有很多偏见倾向于做更大的项目：它能成为一个更好的简历项目（深度学习！），在许多地方，它能成为一个更好的晋升案例，人们更有可能就使用深度学习的酷系统发表演讲或撰写博客文章。

上述讨论了为什么撰写工作对整个行业有价值。我们在之前的文章中讨论了为什么撰写工作对进行撰写的公司有价值，所以我这里不再赘述。

附录：我搞砸的事情

我认为遗憾的是，你听不到系统的缺点，除非通过非正式渠道交流，所以这里列出一些我事后看来相当明显的错误。当其他事情事后变得明显时，我会添加到这里。

没有将几乎所有内容都使用 double 类型
- 在理想世界中，有些东西不是 double，但我们指标栈中的所有内容都经过了一个阶段，基本上每个指标都被转换为 double
- 我将大多数"应该"是整数类型的东西存储为整数类型，但执行从 long -> double -> long 的转换永远不会比直接执行 long -> double 转换更精确，而且它为其他问题打开了大门
- 我将一些不应该作为整数类型的东西存储为整数类型，这导致小值不必要地失去精度
  - 幸运的是，这尚未导致我做过的任何可操作分析出现严重错误，但有些分析可能会出现问题
使用断言而不是将错误条目写入某种"错误条目"表
- 由于超出本文范围的原因，在 Scalding 作业中记录错误或警告没有真正合理的方法，因此我使用断言来捕获不应该发生的事情，这导致每次发生意外情况时整个作业都会终止；更好的解决方案是将错误输入条目写入一个表中，然后如果该表不为空，则将该表作为软警报发送电子邮件
  - 一个例子，如果有一个记录错误条目的表，可以节省一些运营开销，例如我们遇到了异常的时钟偏移（3600年），导致时间戳溢出。如果我有一个记录错误条目的表，错误条目将从输出中省略，这是正确的行为，这将节省一次中断以及不得不推送修复并重新部署作业。
代码中的 Longterm vs. LongTerm
- 我最初编写时不确定应该如何大写，而当我做出决定后，我没有搜索并消除所有写错的内容，所以现在这种无意义的不一致性在多个地方存在

当你快速赶制东西而没有充分思考时，就会出现这类事情。最后一项很容易修复，问题不大，因为 Twitter 普遍使用 IDE 意味着基本上任何受影响的人都会得到 IDE 提供的正确大写。

第一项问题更大，因为它实际上可能导致分析不正确，而且修复它需要对我们现有的所有数据进行迁移。我猜到这一步，这大约需要半周到一周的工作，而我本来可以通过多花三十秒思考一下我在做什么来轻松避免。

第二项介于两者之间。在第一项和第二项之间，我认为我大概为此系统的直接工作量增加了大约一倍（所以，不包括在系统数据上花费的分析时间，只是构建系统所花的时间），这基本上没有带来任何好处。

感谢 Leah Hanson、Andy Wilcox、Lifan Zeng 和 Matej Stuchlik 的评论/修正/讨论

实际工作量大约是一天，但它是在一周内完成的，因为我还需要学习 Scala、Scalding 和一般的 Twitter 基础设施栈、指标栈等。

一天也只是一个初始数据集工作的估计。从那时起，我可能又做了几周的工作，Wesley Aptekar-Cassels 和 Kunal Trivedi 可能也投入了另一两周的时间。运营成本可能平均每月大约需要我 1-2 天的时间，将总成本带到大约一两个月的量级。

我也没有计算使用数据集所花费的时间，或调试问题所花费的时间，这包括很多我只能粗略猜测的时间，例如，当计算平台团队根据大约一小时的数据分析更改了网络出口限制时，暴露了一个潜在的 mesos 错误，可能花费了 Ilya Pronin 一天的时间，David Mackey 花费了相当多的时间来追踪数据显示有些奇怪但不知道是什么的问题，等等。如果你想完全计算因讨论的数据集上的数据分析而产生的工作所花费的时间，我怀疑，在服务级团队、加上我们的 JVM、OS 和硬件等平台级团队之间，我们可能大约达到了一个人年的时间。

但是，因为创建一个可用且有用的系统所需的初始工作是一天加上编写入门材料的时间，并且该系统带来了七位数的回报，所以很容易为所有这些额外的时间花费辩护，如果需要一年的前期工作，情况可能就不是这样了。其余的大部分时间不是那种通常在路线图评审中"计入"的创建系统的时间（用户花费的时间、运营开销），但也许持续的运营成本应该在创建系统时被"计入"（我不认为应该将用户花费的时间"计入"系统，因为系统越有用，用户花费的使用时间就越多，这并不真正算是成本）。

还有人在这个基础上构建工具，Kunal Trivedi 花费了相当多的时间在其上构建一层，使呈现比 SQL 查询更用户友好，这可以说应该计入这个项目。 ^[返回]

由 mimo-v2.5 模型翻译，花费 12283 tokens

（部分）优秀的企业工程博客是如何写成的

Wed, 11 Mar 2020 00:00:00 +0000

[AI 摘要] 文章探讨了优秀企业工程博客的共同特征：精简的审批流程、极少的非工程干预以及高层领导的明确支持，而乏味的博客则因冗长官僚流程而内容空洞。

我一直在与运营企业工程博客的人交流，我认为奇怪的一点是，即使对于一家估值九位到十位数的公司，我的个人博客获得的流量也常常超过其整个工程博客的流量，而我的博客流量高出一个数量级的情况也并不少见。

我觉得这很奇怪，因为这类科技公司通常有成百上千名员工。他们几乎肯定比我更有能力写出引人入胜的博客，并且公司从引人入胜的博客中获得的价值也远大于我。

就前者而言，公司的员工会完成更有趣的工程工作、拥有更多有趣的故事，并且比任何拥有个人博客的个人拥有更深入的知识。就后者而言，我的博客有助于我求职，也有助于公司招聘。但我只需要一份工作，因此，更多的曝光最多能让我找到一份稍好一点的工作，而除了我工作过的那家公司外，所有其他我工作过的科技公司都迫切需要招聘，并且经常流失候选人给其他公司。此外，即使我们面试同一个职位，如果公司喜欢我们中的多个候选人，它通常只会创造更多职位，所以我在面试时并不真正与其他候选人竞争。这个博客在求职方面的关键作用在于，该流程是否能接受显著的非面试反馈，或者我是否会因为他们进行常规面试而失败。对于这一点，额外一篇文章的边际价值可能非常低。另一方面，公司在招聘方面的竞争相对直接，因此相对于另一家公司，更有吸引力对他们来说是有价值的；复制Cloudflare或Segment在其工程“品牌”方面所采用的策略将带来显著的招聘优势。这个策略并非秘密：这些公司向世界广播其成果，并且通常很乐意谈论他们的博客流程。

尽管拥有一个“优秀”的企业工程博客似乎有明显的好处，但大多数企业工程博客充斥着工程师不想阅读的内容。关于一切多么了不起的模糊、高层次的空话，内容营销，关于新热点的含糊其辞的文章（今天，可能是将深度学习应用于不适当的场景；十年前，可能是将“大数据”应用于不适当的场景）等。

为了理解拥有优秀企业工程博客的公司有何共同点，我采访了三家拥有引人入胜的企业工程博客的公司（Cloudflare、Heap和Segment）以及三家拥有乏味的企业工程博客的公司（我不会透露其名称）的员工。

从高层次来看，引人入胜的工程博客的流程具有以下共同特征：

简单的审批流程，不需要太多审批环节
很少或不需要非工程审批
审批流程有隐式或显式的快速SLO（服务水平目标）
审批/编辑流程主要是让帖子对工程师更具吸引力
高层领导（联合创始人、C级高管或VP级别）直接、高层次地支持保持博客流程轻量化

吸引力较弱的工程博客的流程则具有以下共同特征：

审批流程缓慢
需要多个审批环节
需要重要的非工程审批
- 非工程审批会提出让作者感到沮丧的修改意见
- 来回修改可能持续数月
审批/编辑流程主要是为了降低帖子的风险、移除具体引用、让帖子变得更模糊，对工程师的吸引力更低
实际上没有高层支持博客
- 领导层可能抽象地认同博客是好的，但其优先级不够高，无法采取具体行动
- 改革流程以使博客更容易非常困难；之前的尝试已经失败
- 改变流程以减少开销需要所有“利益相关者”签字同意（在一个案例中是14人）
  - 任何单一利益相关者都可以否决
  - 没有任何单一利益相关者可以批准
- 利益相关者对批准任何减少开销的提议持谨慎态度
  - 批准意味着承担感知到的风险（万一发生不好的事情），而对他们来说没有感知到的好处

一家拥有引人入胜博客的公司的一位员工指出，只有一个审批人和/或一个主要审批人的缺点是，如果此人很忙，帖子可能需要几周才能获得批准。这是公平的，这是集中式审批的一个缺点。然而，当我们与其他流程进行比较时，在一家公司，人们指出审批通常需要三到六个月，尾部案例可能需要一年。

对于习惯了快节奏公司的人来说，几周似乎很长，但对于在较慢节奏公司工作的人来说，如果审批流程只需要两倍的时间，他们会欣喜若狂。

以下是我采访的三家公司（以sha512sum顺序呈现，巧合的是按公司规模递增排序，从几百名员工到近千名员工）向我描述的流程：

Heap

有人有一个写文章的想法
作者（工程师）与一位“伙伴”配对，伙伴负责编辑并批准文章
- 伙伴是一位有良好写作记录的工程师
- 这可能需要几轮修改，可能会改变文章的主旨
CTO阅读并批准
- 通常只有很小的反馈
- 可能会提出类似“设计师可以让这个图表更好看”的建议
发布文章

第一轮编辑阶段过去是在一个Slack频道里发布草稿，让“所有人”评论文章。这是一次不愉快的体验，因为“所有人”都会发表评论，需要大量修改。这个流程旨在避免收到“过多”的反馈。

Segment

有人有一个写文章的想法
- 通常来源于：内部文档、外部演讲、已发布的项目、Segment构建的开源工具
作者（工程师）撰写草稿
- 可能会有一位资深工程师与他们一起撰写草稿
直到最近，没有真正的人负责反馈流程
- Calvin French-Owen（联合创始人）和Rick（工程经理）通常会提供大部分反馈
- 可能还会从经理和工程领导那里得到反馈
- 通常，第3稿被认为是完成稿
- 现在，有一位全职编辑负责编辑文章
还会在工程团队内交流，从15-20人那里获得反馈
公关和法务会看一下，进行轻量级审批

已经做出的一些改变包括：

曾经在试图建立“工程品牌”时，将撰写深度技术文章作为最高优先级
举办过“博客静修”，花一周时间撰写一篇文章
在绩效评估和职业阶梯中明确将写作和演讲作为奖励标准

尽管有法务和公关审批，Calvin指出“总的来说，我们尽量保持轻量化。我认为博客更大的问题是缺乏文章，或者是模糊、高层次、不感兴趣的内容，而不是泄露太多信息。”

Cloudflare

有人有一个写文章的想法
- 内部博客是文化的一部分，有些文章来自内部博客
John Graham-Cumming（CTO）阅读每一篇文章，其他人也会阅读并发表评论
- John是文章的审批人
Matthew Prince（CEO）也普遍支持博客
“非常快速”的法务审批流程，SLO为1小时
- 这个流程如此轻量级，以至于一个人并没有真正将其视为审批，另一个人甚至没有提到它（第三个人确实提到了这一步骤）
- 公关通常不参与

需要注意的是，这仅适用于技术博客文章。产品公告有更重的流程，因为它们与销售材料、新闻稿等相关联。

我发现有趣的一件事是，Marek因为Cloudflare的博客而面试（这篇关于他们第四代服务器的2013年博客文章引起了他的注意），现在他既是他们的关键工程师之一，也是Cloudflare博客上引人入胜文章的主要来源之一。目前，Cloudflare博客已经至少培养了几代员工，他们因为看到博客文章而来面试，现在又为博客撰写引人入胜的文章。

反面案例 #1

许多人建议我将这家公司作为正面案例，因为他们在早期有一个像上面那样的半轻量化流程
唯一使流程变得非轻量化的因素是，一位创始人坚持审批文章，并且经常会大量重写，但博客当时很成功，是招聘的重要驱动力
随着公司规模扩大，创始人审批花费的时间越来越长，导致博客流程出现长时间延迟
在某个时候，聘请了一位外部人士接管博客发布流程，因为领导层认为这很重要
之后，流程充满了典型的反模式，审批需要数月，有工程师感到沮丧的多轮修改，使他们的博客文章吸引力降低
- 多人告诉我，他们在写了一篇文章后发誓再也不为公司写博客文章了，因为这个过程太痛苦了
- 好消息是，由于博客曾经拥有合理流程的悠久历史，博客良好产出的记忆仍然给许多外部人士留下了对其公司及其工程的良好印象

反面案例 #2

我的一个朋友试图发布一篇博客文章，结果“公关部门”审批花了六个月
在上述事件发生约一年后，由于“反面案例 #1”的声誉，“反面案例 #2”聘请了在“反面案例 #1”负责该流程的人担任公关/传播部门的高级职位，并负责该公司的博客发布流程。在“反面案例 #1”，此人是在博客从工程师愿意写的东西变成博客流程如此繁琐以至于工程师在写了一篇文章后发誓再也不写的时候接手的
聘请“反面案例 #1”衰落期间负责人来改善“反面案例 #2”的流程，并未使流程精简，也没有在“反面案例 #2”产生更多或更好的产出

总体评论

我的观点是，企业工程博客的自然状态是，当人们能得到一些反馈时，它会相当有趣。目前缺乏真实的、深入的技术写作，这使得任何半吊子的、诚实的、关于技术工作的公开写作都显得有趣。

为了拥有一个无聊的博客，公司必须积极阻止工程师发布有趣的内容。不幸的是，大型公司的自然状态往往倾向于规避风险，阻止人们写作，以防它引起法律、公关或其他问题。个人贡献者（IC）可能认为阻止工程师撰写低风险技术文章是荒谬的，而与此同时，C级高管和副总裁经常发表演变成公关灾难的公开评论，但大型公司中的IC没有权威，或者觉得他们没有权威仅仅因为某事有意义就去做。而这十四个必须签字批准精简流程的利益相关者中，没有一个关心精简流程，因为这对公司有好处，但对他们自身没有真正的影响，而不像是要承担精简流程可能带来的风险责任（无论多小）。一位愿意冒险的高管或高级副总裁可以承担责任并处理后果，并且如果他们对工程招聘或士气感兴趣，他们可能会看到这样做的理由。

我经常从更官僚化的公司的人那里听到类似“我们这种规模的公司都是这样”的评论，但这并不正确。Cloudflare，一家拥有近1000名员工、估值60亿美元的公司，与许多其他博客流程更为繁琐的公司处于同一规模等级。企业工程博客的情况似乎类似于提供真实面试反馈的情况。interviewing.io声称这样做有显著的好处，而坏处很小。一些公司确实提供真实的反馈，并且这样做的公司通常发现这给它们带来了招聘方面的轻松优势，几乎没有坏处，但绝大多数公司不这样做，而这些公司的人会声称提供反馈是不可能的，因为会被起诉或者公司会被“取消”，即使对于提供反馈的公司来说通常不会发生这种情况，甚至在一些整个行业都普遍提供面试反馈的领域。很容易含糊地说存在风险，而当来自多个组织的模糊风险警告出现时，很少有人有权驳斥它们。

尽管这是一个小样本，从小样本中进行过多概括是危险的，但你需要高层支持来突破官僚主义的观点，与我在其他大多数大型公司难以做一件容易且有明显但分散价值的事情的领域所看到的情况是一致的。虽然这篇文章碰巧是关于博客的，但我听过很多关于各种主题的类似故事。

附录：引人入胜的博客文章示例

以下是一些来自上述博客的文章，附有简短评论，说明我认为这些文章引人入胜的原因。这次按sha512哈希值倒序排列。

Cloudflare

https://blog.cloudflare.com/how-verizon-and-a-bgp-optimizer-knocked-large-parts-of-the-internet-offline-today/
- 讨论了一个影响许多人的真实技术问题，深度适中
- 时效性强，仅在故障发生八小时后发布，当时人们仍然非常有兴趣了解发生了什么；大多数公司无法如此快速地写出引人入胜的博客文章，或者只能在特殊情况下做到，Cloudflare能够半定期地发布及时文章
https://blog.cloudflare.com/the-relative-cost-of-bandwidth-around-the-world/
- 对一些数据的探索
https://blog.cloudflare.com/the-story-of-one-latency-spike/
- 一个调试故事
https://blog.cloudflare.com/when-bloom-filters-dont-bloom/
- 一个调试故事，这次是在开发数据结构的背景下

Segment

https://segment.com/blog/when-aws-autoscale-doesn-t/
- 对广泛使用的服务中的一个陷阱的具体解释
https://segment.com/blog/gotchas-from-two-years-of-node/
- 对广泛使用工具中的一个陷阱的具体示例和解释
https://segment.com/blog/automating-our-infrastructure/
- 关于公司如何运作的具体细节的文章；理论上任何公司都可以写，但很少有公司这样做

Heap

https://heap.io/blog/engineering/basic-performance-analysis-saved-us-millions
- 讨论了一个真实的问题和解决方案
https://heap.io/blog/engineering/clocksource-aws-ec2-vdso
- 讨论了一个真实的问题和解决方案
- 在Hacker News评论中，工程师（malisper, kalmar）给出了有真实原因的技术回应，而不仅仅是大多数情况下看到的通常掩饰
https://heap.io/blog/analysis/migrating-to-typescript
- 真实地谈论了首次尝试推动全公司技术变革失败的原因

需要注意的是，这些博客都有不同的风格。就我个人而言，我更喜欢Cloudflare博客的风格，它有更高比例的“深入探讨”技术文章，但不同的人会喜欢不同的风格。有很多风格都可以奏效。

感谢Marek Majkowski、Kamal Marhubi、Calvin French-Owen、John Graham-Cunning、Michael Malis、Matthew Prince、Yuri Vishnevsky、Julia Evans、Wesley Aptekar-Cassels、Nathan Reed、Jake Seliger、一位匿名评论者，以及来自我未透露名称的公司的信息源提供的评论/更正/讨论；致谢中明确提到的人员均未提供关于吸引力较弱博客的信息

由 mimo-v2.5 模型翻译，花费 8871 tokens

命令行选项的增长：1979年至今

Tue, 3 Mar 2020 00:00:00 +0000

[AI 摘要] 文章分析1979年至今Unix命令行选项数量激增的现象，探讨其对软件设计哲学和用户复杂性的影响。

我的爱好：在一个显示器上打开麦克罗伊的 UNIX 哲学，在另一个显示器上阅读手册页。

麦克罗伊的准则中第一条常被转述为“只做一件事，并做好它”，这其实是从“让每个程序只做一件事并做好。要做新工作，应重新构建，而不是通过添加新‘功能’来使旧程序复杂化。”中提炼出来的。

麦克罗伊对此准则的例子是：

让外界感到惊讶的是，UNIX 编译器不产生列表：打印可以由一个单独的程序完成得更好、更灵活。

如果你在 Mac 上打开 ls 的手册页，你会看到它以

ls [-ABCFGHLOPRSTUW@abcdefghiklmnopqrstuwx1] [file ...]

开头。也就是说，ls 的单字母参数包括了除 {jvyz} 以外的所有小写字母、14 个大写字母，以及 @ 和 1。仅单字符选项就有 22 + 14 + 2 = 38 个。

在 Ubuntu 17 上，如果你阅读 coreutils 版本的 ls 手册页，虽然看不到选项的简明总结，但你会看到 ls 有 58 个选项（包括 --help 和 --version）。

为了了解 ls 是个特例，还是这类功能繁多的命令很常见，我们可以查看一些按使用频率排序的常用命令。

命令	1979	1996	2015	2017
ls	11	42	58	58
rm	3	7	11	12
mkdir	0	4	6	7
mv	0	9	13	14
cp	0	18	30	32
cat	1	12	12	12
pwd	0	2	4	4
chmod	0	6	9	9
echo	1	4	5	5
man	5	16	39	40
which		0	1	1
sudo		0	23	25
tar	12	53	134	139
touch	1	9	11	11
clear		0	0	0
find	14	57	82	82
ln	0	11	15	16
ps	4	22	85	85
ping		12	12	29
kill	1	3	3	3
ifconfig		16	25	25
chown	0	6	15	15
grep	11	22	45	45
tail	1	7	12	13
df	0	10	17	18
top		6	12	14

这个表格列出了各种命令在 V7 Unix (1979)、Slackware 3.1 (1996)、Ubuntu 12 (2015) 和 Ubuntu 17 (2017) 中的命令行选项数量。单元格颜色越深、越蓝，表示选项越多（使用对数尺度），灰色表示未找到该命令。

我们可以看到，命令行选项的数量随时间推移急剧增加；从左到右，条目通常变得更深（选项更多），没有选项减少（颜色变浅）的情况。

麦克罗伊长期以来一直批评命令的选项数量、大小和总体功能的增加¹：

所有东西都很小，当我看到 Linux 的大小[听不清]时，我心都沉了。那些以前装在 8K（千字节）里的工具，现在要一兆。而手册页，以前真的只是一页，现在变成了一本有上千个选项的小册子……我们过去常在 UNIX 房间里坐着说‘我们能扔掉什么？为什么有这个选项？’通常，这往往是因为基本设计上存在一些缺陷——你没有真正抓住正确的设计点。与其添加一个选项，不如找出为什么、是什么迫使你添加这个选项。这种观点部分是由于硬件非常小……现在已经丢失了，而我们并没有因此变得更好。

具有讽刺意味的是，命令行选项数量上升的原因之一是麦克罗伊的另一条准则：“编写程序来处理文本流，因为这是一个通用接口”（参见 ls 作为此点的一个例子）。

如果传递的是结构化数据或对象，格式化可以留给最后的格式化步骤处理。但是，使用纯文本时，格式化和内容是混在一起的；因为格式化只能通过解析内容来完成，所以命令通常为了方便而添加格式化选项。或者，用户可以利用他们对数据结构的知识，并将这些知识编码为传递给 cut、awk、sed 等命令的参数（同时也使用他们对这些程序如何处理格式化的知识；不同程序处理方式不同，用户需要了解，例如，了解 cut -f4 和 awk '{ print $4 }' 的区别²）。这比向序列中的最后一个命令传递一两个参数要麻烦得多，它把复杂性从工具推给了用户。

人们有时说他们不想支持结构化数据，因为他们必须支持多种格式才能制作一个通用工具，但他们已经需要支持多种格式来制作通用工具了。一些标准命令无法读取其他命令的输出，因为它们使用不同的格式，wc -w 不能正确处理 Unicode，等等。说“文本”是通用格式，就像说“二进制”是通用格式一样。

我听说有人说命令行工具没有真正的替代方案来应对这种复杂性，但这么说的人从未真正尝试过替代方案，比如 PowerShell。我对 PowerShell 有很多抱怨，但传递结构化数据并轻松地在结构化数据上操作，而无需在脑海中记住元数据信息以便在管道中的正确位置将正确的元数据传递给正确的命令行工具，这并不在我的抱怨之列³。

当有人说我们可以通过让所有东西都处理文本来保持软件简单和兼容时，其障眼法就是假装文本数据没有需要解析的结构⁴。在某些情况下，我们可以将所有内容视为单个空格分隔的行，或者可能是我们指定的一些行列分隔符的表格（当然，不同工具的行为并不一致）。当它有效时，这会增加一些麻烦，而当将数据序列化为扁平文本格式会增加相当大的复杂性时，数据的结构意味着简单的扁平化需要大量的解析工作才能以有意义的方式重新摄入数据。

命令现在有更多选项的另一个原因是，人们为本来可以由一系列命令拼凑完成的功能添加了便利标志。这可以追溯到 V7 Unix，其中 ls 有一个选项可以反转排序顺序（如果当时写了 tac，而不是添加一个特殊的反转选项，本可以通过将输出传递给类似 tac 的程序来完成）。

随着时间的推移，添加了更多的便利选项。例如，以一个最初没有选项的命令为例，mv 可以移动并创建备份（三个选项；两个是不同方式的备份指定，其中一个接受参数，另一个不接受显式参数而是从 VERSION_CONTROL 环境变量中读取隐式参数；一个选项允许覆盖默认备份后缀）。mv 现在还有从不覆盖和仅在文件更新时才覆盖的选项。

mkdir 是另一个曾经没有选项的程序，排除 SELinux 或 SMACK 的安全事项以及帮助和版本选项后，添加的选项都是便利标志：设置新目录的权限和在父目录不存在时创建它们。

如果我们看看 tail，它最初只有一个选项（-number，告诉 tail 从哪里开始），它添加了格式化和便利选项。在格式化方面，它有 -z，使行分隔符变为 null 而不是换行符。一些便利选项的例子有 -f 在有新更改时打印，-s 设置检查 -f 更改之间的休眠间隔，--retry 在文件不可访问时重试。

麦克罗伊说“添加所有这些选项并没有让我们变得更好”，但我变得更好了。我们讨论过的一些选项我从未使用过，其他选项也只是偶尔使用，但这就是命令行选项的美妙之处——与图形用户界面不同，添加这些选项不会使界面变得杂乱。手册页可能会变得杂乱，但在谷歌和 StackOverflow 的时代，我怀疑许多人只是搜索他们试图做的事情的解决方案，而根本不阅读手册页。

这并不是说添加选项没有代价——更多的选项意味着更多的维护负担，但这是维护者为了用户利益而付出的成本，考虑到维护者与用户的比例，这并非明显不合理。这类似于 Gary Bernhardt 的评论：练习一个演讲五十次是合理的，因为如果有三百人的观众，观看演讲与练习的时间比仍然只有 1:6。总的来说，对于常用的命令行工具，这个比例甚至会更加极端。

有人可能会争辩说所有这些额外的选项给用户带来了负担。这并不完全错误，但这种复杂性负担一直存在，问题只是负担会落在哪里。如果你将一组命令行工具连同 shell 看作形成一种语言——一种任何人都可以编写新方法的语言，如果它流行起来，它实际上会被添加到标准库中，标准是由诸如“编写程序来处理文本流，因为这是一个通用接口”这样的准则定义的——这种语言整体上总会变成一个只写、混乱的烂摊子。至少，对于那些捆绑了比 UNIX 风格更多功能和选项的工具，用户可以用一个仅仅庞大但可能具有某些内部一致性的工具集（尽管彼此不一致）来替换一个巨大且极不一致的工具集。

麦克罗伊暗示问题在于人们思考得不够，老牌的 UNIX 大师们本可以坐在同一间屋子里，思考更久更努力，直到他们想出一套具有“非凡简洁性”的一致工具集。但这永远不会扩展，这种哲学使我们陷入的混乱成为必然。问题不在于思考得更久或更努力；而在于拥有一种哲学，除非你有一个相对较小的团队，具有共享的文化理解，能够坐在同一间屋子里，否则这种哲学无法扩展。

许多我们至今仍困在其中的 UNIX 主要长期反特性和反模式，都源于“我们都应该像在同一个房间里一样行动”的设计哲学，这与你想要创建良好、可用、通用的接口以适应原始设计者未曾想到的问题的方法相反。例如，一个常见的抱怨是现代 shell 和终端缺少许多任何设计现代界面的人都会想要的明显功能。当你与那些以现代原则编写新 shell 和新终端的人交谈时，比如 Jesse Luehrs，他们会指出一个主要问题是 UNIX 模型没有很好地分离接口和实现，如果你要编写一个与五十年前创建的终端行为相同的终端，这没问题，但如果你想构建一个现代终端，这会立即且明显地出现问题。如果每个人都在同一个房间里，系统不需要扩展贡献者数量或随时间扩展，这种设计哲学工作得很好，但这根本不是我们生活的世界。

如果任何人都可以编写一个工具，而主要的指令来自“UNIX 哲学”，那么人们对什么是“简洁”或“只做一件事”⁵、什么是正确的做事方式会有不同的看法，不一致性会滋生，导致处理一种极不一致的语言（如 PHP）时会出现的那种复杂性。人们嘲笑 PHP 和 JavaScript 有各种缺陷和奇怪的不一致性，但作为一个语言和标准库，任何常用的 shell 加上广泛使用的 *nix 工具集合在一起要糟糕得多，并且由于即使在单个 Linux 发行版内的不一致性而包含更多意外复杂性，而且没有其他可能的结果。如果你比较 Linux 发行版、BSD、Solaris、AIX 等，用户切换系统时必须记住的意外复杂性量级，远超 PHP 或 JavaScript 的混乱。相比之下，那些被嘲笑最多的编程语言是优秀设计的典范。

需要明确的是，我并不是说我或其他任何人可以凭借 70 年代可用的知识，在当时做出实际有用且在今天看来优雅的系统方面做得更好。事后诸葛亮很容易发现问题。我不同意的是今天的 Unix 大师们发表的评论；像麦克罗伊这样的评论，暗示我们只是忘记了或者不理解简洁的价值，或者肯·汤普森说 C 和任何语言一样安全，如果我们不想要 bug 就应该只写无 bug 的代码。这类评论暗示我们从后视镜中没有太多可学的；在 70 年代，我们构建系统的方式和今天任何人一样有效；五十年的集体经验、数千万人年，没有教会我们任何东西；如果我们只是回到像最初的 Unix 大师们那样构建系统，一切都会好起来。恕我不能苟同。

附录：内存

虽然解决麦克罗伊对二进制大小膨胀的抱怨有点超出范围，但我会指出，在 2017 年，我买了一台拥有 16GB RAM 的 Chromebook，价格是 300 美元。一个 1 兆字节的二进制文件在 1979 年可能是一个严重的问题，那时标准的 Apple II 有 4KB 内存。一台 Apple II 在 1979 年的美元价值是 1298 美元，相当于 2020 年的 4612 美元。你可以买到一台低端 Chromebook，其价格不到它的 1/15，但内存却多出四百万倍。抱怨内存使用增长了一千倍，而一台（便携式！）便宜了一个数量级以上的机器却拥有四百万倍的内存，这似乎有点荒谬。

我更喜欢更精简的软件，这就是为什么我把我的主页优化成两个数据包（如果我的 CDN 服务高压缩的 Brotli，它会是一个数据包），但这纯粹是审美偏好，是我为了好玩而做的事。命令行工具的瓶颈不是内存使用，花时间优化一个占用一兆的工具的内存占用，就像把主页优化成一个数据包一样。也许是一个有趣的爱好，但不应该是任何人强加的。

表格方法论

命令频率来源于 GitHub 上的公开命令历史文件，不一定代表你的个人使用情况。只保留了“简单”命令，因此排除了 curl、git、gcc（有 > 1000 个选项）和 wget 等命令。什么是“简单”是主观的。Shell 内置命令，如 cd 没有包括在内。

重复选项不计为单独选项。例如，git blame -C、git blame -C -C 和 git blame -C -C -C 行为不同，但这些都会被计为一个参数，即使 -C -C 实际上与 -C 不同。

表格将子选项计为单个选项。例如，ls 有以下内容：

--format=WORD across -x, commas -m, horizontal -x, long -l, single-column -1, verbose -l, vertical -C

尽管有七个格式选项，但这只算一个选项。

明确说明不起作用的选项仍然计为选项，例如，ls -g，其说明为“已忽略；为兼容 Unix 而保留。”，被计为一个选项。

同一选项的多个版本也被视为一个选项。例如，对于 ls，-A 和 --almost-all 被计为一个选项。

在手册页说某个选项应该存在但实际不存在的情况下，该选项不计入表格。例如，V7 mv 的手册页说：

缺陷

如果 file1 和 file2 位于不同的文件系统上，mv 必须复制文件并删除原始文件。在这种情况下，所有者名称将变为复制进程的名称，并且与任何其他文件的链接关系都将丢失。

Mv 应该像 rm 一样接受 -f 标志，如果目标存在且不可写，则禁止询问。

-f 在表格中不计为标志，因为该选项实际上不存在。

表格中最新的年份是 2017 年，因为我在 2017 年写了这篇文章的初稿，直到 2020 年才整理出来。

mjd 谈 Unix 哲学，并对 /usr/bin/time 与内置 time 的混乱进行评述。

mjd 在 1991 年对命令行选项激增的调侃。

在 Hacker News 上：

p1mrx:

奇怪的是 ls 已经增长到 58 个选项，但仍然不能输出以 \0 终止的文件名

作为一个练习，尝试按大小或日期对目录进行排序，并将结果传递给 xargs，同时支持任何有效的文件名。我最终还是放弃了，让我的脚本忽略任何包含 \n 的文件名。

whelming_wave:

这里有：按修改时间对当前目录中的所有文件进行排序，并支持文件名中的空格。`printf (od -> sed)' 构造将分隔的字符转回换行符分隔，但你可以用任何接受分隔输入的东西替换它。当然，`sort --zero-terminated' 是 GNU 扩展，有点作弊，但它甚至在 macOS 上可用，所以可能没问题。

      printf '%b' $(
        find . -maxdepth 1 -exec sh -c '
          printf '\''%s %s\0'\'' "$(stat -f '\''%m'\'' "$1")" "$1"
        ' sh {} \; | \
        sort --zero-terminated | \
        od -v -b | \
        sed 's/^[^ ]*//
      s/ *$//
      s/  */ \\/g
      s/\\000/\\012/g')

如果你在 zsh 下运行它，你需要用 `command' 前缀来使用系统可执行文件：zsh 的内置 printf 不支持打印通常可打印字符的八进制转义代码，并且你可能需要将输出分配给一个变量并显式地进行分词。

据我所知，这都是 POSIX 标准的，除了 sort。

The Unix haters handbook。

为什么要创建一个新的 shell？

感谢 Leah Hanson、Jesse Luehrs、Hillel Wayne、Wesley Aptekar-Cassels、Mark Jason Dominus、Travis Downs 和 Yuri Vishnevsky 的评论/修正/讨论。

这段引文与我之前看到的版本略有不同，因为我观看了源视频。据我所知，网上（被 Bing、DuckDuckGo 或 Google 索引）的这段引文的每个副本都是一个人对这段引文的转录副本。存在一些歧义，因为音频质量低劣，我听到的与转录那段引文的人听到的有点不同。 ^[返回]
另一个用户因不同命令处理格式化方式不同而承担复杂性的例子是时间格式化 —— shell 内置的 time 当然与 /usr/bin/time 不一致，用户需要知道这一点并知道如何处理。 ^[返回]
举个例子，你可以对任何对象使用 ConvertTo-Json 或 ConvertTo-CSV，你可以使用 cmdlet 来改变对象属性的显示方式，并且你可以编写格式化配置文件来定义你偏好的格式。

另一种看待方式是通过康威定律的视角。如果我们有一组由不同人员构建的命令行工具，他们通常在组织上没有联系，除非有人能定义一个标准并让人们采纳它，否则这些工具将会极不一致。这在 Windows 上实际上相对有效，而不仅仅是在 PowerShell 中。

对微软的一个常见抱怨是他们造成了巨大的 API 变动，通常出于非技术性的组织原因（例如，Sinofsky 的权力博弈，就像已删除的推文的回复中描述的那样：https://twitter.com/stevesi/status/733654590034300929）。这是事实。即便如此，从一个简单用户的角度来看，现成的 Windows 软件通常比 *nix 更擅长传递非文本数据。这源于 Windows 对非文本数据的拥抱，至少可以追溯到 1999 年的 COM（以及可以说是 1990 年和 1987 年分别发布的 OLE 和 DDE）。

例如，如果你从支持二进制格式 A 和 B 的 Foo 复制内容，粘贴到支持格式 B 和 C 的 Bar 中，然后你再从 Bar 复制到支持 C 和 D 的 Baz 中，这将有效，即使 Foo 和 Baz 没有共同支持的格式。

当你剪切/复制时，应用程序基本上会“告诉”剪贴板它能提供哪些格式的数据。当你粘贴到应用程序时，目标应用程序可以请求任何可用格式的数据。如果数据已经在剪贴板中，“Windows”会提供它。如果不在，Windows 会从源应用程序获取数据，然后交给目标应用程序，一份副本会在 Windows 中保存一段时间。如果你从 Excel “剪切”，它会“告诉”你它有数十种格式的数据可用。这种系统对于兼容性相当好，尽管它绝对不是简单或最小化的。

除了很好地支持多种格式并持续足够长时间以至于很多软件都能良好兼容外，Windows 通常还有更好的开箱即用的剪贴板支持。

假设你复制然后粘贴少量文本。大多数情况下，这在 Windows 和 Linux 上都会按预期工作。但现在假设你复制了一些文本，关闭了复制它的程序，然后粘贴。很多人的心智模型是，当你复制时，数据存储在剪贴板中，而不是被复制的程序中。在 Windows 上，软件通常编写为符合这一期望（尽管从技术上讲，剪贴板 API 的用户不必这样做）。这在使用 X 的 Linux 上不太常见，对于大多数软件，正确的心智模型是复制存储的是一个指向数据的指针，数据仍然由复制它的程序拥有，这意味着如果程序关闭，粘贴将无法工作。当我（非正式地）调查程序员时，如果他们没有实际为应用程序做过复制+粘贴相关的工作，他们通常对此感到惊讶。当我调查非程序员时，他们往往觉得这种行为既令人困惑又令人惊讶。

操作系统有效拥有剪贴板内容的缺点是复制大量数据代价高昂。假设你复制了大量文本，许多千兆字节，或者一些复杂的对象，然后从未粘贴它。你并不真的想将这些数据从你的程序复制到操作系统，以便它可用。Windows 也能合理处理这一点：应用程序可以仅在请求时提供数据，当这被认为是有利的。在上述情况下，当有人关闭程序时，程序可以决定是否应该将该数据推送到剪贴板中或丢弃它。在这种情况下，许多软件（例如 Excel）会提示“保留”剪贴板中的数据或丢弃它，这是相当合理的。

在 Linux 上支持部分功能并非不可能。例如，ClipboardManager 规范描述了一种持久化机制，GNOME 应用程序通常支持它（尽管存在一些 bug），但 *nix 上的情况与 Windows 应用程序倾向于支持良好剪贴板行为的情况确实不同。 ^[返回]
另一个例子是在现代编译器之上可用的工具。如果我们回头看看麦克罗伊的经典例子，真正的 UNIX 编译器如此专业化以至于列表是单独的工具，我们可以看到这已经发生了变化，即使你仍然可以使用单独的工具来处理列表。一些常用的 Linux 编译器有成千上万个选项，并做很多事情。例如，clang 现在做的许多事情之一就是静态分析。截至撰写本文时，有 79 个常规静态分析检查和 44 个实验性检查。如果这些是单独的命令（可能每个命令都是独立的，或者是一个 static_analysis 命令），它们仍然会依赖相同的底层编译器基础设施，并施加相同的维护负担——让这些静态分析工具处理纯文本并重新实现整个编译器工具链以达到能进行静态分析的程度，这并不真正合理。它们可以是单独的命令而不是捆绑到 clang 中，但它们仍然会依赖于用于编译器的相同机制，并且要么给编译器施加维护和复杂性负担（编译器必须支持为其构建的工具的非破坏性接口），要么它们会经常中断。

“让一切都变成文本，这样就简单了”作为一个简短的流行语很不错，但在现实中，如果你想做真正有用的工作，数据的文本表示通常不是你想要的。

就 clang 而言，无论你是将其做成一个单一的命令还是数千个更小的命令，clang 所做的事情都比 1979 年存在的任何编译器，甚至 1979 年所有编译器加起来都要多。很容易说 1979 年时事情更简单，而我们现代程序员迷失了方向。更难的是实际提出一个真正更简单且能真正被采纳的设计。这样的设计要维持所有现有功能和可配置性，并像 1979 年的东西一样简单，这是不可能的。 ^[返回]
自诞生以来，curl 从支持 3 个协议发展到支持 40 个。这是否意味着它做了 40 件事，将其分成 40 个单独的命令会更“UNIX 风格”？取决于你问谁。如果每个协议都是自己的命令，由不同的人创建和维护，我们就会陷入与其他命令相同的状况。命令行选项不一致，尽管都是文本流，输出格式却不一致，等等。这会更接近麦克罗伊所倡导的简洁性吗？取决于你问谁。 ^[返回]

由 mimo-v2.5 模型翻译，花费 19189 tokens

可疑的不连续性

Tue, 18 Feb 2020 00:00:00 +0000

[AI 摘要] 文章通过多个领域案例，阐述了硬性阈值（如税收门槛、资格标准）如何引发扭曲行为或数据不连续性。

如果您在去年年底浏览过任何个人理财论坛，很可能遇到过有人拼命想在年底前亏钱的问题。人们可以通过多种方式做到这一点；一个常见的建议是购买预计会到期作废的看跌期权，让买方（很可能）承受损失。

人们寻求亏钱方法的一个原因是，在美国，健康保险补贴的收入门槛是硬性的，个人为48,560美元（家庭人数越多，门槛越高；四口之家为100,400美元）。有许多因素会影响具体细节（年龄、居住地、家庭规模、计划类型），但在所有情况下，从门槛一侧跨到另一侧的个人其健康保险成本每年增加约7,200美元并不罕见。这意味着，如果一个购买ACA保险的个人预计收入5.5万美元，那么将其收入降低6,440美元，使其低于48,560美元的补贴上限，比赚5.5万美元更划算。

虽然这是一个特别极端的例子，但美国税收政策充满了抑制收入增长，甚至在某些情况下实际上激励减少收入的不连续性。其他一些不连续性包括TANF收入限制、Medicaid收入限制、CHIP免费覆盖的收入限制以及CHIP减价覆盖的收入限制。这些限制因地点和情况而异；TANF和Medicaid的收入限制通常属于“低收入”范围，而CHIP限制则通常属于“中产阶级”范围。这些补贴不连续性与ACA补贴不连续性的影响相同——在某些收入水平上，人们被激励去亏钱。

任何人都可以安排自己的事务，使其税负尽可能低；他没有义务选择那种最能充实国库的模式。甚至没有增加税款的爱国义务。法院一再声明，如此安排事务以保持税负最低并无任何不妥。每个人都是这样做的，无论贫富，所有人都做得对，因为没有人有义务支付超过法律要求的税款。

如果您同意著名的勒尼德·汉德的引言，那么为了降低有效税率、增加可支配收入而亏钱，在个人层面上是完全合理的行为。然而，一个鼓励人们亏钱——也许是通过购买看跌期权将钱（平均而言）输给了更富有的期权交易员——的税制似乎是次优的。

解决上述问题的一个简单方法是采用缓慢的逐步淘汰，而不是硬性门槛。缓慢的逐步淘汰实际上已经在一些补贴中实施，虽然这也会带来问题，但通常比在税收/补贴政策中引入硬性不连续性问题要小。

在这篇文章中，我们将探讨各种各样的不连续性。

硬件或软件队列

一个简单的队列表现出不连续的行为。如果队列已满，新条目会被丢弃。如果队列未满，新条目不会被丢弃。根据您的目标，这通常会产生不理想的影响。例如，在网络中，一个简单的队列可能被认为对“突发”工作负载（总体带宽利用率低）“不公平”，因为低带宽利用率的工作负载“不应该”比不那么突发但使用更多带宽的工作负载遭受更多丢弃（这根据您的目标不同，也可以认为并非不公平）。

解决这个问题的一类方案是随机早期丢弃及其变体，它根据队列满度（可能还有其他因素）为传入项目赋予一个可能被丢弃的概率，从而平滑不连续性，并缓解由丢包概率不连续引起的问题。

这篇关于链接聚合网站投票的文章本质上是相同的想法，尽管在某种意义上极性是相反的。某个内容是否出现在首页，对其获得的流量影响存在非常尖锐的不连续性。您可以将其视为：如果一个链接只获得N-1票而不是N票，它就会被从队列中丢弃。

大学招生与佩尔助学金获得者

佩尔助学金开始被用作衡量学校帮助/招收低收入学生认真程度的代理指标。一阶影响是，超过佩尔助学金门槛的学生被录取的可能性显著降低，而低于门槛的学生被录取的可能性显著提高。这样描述的话，听起来事情正按预期运作。

然而，当我们观察每个群体内部的情况时，我们看到了与目标（即帮助低收入家庭学生）相反的结果。在不符合佩尔助学金资格的人中，收入最低者受到的影响最严重，录取概率降低得最厉害。在符合资格的人中，收入最高者最有可能受益，同样，如果您的目标是帮助低收入家庭学生，这恰恰相反。

我们可以在下面的图表中看到这些，它们是2008年（第一张图）和2016年（第二张图）两所大学学生父母收入的直方图，红线表示佩尔助学金门槛。

大学优化佩尔助学金获得者的二阶效应是，精明的父母可以做一些人在年末减少应税收入时所做的同样的事情。有人可能会将钱存入传统IRA而不是罗斯IRA，如果达到了他们的IRA缴款限额，他们可以尝试在期权上亏钱，从而有效地将钱转移给可能比他们更富有的期权交易员，以使他们的收入低于佩尔助学金门槛，增加其子女被选择性学校录取的概率。

选举统计数据

以下俄罗斯选举投票站的直方图显示，自2004年左右开始，在诸如95%等整齐的整数附近，投票率和结果出现了奇怪的峰值。这似乎表明存在通过伪造结果进行的选举舞弊，并且至少一些伪造结果的人并不费心去伪造一个平滑分布的结果。

关于查找欺诈性数字，另见本福特定律。

二手车销售价格

Mark Ainsworth指出，在美国汽车拍卖销售价格中，以10,000美元为边界存在不连续性，拍卖的汽车数量也是如此。下面的价格图已针对车型年份等因素进行了调整，但我们可以在原始未调整数据中看到同样的不连续性。

p值

心理学论文的作者有动机去产生p值低于某个阈值（通常是0.05，但有时是0.1或0.01）的论文。Masicampo等人绘制了三本心理学期刊上发表论文的p值，发现p值刚好低于0.05的论文数量异常之多。

p = 0.05处的峰值与几个不太好的假设一致，例如：

作者篡改结果以获得p = 0.05
期刊接受p = 0.05的论文的可能性远高于p = 0.055
作者在p = 0.055时提交结果的可能性远低于p = 0.05

Head等人（2015）调查了多个领域的证据。

Andrew Gelman和其他人多年来一直致力于消除统计显著性和p值阈值的概念，参见这篇论文了解简要原因。这不仅可以减少作者在p值上作弊的动机，还有其他原因不希望用一条明确的规则来决定某事是否“显著”。

毒品指控

这组四个图表中的上面两个图表显示了2010年《公平量刑法案》通过前后，人们被指控持有可卡因数量的直方图。该法案将触发10年强制性最低监禁刑期的可卡因持有量从50克提高到280克。2010年之前分布相对平滑，之后则出现了尖锐的不连续性。

左下方的图表显示了在280克处起诉率急剧上升，随后在2013年证据标准改变后可能出现下降¹。

高中毕业考试分数

这是波兰语考试毕业分数的直方图。我们可以看到，分数刚好达到或略高于30分的学生数量异常之多，而分数在23-29分之间的学生数量异常之少。这是2013年的数据；我查看的其他年份（2010-2012）显示出类似的不连续性。

在我查看的年份（2010-2013）中，数学毕业考试分数没有表现出任何异常的不连续性。

一位匿名的Reddit评论者解释了这一点：

当老师批改matura（高中毕业考试）时，他/她不知道是谁的试卷。唯一知道的是：学生的编号（代码）和考试来源的地区（通常来自波兰完全不同的地区）。该系统旨在防止任何形式的操纵，例如，老师的主管有时会来检查试卷是否批改正确。我不想过多谈论系统的缺陷（和优点），这在世界上每个进行最终考试的教育系统中都是众所周知的，但您必须记住，老师在批改时严格遵循一个关键点。

所以，如果考试分数低于30%，考试就不及格。然而，在协议中做出最终声明之前，一个由3人（我不记得确切人数）组成的委员会会再次检查试卷。这就是人文科学和数学差异显现的时刻：老师们通常会努力寻找丢失的一分（或几分），以使考试不会不及格，因为这对这个人、他的学校以及批改团队来说都是一场悲剧。在批改写作或开放性问题时（这在波兰语考试中是常见情况）找到“丢失”的分数并不太难，但在数学中几乎不可能。这就是为什么分数分布如此不同的原因。

与p值一样，设定了一个明确的门槛会导致奇怪的行为。在这种情况下，任何科目分数低于30分（每个科目都需要30分或以上）而导致考试不及格，会对人们产生任意的负面影响，所以老师们通常会尝试在有简单方法的情况下防止人们不及格，但更深层次的问题根源在于认为有必要对一个连续分数进行离散化以产生一个证书。

出生月份与运动

这些是欧足联青年联赛中足球（soccer）球员的散点图。这两个图的x轴是球员年龄对年取模，即其出生月份标准化为0到1。

左侧的图表是一个直方图，显示一个人的出生日期在一年中的位置与其进入俱乐部青年联赛（U19级别）的机会之间存在非常强的关系。右侧的图表声称显示出生时间与在球场上提供的实际价值仅弱相关。作者使用出场时间作为价值的代理，可能是因为这容易测量。这不是一个很好的衡量标准，但他们的发现（在U19联赛中，同一年内更年轻的球员价值更高）与其他关于体育和歧视的研究一致，这些研究发现（例如）在棒球种族隔离废除后的几十年里，黑人棒球运动员明显优于白人棒球运动员，法裔加拿大后卫也优于平均水平（法裔加拿大人通常被认为害怕打架、不够努力、过于专注于进攻）。

不连续性并未在上面的图表中直接显示，因为图表只显示了一年的出生日期。如果我们要绘制多年队列的出生日期图，我们预计会看到球员进入欧足联青年联赛概率的锯齿形模式，出生在门槛前一天与后一天的人之间相差10倍。

这种现象，即出生日期或月份是参与高水平青年体育以及职业体育的良好预测指标，已在各种运动中得到研究。

人们普遍认为这是由青年体育中的一个不连续性引起的：

孩子们按年龄分组，并在同一年龄组内进行比赛
在同一年龄组内，年龄较大的孩子更强壮、速度更快等，表现也更好
这导致同一年龄组内年龄较大的孩子超越年龄较小的孩子，随后由于各种原因，年龄较大的孩子参与度更高

这可以说是青年体育运作方式中的一个“缺陷”。但正如我们在棒球中看到的以及对多项运动的调查，明显糟糕的决策在人们公开讨论其弊端的情况下仍可能持续数十年，这些决策使个别球队损失数千万甚至数亿美元。在这种情况下，青年运动队不是职业队的预备队，因此它们没有经济激励去选拔相对于年龄有技能的球员（而不是仅仅因为年龄稍大而更高更快），所以这种系统性的非最优比职业球队做出完全在其控制范围内的局部非最优决策更难修复。

采购拍卖

Kawai等人研究了日本政府的采购，以寻找类似于Porter等人（1993）所描述的投标可疑模式，后者研究了美国纽约长岛采购拍卖中的串通行为。给出的一个例子是：

1983年2月，纽约州交通部举行了一次采购拍卖，用于重新铺设0.8英里长的道路。拍卖中的最低出价为400万美元，交通部决定不授予合同，因为该出价相对于其自身成本估算被认为过高。该项目于1983年5月重新进行拍卖，所有初始拍卖的投标者都参与了。重新拍卖的最低出价比初始拍卖高出20%，由之前的最低出价者提交。同样，合同未被授予。交通部于1984年2月举行了第三次拍卖，投标者与初始拍卖相同。第三次拍卖的最低出价比第二次高出10%，再次由同一投标者提交。交通部显然认为这很可疑：“值得注意的是，同一家公司在每次拍卖中都提交了最低出价。由于不寻常的投标模式，合同直到1987年都未被授予。”

可以说这是预料之中的，因为不同公司有不同的成本结构，因此在针对某个特定项目的拍卖中，最低出价者预期在后续针对同一项目的拍卖中仍是最低出价者。为了区分串通和企业之间真实的结构性成本差异，Kawai等人（2015）研究了第一名和第二名企业之间出价差异非常小的拍卖，使得胜者实际上具有随机性。

在所研究的拍卖结构中，投标者提交秘密出价。如果秘密出价高于秘密最低价，则最低出价者赢得拍卖并获得合同。如果不是，则最低出价会向所有投标者公开，并进行另一轮投标。Kawai等人发现，在大约97%的拍卖中，第一轮提交最低出价的投标者在第二轮也提交了最低出价（第二低出价者保持第二低的概率为26%）。

下面是一个直方图，显示了最低出价者和第二低出价者之间（左列）以及第二低出价者和第三低出价者之间（右列）第一轮和第二轮出价的差异。每行都有不同的过滤标准，以确定拍卖需要多接近才能被包括在内。在顶行，包括了所有进入第三轮的拍卖；在第二行和第三行，第一名和第二名投标者之间的标准化差值分别小于0.05和0.01；在最后一行，第一名和第三名投标者之间的标准化差值小于0.03。所有数字都是标准化的，因为拍卖的绝对规模可能有所不同。

我们可以看到，当比较第二低和第三低出价者时，第一轮和第二轮之间的差异分布大致对称。但当比较最低和第二低出价者时，在零处出现了尖锐的不连续性，表明第二低出价者几乎从未将出价降低得比最低出价者降低的幅度更大。如果您阅读该论文，会发现相同的结构持续到进入第三轮的拍卖中。

我并非要特别批评日本的采购拍卖。关于采购拍卖的文献非常广泛，在许多案例中发现了串通行为，通常比上述案例更明目张胆（例如，有几家公司，他们在拍卖中轮流获胜；或者有少数公司，除了赢家之外，所有公司都提交相同的失败出价）。

餐厅检查 分数

下面的直方图显示了13分和14分之间存在尖锐的不连续性，这是A级和B级之间的区别。似乎一些地区在27分和28分之间也存在不连续性，这是B级和C级之间的区别，并且2014年的这个较早的分析发现了B级和C级之间类似的不连续性。

检查员在计算哪些违规行为时有自由裁量权，似乎有些情况下餐厅被“推”到了更高的等级。

马拉松完赛时间

一个包含9,789,093次完赛记录的马拉松完赛时间直方图（完赛时间在x轴，计数在y轴）显示在每个整点（如3:00、3:30）以及像:10、:15和:20这样的“整数”时间存在明显的不连续性。

对每场比赛内时间的分析（见第4.4节，图7-9）表明，这至少部分是因为人们如果接近一个“整数”时间，会在比赛结束时加速（或减速幅度小于通常情况）²。

注释

这篇文章其实没有目标或观点，只是收集了一些我觉得有趣的不连续性案例。

也许值得一提的是，在我的职业生涯中，从怀疑不连续性并弄清楚其来源，以及应用标准技术来平滑不连续性中，我都获益良多。

要发现不连续性，像“绘制散点图”、“绘制直方图”、“绘制累积分布函数”这样的基本工具通常很方便。其他增加时间维度的可视化方式，如flamescope，也很有用。

我们在上文中指出，队列在某些情况下会产生应该被平滑的不连续性。我们还注意到，对于其他类型的阈值，我们看到了类似的行为，并且随机化可以成为平滑阈值不连续性的有用工具。随机化也可用于在机器学习和其他应用中减少精度以减少量化误差。

感谢Leah Hanson、Omar Rizwan、Dmitry Belenko、Kamal Marhubi、Danny Vilea、Nick Roberts、Lifan Zeng、Mark Ainsworth、Wesley Aptekar-Cassels、Thomas Hauk、@BaudDev和Michael Sullivan的评论/纠正/讨论。

另外，请随时向我发送其他有趣的不连续性！

我看到的大多数关于这篇论文的在线评论都是不正确的。我曾看到这篇论文被用作警察渎职的证据，因为缉获的可卡因数量跳到了280克。这恰恰与论文中描述的情况相反，作者指出，根据缉毒记录，缉获量似乎不是造成这种变化的原因。在指出缉毒不是原因之后，作者指出检察官可以指控人们持有与缉获量不同的数量，然后指出：

我在美国检察官执行办公室（EOUSA）的案件管理数据中发现，2010年后出现了在280克处聚集的现象。我还发现大约30%的检察官应对2010年后280克案件的增加负责，并且检察官级别的聚集在地区内部和地区之间存在差异。在2010年后，聚集案件在280克处的检察官在28克以上（2010年后5年门槛）的案件比例也很高，并且在2010年前（2010年前10年门槛）50克以上的案件比例也很高。此外，聚集在强制性最低门槛之上的情况在检察官更换地区时仍然持续。此外，当一个“聚集”检察官调入一个新地区时，该地区的所有其他检察官也会增加他们在强制性最低门槛处的聚集。这些结果表明，在量刑时观察到的聚集是由于检察官的自由裁量权。

这在摘要中被提及，并在引言中（引文来自引言）进行了阐述，所以我认为大多数评论这篇论文的人可能根本没有读过它。我做过一些关于博客文章上论文评论的调查，我通常发现在可能识别这一点的情况下（例如，当帖子标题错误时），绝大多数评论者不可能阅读过他们评论的论文或帖子，但这是另一篇文章的主题。

有一些证据表明缉毒可能存在猫腻（例如，参见图A8.(c)），但如果论文中的分析是正确的，那种影响比检察官自由裁量权的影响要小得多。
^[返回]
我在线上看到的关于这张图和/或这篇论文最常见的评论之一是，这是由马拉松提供的领跑员造成的。论文第4.4节给出了多个解释说明为何不可能是这种情况，再次表明人们倾向于在未阅读论文的情况下发表评论。

由 mimo-v2.5 模型翻译，花费 14274 tokens

95%-ile 并不算多优秀

Fri, 7 Feb 2020 00:00:00 +0000

[AI 摘要] 文章通过游戏和现实案例论证，达到95百分位并不难，大多数人通过基础反馈和练习即可大幅进步。

达到95百分位（95%-ile）并不那么令人印象深刻，因为这并非难事。我认为这是我最容易被嘲讽的观点之一。当直白地说出时，它听起来难免有精英主义之嫌。但我想表达的恰恰相反：大多数人其实可以在大多数事情上做到（相对）不错。

需要说明的是，我所说的95百分位，是指在“参与者”中的95%，而非所有人（对于许多活动，只要你参与，你就已经超过了99%的人）。我也不是指在“经常练习的人”中的95%。那个“神奇诀窍”在于，对于许多活动，在“经常练习者”中处于10%的水平，就足以在“所有参与者”中达到约90%或99%的水平。

本文将引用具体事例，因为我看到的关于此话题的讨论都过于抽象，容易沦为罗夏墨迹测试。例如，斯科特·亚当斯有一篇被广泛引用的文章，声称通才比专才更好，因为要变得“非凡”，你必须在一件事上成为“最好”，或者在两件事上达到75%水平。如果严格如此，做通才确实更好，但这当然是夸张。即使不是“最好”，从专业技能中也能获得巨大价值；既然其字面上的具体主张显然荒谬，而文章其余部分又含糊其辞，讨论最终不可避免地会沦为人们陈述其先入为主的信念，并基本无视文章内容。

就个人而言，在我参与的每一项可以获得粗略百分位排名的活动中，处于95百分位的人们都会持续犯一些看起来应该很容易观察和纠正的错误。“现实世界”的活动通常无法简化为百分位评级，但要达到类似的精通程度似乎同样容易。

我们将首先详细探讨《守望先锋》（一款电子游戏），因为这是我熟悉的活动，很容易获取排名信息并观察情况；然后我们将看一些“现实世界”的例子，尽管无法获取排名信息¹，但也能观察到相同现象。

《守望先锋》

在《守望先锋》的90百分位和95百分位段，绝大多数玩家几乎会持续犯下导致游戏失败的基本错误。这些是简单的错误，比如在比赛倒计时结束时站在目标旁边而不是站上目标，从而将可能的胜利变成必然的失败。如果你想了解足够详细的特定错误示例，以判断某个错误是否“基本”，请参阅附带的脚注²。

我们可能预期这种情况发生的原因有：

人们不想赢或不在乎赢
人们理解自己的错误，但没有投入足够时间去纠正
人们没有天赋
人们不知道如何发现并纠正自己的错误

在《守望先锋》中，你可能会在较低段位看到很多（1）类情况，即那些似乎不在乎赢的玩家，但到了30百分位时，常见到人们通过各种方式表达他们想赢的意愿，例如对那些被认为不关心胜利或技术不佳的玩家大喊大叫，抱怨他们认为导致团队失败的人等等³。除了偶尔的故意捣蛋者外，认为人们通常都在努力赢，尤其是在他们因输掉比赛而非常生气时，是合理的。

（2）没有投入足够时间来纠正错误，这一点最终会适用于所有进步中的玩家，但如果你看看50百分位的中位游戏时间，那些稳定在此段位的玩家已经投入了数百小时（更高段位的中位游戏时间更长）。考虑到我们讨论的错误如此简单，“没有投入足够时间”不可能是大多数玩家的情况。

在《守望先锋》论坛上，低段位玩家的一个常见抱怨是他们只是没有天赋，永远无法进步。大多数人可能无论怎样练习，都没有天赋进入职业联赛，但当你只需纠正“没意识到应该站在目标上”这样的错误就能达到95百分位时，你其实并不需要太多天赋就能达到这个水平。

虽然（4）人们不知道如何发现并纠正自己的错误并非唯一可能的解释⁴，但我相信这是对大多数玩家最可能的解释。大多数表达沮丧、卡在某个段位（最高可能到95或99百分位）的玩家，似乎没有意识到，通过观察自己的游戏录像或请他人复盘，他们可以显著提高。

有趣的一点是，《守望先锋》使发现基本错误变得容易（相比大多数其他活动）。在你被击杀后，游戏会从击杀你的玩家视角向你展示死亡过程，让你明白发生了什么导致你的死亡。《守望先锋》还记录整场比赛并允许你观看回放，让你弄清楚发生了什么以及为何赢或输。在许多其他游戏中，你需要自己设置录像软件才能查看回放。

如果你阅读《守望先锋》论坛，你会看到源源不断的帖子，内容基本上是“我太郁闷了！我玩了1200小时，仍然排在10百分位，[一些因人而异的《守望先锋》具体情况]”。另一位用户不可避免地会回复类似这样的话：“从你的文字描述我们看不出问题所在，请发一段你的游戏录像。”在原始发帖者上传游戏录像的情况下，人们会给出有帮助的反馈，如果玩家认真对待这些反馈，会立即变得更好。如果你关注这些求助的玩家，你常常会看到他们很快在更高的段位（例如从10百分位升到40百分位）再次寻求反馈。看到建议奏效是件好事，但不幸的是，这么多玩家没有意识到，观看自己的录像或上传录像寻求反馈本可以为他们节省1198小时的沮丧。

对于《守望先锋》玩家（甚至95百分位及以上），常见的情况是：

想要提高
没有获得反馈
如果获得反馈本可轻松快速进步，他们却进步缓慢

《守望先锋》提供了工具，让获取反馈相对容易，但那些强烈表达进步愿望的人并没有利用这些工具。

现实生活

我的经验是，其他游戏也类似，我认为“现实世界”的活动也差不多，尽管存在一些复杂性。

一个复杂之处是现实活动往往没有单一、一维、客观的目标去优化。另一个复杂之处是，即使相对于一个具体、定义明确的目标，是什么让一个人擅长某项现实活动，其理解也往往不如游戏和体育运动清晰。

带有评级系统的游戏很容易优化：你的元目标可以是获得高分，这通常可以通过提高胜率来实现，方法就是纠正上述错误，比如没意识到应该站上目标。对于任何特定的错误，你甚至可以合理猜测它对你胜率的影响，从而推断出对分数的影响。

在现实生活中，如果你想成为（例如）“一个好的演讲者”，这可能意味着你想做有信息量的演讲帮助人们学习，或者做有趣的演讲让人们享受，或者在知名会议上做主旨演讲，或者被邀请做每次出场费5万美元的演讲。这些都是不同的目标，有着不同的实现策略，而对于某个特定错误（例如在20分钟的演讲中花8分钟介绍自己），它对你的目标意味着什么并不明确。

游戏，至少是主流游戏，易于优化的另一个原因是它们往往拥有大量痴迷于研究有效性的爱好者。这意味着如果你想提高，除非你试图跻身世界顶尖，否则你只需找出哪些资源对其他人有用，选择一个，阅读/观看，然后练习。例如，如果你想在桥牌或黑桃王这类吃墩游戏中达到99百分位（在所有玩家中，而非“拥有大师分的ACBL玩家”或“定期参加北美桥牌锦标赛的选手”等子群体中），你可以这样做：

学习游戏基础
阅读一本关于牌技的入门书
练习应用书中的内容

如果你想成为一个好的演讲者，并且心中对“好的演讲者”有具体定义，仍然没有一条明确的路径。伟大的演讲者会给出完全矛盾的建议（例如，避免关注演讲技巧 vs 练习演讲技巧）。相对较少的人痴迷于提高并研究什么有效，这导致缺乏用于提高的严谨课程体系。但这也意味着在百分位上进步很容易，因为相对较少的人真的在努力提高。

尽管有上述种种注意事项，我的信念是，相比游戏或体育运动，在现实活动中变得相对更好更容易，因为大多数现实活动中投入的刻意练习实在太少了。举个例子，如果你是一个本地的乒乓球高手，能打败当地酒吧里的任何路人，当你挑战某人并问“行啊，你的评级多少？”时，你知道你可能要被一个很可能用鞋刷都能打败你的人（顺便说一句，这是我朋友的亲身经历）痛击了。你可能处于99百分位，但一个没有天赋但投入时间练习基础的人，其发球将是你无法良好回击的，而且他也能轻松扣杀本地酒吧高手能稳定打出的任何回球。在大多数现实活动中，几乎没有人投入相当于一个每周去本地乒乓球俱乐部练习两小时的人那样的刻意练习量，更不用说像顶级职业选手那样每天认真训练四小时的人了。

举几个具体例子，我在2013年至2017年期间帮助Leah准备演讲。她最初几次的练习演讲，大概和你随便走进一个大型技术会议的普通演讲水平差不多。在她演讲的头几年，每次公开演讲她都会进行大约30次左右的练习预演，其中我大约看了一半并给出了反馈。她的第一次公开演讲（在我看来）就远超大型知名技术会议的平均水平，并且她的演讲水平在2017年停止演讲前持续提高。

正如我们上面讨论的，这比游戏评级更主观，无法真正确定百分位，但如果你看看大多数人如何准备演讲，Leah表现优于平均就不太令人惊讶了。在她最初几次演讲的会议上，会议前一天晚上，我们遇到另一位演讲者，他提到自己还没完成演讲，只有十五分钟的素材（而演讲时长是四十分钟）。他还在想办法如何填补剩余时间。这种准备方式并不罕见，而绝大多数这样准备的演讲并不出色。

大多数人认为为一个演讲进行30次练习预演是荒谬的，是完全强迫症式的练习量，但我认为加里·伯恩哈特说得对：如果你要在一个300人的观众面前做一个30分钟的演讲，那就是150人·时在看你的演讲，那么花15小时练习显然并非不合理（而且30次练习预演可能不到15小时，因为你可以缩短一些预演次数，和/或反复练习有问题的段落）。需要注意的是，这种被认为是强迫症水平的练习量，与一个中等水平的乒乓球俱乐部选手的练习时间相比仍然相形见绌。

如果你学过教育学，你可能会说我帮助Leah的方式简直糟糕透顶。众所周知，让外行自己琢磨如何提高是最糟糕的学习方式之一，好的教学指导更有效，而由一个熟练的教练或老师进行一对一指导则更加有效⁵。这百分之百正确，我的帮助确实糟糕透顶。然而，大多数人演讲预演不会超过几次，很多人甚至一次都不练习（我没有可靠数据证明这一点，这是我在参加的会议上非正式询问演讲者得出的）。这使得Leah的30次练习预演与大多数演讲者相比成为巨量的练习，最终导致了相对较好的结果，尽管我们使用的是最糟糕的提高技巧之一。

我的写作是另一个例子。我不会将自己与任何人比较，但我的写作在写这个博客的头几年有了巨大进步，仅仅是因为我花了一点精力去获取和接受反馈。

Leah几乎阅读了每篇文章的一两个草稿并给我反馈。在最初的几篇文章中，由于我们俩都不懂写作，我们很难识别问题所在。如果我写得有些别扭或叙事结构混乱，我们能指出来并说“那看起来不对”，但无法描述哪里不对或提出修改建议。这就像在拼写检查出现之前的时代，当你拼错一个单词时，你知道有问题，但你能想到的每个替换拼法都是错的。

我的解决办法是聘请一位我尊重其文笔的专业编辑，指示是：“我不关心拼写和语法修改，我的写作有根本性问题而我不理解，请告诉我它们是什么”⁶。我认为这比帮助Leah演讲更有效，因为我们让一个基本上是专业教练的人参与进来。我的编辑帮助我们的一个例子是，给了我们一套可以用来讨论结构性问题的词汇，就像设计模式给了人们谈论面向对象设计的词汇一样。

回到本博客的常规话题：编程

编程与上述现实世界的例子类似，不可能分配评级或计算百分位之类的，但通过获取你所做事情的反馈，仍然可以在不费太多力气的情况下相对于过去的自己取得显著进步。

例如，这是迈克尔·马利斯做过的一件事：

我发现一个极其有用的练习是观察自己编程。在一周的时间里，我有一个程序在后台运行，录制我的屏幕。在周末，我会观看上周的一些片段。通常我会看那些感觉完成某项任务花了太长时间的时刻。观看时，我会特别注意时间花在了哪里，并思考我本可以如何做得更好。当我第一次这样做时，我对时间都花在了哪里感到非常惊讶。

例如，以前在编写代码时，我会预先为一个新功能编写所有代码，然后一起测试所有代码。这样测试代码时，我必须隔离找出哪个函数有错误，然后调试那个特定的函数。在观看了自己写代码的录像后，我意识到我花了大约四分之一的总时间来实现这个功能，却花在追踪哪个函数有错误上！这对我来说完全不明显，如果不是录下自己，我不会发现这一点。现在我意识到我花了这么多时间来隔离哪个函数有错误，我现在边写边测试每个函数以确保它们正常工作。这使我写代码快了很多，因为它大大减少了调试代码所需的时间。

过去，我曾花时间弄清楚编程时时间都花在了哪里，基本上看到了和在《守望先锋》中一样的情况，只不过不是持续犯导致游戏失败的错误，而是持续做一些无意义地浪费时间的事情。仅仅改掉一些坏习惯，我的生产力可能就至少提高了一倍，这很容易衡量，因为解决这些问题基本上就是挽回浪费的时间。例如，我注意到，如果我在需要等待两分钟时读点网上的东西，我会分心N分钟，所以我确保保持一个有用工作的队列来填补空闲时间（如果我在处理延迟敏感、不想切换任务的工作，我会什么也不做直到等待结束）。

这里需要注意的一点是，实际追踪你正在做的事情非常重要，而不是仅仅猜测。当我记录下人们实际在做的事情并与他们自认为在做的事情对比时，两者常常大相径庭。通常认为，在没有度量或追踪的情况下操作复杂的软件系统是荒谬的，但在没有度量或追踪的情况下操作自己（尽管你比你操作的软件复杂得多、也难理解得多）却被认为是正常的。

乔纳森·唐指出选择正确的问题比执行速度更重要。我不同意这一点，但将执行速度提高一倍仍然是不错的收获，它独立于选择正确的问题去解决，而且我认为讨论如何选择正确的问题无法在抽象层面有效描述，必要的上下文举例所需的篇幅将比本文中已经过长的《守望先锋》示例更长，也许我会另写一篇只讨论这个话题的文章。

总之，写这篇文章对我来说有点奇怪，因为我认为在文化上，尤其是在我最近居住的地方（纽约和旧金山），我们过于关注生产力了。但在个人层面，从事工作或杂务的高生产力不必转化为更多的工作或杂务，也可以转化为更多的假期时间或更多时间去做你珍视的事情。

而对于像《守望先锋》这样的游戏，我认为提高并不是道德上的要求；在50百分位或10百分位或任何段位玩得开心并没有错。但在我玩过的所有带有评级和/或联赛/锦标赛系统的游戏中，很多人在输掉比赛时真的会非常沮丧和不快，即使他们并没有付出太多努力去提高。如果情况如此，为什么不多花一点点努力去提高，而少花一点时间沮丧呢？

一些提高的元技巧

获取反馈并练习
- 理想情况下来自专家教练，但如果没有，也可以来自外行甚至你自己（只要你有某种方式记录/追踪你正在做的事情）
指导性练习或有答案的练习
- 在关于“老”游戏（如国际象棋或桥牌）的书籍中很容易找到这类内容。
- 在特定领域，你常常可以找到包含此类练习的系列书籍，例如在数学中，施普林格本科生数学系列（SUMS）的书籍往往有带答案的习题。

当然，这些并不是新颖的想法，例如，科托夫在70年代的系列著作《像特级大师一样思考》、《像特级大师一样下棋》、《像特级大师一样训练》就涵盖了这些相同的观念，因为这些是最明显的提高方式。

附录：其他最容易被嘲讽的观点

以下是我发布过的在发布时最广泛受到嘲讽的观点：

在潮流科技公司工作的程序员年薪达到35万美元或更高并不少见（2015年，当时陈述的数字是25万美元/年）
使用代码库（Monorepos）可以是合理的（2015年）
我们应该预期会看到更多CPU漏洞（2016年）
市场与歧视并非不相容（2014年）
计算机在某些方面正变得更慢（2017年）
关于类型系统好处的实证证据几乎不存在（2014年）
撰写避免使用领域特定术语的技术文章是合理的

我关于薪酬的那些文章有一个可疑的殊荣：它们既被最频繁地指责为显而易见到毫无意义，又被指责为荒谬错误。我怀疑它们也是对人们产生最大整体影响的文章——我已经收到两位数人数的人告诉我，其中一篇薪酬文章改变了他们的生活，他们现在比以前多赚了数十万美元，因为他们知道有可能获得高得多的薪酬，而且我怀疑即使有从中受益做出重大改变的人，我也只听到了不到10%。

当我2015年写第一篇关于薪酬的文章时，我更多地因为写了一些显而易见的错误内容而被嘲讽，但过去几年情况发生了反转。当推特或网络论坛的某个角落（完全在HN/Reddit圈子之外）看到我的文章时，我偶尔仍会因为错误而被嘲讽，但“显而易见错误”与“显而易见正确”的比例可能已从20:1变为1:5。

关于代码库的观点自2015年以来也经历了类似的变化。在大公司的一些人之外，代码库曾被紧跟潮流的人普遍认为是愚蠢的，但这真的改变了。虽然没有薪酬观点变化那么大，但已经足以让我现在遇到一个坚决反对代码库的人时有点惊讶了。

尽管关于CPU漏洞的观点转变花了更长时间，但这可能是现在从上面列表中被嘲讽最少的一篇文章。

市场并未消除所有歧视，这一点是观点转变最少的。强硬的“所有市场都是有效率的”人士并不真正被学术研究说服，例如贝克尔的《歧视经济学》或我文章中阐述的证据。

关于计算机具有更高延迟和缺乏类型系统好处实证证据的文章，是我见过最常被引用来为某个容易被嘲讽的观点辩护的文章。我在开始为这两篇文章做研究时都不知道结果，而它们碰巧都得出了与最常见大声主张相反的证据（有很好的证据表明先进的类型系统在实践中确实提高了安全性，当然计算机在各方面都更快了，认为它们变慢的人只是沉溺于怀旧）。我不知道这是否改变了很多人的观点。然而，尽管这两篇文章都直接陈述了我在网上看到常被嘲讽的立场，我都没有收到太多直接的嘲讽。我怀疑部分原因是两篇文章都是基于实证的，因此没什么可争辩的（尽管关于歧视的文章也是实证的，但它仍然得到了不少嘲讽）。

列表中的最后一个观点更偏向元认知：没有人直接告诉我应该使用更晦涩的术语。相反，我收到的评论是，因为我未使用专业术语，我一定对X知之甚少。使用专业术语是建立可信度或权威性的常见方式，但这不是我真正相信的东西。诉诸权威论据什么也说明不了；添加不必要的术语只会让那些非本领域、因兴趣而非为了深入该领域而阅读的读者更加困难。

这是我和许多人一个相当根本的分歧。举个例子，我最近与一位权威人士发生了争论，他坚称我无法合理地与他们意见不同（我建议我们各自保留意见），因为他们是该主题的权威而我不是。碰巧我曾在一个与我们讨论的系统非常类似的系统的正式验证项目上工作过，但我没有提及，因为我不认为我作为该主题权威的身份重要。如果某人的论点如此薄弱，以至于必须退回到不可错的权威那里，这通常表明他们没有为自己立场提供有理有据的辩护。当他们指向自己作为不可错的权威时，就更是如此了。

我脑中还有大约20篇关于听起来愚蠢的观点的文章待写，但我主要试图避免写有争议的内容，所以我不确定我会写多少。如果我每月写一篇文章（比我近期的频率高很多），并将自己限制在10%的文章用于讨论容易被嘲讽的观点，那需要16年才能写完我目前所有的这类观点。

附录：关于提高的评论

天际线（Skyline）：99%-ile 并不算多优秀
詹姆斯·克利尔（James Clear）：90%-ile 并不算多优秀
乔什·因菲斯托（Josh Infiesto）：80%-ile 并不算多优秀
阿图尔·葛文德（Atul Gawande）：教练指导/反馈强大且被低估

感谢莱亚·汉森、希尔·韦恩、罗伯特·许斯勒、迈克尔·马利斯、凯文·伯克、杰瑞米·乔斯特、皮埃尔-伊夫·巴库、维特·海勒、杰夫·福勒、马尔特·斯卡鲁佩、大卫·特纳、阿基瓦·莱弗特、曾立凡、约翰·赫根罗德、韦斯利·阿普泰卡-卡塞尔、克里斯·兰普尔、朱莉娅·埃文斯、安贾·博斯科维奇、瓦伊巴夫·萨加尔、肖恩·塔尔茨、埃米尔·西特、本·库恩、瓦伦丁·哈特曼、肖恩·巴雷特、凯文·香农、恩佐·费雷、安德鲁·麦科勒姆、尤里·维什涅夫斯基以及一位匿名评论者的评论/修正/讨论。

选择《守望先锋》是任意的，它是我熟悉的活动之一，满足：
- 我对该活动了解足够多，可以评论
- 我观察了足够多学习该活动的人，可以判断纠正某些错误或某类错误是否“容易”
- 有足够数量的带评级玩家来支持论点
- 许多读者也熟悉该活动
我99%的游戏背景来自90年代的电子游戏，但我不会用它们作为例子，因为相对较少的读者熟悉那些游戏。我也可以用《波多黎各》、《领土》、《神秘大地》、ASL等“现代”桌游，但进行评级游戏的人数很少，这使得论点说服力减弱（也许参加评级游戏的人比不参加的人差很多——不太可能，但在没有比较评级与非评级游戏玩法的情况下难以证明，这会离本文主题太远）。

有许多活动比《守望先锋》更适合使用，但我不够熟悉，无法将其作为例子。例如，凯文·伯克在阅读本文草稿时指出，他在指导青年篮球时观察到同样的情况，多位读者提到他们在国际象棋中观察到同样的情况，但我对青年篮球或国际象棋不够熟悉，无法自信地多谈，即使它们可能是更好的例子，因为可能更多读者熟悉篮球或国际象棋，而非《守望先锋》。
^[返回]
当我刚开始玩《守望先锋》（也是我做那个实验的时候），我的评级略高于50百分位（对《守望先锋》玩家来说，那是铂金段位——本文将使用百分位而非段位，以避免让非《守望先锋》玩家去了解段位含义）。通常认为并且很可能正确的是，玩主要排位模式的《守望先锋》玩家，平均而言比只玩非排位模式的玩家强，因此我实际的百分位可能略高于50百分位，并且本文列出的所有“真实”百分位都高于名义百分位。

在略高于50百分位时，你会经常看到：
- 辅助（治疗者）会在一名队友满血时治疗他（毫无作用），而旁边另一名队友正在死亡，然后自己也死了
- 玩家不会注意到一个从他们队伍正后方走过来、一个一个杀死队员的人，直到整个队伍被消灭
- 玩家会射击一个敌人，直到只需再开一枪就能杀死他，然后切换目标，让只剩1滴血的敌人回满血，之后再向那个敌人开火
- 死亡后，玩家不会等待队友复活，而是直接冲向敌方队伍1v6战斗。这种情况会在整场比赛中重复（游戏设计为6v6，但在低于95百分位的段位，一旦一方有一人死亡，就很少能看到6v6的交战了）
- 玩家显然不知道角色技能的作用，包括他们自己玩的角色
- 玩家会进行风险很高但收益很低的操作（对《守望先锋》玩家来说，一个经典例子是莱因哈特在2CP地图防守开局时尝试“梗”冲锋，这在50百分位很常见，但在95百分位很少见，因为认为这个操作是个好主意的玩家通常决策能力较差）。
- 人们瞄准能力很差，会连续四五枪打不中，而他们只需要打中一下就能杀死敌人
- 如果一个单独的绕后敌人威胁到一个无法逃脱的治疗者以及一个有逃脱技能的非治疗者，非治疗者很可能会使用技能逃跑，留下治疗者死亡，即使他们本可以轻松杀死绕后者并救下治疗者，只需在被治疗时攻击即可。
只要游戏水平的某一方面仅仅是糟糕而非糟糕透顶，就足以达到50百分位。对我来说，那是我的团队合作，对其他人来说，是游戏水平的其他部分。我会说我的团队合作是糟糕而非不错甚至一般，原因是我基本上不知道怎么玩这个游戏，不知道任何角色的优缺点、能力，因此我根本不可能有效地与队友协调。我也不知道游戏模式实际上是如何运作的（例如，在什么情况下游戏会以平局结束而非进入下一轮），所以我基本上是漫无目的地闲逛，倾向于待在能找到的最大一群队友附近。这就算高于平均水平了。

你可以说某人挺擅长这游戏，因为他高于平均水平。但从非相对意义上说，略高于平均水平是相当差的——很难说一个没注意到整个队伍从后方被消灭、同时两名队友在语音中大喊“[敌人]在我们后面！”的玩家不糟糕。

多玩一点后，当我使用我知道怎么用的角色时，我最终达到了看起来约90百分位的“真实”段位。由于排位波动以及匹配系统，我参加过的游戏最高达到98百分位。我的瞄准和躲避能力仍然糟糕透顶。相对于我的段位，我的瞄准实际上比我玩50百分位游戏时更差，因为我的对手强得多，而我只强了一点点。在90百分位，两个我在开阔地带很可能输给大多数人的2v1。如果对手在开阔地带而我在掩体后只有10%的身体暴露出来，我也通常会输掉战斗，因此我的瞄准能力可以说比我所在段位的平均水平差了10倍以上。

我“达到”90百分位的“诀窍”是学习游戏如何运作，并以最大化获胜概率的方式去玩（尽我所能），而不是把游戏玩成自由击杀（FFA）游戏，目标是尽快击杀。描述这在90百分位意味着什么需要更多背景，所以我只提供几个例子，但这些代表了绝大多数90百分位玩家持续在犯的错误（除了少数像我这样瞄准能力严重缺陷的玩家，他们通过在其他方面表现优于该段位平均水平来弥补瞄准的不足）。

游戏内，目标是获胜。有不同的游戏模式，但对于主线排位游戏，它们都涉及某种你需要待在上面或附近的目标。经常出现的情况是：回合倒计时归零，如果你的队伍没人碰目标，你们必然输掉；但如果你的队伍有人能碰目标而不被瞬间杀死（这会导致游戏进入加时，直到双方都停止碰目标），你们可能赢。一个有时会发生的具体例子是：敌方队伍有四人在目标点上，而你的队伍有两人在目标点附近，一个坦克和一个治疗者。你队伍的其他四人死了，正在从重生点赶来。他们足够近，如果你能碰目标而不立刻死，他们就会赶到并很可能拿下目标赢得比赛；但如果你碰目标后立刻死了，他们就来不及了，那时你们就输了。

如果你玩的是90到95百分位的辅助/治疗者，这局游戏几乎总是这样结束：坦克会向目标移动，被射击，决定不想承受伤害，然后从目标点后退。作为辅助，你血量少，如果碰目标会被敌方集火秒杀。由于你的队伍如果你们不前压目标就必输，你被迫前压去争取任何赢的机会。在你被杀后，坦克要么冲上目标点然后死亡，要么向目标点走去但时间耗尽前没走到。无论哪种情况，你们都可能输。

如果坦克做了他们该做的事，在你死前冲上目标点，你可以治疗坦克足够长时间，让你的队友赶到，你们很可能赢。敌方队伍如果足够协调，可以绕过或穿过坦克来杀你，但他们不会那样做——任何知道那样做会导致他们赢并且瞄准足够好能成功执行的玩家，不可能不升到更高段位）。而你队伍中那个懂得在这种情况下应该由坦克为辅助吸收伤害而非相反的坦克，不会在95百分位待太久，因为他们会赢太多比赛而升入更高段位。

另一个绝大多数90到95百分位玩家都会搞错的基本情况是：你在进攻方，等待队友复活以便组队进攻。即使在90百分位，可能也有1/4到1/3的玩家不会这样做，而是直接冲向敌方队伍，但足够多的玩家会意识到1v6不是个好主意，以至于你经常看到5v6或6v6的战斗，而不是你在50百分位看到的持续1v6和2v6。总之，在等待队友复活以形成5v6时，很可能有一个意识到不该直接冲进敌方队伍1v6的玩家，会决定尝试用远程攻击1v6。人们会这样做，而不是安全地躲在墙后，即使敌方有多个狙击手能瞬杀远程攻击。人们甚至会在面对多个狙击手时这样做，即使他们玩的不是狙击手角色，需要打中敌人2-3次才能击杀，这极有可能导致他们无法击杀敌人，同时自己冒着被杀死的巨大风险。对《守望先锋》玩家来说，当他们有满终极技能而敌方没有时也会这样做，将本应是你方优势的情况（你方有终极技能准备就绪，敌方已用过终极技能）最多变成双方都有终极技能的中性局面，最坏情况下瞬间输掉战斗。

如果你阅读《守望先锋》论坛，无论是reddit论坛还是暴雪官方论坛，一个常见的抱怨是“为什么我的队友这么差？我处于[90到95百分位段位]，但我的队友一直在做明显愚蠢、导致游戏失败的事情，比如[上面举的例子]”。答案当然是，抱怨的人自己也一直在做明显愚蠢、导致游戏失败的事情，因为任何不持续犯重大错误的玩家都会赢太多而无法停留在95百分位。这也适用于我。

人们会争论这个段位的玩家应该玩得好，因为他们比其他95%的玩家强，这使他们相对优秀。但从非相对意义上说，很难说一个没意识到应该站上目标以可能赢得游戏、而不是不碰目标必然输掉游戏的人是好的。关于《守望先锋》最基本的一点是它是一个目标制游戏，但90到95百分位的大多数玩家并非如此玩。

对于任何没达到远超99百分位的玩家来说，回顾录像会不断揭示导致游戏失败的错误。对于我自己（通常排在90百分位左右），观看一场录像通常会揭示一场势均力敌的比赛中数十个导致游戏失败的错误（这可能是30%的失利，另外70%是惨败，没有一个简单的错误能决定游戏）。

通常纠正这些并不太难，因为错误像上面的例子一样：简单到一旦你意识到自己在犯，修正就很简单，因为错误本身就很直接。
^[返回]
可能有一些人只是想对队友发火。由于匹配到相同玩家的频率很低，在主要排位模式中很难看到这一点，但我想你有时在《守望先锋》偶尔举办的迷你排位模式中可以看到这种情况。

迷你排位模式的玩家基数比主要排位模式小得多，这有两个显著的副作用：技能水平差异更大的玩家会被匹配进同一局游戏，如果你玩多局游戏，会反复遇到相同的玩家。

由于你反复匹配到相同的玩家，你会看到玩家犯相同的错误，并以相同的方式导致自己输掉，然后在每一局后以相同的方式发脾气并责怪队友。

在普通排位模式中，你也会看到发脾气和责怪队友的情况，但当你看到时，你通常无法判断发脾气的人是只是心情不好还是其他一次性事件，因为除非你的段位非常高或非常低（那里评级接近的玩家池较小），否则你遇到相同玩家的频率并不高。但当你在几周内看到一组玩家打了15-20局游戏，并且看到他们以相同原因输掉比赛双位数次数，随后出现完全相同的发脾气，你可能会开始怀疑其中部分人真的想生气，他们玩游戏的主要目的就是获得一个生气的来源。你可能也会从某些人使用社交媒体的方式想到这一点，但那是另一篇文章的话题了。
^[返回]
例如，也会有一些玩家有某种残疾阻碍他们进步，但在我们讨论的99百分位或以下水平，这将相对罕见（肯定远低于50%，我认为猜测远低于10%的选择玩游戏的人是合理的）。据我所知，至少有一个玩家处于前500名但他是聋人（这极其不利，因为声音提示提供了大量无法通过其他方式获得的细微位置信息），至少一个法定盲人玩家达到99百分位，还有多个有身体障碍无法精细控制鼠标的玩家（即基本上无法瞄准）达到了99百分位。

还有其他原因可能导致人们无法进步。例如，凯文·伯克指出，当他指导青年篮球时，一些孩子不想做他们认为让自己显得愚蠢的练习（例如，在所有人都因使用非惯用手而运球糟糕时，避免学习用非惯用手运球）。当我在攀岩馆花了很多时间与一位世界级教练相处（他经常送一些孩子去全国赛，甚至世界赛）时，我在他的课程中观察到了同样的情况——孩子们，即使是全国或国际水平有竞争力的孩子，有时会避免做某些事情，因为他们害怕在同龄人面前显得愚蠢。教练在这种情况下解决方法是故意让孩子显得极其愚蠢，并告诉他们现在看起来笨总比在全国赛上笨好。
^[返回]
注意，这里指的熟练教练是擅长教学的教练，不一定是擅长该项活动的人。擅长该活动但未明确学习过如何教学或未花大量时间研究教学的人通常不是好教练。 ^[返回]
如果你阅读我任何文章的致谢部分，你会看到我大多数文章从不止两个人那里获得反馈（我真的很感激这些反馈），但我认为，从量上来说，我收到的反馈有超过90%来自莱亚和一位专业编辑。 ^[返回]

由 mimo-v2.5 模型翻译，花费 20316 tokens

算法面试：理论与实践

Sun, 5 Jan 2020 00:00:00 +0000

[AI 摘要] 本文通过作者亲身经历和实例，论证了算法面试在解决实际生产环境中的低效问题上效果有限，指出激励机制错位是导致代码效率低下的更深层原因。

当我询问那些在时髦的大型科技公司工作的人，为什么算法测试是强制性的时，最常见的回答类似于“我们的规模太大，不能允许有人不小心写一个 O(n^2) 算法并导致网站瘫痪”¹。我发现有趣的一点是，尽管我为公司提供的相当一部分价值来自于工作中解决手机屏幕级别的算法问题，但我却通不过算法面试！当我说这话时，人们通常认为我是说我面试失败一半左右。实际上，超过一半。

当我写了一篇关于我面试经历的博客草稿时，草稿读者批评它太无聊和重复，因为我失败了太多次面试。他们说我应该把我的失败总结成一个表格，因为没人愿意读一篇一万多字的、只是一系列失败的博客文章（这是个好建议；我正在做一个带表格的版本）。我可能参加了大约40次“真正”的软件面试，通过了大约一两次（严格来说可能是零次）²。

让我们看几个例子，以便更清楚地理解我上面所说的“手机屏幕级别的算法问题”是什么意思。

在我工作过的一家大公司，一个团队为了自身目的编写了一个实现可调整大小数组的核心库。在每次溢出数组后备存储的调整大小时，该实现会添加固定数量的元素，然后将旧数组复制到新分配的、略大的数组中。这是实现可调整大小数组时典型的错误示例，因为它导致线性时间调整大小，而不是摊还常数时间调整大小。这是一个如此经典的例子，它经常被用作展示摊还分析时的标准案例。

对于不习惯大型科技公司手机屏幕的人来说，我收到的典型手机屏幕问题通常是以下之一：

一个“简单”的编码/算法问题，前面可能有一个“非常简单”的热身问题。
一系列“非常简单”的编码/算法问题，
一堆冷知识（对于通才角色很少见，但对于底层或与性能相关的角色并不罕见）

这个数组实现问题被认为非常简单，属于“非常简单”的范畴，通常是“真正”手机屏幕问题的热身，或者与一堆类似简单的问题捆绑在一起。然而，这个可调整大小的数组在该公司所有JVM代码中导致了大约1%的GC压力（它是所有代码中第二大的分配来源），以及相当一部分的CPU使用率。幸运的是，这个可调整大小的数组实现并非用作通用的可调整大小数组，它只是被一个半特殊用途的包装器实例化，这使得它“仅仅”承担了该公司1%的GC压力。如果作为面试问题来问，绝大多数团队成员在面试中都能正确实现它。我修复这个问题为我雇主带来的年收入，比我有生以来赚的钱都多。

这是第二大分配来源，最大的来源是在同一个核心库中将一对long值转换为字节数组。这似乎是因为有人编写或复制粘贴了一个接受字节数组作为输入的哈希函数，然后通过接受两个字节数组并按顺序对它们进行操作来修改它以接受两个输入，这使得哈希函数的接口变成了(byte[], byte[])。为了在两个long值上调用这个函数，他们使用了一个广泛使用的实用库中方便的long转byte[]转换函数。该函数除了分配一个byte[]并将一个long塞入其中之外，还会反转long的字节顺序（该函数似乎旨在将long值转换为网络字节顺序）。

不幸的是，切换到更合适的哈希函数将是一个重大的改动，所以我对此的修复是将哈希函数接口改为接受一对long值而不是一对字节数组，并让哈希函数完成字节顺序反转，而不是将其作为单独的步骤（因为哈希函数已经在打乱字节顺序，这不会产生额外的工作）。移除这些不必要的分配为我雇主带来的年收入，比我有生以来赚的钱都多。

找到一个常数因子的提速从技术上讲不是一个算法问题，但它也是你在算法面试中会看到的东西。作为算法问题的后续，我经常被问到“你能做得更快吗？”答案通常涉及进行简单的优化，从而带来常数因子的改进。

一个我曾在面试中被问过两次的具体例子是：你正在将ID存储为int，但你已经在题目背景中知道ID是密集排列的，所以你可以将它们存储为位域。位域面试问题与现实世界中多余的数组之间的区别在于，现实世界中现有的解决方案与预期答案相差甚远，你可能不会被要求找到一个常数因子的提速。更有可能的是，你在那一点上就已经面试失败了。

从另一家公司举个例子，BitFunnel的配置是另一个面试级别算法问题的例子³。BitFunnel是必应使用的搜索索引。

描述解决方案所需的全部背景对于这篇博客文章来说有点多，但基本上，有一组需要配置的布隆过滤器。一种方法是编写一个黑盒优化函数，使用梯度下降来尝试找到最优解。我听说这总是导致一些奇怪的属性，并且输出配置总是导致非理想情况，这通过使后备布隆过滤器不那么密集来解决，即投入更多的资源（因此金钱）来解决问题。

为了创建一个更优化的解决方案，你可以观察到BitFunnel中的基本操作相当于将概率相乘，因此，对于任何特定的配置，你可以将一些概率相乘来确定配置的性能如何。由于配置空间并不大，你可以将其放在几个for循环中，遍历可能的配置空间，然后选出最佳的配置组合。这并不完全正确，因为将概率相乘假设了一种独立性，这在现实中并不成立，但朴素贝叶斯垃圾邮件过滤在引入时效果相当好，尽管它错误地假设了任何两个单词出现在一封邮件中的概率是独立的，这似乎是有效的，原因类似。如果你想要完整的解决方案，你可以推导出非独立性的细节，尽管这可能超出了面试的范围。

这只是我能想到的三个例子，我经常遇到这种情况，可以随口举出几十个例子，如果我坐下来尝试列出我参与过的每一个例子，可能超过一百个，如果我列出我知道的、由其他人（或无人）处理过的例子，肯定超过一百个。本文中的例子以及我未包括的例子都具有以下特性：

该例子可以表述为一个面试问题。
如果表述为面试问题，你会期望大多数（可能是所有）相关团队的人在面试的时间框架内得到正确答案。
修复该例子所带来的年度成本节约，比我到目前为止的终身收入还多。
该例子存在了足够长的时间，可以合理地假设它不会被其他人发现。

在本文开头，我们注意到大型科技公司的人们通常声称他们必须进行算法面试，因为在规模上效率低下代价高昂。我的经验是，这些例子在我工作过的每一家进行算法面试的公司都比比皆是。试图通过在面试中问算法问题来让人们在工作中解决算法问题的方法行不通。

一个原因是，即使大公司试图确保他们雇佣的人能够解决算法谜题，他们也激励了大多数开发者避免运用这种推理来赚钱。

在上面三个例子的解决方案中，两个已经投入生产，一个没有。如果我带着一个差异（diff）去找一个随机团队，而没有持续跟进（这不同于我有理由相信会接受的团队，或者寻求帮助的团队，或者我一直纠缠一个团队直到修复被采纳），这大约是我的正常成功率。

如果你非常愤世嫉俗，你可能会说成功率这么高令人惊讶。如果我去找一个随机团队，效率很可能既不在团队的目标中，也不在其组织的目标中。公司很可能已经投入了相当大的努力来激励团队实现他们的目标——否则设定目标有什么意义呢？接受我的差异（diff）将要求他们测试、集成、部署这个改动，并带来风险（因为所有部署都有非零风险）。基本上，我是在要求团队做一些工作并承担一些风险来做对他们来说毫无价值的事情。尽管有激励措施，人们通常还是会接受差异（diff），但他们不太可能花很多自己的业余时间去寻找效率改进（他们的正常工作时间会花在与团队目标一致的事情上）⁴。

假设一下，如果一家公司不试图确保其开发者能通过算法测试，而是激励开发者使用相对高效的算法。我认为上面三个例子中的任何一个都不可能未被发现地存在数年，也不可能一直未被修复。在一个人们分析其代码的公司，某个假想的开发者可能会查看公司计算密集型库中分析最热的项目。这两个例子的“诀窍”并非任何算法技巧，而只是查看所有内容，这是激励措施可以解决的。第三个例子不那么必然，因为没有标准工具会告诉你去看这个问题。也很容易试图将结果包装成某种魔法——那个例子构成了一篇论文的核心部分，该论文在其领域（信息检索）的顶级会议上获得了“最佳论文奖”，但现实是，“诀窍”只是应用了高中数学，这意味着真正的诀窍是有足够的时间去寻找高中数学可能适用的地方。

我实际上曾在一家采用“面试中不问算法问题，但激励那些对公司全局有益的行为”的策略的公司工作过。在我在那里工作期间，我只找到了一个几乎符合上述例子标准的修复（如果公司规模更大，它就会满足所有标准，但由于公司的规模，效率提高的价值远低于大公司——比我当时的收入多得多，但年回报仍低于我到目前为止的终身总收入）。

我认为我只找到一个近乎例子的主要原因是，足够多的人将使公司变得更好视为自己的工作，因此简单的高价值修复往往不存在，因为系统通常被设计成本身就没有容易发现的改进。在少数并非如此的情况下，有足够的人在努力为公司做正确的事情（而不是被迫遵守与公司全局利益大相径庭的局部激励措施），以至于在我遇到问题之前，可能已经有其他人修复了它。

那家公司的算法/编码部分面试（初始筛选加现场面试）比大公司的手机筛选更容易，我们基本上不做系统设计面试。

有一段时间，我们尝试了一个算法现场面试题，难度偏大，但在大公司手机筛选的正常范围内（但仍比你预期在现场面试中看到的要简单）。我们停止问这个问题，因为我们面试的每一个应届毕业生都未能回答这个问题（我们不给有经验的候选人那种问题）。我们就是没有足够的声望来吸引那些能轻松回答这些问题的候选人，所以不可能使用和其他所有人一样的时髦招聘过滤器来招聘。在关于面试的当代讨论中，我们所做的通常被称为“降低标准”，但我不明白为什么我们应该关心一个人能跳过多高的横杆，尤其是在他们被雇佣来做的工作中，很少（在某些情况下根本没有）涉及跳横杆。而且，在那些你确实想让他们跳横杆的情况下，横杆可能只有2英寸高，可以轻松跨过去。

如果以实际生产力来衡量，那是我工作过的最具生产力的公司。我相信原因是文化性的，并且过于复杂，无法在本文中完全探讨，但我认为我们没有用算法测试过滤掉完全合格的候选人，并且假设在一个人们普遍做正确事情的文化环境中，人们可以在工作中学会那些东西，这有所帮助。

如果其他公司希望人们在工作中解决面试级别的算法问题，他们或许可以尝试激励人们解决算法问题（当相关时）。这可以在筛选能白板算法问题的人之外甚至取代其进行。

附录：我们是如何走到这一步的？

很久以前，面试通常涉及“冷知识”问题。这些问题的现代版本可能如下所示：

什么是MSI？MESI？MOESI？MESIF？MESIF相对于MOESI有什么优势？
抛出析构函数时会发生什么？如果是C++11呢？如果一个被顶层析构函数调用的子对象的析构函数抛出异常，哪些其他子对象的析构函数会执行？如果在栈展开期间抛出异常呢？在什么情况下这不会导致std::terminate被调用？

我从学校时就听说过这种做法，甚至在一些“老派”的公司见过。那时微软是最大的玩家，想要效仿成功公司的人很可能会模仿微软。当时阅读量最大的编程博主（Joel Spolsky）告诉人们他们需要采用软件实践X，因为微软在这样做，如果不采用同样的实践，他们就无法竞争。例如，在那个时代最具影响力的编程博客文章之一中，Joel Spolsky倡导他所谓的Joel测试，部分原因是你必须做这些事情才能跟上像微软这样的公司：

12分是完美的，11分可以容忍，但10分或更低就意味着你有严重的问题。事实是，大多数软件组织的运行分数只有2或3，他们需要严肃的帮助，因为像微软这样的公司全天候以12分运行。

当时，流行的传说说微软会问人们如下问题（我确实在2001年左右微软的面试中被问过其中一个脑筋急转弯，以及严格意义上的零个算法或编码问题）：

如果你只有半英寸高，你会如何从搅拌机里逃出来？
为什么井盖是圆的？
一个没有窗户的房间里有3盏灯，每盏灯都由房间外的一个开关控制。你在房间外。你只能进入房间一次。你如何确定哪个开关控制哪个灯泡？

由于我是在这个变化发生的时代面试的，我被问到了很多冷知识问题，也有很多脑筋急转弯（包括所有上述脑筋急转弯）。当时流行的其他一些技术上不属于脑筋急转弯的问题是费米问题。当时的另一个趋势是行为面试，我面试过的许多公司进行了100%的行为面试，没有任何技术面试。

总之，那时人们需要为模仿微软风格的面试找一个合理的解释。当我问人们为什么认为脑筋急转弯或费米问题是好的时，人们告诉我的方便解释通常是，它们能看出候选人是否真的会思考，不像那些愚蠢的冷知识问题，只能告诉你是否记住了一些冷知识。我们真正需要雇佣的是那些真正会思考的候选人！

回顾过去，人们现在意识到这并不有效，盲目模仿微软的每一个决定不会让你像微软一样成功，因为微软的成功归结为几个关键因素加上网络效应，所以模仿他们的面试方式不可能让你成为微软。相反，它会让你成为一家面试方式像微软、但无法利用微软所能利用的网络效应的公司。

对于求职者来说，脑筋急转弯的过程与现在算法问题的过程基本相同，只不过你在面试前复习的是《How Would You Move Mount Fuji》而不是《Cracking the Coding Interview》，以掌握一堆你在工作中永远不会用到的脑筋急转弯知识，而不是你永远不会用到的算法知识。

那时，面试官会从“How Would You Move Mount Fuji?”这样的面试准备书籍中专门学习问题，然后向从“How Would You Move Mount Fuji?”这样的书籍中学到答案的候选人提问。当我与比我年轻十岁的人交谈时，他们认为这很荒谬——这些问题显然与工作无关，能很好地回答它们更强烈地与做过一些面试准备相关，而不是与胜任工作相关。Hillel Wayne讨论了人们今天如何设计面试问题（我也在几家不同的公司亲眼目睹过），除了测试被认为是专业知识的小组之外，现在的情况似乎没有太大不同。

到这时，我们已经经历了几十年的编程面试潮流，每一个回头看都很荒谬。要么是我们终于找到了有效面试的真正秘诀，并且已经通过推理克服了过去导致每个人都使用明显虚假的潮流面试技术的障碍，要么是我们正处于另一个潮流的中间，从现在一两年后回顾，这个潮流会显得同样荒谬。

在不了解面试有效性的情况下，在一个元层面上，由于人们获取面试技术的方式是相同的（从最负盛名的公司窃取高级技术），我认为如果不是一个潮流，那将是相当令人惊讶的。如果人们在做或参考实证研究，或者独立发现了什么有效，我会更不惊讶地发现当前技术不是一个潮流。

受Wesley Aptekar-Cassels评论的启发，我上次找工作时，问了一些人他们如何检查面试流程的有效性以及他们如何试图减少流程中的偏见。我得到的答案（相似的分组在一起，按频率降序排列）是：

哈？我们不做这个，或者为什么要做这个？
我们真的不知道我们的流程是否有效。
我/我们就是知道它有效。
我/我们没有偏见。
我/我们会注意到偏见是否存在，但它不存在。
有人调查过/做过研究，但告诉我这件事的人永远无法告诉我任何关于它是如何被调查的或研究方法论的具体信息。

附录：培训

与大多数现实世界的问题一样，当试图弄清楚为什么每年七位数、八位数甚至九位数的、面试级别的算法错误会闲置在那里等待修复时，并没有一个可以指出的“根本原因”。相反，存在一种刺猬防御式的激励错位。另一部分是培训严重不受重视。

我们已经讨论过，在我工作过的所有公司（除了一家），都存在激励系统，导致开发者觉得他们不应该花时间寻找效率提升，即使简单的计算显示存在数千万或数亿美元的浪费可以轻松修复。然后，由于这不被激励，开发者往往没有做这类事情的经验，使其变得不熟悉，这使得它感觉比实际更难。所以，即使一天的工作可能带来每年100万美元的节省或利润（根据我的经验，在大公司这很常见），人们也没有意识到这只是一天的工作，并且只会在速度上做出小小的妥协。解决后一个问题的一种方法是通过培训，但这比效率提升更难获得认可，而效率提升甚至不在你的目标中！

举个例子，我曾经写了一篇中等长度的教程（4500字，按字数比这篇文章短，但加上图片可能更长），关于如何发现各种低效之处（如何使用分配或CPU时间分析器，如何对我们使用的GC进行特定服务的GC调优，如何使用我构建的一些工具自动发现JVM或容器配置中的低效之处等，基本上是简单且通常影响大的东西，很容易编写操作手册；如果你在Twitter，可以在http://go/easy-perf阅读）。我听到过几个人告诉我，他们以前会就某个问题来寻求我的帮助，但现在他们能够自己调试和解决问题，并且，间接地，我听说其他几个我不认识的人能够去提高他们服务的效率。如果我听到的案例不到10%，我会感到惊讶，所以我猜测这已经帮助了几十位工程师，甚至可能更多。

如果我花一周时间做“真正”的工作而不是写教程，我会有一些具体的、可量化的价值，我可以轻松地将其放入晋升包或绩效评估中。相反，我只有这个模糊的东西，往好了说，算是一点“额外加分”。我并不是在抱怨这件事本身——这正是我预期的结果。但是，平均而言，公司得到他们激励的东西。如果他们期望培训来自开发者（而不是雇人来制作培训材料，后者往往比工程获得的资金少得多），但又不重视它，就像他们重视开发工作一样，那么就会出现培训短缺。

我相信在公共教育材料中也能看到培训激励不足，因为教育和培训的货币化相对困难。如果你想通过解释事物来赚钱，有几种技术似乎非常有效。如果某些东西直接明显有价值，销售一门定价“非常高”（几千美元的短期课程）的视频课程似乎很有效。做企业培训也很有效，公司让你飞过去给30人的教室讲课，每人收费3000美元。

如果你想接触（并可能帮助）很多人，在互联网上发布文本并免费提供效果很好，但这样货币化效果很差。对于技术主题，我不确定非广告拦截受众群体是否真的足够大，可以通过广告来货币化（而不是通过付费墙）。

举个例子，Julia Evans可以靠她的小册子收入养活自己，她说过去两年每年大约带来10万美元。做企业培训做得很好的人，一两天的培训课程就能赚到那个数，而且，根据我听说的企业演讲费率，一些高薪的技术演讲者两次活动就能赚到那个数。这些费率明显高于平均水平，尤其是演讲活动，但既然我们是在和Julia Evans比较，我认为使用高于平均水平的费率是公平的。

附录：激励错位的刺猬防御，第三部分

在上面的三个例子中，我在一个团队上发现了一个，在那个团队上，做任何对公司真正有价值的事情对我来说显然是零价值；另外两个是在一个团队上发现的，在那里做对我不论是什么，对公司有益的事情对我来说都有价值。根据我的经验，在大公司的团队中，这非常罕见，但即使在那个团队上，激励一致性仍然相当差。有一次，在获得晋升和加薪之后，我计算了我的改动为公司赚的钱与我的加薪之间的比率，发现我的加薪是我为公司赚的钱的0.03%，仅计算容易量化且完全无可争议的对利润的影响。我的大部分工作与工具相关，其价值难以量化，我怀疑实际上比可量化影响的价值更大，所以我可能只收到了我所产生边际价值的不到0.01%。而这实际上高估了我对这份工作的激励程度——在边际上，我强烈怀疑我做的任何事情对我来说都是零价值。在最初的1000万美元/年或2000万美元/年之后，在绩效评估、晋升、加薪等方面基本上没有区别。因为做工作没有好处，而且有一些坏处（可能卷入政治斗争，可能使网站瘫痪等），对我来说做超过“足够”工作的边际回报可能是负面的。

有些公司会定期给人们非常大的带外奖金，但那份工作不是为一家经常这样做的公司做的，所以一旦一个人做了“足够”的工作以获得绩效评估的最佳评级，公司就无法采取任何措施来表明它重视额外的工作。从机制设计的角度来看，公司基本上是在要求员工在完成一年“足够”的工作后停止工作。

所以即使在这个团队上，与大多数团队相比，它与公司成功的一致性相对较好，但公司的薪酬系统也为团队的一致性设置了很低的上限。

这也在另一种方式上发生了。像许多公司一样，经理们获得了一个主要基于团队规模的团队加薪预算，然后以零和方式分配给团队成员。对每个团队成员来说（至少就薪酬而言），不幸的是，团队几乎只有高效的工程师，这意味着在零和加薪游戏中没有人会做得特别好。团队的人员流失率很低，因为人们喜欢与优秀的同事一起工作，但公司正在利用它拥有的最大杠杆之一——薪酬，试图让人们离开团队，加入效率较低的团队。

因为这是一个非常常见的设置，我听说过多家公司有经理试图留住无害但低效的人，以绕过这个问题。如果你抽象地问某人，公司是否希望雇佣和留住低效的人，我怀疑他们会说不。但就公司可以说想要什么而言，它想要的是它所激励的。

盲目模仿时髦招聘实践的弊端
偏差的正常化
Zvi Mowshowitz关于《道德迷宫》，一本关于公司系统性问题如何导致各层级激励错位的书
“randomsong”关于如何教会几乎任何人编程，主题相关，观点是编程并不像许多程序员希望的那么难
Tanya Reilly关于“粘性工作”激励不足，培训激励不足可以说是这种情况的一个特例
Thomas Ptacek关于使用与工作表现相关性不错的招聘过滤器
Michael Lynch关于他在大公司激励机制的个人经历
一位匿名HN评论者关于在Google几乎不工作（他们说大约10%的产能）六年却获得晋升的经历

感谢Leah Hanson、Heath Borders、Lifan Zeng、Justin Findlay、Kevin Burke、@chordowl、Peter Alexander、Niels Olson、Kris Shamloo、Chip Thien、Yuri Vishnevsky和Solomon Boulos的评论/纠正/讨论

首先，大多数模仿谷歌面试的公司并没有那么大的规模。但即使对于那些确实有规模的公司，大多数人也没有设计大规模算法的工作（也许他们在2003年左右的谷歌做过，但根据我在三家不同大科技公司的观察，大多数人的工作对算法的要求相当轻）。 ^[返回]
“真正”加引号是因为我通过了一些与面试流程无关的原因通过了多次面试。也许我有非常强的内部推荐可以覆盖我的面试表现，也许有人读了我的博客并根据我的写作假定我能做合理的工作，也许有人从我的前同事那里得到了内部推荐，或者也许有人读了我一些开源代码并据此来评判我，而不是白板编码题（据我所知，最后一种情况只发生过一两次）。在那些我显然没有通过技术面试的情况下，我通常会问为什么我得到了工作邀请，所以我从人们那里收集了这些原因。

严格说是零的原因是，唯一一次我无可置疑地参加了“真正”面试且是冷面的软件面试是在谷歌，但那之所以发生，是因为被分配面试我的面试官面试我时搞错了职级——我面试的是硬件职位，但面试我的是软件人员，所以我得到的基本上是标准的软件面试，除了一个面试官问了我一些关于状态机和缓存一致性（或类似的东西）的问题。在他们意识到面试我搞错了职级之后，我有一个来自硬件工程师的后续电话面试，以确保我并不是完全伪造自己在2005年至2013年在一家硬件初创公司工作过。可能我失败了软件部分的面试，并且基本上是凭借后续电话屏幕的实力被录用的。

注意这仅指软件——我实际上相当擅长硬件面试。目前，我对硬件相当生疏，可能需要相当多的时间才能胜任真正的硬件工作，但面试对我来说小菜一碟。一个非常了解我的人认为这是因为我说话“像硬件工程师”，既说出能让硬件人员觉得我靠谱的话，也说出对大多数程序员来说听起来极其愚蠢的话，这更多是行话而非实际知识或技能。
^[返回]
这个比你预期的在手机屏幕上看到的要难一点，但在现场面试中也不算过分（尽管我有个朋友曾在谷歌的手机面试中得到一道谷歌Code Jam世界决赛题目，所以你可能会得到这么难或更难的题目，这取决于你遇到的面试官）。

顺便说一句，如果你好奇我朋友在遇到那个问题时做了什么，结果他实际上知道答案，因为他以前在谷歌Code Jam中见过并尝试过这个问题。他当时没有得到正确答案，但后来为了好玩弄明白了。然而，我朋友认为把它作为手机屏幕问题不合理，要求面试官换一个问题。面试官拒绝了，于是我朋友面试失败了。当时，我怀疑世界上能在手机屏幕上回答那个问题正确的人不超过几百个，而且他们中几乎所有人都可能意识到这是一个荒谬的手机屏幕问题。面试失败后，我朋友最终找了将近六个月的工作，才通过一家初创公司的面试，他在那里最终构建了许多核心系统（无论是在业务影响还是工程难度方面）。在那次超过10亿美元的IPO后，我朋友仍然在那里——公司明白替换这个人有多难，并且对他非常好。其他面试过他的人甚至都不想雇佣他，而且他实际上很难找到工作。
^[返回]
除了那些会导致服务崩溃的明显架构问题之外，我看到团队修复效率问题的最常见方式是要求更多的容量。一些公司试图以某种方式平衡这一点（例如，我听说在Facebook，许多从事效率改进工作的团队汇报给容量组织，这使他们能够阻止容量请求，如果他们观察到一个团队有他们拒绝修复的极端低效问题），但我没有在有有效的系统解决方案的环境中工作过。谷歌有一个旨在解决这个问题的系统，其中涉及使人员配置与计算资源可互换，但我听说它已被恢复为更传统的系统，原因可能是激励相容性。 ^[返回]

由 mimo-v2.5 模型翻译，花费 16126 tokens

文件暗藏风险

Fri, 12 Jul 2019 00:00:00 +0000

[AI 摘要] 该文章探讨了文件操作在API、文件系统和磁盘层面存在的复杂性和风险，挑战了开发者对文件简单性的普遍误解。

这是2019年Deconstruct大会上演讲的伪文字稿。为了照顾网速较慢的用户以及屏幕阅读器使用者，幻灯片已替换为行内文本（演讲约有120张幻灯片；按平均每张20 kB计算，总计2.4 MB。若认为这微不足道，请考虑仅半数美国人使用宽带，且发展中国家情况更为严峻）。

让我们来谈谈文件！大多数开发者似乎认为文件很简单。例如，我们来看看Dropbox宣布在Linux上仅支持ext4文件系统（Linux上最常用的文件系统）时，Reddit的r/programming论坛上热门评论。对于不熟悉r/programming的人来说，我推测它是全球最广受关注的英文编程论坛。

置顶评论写道：

我有点困惑，为什么这些应用必须直接支持这些文件系统？内核本身难道不是抽象了文件实际存储的底层细节吗？

不同文件系统之间我唯一能想到的区别是文件大小限制和权限，但现代文件系统不都大同小异吗？

第二条热门评论（及其两级回复）如下：

#2: 为什么应用程序要在意文件系统是什么？

#2: 对于“普通应用”来说，这不该由操作系统来抽象吗？

回复：这是一个有漏洞的抽象。我敢打赌每个不同的文件系统都有其自身的缺陷和文件系统特定的修复代码存在于Dropbox代码库中。更多文件系统意味着更多测试以确保一切正常……

二级回复：你在说什么？这是Dropbox，它到底需要从文件系统获得什么？有成千上万的文件同步工具、数据传输工具、分布式存储软件，它们都能很好地与inotify配合工作。Dropbox到底有什么不行的？

另一条二级回复：当然，但由此产生的任何缺陷都应在各自的抽象层修复，而不是自己重新实现整个协议栈。除非你从抽象层得不到所需的数据，否则不应重新实现……DropBox实现文件系统特定的变通方案和怪癖是过度设计。这就像vim为了应对错误按键而提供特定键盘的变通方案。所有抽象都有漏洞——但如果无人使用这些抽象，任何事都无从谈起（我们将会有数十亿个“操作系统”）。

在这次演讲中，我们将探讨文件系统之间有何差异，以及在写入文件时可能遇到的其他问题。我们将从“文件栈”顶端开始，即文件API，我们将看到它几乎不可能被正确使用，并且支持多个文件系统而不损坏数据比支持单个文件系统要困难得多；然后深入到文件系统层，我们将看到存在导致数据丢失和损坏的严重缺陷；最后我们将审视磁盘，看到磁盘可能以厂商数据手册中声称速率的五百万倍轻易损坏数据。

文件API

写入单个文件

假设我们想安全地写入一个文件，避免数据损坏。在本次演讲中，这意味着我们希望写入操作是“原子的”——我们的写入要么完全完成，要么我们能撤销写入并恢复到初始状态。让我们看一个Pillai等人在OSDI’14论文中的例子。

我们有一个文件包含文本a foo，想用bar覆盖foo，最终得到a bar。我们将做若干简化。例如，你可能应该将我们写入的每个字符想象为磁盘上的一个扇区（或者，如果你愿意，可以想象我们使用一种假想的先进NVM驱动器）。如果你不清楚这是什么意思，别担心，我指出这一点只是为了说明本次演讲将包含许多简化，我不会逐一说明，因为我们只有二十五分钟，而未简化的版本大约需要三个小时。

要写入，我们可能会使用pwrite系统调用。这是操作系统提供的让我们与文件系统交互的函数。我们的调用如下：

pwrite(
  [文件],
  “bar”, // 要写入的数据
  3,     // 写入3个字节
  2)     // 偏移量为2

pwrite接收我们要写入的文件、要写入的数据bar、要写入的字节数3以及开始写入的偏移量2。如果你习惯使用高级语言如Python，你可能习惯于不同的接口，但底层在写入文件时，最终会产生像这样的系统调用，这才是实际将数据写入文件的操作。

如果我们像这样直接调用pwrite，我们可能成功并在输出中得到a bar，或者可能什么都没发生得到a foo，或者可能得到某种中间状态，如a boo、a bor等。

这里发生的情况是，在写入过程中我们可能崩溃或断电。由于pwrite不保证是原子的，如果我们崩溃，可能导致写入的部分完成，从而造成数据损坏。避免这个问题的一种方法是存储一个“撤销日志”，让我们能恢复损坏的数据。在修改文件之前，我们将要修改的数据做一个副本（存入撤销日志），然后正常修改文件，如果一切顺利，我们就删除撤销日志。

如果在写入撤销日志时崩溃，那没关系——我们会看到撤销日志不完整，知道无需恢复，因为我们尚未开始修改文件。如果在修改文件时崩溃，也没问题。当尝试从崩溃中恢复时，我们会看到撤销日志是完整的，可以用它来恢复数据损坏：

creat(/d/log) // 创建撤销日志
write(/d/log, “2,3,foo”, 7) // 要撤销，在偏移量2处，写入3个字节“foo”
pwrite(/d/orig, “bar”, 3, 2) // 像之前一样修改原文件
unlink(/d/log) // 删除日志文件

如果我们使用ext3或ext4（广泛使用的Linux文件系统），并采用data=journal模式（我们稍后会讨论这些模式的含义），我们可能得到以下一些结果：

d/log: “2,3,f”
d/orig: “a foo”

d/log: “”
d/orig: “a foo”

我们可能在日志文件写入进行中崩溃，导致日志文件不完整。在上面第一种情况中，我们知道日志文件不完整，因为文件说应该在偏移量2开始写入3个字节，但只指定了一个字节f，所以日志文件必然不完整。在第二种情况中，我们可以判断日志文件不完整，因为撤销日志格式应以偏移量和长度开头，但我们两者都没有。无论哪种方式，既然我们知道日志文件不完整，就知道无需恢复。

另一种可能的结果类似：

d/log: “2,3,foo”
d/orig: “a boo”

d/log: “2,3,foo”
d/orig: “a bar”

第一种情况，日志文件完整，我们在写入文件时崩溃。这没问题，因为日志文件告诉我们如何恢复到已知良好状态。第二种情况，写入完成，但日志文件尚未删除，我们将从日志文件恢复。

如果我们使用ext3或ext4并采用data=ordered模式，我们可能看到：

d/log: “2,3,fo”
d/orig: “a boo”

d/log: “”
d/orig: “a bor”

使用data=ordered模式时，无法保证对日志文件的write和修改原文件的pwrite会按程序顺序执行。相反，我们可能得到：

creat(/d/log) // 创建撤销日志
pwrite(/d/orig, “bar”, 3, 2) // 在写入撤销日志之前就修改文件！
write(/d/log, “2,3,foo”, 7) // 写入撤销日志
unlink(/d/log) // 删除日志文件

为了防止这种重排序，我们可以使用另一个系统调用fsync。fsync是一个屏障（防止重排序）并刷新缓存（我们将稍后讨论）。

creat(/d/log)
write(/d/log, “2,3,foo”, 7)
fsync(/d/log) // 添加fsync以防止重排序
pwrite(/d/orig, “bar”, 3, 2)
fsync(/d/orig) // 添加fsync以防止重排序
unlink(/d/log)

这在ext3或ext4的data=ordered模式下有效，但如果我们使用data=writeback模式，我们可能看到：

d/log: “2,3,WAT”
d/orig: “a boo”

不幸的是，在data=writeback模式下，对日志文件的write操作不保证是原子的，跟踪文件长度的文件系统元数据可能在完成日志文件写入之前就更新了，这将使日志文件看起来包含日志文件创建位置磁盘上的任何内容。由于日志文件存在，当我们崩溃后尝试恢复时，可能会将随机数据“恢复”到原文件中。为了防止这种情况，我们可以为日志文件添加校验和（确保文件实际有效的方法）。

creat(/d/log)
write(/d/log,“…[✓∑],foo”,7) // 为日志文件添加校验和以检测不完整的日志文件
fsync(/d/log)
pwrite(/d/orig, “bar”, 3, 2)
fsync(/d/orig)
unlink(/d/log)

这应该能在data=writeback模式下工作，但我们可能仍然看到以下情况：

d/orig: “a boo”

没有日志文件！尽管我们创建了文件、写入了它，然后进行了fsync。不幸的是，无法保证目录在崩溃后实际存储文件的位置。为了确保在崩溃后恢复时能轻松找到文件，我们需要对新建日志的父目录进行fsync。

creat(/d/log)
write(/d/log,“…[✓∑],foo”,7)
fsync(/d/log)
fsync(/d) /// 对父目录进行fsync
pwrite(/d/orig, “bar”, 3, 2)
fsync(/d/orig)
unlink(/d/log)

还有几件事我们需要做。我们还应在完成后进行fsync（未显示），并且需要检查错误。这些系统调用可能返回错误，这些错误需要被适当处理。至少有一个文件系统问题使这非常困难，但由于这本身不是API使用问题，我们将在文件系统部分再讨论。

我们现在看到了安全写入文件必须做什么。它可能比我们希望的更复杂，但似乎可行——如果有人要求你以独立方式写入文件，比如面试问题，并且你知道适当的规则，你可能可以正确完成。但如果这是日常工作的一部分，我们需要在大型代码库中每次写入文件时都安全地完成，会发生什么？

实践中的API

Pillai等人在OSDI’14论文中研究了许多写入文件的软件，包括我们期望能安全写入文件的软件，如数据库和版本控制系统：Leveldb、LMDB、GDBM、HSQLDB、Sqlite、PostgreSQL、Git、Mercurial、HDFS、Zookeeper。然后他们编写了一个静态分析工具，可以发现文件API的错误使用，例如错误地假设非原子操作是原子的，错误地假设可能被重排序的操作会按程序顺序执行等。

当他们这样做时，他们发现测试的每个软件除SQLite在特定模式下外，都至少有一个缺陷。这不是对这些软件开发者或软件的贬低——在Leveldb、LBDM等项目工作的程序员比大多数程序员更了解文件系统，软件也有比大多数软件更严格的测试。但他们仍然无法每次都安全地使用文件！对此的一个自然后续问题是：为什么文件API如此难以使用，连专家都会犯错？

并发编程很难

有多个原因。如果你问人们“编程中有哪些难题？”，你会得到诸如分布式系统、并发编程、安全、CSS对齐、日期等答案。

如果我们看看人们在并发编程中犯错导致缺陷的原因，我们发现缺陷来自诸如“错误地假设操作是原子的”和“错误地假设操作会按程序顺序执行”等。这些使并发编程困难的因素也使安全写入文件变得困难——我们在第一个例子中看到了这两种错误的例子。更广泛地说，许多使并发编程困难的因素也是使安全写入文件困难的因素，所以我们当然应该预期写入文件是困难的！

安全写入文件与并发编程共享的另一个特性是，很容易编写出具有罕见、非确定性故障的代码。关于文件，人们有时会说这使事情更容易（“我从未注意到数据损坏”、“你的数据大部分时候仍然完好”），但如果你因为要编写不应损坏数据的软件而希望安全地写入文件，这会使事情更困难，因为它更难判断你的代码是否真正正确。

API不一致

正如我们在第一个例子中看到的，即使使用单个文件系统，不同模式也可能有显著不同的行为。文件API的大部分都类似，行为因文件系统或同一文件系统不同模式而异。例如，如果我们看看主流文件系统，追加是原子的，除非使用ext3或ext4的data=writeback模式，或ext2在任何模式下；目录操作不能相对于任何其他操作重排序，除了在btrfs上。理论上，我们应该都仔细阅读POSIX规范并确保所有代码符合POSIX，但如果人们检查文件系统行为，他们倾向于针对文件系统实际行为而非抽象规范编写代码。

如果我们看看某个文件系统特定模式（ext4的data=journal），它似乎相对可能安全处理，但当为多种文件系统编写代码，特别是处理与ext3和ext4非常不同的文件系统（如btrfs）时，人们编写正确代码就变得非常困难。

文档不清晰

在第一个例子中，我们看到使用不同的data=模式可能得到不同行为。如果我们查看ext3或ext4中这些模式含义的手册页，我们会得到：

journal：所有数据在写入主文件系统之前都提交到日志中。

ordered：这是默认模式。所有数据在元数据提交到日志之前都直接强制写入主文件系统。

writeback：不保留数据顺序——数据可能在元数据提交到日志之后写入主文件系统。据传这是吞吐量最高的选项。它保证内部文件系统完整性，但可能允许旧数据在崩溃和日志恢复后出现在文件中。

如果你想了解如何安全使用文件系统，并且你还不知道什么是日志文件系统，这肯定无法帮助你。如果你知道什么是日志文件系统，这会给你一些提示，但仍然不够。理论上可以通过阅读源代码了解所有细节，但对于大多数还不了解文件系统工作原理的人来说，这很不切实际。

对于英文文档，有lwn.net和Linux内核邮件列表（LKML）。LWN很棒，但他们无法跟上所有内容，所以如果你想要全面的信息，LKML是去处。以下是LKML上关于文件系统的一个讨论示例：

开发者1：就个人而言，我关心元数据一致性，ext3文档表明日志保护其完整性。除非在损坏的存储设备上，你仍然需要在那里运行fsck。
开发者2：正如ext3作者多年来多次表示的，无论如何你仍然需要定期运行fsck。
开发者1：这在哪里有记录？
开发者2：linux-kernel邮件列表归档。
文件系统开发者：可能来自大约6-8年前，我发出的电子邮件中。

虽然文件系统开发者往往乐于助人，他们写信息丰富的回复，但大多数人可能不会关注过去6-8年的LKML。

性能/正确性冲突

另一个问题是文件API在性能和正确性之间存在固有冲突。我们之前提到fsync是一个屏障（我们可以用来强制顺序）并刷新缓存。如果你曾经参与过高性能缓存（如微处理器缓存）的设计，你可能觉得将这两件事捆绑到一个原语中很不寻常。一个原因是刷新缓存有显著的性能成本，有很多情况我们想强制顺序但不想支付此性能成本。将这两件事捆绑到一个原语中迫使我们在只关心顺序时支付缓存刷新成本。

Chidambaram等人在SOSP’13中通过修改ext4添加了一个不刷新缓存的屏障机制来研究这个性能成本。他们发现，如果适当修改软件并在不需要完整fsync的地方使用他们的屏障操作，他们能达到大致相当于ext4完全禁用缓存刷新（这不安全且可能导致数据损坏）的性能，而没有牺牲安全性。然而，对大多数编写用户级软件的人来说，制作自己的文件系统并使其被采纳是不切实际的。有些数据库会完全或几乎完全绕过文件系统，但这对大多数软件来说也不切实际。

这就是文件API。现在我们已经看到它异常难以使用，让我们看看文件系统。

文件系统

如果我们想确保文件系统正常工作，最基本的测试之一是在文件系统层以下注入错误，看文件系统是否正确处理它们。例如，在写入时，我们可能让磁盘未能写入数据并返回适当的错误。如果文件系统丢弃此错误或未正确处理，就意味着我们有数据丢失或数据损坏。这类似于Kyle Kingsbury昨天在他的分布式系统测试演讲中讨论的分布式系统故障类型（尽管这类错误测试起来更直接）。

Prabhakaran等人在SOSP’05中这样做了，他们发现对于测试的大多数文件系统，几乎所有写入错误都被丢弃了。主要的例外是ReiserFS，它在测试的所有类型错误上都做得相当好，但ReiserFS今天已不再使用，原因超出了本次演讲范围。

我们（Wesley Aptekar-Cassels和我）在2017年再次研究了这个问题，发现情况有显著改善。大多数文件系统（除JFS外）都能通过这些基本的错误处理测试。

寻找错误的另一种方法是查看文件系统代码，看它是否正确处理内部错误。Gunawai等人在FAST’08中这样做了，他们发现内部错误在相当比例的情况下被丢弃。他们使用的技术难以判断可能返回多种错误的函数是否正确处理了每个错误，所以他们也查看了只能返回单一错误的函数的调用。在那些情况下，根据函数不同，错误大约在2/3到3/4的时间内被丢弃。

Wesley和我在2017年再次研究了这个问题，发现显著改善——Gunawai等人研究的相同函数的错误“仅”在1/3到2/3的时间内被忽略，取决于函数。

Gunawai等人还查看了这些被丢弃错误附近的注释，发现诸如“此时忽略错误。除了尝试继续前进，我们别无他法。”（XFS）和“错误，跳过块并祈祷最好情况。”（ext3）之类的注释。

现在我们已经看到，虽然文件系统过去甚至丢弃最基本错误，但现在它们正确处理错误，但有些代码路径中错误可能被丢弃。对于一个具体情况，让我们回到第一个例子。如果我们遇到fsync错误，除非我们有相当新的Linux内核（约2018年第二季度），很有可能错误会被丢弃，甚至可能被报告给错误的进程！

在新的Linux内核上，错误很可能会被报告（甚至给正确的进程）。Wilcox在PGCon’18中指出，fsync错误基本上是不可恢复的。细节取决于文件系统——在XFS和btrfs上，已修改但在文件系统中的数据将被丢弃，无法恢复。在ext4上，数据不会被丢弃，但被标记为未修改，因此文件系统不会尝试稍后将其写回磁盘；如果有内存压力，数据可能随时被丢弃。如果你有冒险精神，可以在数据被丢弃前尝试恢复数据，使用各种技巧（例如，强制文件系统再次将其标记为已修改，或将其写入另一个设备，这将强制文件系统写出数据，即使它被标记为未修改），但无法保证能在数据丢弃前恢复数据。在Linux ZFS上，似乎有一条代码路径设计来做正确的事，但CPU使用率飙升，系统可能挂起或变得无法使用。

一般来说，在Linux上没有好的方法恢复。Postgres、MySQL和MongoDB（广泛使用的数据库）会自身崩溃，用户需要从最后一个检查点恢复。大多数软件可能只是静默丢失或损坏数据。而fsync是相对较好的情况——例如，syncfs在Linux上根本不返回错误，导致静默数据丢失和数据损坏。

顺便说一句，当Craig Ringer首次提议Postgres应在fsync错误时崩溃，Postgres开发邮件列表上的第一个回复是：

你肯定在开玩笑……如果[fsync的当前行为]确实如此，我们需要抵制这种内核脑损伤。

但在讨论细节后，大家都同意崩溃是唯一的好选择。许多不幸的事情之一是大多数磁盘错误是暂时的。由于文件系统丢弃了在没有数据损坏情况下继续进行所需的关键信息，本可重试的暂时错误迫使软件采取激烈措施。

虽然我们讨论了Linux，但这并非Linux独有。在许多不同操作系统上，fsync错误处理（以及一般错误处理）都是有问题的。当Postgres“发现”Linux上fsync的行为时，FreeBSD可能有正确的实现，但OpenBSD和NetBSD的行为与Linux相同（丢弃真实错误状态，重试导致成功响应，数据丢失）。OpenBSD可能已修复此问题，其他一些BSD可能也已修复，但Linux基本上仍然有相同的行为，你无法保证在任何类UNIX操作系统上这会有效。

现在我们已经看到，多年来文件系统在某些最直接和简单的情况下未能正确处理错误，并且有些情况至今仍未正确处理，让我们看看磁盘。

磁盘

刷新

我们已经看到，当我们必须调用fsync时很容易没有意识到，即使我们正确调用了fsync，缺陷也可能阻止fsync实际工作。Rajimwale等人在DSN’11中调查磁盘在你要求刷新时是否实际刷新，假设磁盘以上一切正常（他们的论文其实主要关于其他内容，只是在开头简要讨论）。微软某人匿名告诉他们“[某些磁盘]不允许文件系统强制将写入正确刷新到磁盘”，希捷（磁盘制造商）的某人告诉他们“[某些磁盘（但非我们生产）]不允许文件系统强制将写入正确刷新到磁盘”。Bairavasundaram等人在FAST’07中研究磁盘可靠性时也发现了同样的问题。

错误率

我们已经看到文件系统有时不正确处理磁盘错误。如果想知道这个问题多严重，我们应该查看磁盘产生错误的速率。磁盘数据手册通常声称消费级HDD（常被称为旋转金属或旋转锈盘）不可纠正位错误率为1e-14，企业级HDD为1e-15，消费级SSD为1e-15，企业级SSD为1e-16。这意味着平均每读取1e14位，我们会预期在HDD上看到一个不可恢复的数据错误。

为了解这在实践中的意义，1TB现在是相当标准的磁盘大小。如果我们读取整个驱动器一次，那是1e12字节，或接近1e13位（严格说是8e12位），这意味着如果购买一个1TB HDD并读取整个磁盘约十次，我们预期会看到一个不可恢复错误。如今，我们可以购买10TB HDD，这种情况下我们预期在读取整个消费级HDD时每次都会看到错误（严格说是8/10个错误）。

实践中，观察到的错误率显著更高。Narayanan等人在SYSTOR’16（微软）中观察到SSD错误率从1e-11到6e-14，取决于驱动器型号。Meza等人在SIGMETRICS’15（脸书）中观察到更糟的SSD错误率，从2e-9到6e-11，取决于驱动器型号。取决于驱动器类型，2e-9是2千兆位，或250 MB，根据驱动器类别，比数据手册中声明的差五十万到五百万倍。

位错误率可以说是磁盘驱动器的一个糟糕指标，但这是磁盘厂商声称的指标，所以如果我们想做同等比较，必须与此比较。参见Bairavasundaram等人在SIGMETRICS’07、Schroeder等人在FAST’16等关于其他类型错误率的论文。

需要注意的是，经常有人声称SSD没有数据损坏问题，因为它们使用纠错码（ECC），可以修复数据损坏问题。“闪存消除了不可恢复数据错误的幽灵”，等等。这种观点忽略的是现代高密度闪存设备非常不可靠，需要ECC才能使用。Grupp等人在FAST’12中研究了SSD底层闪存的错误率，发现错误率从1e-1到1e-8。1e-1是每十位一个错误，1e-8是每1亿位一个错误。

断电

你会听到的另一个声称是SSD对断电和某些类型崩溃是安全的，因为它们现在有“断电保护”——SSD中有某种机制能在断电期间保持足够长的电力，使内部SSD缓存可以安全写入。

Luke Leighton测试了这一点，他购买了6个声称有断电保护的SSD，发现测试的六款型号中有四款失败（除了英特尔驱动器外的所有驱动器）。如果我们查看测试细节，当驱动器失败时，似乎是因为它们的使用方式是断电保护实现者未预料到的（“太快”写入，尽管远低于驱动器能够写入的速率，或并行“太多”文件）。当驱动器宣传有断电保护时，这似乎意味着某人花费了一些精力实现某种东西，在某些情况下能在断电时防止数据丢失或数据损坏。但正如我们在昨天Kyle的分布式系统演讲中看到的，如果你想确保该机制确实有效，不能依赖厂商进行严格甚至任何半认真的测试，你必须自己测试。

保持力

如果我们查看SSD数据手册，较新的驱动器（有90%写入周期剩余）通常规格在写入后保持数据约十年。如果我们查看磨损严重的驱动器，接近使用寿命终点的，规格保持数据时间为一年到三个月，取决于驱动器类别。我认为人们经常惊讶地发现，在数据写入三个月后丢失数据是在规格内的。

这些数字都来自数据手册和规格，正如我们所看到的，数据手册可能有点乐观。在许多早期SSD上，用完大部分或全部写入周期会导致驱动器变砖，所以你甚至得不到规格中提到的三个月数据保持力。

推论

现在我们已经看到文件栈每一层都有重大问题，让我们看看由此得出的一些推论。

该怎么办？

对此我们该怎么办是一个大话题，在剩余的时间里，我们可以做的一件事是使用数据库而不是写入文件。如果你想轻量简单，可以在大多数使用文件的地方使用，SQLite相当不错。我不是说永远不该使用文件。这里有一个权衡。但如果你的应用程序希望降低数据损坏率，考虑使用数据库存储数据而不是使用文件。

文件系统支持

在本次演讲开始时，我们看了这个Dropbox例子，大多数人认为没有理由移除对大多数Linux文件系统的支持，因为文件系统都一样。我相信他们的手被他们想要存储/使用数据的方式束缚了，他们只能用ext实现他们的方式（这可以说是一个错误特性），但即使情况并非如此，也许你能看出为什么试图可靠且具有合理性能地将数据同步到磁盘的软件可能不想支持一个操作系统上的每个文件系统（对他们的产品来说相对小众）。也许为了公关原因值得支持每个文件系统，然后为每个文件系统采取必要措施避免数据损坏（你可以尝试直接按你的POSIX规范理解编码，但正如我们所看到的，这在Linux上救不了你），但公关问题是由于误解造成的。

我们看的Reddit上的另一条评论，也是一种常见情绪，是说程序不应该绕过库或操作系统的缺陷。但无论错误是“谁的”责任，用户数据都会损坏，正如我们所看到的，缺陷可以在文件系统层存在多年。在Linux的情况下，除ZFS外的大多数文件系统似乎已决定在fsync错误时丢弃数据且不报告数据无法写入（与FreeBSD或OpenBSD相比，大多数文件系统在错误未解决时至少会在后续fsync中报告错误）。这可以说是一个缺陷，也可以说是正确的行为，但无论如何，如果你的软件没有考虑到这一点，你将丢失或损坏数据。如果你坚持认为不是你的错文件系统在损坏数据，你的用户将为此付出代价。

常见问题

在准备这次演讲时，我阅读了许多关于如何安全写入文件的在线讨论。在专业社区（如LKML、Postgres邮件列表等）之外，许多人会出来说类似“为什么大家都把这弄得这么复杂？你可以用这个简单的技巧轻松且完全安全地做到”。让我们看看两千条关于如何安全写入磁盘的互联网评论中最常见的“简单技巧”。

重命名

最常被提及的技巧是重命名而不是覆盖。如果你记得我们写入单个文件的例子，我们在修改文件之前复制了要覆盖的数据。这里的技巧是做相反的事情：

复制整个文件
修改副本
将副本重命名覆盖原文件

这个技巧无效。人们似乎认为这是安全的，因为POSIX规范说rename是原子的，但这只意味着rename相对于正常操作是原子的，并不意味着在崩溃时是原子的。这不只是理论问题；如果我们看看主流Linux文件系统，大多数至少有一种模式在崩溃时重命名不是原子的。重命名也不保证按程序顺序执行，正如人们有时预期的那样。

最主流的重命名在崩溃时是原子的例外可能是btrfs，但即使在那里，也有点微妙——正如Bornholt等人在ASPLOS’16中指出的，rename仅在替换现有文件时在崩溃时是原子的，在创建新文件时则不是。而且Mohan等人在OSDI’18中发现了btrfs上众多重命名原子性缺陷，有些相当古老，有些在论文发表同年引入，所以即使你在写btrfs特定代码，也不应依赖此特性而不经过广泛测试。

即使这有效，该技术的性能也很差。

追加

第二个最常被提及的技巧是只追加（而不是有时覆盖）。这也无效。正如Pillai等人在OSDI’14和Bornholt等人在ASPLOS’16中指出的，追加不保证顺序或原子性，相信追加是安全的是某些缺陷的原因。

简单技巧

我们已经看到最常被引用的简单技巧无效。我觉得有趣的是，在这些讨论中，人们会介入一个已经解释过的讨论（通常非常详细）为什么写入文件比某人天真想象的要困难，忽略所有警告和解释，仍然坚持他们的解释，认为这实际上真的很容易。即使被警告文件比人们想的要难，人们仍然认为它们很容易！

结论

总之，计算机不工作（但如果你在Gary-conf，你可能已经知道这一点）。这次演讲恰好关于文件，但有许多领域我们可以深入研究，会看到类似的情况。

在结束前，我想指出，我认为根本问题不是技术性的。如果你看看大型科技公司（如FB、亚马逊、MS、谷歌等）的做法，它们通常相当安全地处理磁盘写入。他们会确保拥有真正有效的断电保护磁盘，他们会有操作系统补丁或其他工具确保错误正确报告，会有大型分布式存储组确保数据安全复制等。我们知道如何使这些东西相当可靠。这很难，需要大量时间和努力，即很多钱，但可以做到。

如果你问从事这类工作的人为什么他们花费惊人的金钱来确保（或者真的，增加）正确性，你经常会得到类似“我们有数以百万计的机器，如果你计算数据损坏率，如果我们不做所有这些，我们每天每分钟都会有数据损坏。这将完全无法忍受”的答案。一家大型科技公司可能有大约一千万台机器？有趣的是，如果你计算消费者机器数量以及多少消费者软件运行在不可靠的磁盘上，数字是相似的。消费者机器多得多；它们通常在更轻的负载下运行，但数量足够多，如果你拥有一款广泛使用的桌面/笔记本电脑/工作站软件，数据损坏的数字相当相似。没有“极端”保护，我们应该预期会看到数据损坏一直发生。

但如果我们看看消费者软件如何运作，它在处理数据方面通常很不安全。我认为这里的关键区别是，当一家大型科技公司丢失数据时，无论是关于谁可能点击哪些广告的数据还是用户电子邮件，公司直接或间接地付出代价，且代价足够大，显然值得投入大量精力避免数据丢失。但当消费者自己的机器上数据损坏时，他们大多不够专业，不知道是谁的责任，所以公司可以避免承担主要指责。如果我们有一个全局优化函数，数字是相同的——当然我们应该投入更多精力保护消费者机器上的数据。但如果我们是一家为自己利益局部优化的公司，数字计算就不同了，也许不值得花很多精力避免数据损坏。

昨天，Ramsey Nasser发表演讲，他提出了一个非常令人信服的理由说明某个问题是严重问题，随后有评论说他提出的解决方案很难被采纳。我同意这两部分——他讨论了一个重要问题，但解决这个问题如何让某人赚很多钱尚不清楚，所以问题可能得不到解决。

通过GDPR，我们看到监管可以迫使科技公司以他们不倾向于的方式保护人们的隐私，但监管是一把非常大的锤子，意外后果常常会抵消或超过监管的好处。当我们回顾旨在迫使公司做正确事情的监管历史时，我们常常看到需要很多年，有时几十年，才能完全理解监管的全部影响。设计好的监管很难，比我们今天讨论的任何技术问题都难得多。

致谢

感谢Leah Hanson、Gary Bernhardt、Kamal Marhubi、Rebecca Isaacs、Jesse Luehrs、Tom Crayford、Wesley Aptekar-Cassels、Rose Ames、chozu@fedi.absturztau.be和Benjamin Gilbert对这次演讲的帮助！

抱歉我们讲得这么快。如果你错过了任何内容，可以在danluu.com/deconstruct-files的伪文字稿中查看。

这份“文字稿”相当粗糙，因为我是今天早上在演讲前匆忙写成的。我会在几周内尝试清理，包括添加遗漏的内容、插入链接、修正错别字、添加遗漏的参考文献等。

感谢Anatole Shaw、Jernej Simoncic、@junh1024、Yuri Vishnevsky和Josh Duff对这份文字稿的评论/修正/讨论。

由 mimo-v2.5 模型翻译，花费 19251 tokens

《守望先锋》性别随机试验

Tue, 19 Feb 2019 00:00:00 +0000

《守望先锋》（及其他网络游戏）中一个反复出现的讨论是，女性玩家是否受到与男性玩家不同的对待。如果你快速搜索一下，会发现数百篇相关讨论，其中一些评论数甚至超过千条。这些讨论往往走向相同的模式，每次涉及相同的辩论，双方提出的观点也大同小异。例如，仅由一篇帖子引发的这三个Reddit讨论串，总评论数就达10.4万。一方认为，“女性确实会被喷，但我是男的也被喷，每个人都会被喷，没有区别”，“我从未见过这种事，不可能是真的”等。另一方则说：“我和男友一起玩时，总被指责是他带飞，但反过来从未发生”，“人们经常告诉我应该玩辅助（一个女性治疗角色）”等等。与其花时间进行一次大型讨论，不如直接做实验，因此就有了这项研究。

这是在两大主要游戏模式——快速游戏（QP）和竞技模式（comp）中进行339场比赛的结果。其中约一半比赛使用男性化用户名（使用一个常见的男性术语），另一半使用女性化用户名（使用一个女性名字）。我记录了每场比赛中的所有评论，并按类型分类。评论类别包括“性/性别相关评论”、“被指导如何游戏”、“侮辱性评论”和“赞美评论”。

在每场纳入实验的比赛中，我都是在英雄选择界面加载前决定是否将其纳入。在纳入的比赛中，我使用相同的英雄选择算法，不会因刷屏或行为恶劣而屏蔽任何人，不在语音聊天中说话（尽管我启用了语音），从不发送好友请求，且不组队以确保与5名随机队友匹配。正常游玩时，我可能会选择一个不熟悉的英雄，并会屏蔽那些发表不当言论的人。许多比赛未被纳入实验，因为我不愿听人骂队友十五分钟，而我的实验流程要求预先承诺不屏蔽这类人。

性或性暗示评论

我原以为使用女性化用户名时会看到更多性评论，但事实并非如此。两种情况下都有关于性、生殖器等的提及，比率并无显著差异，且在男性化条件下实际更高。

在男性化条件下，没有一场游戏有针对我个人的性评论；在女性化条件下，两场游戏（共184场）有针对我个人的评论。大多数评论是针对其他玩家或在队伍/游戏聊天中的泛泛而谈。

两种条件下都可能出现的典型非针对性评论示例包括：“我女友不停发色情短信，怎么让她停下？”，“深入腹地”，“真意外。（抚弄XX）[赛后精彩时刻]”，以及“支持当地胸部”。

两场有针对我个人的性评论的游戏中的具体评论如下：

“女士能给我点OO吗”、“是的女士，求你了”[来自两个不同的人]，“:boicootie:”
“我XX硬了”[根据上下文推断是针对我]

在未纳入实验的比赛中（通常我没注意当时用的哪个用户名），我也收到过“发裸照”这类评论。据我观察，这类针对性评论的比率似乎有所不同，但实验中观察到的比率非常低，以至于除非使用强先验，否则任何真实比率估计的不确定性区间在两种条件下都会相似。

在339场游戏中未能观察到这种差异令我惊讶，但这与McDaniel关于女性玩家的调查论文并不矛盾。339场游戏对重度玩家来说可能显得不多，但我所知的另一项关于此主题的随机实验（除了本实验）是Kasumovic等人的研究，其中指出“[我们]在163[场游戏]后停止，因为这已耗费大量时间”。

所有分析均使用某类评论出现的游戏场次数量而非语气，以避免为评论标注语气可能引入偏差。情感分析模型，即便是最先进的，也常返回无意义的结果，因此目前基本上只能手工完成。如果有更大数据量，进行某种情感分析（辅以大量抽查和模型再训练）可能可行，但在此案例中评论总数太少，实质上仍需逐条手工编码。

手工编码评论也可以以一定程度的盲法进行，但这可能需要更多人参与（因为我在游玩时看到和听到评论），并依赖无薪或低薪劳动。

被指导如何游戏

最显著、易于量化的差异是，在“人们告诉我该如何玩”的游戏中进行的场次比率。由于仅看原始比率难以判断我们对这种差异应有多大信心，我们将使用简单的统计模型来获得估计值周围的不确定性区间。由于我不确定对此应有的信念是什么，这里使用无信息先验，因此估计值接近实际比率。以下是简单模型给出的、在至少一人告诉我玩错了、应改变玩法或应更换英雄的游戏中所占百分比的不确定性区间：

条件	估计值	25%分位数	75%分位数
女性化竞技	19	13	25
男性化竞技	6	2	10
女性化快速	4	3	6
男性化快速	1	0	2

此表中的实验条件是男性化与女性化用户名（M/F）和竞技模式与快速游戏（comp/QP）。数字为百分比。Est是估计值，P25是25%分位数估计值，P75是75%分位数估计值。竞技模式和使用女性化用户名都与被指导如何游戏相关。参见Andrew Gelman的这篇博文，了解为何可能要看50%区间而非95%区间。

对于不熟悉《守望先锋》的玩家，在竞技模式中，你会明确看到自己的类ELO评级，并获得反映你评级的徽章。在快速游戏中，你的评级会被追踪，但不会直接显示给用户，你也不会获得徽章。

通常认为，玩家在竞技游戏中更紧张，更可能发火（例如，告诉你该如何玩）。数据与这一普遍看法一致。

如前所述，我不希望为消息语气编码以避免偏差，因此此表仅显示人们告诉我玩错了或要求我换英雄的游戏频率。此表低估了体验的质的差异。例如，在男性化条件下唯一一次有人要求我换英雄时，请求是一句礼貌的：“嘿，我们死太快了，我们能从标准的一主奶一副奶配置换成双主奶，或者换我们的坦克到（一个能挡更多伤害的坦克）吗？”而在使用女性化用户名时，典型情况是1-4人整场游戏都在骂我是人渣，并自我安慰地认为团队输掉的唯一原因就是我不换英雄。

我们使用的简单模型表明，竞技模式与快速游戏之间、使用男性化与女性化用户名之间，很可能都存在差异。然而The request was rejected because it was considered high risk

由 mimo-v2.5 模型翻译，花费 11485 tokens

Fsyncgate：fsync错误不可恢复

Wed, 28 Mar 2018 00:00:00 +0000

这是原始"Fsyncgate"邮件讨论的存档。之所以在此发布，是因为我需要一个适合关于文件安全的演讲幻灯片的链接，该链接采用移动友好且简洁的格式。

发件人：Craig Ringer 
主题：回复：PostgreSQL 对 fsync() 错误的处理不安全，至少在 XFS 上存在数据丢失风险
日期：2018-03-28 02:23:46

大家好

不久前，我遇到一个问题：用户在遇到存储错误后发生数据损坏。PostgreSQL 在此过程中起到了一定作用，因为它在检查点期间允许将本应是致命错误的情况视为可恢复错误。

简而言之：Pg 应在 fsync() 返回 EIO 时立即进入 PANIC 状态。至少在 Linux 上，重试 fsync() 是不安全的。当 fsync() 返回成功时，其含义是"自上次 fsync 以来的所有写操作都已落盘"，但我们（PostgreSQL）却将其理解为"自上次成功 fsync 以来的所有写操作都已落盘"。

Pg 写入了一些数据块，这些块进入操作系统的脏缓冲区等待回写。回写因底层存储错误而失败。块 I/O 层和 XFS 将回写页面标记为失败（AS_EIO），但无法将错误信息传递给应用程序。当 Pg 在下一个检查点期间对文件描述符调用 fsync() 时，fsync() 由于标记的页面而返回 EIO，以告知 Pg 之前的一次异步写操作失败了。Pg 将该检查点视为失败，并未在控制文件中推进重做起始位置。

到目前为止一切正常。

但随后我们重试了该检查点，也就重试了 fsync()。由于之前的 fsync() 清除了 AS_EIO 错误页面标志，重试成功了。

写操作实际上从未落盘，但我们却完成了检查点，并愉快地继续运行。糟糕，数据丢失了。

据我所知，fsync 这种"清除错误并继续"的行为并未被记录在文档中。同样，除非你拥有一个非常新的 Linux man-pages（其中包含了我编写用于添加该行为的补丁），否则 fsync() 返回 EIO 的行为也未被文档化。但根据我所看到的 POSIX 标准，我们根本没有得到关于 fsync() 失败后会发生什么的任何保证，因此我们假设重试 fsync() 是安全的，这很可能是错误的。

如果服务器使用的是带有 errors=remount-ro 选项的 ext3 或 ext4，该问题就不会发生，因为第一个 I/O 错误就会重新挂载文件系统并阻止 Pg 继续运行。但 XFS 没有这个选项。可能还存在其他情况，涉及 LVM 和/或多路径，但我尚未全面挖掘细节。

结果证明，可以通过伪造一个早于第一个错误成功检查点的备份标签来恢复系统，强制重做重复操作并写入丢失的数据块。但这……一团糟。

我之前在这里讨论过底层的 fsync 问题：

https://stackoverflow.com/q/42434872/398670

但一直没有机会跟进 Pg 的具体情况。

我断断续续地研究这个问题，至今未找到好的解决方案。我认为我们应该直接 PANIC，让重做通过重复自上次检查点以来失败的写操作来解决问题。

异步缓冲写和 fsync 提供的 API 没有办法让我们知道哪个页面失败了，因此我们无法选择性地重做那次写操作。我认为我们确实知道与 fsync 失败的文件描述符关联的 relfilenode，但除此之外知之甚少。所以替代方案似乎是某种可能复杂的在线重做方案，即仅对具有 fsync() 错误的关联执行 WAL 重放，同时其他查询照常服务。这很可能极易出错且难以测试，并且试图解决的问题在其他文件系统上会导致整个数据库停止运行。

我调查了是否可以通过使用 AIO API 来解决，但情况更糟——据我所知，在所有 Linux 内核版本上，你甚至无法可靠地保证 fsync。

我们已经在 WAL 段上遇到 fsync() 失败时 PANIC。我们只需要对数据分支做同样的处理，至少是针对 EIO。这并不像看起来那么糟糕，因为据我所知，fsync 只在我们应该停止整个世界的情况下才返回 EIO，并且许多文件系统会替我们做到这一点。

有相当多的 pg_fsync() 调用点。虽然我们可以逐个案例处理每个调用，但我倾向于直接让 pg_fsync() 本身拦截 EIO 并 PANIC。大家怎么看？

发件人：Tom Lane 
日期：2018-03-28 03:53:08

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

至少在 Linux 上，重试 fsync() 是不安全的。当 fsync() 返回成功时，其含义是"自上次 fsync 以来的所有写操作都已落盘"，但我们假设其含义是"自上次成功 fsync 以来的所有写操作都已落盘"。

如果情况确实如此，我们需要对这种内核的脑残行为进行抵制，因为如你所描述的，fsync 将完全无用。

此外，POSIX 规范非常明确：成功的 fsync 意味着之前对该文件的所有写操作都已完成，句号，无论它们何时发出。

发件人：Michael Paquier 
日期：2018-03-29 02:30:59

2018年3月27日（星期二）下午 11:53:08 EDT，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

后端代码中任何 pg_fsync 的调用者都非常仔细地检查返回的状态，有时会在 mdsync 中进行重试，因此这里提出的方案将是一个退步。

发件人：Thomas Munro 
日期：2018-03-29 02:48:27

2018年3月29日（星期四）下午 3:30，Michael Paquier 写道：

2018年3月27日（星期二）下午 11:53:08 EDT，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

后端代码中任何 pg_fsync 的调用者都非常仔细地检查返回的状态，有时会在 mdsync 中进行重试，因此这里提出的方案将是一个退步。

Craig，你描述的现象是否与本文中讨论的第二个问题“报告回写错误”相同？

https://lwn.net/Articles/724307/

“当前内核可能在 fsync() 调用上报告回写错误，但有多种方式可能导致此操作失败。”

这……我无语了。

发件人：Justin Pryzby 
日期：2018-03-29 05:00:31

2018年3月29日（星期四）上午 11:30:59 +0900，Michael Paquier 写道：

2018年3月27日（星期二）下午 11:53:08 EDT，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

后端代码中任何 pg_fsync 的调用者都非常仔细地检查返回的状态，有时会在 mdsync 中进行重试，因此这里提出的方案将是一个退步。

重试正是问题的根源；第一次 fsync() 可能返回 EIO，并且同时清除了错误，导致第二次 fsync（对相同的数据）返回成功。

（注意，我明白在 EIO 时 PANIC 而在 ENOSPC 时重试可能有用。）

2018年3月29日（星期四）下午 03:48:27 +1300，Thomas Munro 写道：

Craig，你描述的现象是否与本文中讨论的第二个问题“报告回写错误”相同？ https://lwn.net/Articles/724307/

更糟的是，该文章承认了这种行为但并未建议更改：

“将该值存储在文件结构中有一个重要好处：它使得向每个调用 FSYNC() 的进程报告一次且仅一次的回写错误成为可能……在当前内核中，只有错误发生后第一个调用者有机会看到该错误信息。”

我相信我用 dmsetup "error" 目标复现了该问题行为，请参见附件。

strace 看起来像这样：

内核版本为 Linux 4.10.0-28-generic #32~16.04.2-Ubuntu SMP Thu Jul 20 10:19:48 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux

1open("/dev/mapper/eio", O_RDWR|O_CREAT, 0600) = 3
2write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = 8192
3write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = 8192
4write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = 8192
5write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = 8192
6write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = 8192
7write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = 8192
8write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = 2560
9write(3, "\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"..., 8192) = -1 ENOSPC (No space left on device)
10dup(2)                                  = 4
11fcntl(4, F_GETFL)                       = 0x8402 (flags O_RDWR|O_APPEND|O_LARGEFILE)
12brk(NULL)                               = 0x1299000
13brk(0x12ba000)                          = 0x12ba000
14fstat(4, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 2), ...}) = 0
15write(4, "write(1): No space left on devic"..., 34write(1): No space left on device
16) = 34
17close(4)                                = 0
18fsync(3)                                = -1 EIO (Input/output error)
19dup(2)                                  = 4
20fcntl(4, F_GETFL)                       = 0x8402 (flags O_RDWR|O_APPEND|O_LARGEFILE)
21fstat(4, {st_mode=S_IFCHR|0620, st_rdev=makedev(136, 2), ...}) = 0
22write(4, "fsync(1): Input/output error\n", 29fsync(1): Input/output error
23) = 29
24close(4)                                = 0
25close(3)                                = 0
26open("/dev/mapper/eio", O_RDWR|O_CREAT, 0600) = 3
27fsync(3)                                = 0
28write(3, "\0", 1)                       = 1
29fsync(3)                                = 0
30exit_group(0)                           = ?

2: 最初未看到 EIO 是因为回写页缓存；

9: ENOSPC 由于设备较小；

18: 原始 IO 错误通过 fsync 报告，很好；

25: 原始文件描述符被关闭；

26: ……文件重新打开；

27: 对包含仍脏数据+EIO 的文件进行 fsync 返回成功，错误；

10, 19: 我不确定为什么会有 dup(2)，我猜 glibc 认为 perror 应该写到单独的 FD（？）

另外请注意，close() 也返回成功……这可能会让你认为第二次 fsync() 无辜，但我认为这本身可能就有问题，不是吗？无论如何，第二个字节肯定从未写入 DM 错误设备，并且在 fsync() 之后丢失了失败状态。

如果我在一次 write() 循环后中断，以避免 ENOSPC，我会得到完全相同的行为。

发件人：Thomas Munro 
日期：2018-03-29 05:06:22

2018年3月29日（星期四）下午 6:00，Justin Pryzby 写道：

重试正是问题的根源；第一次 fsync() 可能返回 EIO，并且同时清除了错误，导致第二次 fsync（对相同的数据）返回成功。

我无法理解的是那个错误标志（无论它是一个位还是如补丁中描述的计数器）为什么如此重要。如果回写失败了，该页面仍然是脏的。因此所有对 fsync() 的未来调用都需要尝试再次刷新它，并且（大概）会再次失败（除非这次碰巧成功）。

发件人：Craig Ringer 
日期：2018-03-29 05:25:51

2018年3月29日 13:06，Thomas Munro 写道：

2018年3月29日（星期四）下午 6:00，Justin Pryzby 写道：

重试正是问题的根源；第一次 fsync() 可能返回 EIO，并且同时清除了错误，导致第二次 fsync（对相同的数据）返回成功。

我无法理解的是那个错误标志（无论它是一个位还是如补丁中描述的计数器）为什么如此重要。如果回写失败了，该页面仍然是脏的。因此所有对 fsync() 的未来调用都需要尝试再次刷新它，并且（大概）会再次失败（除非这次碰巧成功）。 http://www.enterprisedb.com

你可能会这么认为。但实际情况似乎并非如此。你可以自己通过将错误设备映射器目标映射到卷的一部分来看到这一点。

我在这里写了一个测试用例。

https://github.com/ringerc/scrapcode/blob/master/testcases/fsync-error-clear.c

我不假装内核的行为是合理的。而且我可能在分析中犯了错误。但既然我在实际环境中观察到这一点，并在测试用例中看到，我强烈怀疑我所描述的正是正在发生的事情，不管多么脑残。

大概是内核在将页面分派给 I/O 子系统时将其标记为干净，并且在 I/O 错误时不会重新标记为脏？我还没有深入挖掘内核这方面的内容。详见我在 StackOverflow 帖子中关于内核代码分析的发现。

发件人：Craig Ringer 
日期：2018-03-29 05:32:43

2018年3月29日 10:48，Thomas Munro 写道：

2018年3月29日（星期四）下午 3:30，Michael Paquier 写道：

2018年3月27日（星期二）下午 11:53:08 EDT，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

后端代码中任何 pg_fsync 的调用者都非常仔细地检查返回的状态，有时会在 mdsync 中进行重试，因此这里提出的方案将是一个退步。

Craig，你描述的现象是否与本文中讨论的第二个问题“报告回写错误”相同？

https://lwn.net/Articles/724307/

看起来像是它的变种。

我们这种情况下的问题是，内核只向我们报告了一次错误。然后它就忘记了。所以是的，这似乎是以下陈述的一个变种：

“当前内核可能在 fsync() 调用上报告回写错误，但有多种方式可能导致此操作失败。”

这……我无语了。

是的。

这有点疯狂。

当我看到这种行为并且它似乎未被记录在文档中时，我感到惊讶。

发件人：Craig Ringer 
日期：2018-03-29 05:35:47

2018年3月29日 10:30，Michael Paquier 写道：

2018年3月27日（星期二）下午 11:53:08 EDT，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

后端代码中任何 pg_fsync 的调用者都非常仔细地检查返回的状态，有时会在 mdsync 中进行重试，因此这里提出的方案将是一个退步。

我在最初的帖子中已经讨论过这一点。

是的，我们检查返回值。但我们用它做什么？对于堆文件的 fsync，我们返回 ERROR，中止检查点。我们稍后会重试检查点，这将重试 fsync()。而这次它现在似乎成功了，因为内核在第一次告诉我们之后忘记了它丢失了我们的写操作。所以我们确实检查了错误代码，返回成功，我们完成检查点并继续前进。

但我们只重试了 fsync，而不是 fsync 之前的写操作。

所以我们丢失了数据。或者更确切地说，我们没有检测到内核已经这样做了，所以我们的检查点是错误的并且无法完成。

问题在于我们在没有重复导致检查点的写操作的情况下不断重试检查点，并且重试 fsync。

我不假装内核的行为是合理的，但我们最好还是处理它。

发件人：Craig Ringer 
日期：2018-03-29 05:58:45

2018年3月28日 23:53，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

不。我非常认真。更糟的是，我们可能必须对 ENOSPC 也做同样的事情，以避免类似的丢失页面写问题。

在 ext3/ext4 上，如果使用 errors=remount-ro，这并不是必需的，但这仅仅是因为 FS 会阻止我们。

我不假装这是合理的。内核的行为在我看来是疯狂的。如果它要丢失一次写操作，它至少应该将 FD 标记为损坏，这样就不会有任何进一步的 fsync() 或任何其他操作可以在 FD 上成功，并且一个关心持久性的应用程序必须重复自上次成功 fsync() 以来的全部工作。仅仅报告一次然后忘记是疯狂的。

但即使我们让内核人员意识到这一点，其他平台如何表现？这些内核还要使用多久？我们最好处理它，不管多么疯狂。

请参阅我的 StackOverflow 帖子以了解内核级别的解释。另请注意那里的测试用例链接。https://stackoverflow.com/a/42436054/398670

至少在 Linux 上，重试 fsync() 是不安全的。当 fsync() 返回成功时，其含义是"自上次 fsync 以来的所有写操作都已落盘"，但我们假设其含义是"自上次成功 fsync 以来的所有写操作都已落盘"。

如果情况确实如此，我们需要对这种内核的脑残行为进行抵制，因为如你所描述的，fsync 将完全无用。

它并非无用，它只是告诉我们一些与我们想象不同的东西。它似乎给我们的承诺是，如果它报告了一次错误，那么之后的一切都是无用的，所以我们应该扔掉玩具，关闭并重新打开所有内容，并从最后一个已知良好的状态重做。

尽管正如 Tomas 在下面发布的，它在其他一些领域也提供了相当弱的保证。请参阅他链接的那篇 lwn.net 文章。

此外，POSIX 规范非常明确：成功的 fsync 意味着之前对该文件的所有写操作都已完成，句号，无论它们何时发出。

我找不到任何东西这样对我说。请引用相关规范。

我参考的是 http://pubs.opengroup.org/onlinepubs/009695399/functions/fsync.html，其中指出

"fsync() 函数应请求将 fildes 命名的打开文件描述符的所有数据传输到与 fildes 描述的文件关联的存储设备。传输的性质是实现定义的。fsync() 函数应不返回，直到系统完成该操作或检测到错误。"

我的理解是，POSIX 并未指定检测到错误之后会发生什么。它没有说该错误必须是持久的，并且后续调用也必须报告该错误。它还说：

"如果 fsync() 函数失败，未完成的 I/O 操作不保证已完成。"

但这也没有让事情变得清晰多少，因为它可以被解读为一旦某些 I/O 操作报告了错误，即使在后续 fsync 返回成功后，这些操作也永远无法完成。

我不是在试图为内核似乎正在做的事情辩护。而是说，我们可能在其他平台上看到类似的行为，不管多么疯狂。我还没有研究 Linux 之外的情况。

发件人：Thomas Munro 
日期：2018-03-29 12:07:56

2018年3月29日（星期四）下午 6:58，Craig Ringer 写道：

2018年3月28日 23:53，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

不。我非常认真。更糟的是，我们可能必须对 ENOSPC 也做同样的事情，以避免类似的丢失页面写问题。

我发现了你与内核黑客 Jeff Layton 的讨论 https://lwn.net/Articles/718734/，他在其中说："stackoverflow 文章似乎希望一种方案，在回写失败后页面保持脏状态以便我们可以再次尝试 fsync 它们。请注意，在 AFAIK 中，Linux 在发生硬回写失败后从未这样做过，因此程序绝对不应假设这种行为。"

上面那篇文章以几种不同的方式表达了相同的意思，即回写失败会给你留下既未成功写入磁盘也未标记为脏的页面。

如果我阅读各篇文章是正确的，在他的 errseq_t 修补程序落地之前，情况甚至更糟。该修补程序修复了由于共享 PG_error 用于某些文件系统的回写和读取错误而导致的完全未报告回写失败的情况，但它没有解决干净页面的问题。

是的，我明白你为什么要 PANIC。

此外，POSIX 规范非常明确：成功的 fsync 意味着之前对该文件的所有写操作都已完成，句号，无论它们何时发出。

我找不到任何东西这样对我说。请引用相关规范。

我参考的是 http://pubs.opengroup.org/onlinepubs/009695399/functions/fsync.html，其中指出

"fsync() 函数应请求将 fildes 命名的打开文件描述符的所有数据传输到与 fildes 描述的文件关联的存储设备。传输的性质是实现定义的。fsync() 函数应不返回，直到系统完成该操作或检测到错误。"

我的理解是，POSIX 并未指定检测到错误之后会发生什么。它没有说该错误必须是持久的，并且后续调用也必须报告该错误。它还说：

顺便说一下，我的理解和 Tom 的一样。它说的是"打开文件描述符的所有数据"，没有任何限定或在错误后的特殊处理。不是"部分"。

我不是在试图为内核似乎正在做的事情辩护。而是说，我们可能在其他平台上看到类似的行为，不管多么疯狂。我还没有研究 Linux 之外的情况。

我没有理由认为任何其他操作系统会以那种方式表现，除非有强有力的证据……这篇文章被公开承认为"一团糟"和"一个意外"，在文件系统峰会上。我其实没有资格评论，但从对 FreeBSD 的 vfs_bio.c 的粗略查看来看，我认为它做了你所希望的……请参阅注释"写入失败，重新脏"附近的代码。

发件人：Craig Ringer 
日期：2018-03-29 13:15:10

2018年3月29日 20:07，Thomas Munro 写道：

2018年3月29日（星期四）下午 6:58，Craig Ringer 写道：

2018年3月28日 23:53，Tom Lane 写道：

Craig Ringer 写道：

简而言之：Pg 应在 fsync() 返回 EIO 时 PANIC。

你肯定是在开玩笑。

不。我非常认真。更糟的是，我们可能必须对 ENOSPC 也做同样的事情，以避免类似的丢失页面写问题。

我发现了你与内核黑客 Jeff Layton 的讨论 https://lwn.net/Articles/718734/，他在其中说："stackoverflow 文章似乎希望一种方案，在回写失败后页面保持脏状态以便我们可以再次尝试 fsync 它们。请注意，在 AFAIK 中，Linux 在发生硬回写失败后从未这样做过，因此程序绝对不应假设这种行为。"

上面那篇文章以几种不同的方式表达了相同的意思，即回写失败会给你留下既未成功写入磁盘也未标记为脏的页面。

如果我阅读各篇文章是正确的，在他的 errseq_t 修补程序落地之前，情况甚至更糟。该修补程序修复了由于共享 PG_error 用于某些文件系统的回写和读取错误而导致的完全未报告回写失败的情况，但它没有解决干净页面的问题。

是的，我明白你为什么要 PANIC。

在多个方面都是如此 ;)

我不是在试图为内核似乎正在做的事情辩护。而是说，我们可能在其他平台上看到类似的行为，不管多么疯狂。我还没有研究 Linux 之外的情况。

好的，这令人放心，但对我们绝大多数用户部署的平台没有帮助 :(

"如果在 Linux 上，PANIC"

嗯。

发件人：Catalin Iacob 
日期：2018-03-29 16:20:00

2018年3月29日（星期四）下午 2:07，Thomas Munro 写道：

我发现了你与内核黑客 Jeff Layton 的讨论 https://lwn.net/Articles/718734/，他在其中说："stackoverflow 文章似乎希望一种方案，在回写失败后页面保持脏状态以便我们可以再次尝试 fsync 它们。请注意，在 AFAIK 中，Linux 在发生硬回写失败后从未这样做过，因此程序绝对不应假设这种行为。"

在同一篇评论的稍下方，针对这个关于 Pg 的问题："那么，此时有哪些选择？假设是我们可以重复 fsync（正如你指出的那样，这不是事实），或者关闭数据库并从 WAL 执行恢复"，同一个 Jeff Layton 似乎同意 PANIC 是合适的响应： "当你从 fsync 得到一个错误时，同步重放 WAL 似乎是最简单的方法。这些在大多数情况下很少发生，因此当这种情况发生时，退回到缓慢、同步的错误恢复模式可能是你想要做的事情。"。紧接着，他确认 errseq_t 补丁只是为了更好地保证检测到，而不是更多： "我正在做的主要事情是更好地保证当这种情况发生时你确实得到一个错误，而不是静默地损坏你的数据。可能发生这种情况的情况需要一些角落案例，但我认为我们需要确保它不会发生。"

Jeff 在合并 errseq_t 的拉取请求中的评论也值得一读： https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/commit/?id=088737f44bbf6378745f5b57b035e57ee3dc4750

上面那篇文章以几种不同的方式表达了相同的意思，即回写失败会给你留下既未成功写入磁盘也未标记为脏的页面。

如果我阅读各篇文章是正确的，在他的 errseq_t 修补程序落地之前，情况甚至更糟。该修补程序修复了由于共享 PG_error 用于某些文件系统的回写和读取错误而导致的完全未报告回写失败的情况，但它没有解决干净页面的问题。

确实，这完全是我独立阅读你的句子之前形成的观点。顺便说一句，errseq_t 补丁在 v4.13 中落地，所以非常新。

是的，我明白你为什么要 PANIC。

确实。即使这样做也对 v4.13 之前的所有内核版本留下了疑问，目前这些版本几乎都是所有正在运行的版本，甚至无法可靠地检测到这一点。这很混乱。

发件人：Thomas Munro 
日期：2018-03-29 21:18:14

2018年3月30日（星期五）凌晨 5:20，Catalin Iacob 写道：

Jeff 在合并 errseq_t 的拉取请求中的评论也值得一读： https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/commit/?id=088737f44bbf6378745f5b57b035e57ee3dc4750

哇。看起来可能存在一个单独的问题，即每个文件系统何时采用了这个新基础设施？

是的，我明白你为什么要 PANIC。

确实。即使这样做也对 v4.13 之前的所有内核版本留下了疑问，目前这些版本几乎都是所有正在运行的版本，甚至无法可靠地检测到这一点。这很混乱。

预 errseq_t 问题超出了我们的控制范围。我们无法在用户空间做任何事情（除非可能放弃 OS 缓冲 IO，这是一个大项目）。我们只需要意识到这个问题存在于某些内核版本中，并感谢 Layton 修复了它。

丢弃脏标志问题是我们可以并且我认为应该做些什么的，无论我们对该设计选择怎么想。正如 Andrew Gierth 在关于此问题的邮件列表外聊天中向我指出的，当你达到这个状态时，PostgreSQL 的缓冲区和内核的缓冲区都是干净的，可能随时被重用于另一个块，因此你的数据可能已经从已知的宇宙中消失——我们甚至无法普遍重写我们的缓冲区。恢复是唯一的选择。

感谢 Craig 追踪到这一点，并支持他的提案，仅限 Linux。

发件人：Anthony Iliopoulos 
日期：2018-03-31 13:24:28

2018年3月30日（星期五）上午 10:18:14 +1300，Thomas Munro 写道：

是的，我明白你为什么要 PANIC。

确实。即使这样做也对 v4.13 之前的所有内核版本留下了疑问，目前这些版本几乎都是所有正在运行的版本，甚至无法可靠地检测到这一点。这很混乱。

可能仍然有办法从用户空间可靠地在旧内核版本上检测到这一点，但无论怎样都会很混乱。对于 EIO 错误，内核不会恢复脏页面标志，但它会翻转失败页面上的错误标志。可以 mmap() 相关文件，获取 PFN（通过 /proc/pid/pagemap）并枚举那些通过 /proc/kpageflags 切换错误标志的页面。这至少可以作为检测机制，但也可以进一步使用此信息逻辑上将失败的 IO 页面映射回原始文件偏移量，并可能仅重试覆盖失败页面的文件范围的 IO。只是一个想法，未经测试。

发件人：Craig Ringer 
日期：2018-03-31 16:13:09

2018年3月31日 21:24，Anthony Iliopoulos 写道：

2018年3月30日（星期五）上午 10:18:14 +1300，Thomas Munro 写道：

是的，我明白你为什么要 PANIC。

确实。即使这样做也对 v4.13 之前的所有内核版本留下了疑问，目前这些版本几乎都是所有正在运行的版本，甚至无法可靠地检测到这一点。这很混乱。

可能仍然有办法从用户空间可靠地在旧内核版本上检测到这一点，但无论怎样都会很混乱。对于 EIO 错误，内核不会恢复脏页面标志，但它会翻转失败页面上的错误标志。可以 mmap() 相关文件，获取 PFN（通过 /proc/pid/pagemap）并枚举那些通过 /proc/kpageflags 切换错误标志的页面。这至少可以作为检测机制，但也可以进一步使用此信息逻辑上将失败的 IO 页面映射回原始文件偏移量，并可能仅重试覆盖失败页面的文件范围的 IO。只是一个想法，未经测试。

这听起来像是大量的复杂性，而且内核到内核的行为不确定性，收益微乎其微。

我曾探索基于我们假设我们知道与 fsync() 失败的文件描述符关联的 relfilenode 的想法，对单个 relfilenode 进行选择性恢复。我们可以仅重放该关联上的 WAL。但它失败了同样的测试：它太复杂，不适合一个首先不应该发生的特殊情况，所以它可能有错误，或者随着时间的推移而产生错误。

记住，如果你在 ext4 上使用 errors=remount-ro，你会比 PANIC 更彻底地关闭。所以我们应该在这里使用大锤。

我本周会发送一个补丁。

发件人：Tom Lane 
日期：2018-03-31 16:38:12

Craig Ringer 写道：

所以我们应该在这里使用大锤。

并大声公开地抱怨这种内核行为是多么的残缺。如果我们制造足够的噪音，也许它会被修复。

发件人：Michael Paquier 
日期：2018-04-01 00:20:38

2018年3月31日（星期六）下午 12:38:12 EDT，Tom Lane 写道：

Craig Ringer 写道：

所以我们应该在这里使用大锤。

并大声公开地抱怨这种内核行为是多么的残缺。如果我们制造足够的噪音，也许它会被修复。

那不会修复已经发布的任何东西，因此根据收集到的信息，无论如何都必须做些什么。这个主题的讨论实际上正在广泛传播。

在底层处理事情看起来对后端来说是一个更好的计划。像 pg_basebackup 和 pg_dump 这样的工具也会对创建的数据发出 fsync，我们应该对它们做同样的事情，在 file_utils.c 中进行一些 exit() 调用。目前，失败被记录到 stderr，但并未被视为致命错误。

发件人：Anthony Iliopoulos 
日期：2018-04-01 00:58:22

2018年4月1日（星期日）凌晨 00:13:09 +0800，Craig Ringer 写道：

2018年3月31日 21:24，Anthony Iliopoulos 写道：

2018年3月30日（星期五）上午 10:18:14 +1300，Thomas Munro 写道：

是的，我明白你为什么要 PANIC。

确实。即使这样做也对 v4.13 之前的所有内核版本留下了疑问，目前这些版本几乎都是所有正在运行的版本，甚至无法可靠地检测到这一点。这很混乱。

可能仍然有办法从用户空间可靠地在旧内核版本上检测到这一点，但无论怎样都会很混乱。对于 EIO 错误，内核不会恢复脏页面标志，但它会翻转失败页面上的错误标志。可以 mmap() 相关文件，获取 PFN（通过 /proc/pid/pagemap）并枚举那些通过 /proc/kpageflags 切换错误标志的页面。这至少可以作为检测机制，但也可以进一步使用此信息逻辑上将失败的 IO 页面映射回原始文件偏移量，并可能仅重试覆盖失败页面的文件范围的 IO。只是一个想法，未经测试。

这听起来像是大量的复杂性，而且内核到内核的行为不确定性，收益微乎其微。

那些接口自内核 2.6 时代就存在，并且相当稳定，但我只是在回应你最初帖子中关于有一种方法可以找出哪些页面失败的评论。我假设确实没有任何益处，特别是因为这些错误通常不是瞬态的（通常来自硬介质故障），尽管文件系统理论上可以通过分配不同的逻辑块来掩盖错误，但我不知道当前有任何实现这样做。

我曾探索基于我们假设我们知道与 fsync() 失败的文件描述符关联的 relfilenode 的想法，对单个 relfilenode 进行选择性恢复。我们可以仅重放该关联上的 WAL。但它失败了同样的测试：它太复杂，不适合一个首先不应该发生的特殊情况，所以它可能有错误，或者随着时间的推移而产生错误。

完全同意，这些情况应该足够罕见，以至于一个复杂且可能无法维护的解决方案并不真正值得。

记住，如果你在 ext4 上使用 errors=remount-ro，你会比 PANIC 更彻底地关闭。所以我们应该在这里使用大锤。

我不完全确定你的意思，Pg 真的将 write() 错误视为致命错误吗？此外，ext4 使用此选项检测的错误类型是在超级块级别并管理元数据，而不是实际的数据写入（回想一下那些是缓冲的，在 write() 时实际上不需要实际的设备 IO）。

发件人：Anthony Iliopoulos 
日期：2018-04-01 01:14:46

2018年3月31日（星期六）下午 12:38:12 EDT，Tom Lane 写道：

Craig Ringer 写道：

所以我们应该在这里使用大锤。

并大声公开地抱怨这种内核行为是多么的残缺。如果我们制造足够的噪音，也许它会被修复。

它不太可能被修复（除了已经在报告级别通过 manpage 补丁和 errseq_t 修复所做的工作之外）。问题是内核需要以某种方式处理硬 IO 错误，由于这些错误通常会持续存在，重新脏化页面并不能真正解决问题（除非某些文件系统将请求重新映射到不同的块，假设设备仍然存活）。保留无法写出的脏页面本质上是内存泄漏，因为即使在应用程序退出后，这些页面也会保留下来。

发件人：Thomas Munro 
日期：2018-04-01 18:24:51

2018年3月30日（星期五）上午 10:18，Thomas Munro 写道：

... 仅限 Linux。

看来我过于乐观了。我只看了 FreeBSD，它保留页面并将其脏化以便我们可以重试，但其他 BSD 显然没有（FreeBSD 在 1999 年改变了这一点）。根据我下面的来源，我们有：

Linux, OpenBSD, NetBSD: 重试 fsync() 后 EIO 说谎
FreeBSD, Illumos: 重试 fsync() 后 EIO 说实话

也许我对那些内核例程的一次性评估是错误的，有人会纠正我，但我开始认为你最好在所有系统上假设最坏的情况。也许是一个 GUC 默认 panic，这样那些罕见的 OS 用户可以关闭它？即使那样，我也不确定故障模式会有多好，或者是否值得有两种行为。想法？

http://mail-index.netbsd.org/netbsd-users/2018/03/30/msg020576.html https://github.com/NetBSD/src/blob/trunk/sys/kern/vfs_bio.c#L1059 https://github.com/openbsd/src/blob/master/sys/kern/vfs_bio.c#L867 https://github.com/freebsd/freebsd/blob/master/sys/kern/vfs_bio.c#L2631 https://github.com/freebsd/freebsd/commit/e4e8fec98ae986357cdc208b04557dba55a59266 https://github.com/illumos/illumos-gate/blob/master/usr/src/uts/common/os/bio.c#L441

发件人：Craig Ringer 
日期：2018-04-02 15:03:42

2018年4月2日 02:24，Thomas Munro 写道：

也许我对那些内核例程的一次性评估是错误的，有人会纠正我，但我开始认为你最好在所有系统上假设最坏的情况。也许是一个 GUC 默认 panic，这样那些罕见的 OS 用户可以关闭它？即使那样，我也不确定故障模式会有多好，或者是否值得有两种行为。想法？

我看到无条件地对 EIO PANIC 几乎没有好处。它不应该发生，如果发生了，我们希望非常保守并采用数据保护方法。

我更担心在 ENOSPC 上这样做。根据我在测试用例 + 内核代码阅读中发现的情况，这似乎是必要的。我真的不想对可能瞬时的 ENOSPC 不必要地 PANIC 整个服务器。

顺便说一句，2ndQ 的支持团队目前正在处理两个独立的问题，其中 ENOSPC 导致数据库损坏，尽管这两个问题都不涉及丢失页面写入的日志。我计划明天花些时间编写一个针对 Pg 的 ENOSPC 处理的测试工具，并验证我在原始 StackOverflow 帖子中链接的测试用例中的 ENOSPC 处理。

如果这只与 EIO 有关，那么我认为除了无条件 PANIC 之外没有意义做其他任何事情。

如果是 ENOSPC 的问题，我们应该在可能的情况下努力以更好的方式失败。

发件人：Andres Freund 
日期：2018-04-02 18:13:46

你好，

2018-04-01 03:14:46 +0200，Anthony Iliopoulos 写道：

2018年3月31日（星期六）下午 12:38:12 EDT，Tom Lane 写道：

Craig Ringer 写道：

所以我们应该在这里使用大锤。

并大声公开地抱怨这种内核行为是多么的残缺。如果我们制造足够的噪音，也许它会被修复。

它不太可能被修复（除了已经在报告级别通过 manpage 补丁和 errseq_t 修复所做的工作之外）。问题是内核需要以某种方式处理硬 IO 错误，由于这些错误通常会持续存在，重新脏化页面并不能真正解决问题（除非某些文件系统将请求重新映射到不同的块，假设设备仍然存活）。

丢弃脏页面并且持续保存错误似乎更加合理。然后提供一个 fcntl（或其他）扩展，可以在少数想要优雅处理该情况的情况下清除错误状态。

保留无法写出的脏页面本质上是内存泄漏，因为即使在应用程序退出后，这些页面也会保留下来。

为什么在持续错误的情况下需要保留脏页面？我认为在这种情况下缺乏自动恢复并不是任何人抱怨的内容。而是错误消失了，没有合理的方法来区分这种错误和某些潜在的瞬时错误。

发件人：Anthony Iliopoulos 
日期：2018-04-02 18:53:20

2018年4月2日（星期一）上午 11:13:46 -0700，Andres Freund 写道：

你好，

2018-04-01 03:14:46 +0200，Anthony Iliopoulos 写道：

2018年3月31日（星期六）下午 12:38:12 EDT，Tom Lane 写道：

Craig Ringer 写道：

所以我们应该在这里使用大锤。

并大声公开地抱怨这种内核行为是多么的残缺。如果我们制造足够的噪音，也许它会被修复。

它不太可能被修复（除了已经在报告级别通过 manpage 补丁和 errseq_t 修复所做的工作之外）。问题是内核需要以某种方式处理硬 IO 错误，由于这些错误通常会持续存在，重新脏化页面并不能真正解决问题（除非某些文件系统将请求重新映射到不同的块，假设设备仍然存活）。

丢弃脏页面并且持续保存错误似乎更加合理。然后提供一个 fcntl（或其他）扩展，可以在少数想要优雅处理该情况的情况下清除错误状态。

鉴于无法写出的脏页面实际上被丢弃，fsync() 的语义（在 4.13 修复之后）本质上是正确的：第一个调用表明确实发生了回写错误，而后续调用没有理由表明错误（假设没有发生其他错误）。

因此，错误报告与预期的语义一致（可惜未被正确记录）。对 fsync() 的重复调用并不意味着内核将重试先前失败的页面回写，因此应用程序需要意识到这一点。在 fsync() 级别持续保存错误本质上意味着将应用程序策略移动到内核中。

发件人：Andres Freund 
日期：2018-04-02 19:32:45

2018-04-02 20:53:20 +0200，Anthony Iliopoulos 写道：

2018年4月2日（星期一）上午 11:13:46 -0700，Andres Freund 写道：

丢弃脏页面并且持续保存错误似乎更加合理。然后提供一个 fcntl（或其他）扩展，可以在少数想要优雅处理该情况的情况下清除错误状态。

鉴于无法写出的脏页面实际上被丢弃，fsync() 的语义（在 4.13 修复之后）本质上是正确的：第一个调用表明确实发生了回写错误，而后续调用没有理由表明错误（假设没有发生其他错误）。

呸^2。

"没有理由" - 除了你完全无法知道数据处于什么状态。并且你的应用程序需要显式处理此类失败。而且一个 FD 可能在应用程序的许多不同部分中使用，在一个部分中的 fsync 可能是可接受的失败，在另一个部分中则不是。要求显式操作来确认"我们因未知原因丢弃了你的数据"似乎是完全合理的。

因此，错误报告与预期的语义一致（可惜未被正确记录）。对 fsync() 的重复调用并不意味着内核将重试先前失败的页面回写，因此应用程序需要意识到这一点。

这不是我所建议的。

在 fsync() 级别持续保存错误本质上意味着将应用程序策略移动到内核中。

呸。

发件人：Anthony Iliopoulos 
日期：2018-04-02 20:38:06

2018年4月2日（星期一）下午 12:32:45 -0700，Andres Freund 写道：

2018-04-02 20:53:20 +0200，Anthony Iliopoulos 写道：

2018年4月2日（星期一）上午 11:13:46 -0700，Andres Freund 写道：

丢弃脏页面并且持续保存错误似乎更加合理。然后提供一个 fcntl（或其他）扩展，可以在少数想要优雅处理该情况的情况下清除错误状态。

鉴于无法写出的脏页面实际上被丢弃，fsync() 的语义（在 4.13 修复之后）本质上是正确的：第一个调用表明确实发生了回写错误，而后续调用没有理由表明错误（假设没有发生其他错误）。

呸^2。

"没有理由" - 除了你完全无法知道数据处于什么状态。并且你的应用程序需要显式处理此类失败。而且一个 FD 可能在应用程序的许多不同部分中使用，在一个部分中的 fsync 可能是可接受的失败，在另一个部分中则不是。要求显式操作来确认"我们因未知原因丢弃了你的数据"似乎是完全合理的。

只要 fsync() 在第一次调用时指示错误，应用程序就完全知道从此时到上次调用 fsync() 之间数据已丢失。进一步持续保存此错误不会改变这一点或增加任何新信息 - 相反，它会增加混乱，因为对其他页面的后续 write() 和 fsync() 可以成功，但会被报告为失败。

应用程序将需要处理第一个错误，而不管 fsync() 的后续返回码如何。概念上，每个 fsync() 调用都划分了一个纪元，报告该纪元的潜在错误，因此调用者需要为该特定纪元负责。

不受 fsync() 潜在结果影响的调用者并且不对错误做出反应的调用者，首先就没有调用它的理由（并且因此从可能确实关心的后续调用者那里掩盖了失败）。

发件人：Stephen Frost 
日期：2018-04-02 20:58:08

问候，

Anthony Iliopoulos (ailiop(at)altatus(dot)com) 写道：

2018年4月2日（星期一）下午 12:32:45 -0700，Andres Freund 写道：

2018-04-02 20:53:20 +0200，Anthony Iliopoulos 写道：

2018年4月2日（星期一）上午 11:13:46 -0700，Andres Freund 写道：

丢弃脏页面并且持续保存错误似乎更加合理。然后提供一个 fcntl（或其他）扩展，可以在少数想要优雅处理该情况的情况下清除错误状态。

鉴于无法写出的脏页面实际上被丢弃，fsync() 的语义（在 4.13 修复之后）本质上是正确的：第一个调用表明确实发生了回写错误，而后续调用没有理由表明错误（假设没有发生其他错误）。

呸^2。

"没有理由" - 除了你完全无法知道数据处于什么状态。并且你的应用程序需要显式处理此类失败。而且一个 FD 可能在应用程序的许多不同部分中使用，在一个部分中的 fsync 可能是可接受的失败，在另一个部分中则不是。要求显式操作来确认"我们因未知原因丢弃了你的数据"似乎是完全合理的。

只要 fsync() 在第一次调用时指示错误，应用程序就完全知道从此时到上次调用 fsync() 之间数据已丢失。进一步持续保存此错误不会改变这一点或增加任何新信息 - 相反，它会增加混乱，因为对其他页面的后续 write() 和 fsync() 可以成功，但会被报告为失败。

fsync() 不反映给定页面的状态，然而它反映的是调用它的文件描述符的状态，并因此反映文件的状态。认为 fsync() 实际上仅负责自上次 fsync() 调用以来对文件所做的更改的观点是完全愚蠢的。如果我们能够向 fsync() 传递一个页面列表或数据范围以验证它们已落盘，那么情况可能就不同了，但我们不能，我们所能做的就是请求"请将与此文件描述符关联的所有脏页面刷新到磁盘，该描述符代表我们打开的此文件，并在成功时告诉我们。"

给我们一个方式来询问"这些特定页面是否已写入持久存储？"，我们肯定会乐意使用它，并且会反复尝试刷新由于某些瞬时错误而未同步到磁盘的页面，并跟踪这些情况并确保我们不会错误地假设它们已传输到持久存储。

应用程序将需要处理第一个错误，而不管 fsync() 的后续返回码如何。概念上，每个 fsync() 调用都划分了一个纪元，报告该纪元的潜在错误，因此调用者需要为该特定纪元负责。

我们确实处理那个错误 - 意识到它失败了，然后稍后重试 fsync()，这时我们得到"一切正常！你打开的这个文件描述符的所有内容都已同步！"并愉快地期望这是事实，而实际上，这是一个不幸的谎言，并且仍然存在与该文件描述符关联的页面，这些页面实际上很脏且未同步到磁盘。

考虑两个独立的程序，第一个程序写入一个文件，然后调用第二个程序，其工作是出去并对这些文件进行 fsync()，可能与第一个程序异步。第二个程序是否应该去写入第一个程序写入的每个页面，以确保设置了所有脏位，以便如果所有脏页面都已写入，fsync() 实际上会返回？

不受 fsync() 潜在结果影响的调用者并且不对错误做出反应的调用者，首先就没有调用它的理由（并且因此从可能确实关心的后续调用者那里掩盖了失败）。

对 fsync() 调用的错误做出反应可能根据其文档化方式和在其他 OS 上的实际实现意味着"运行另一个 fsync() 以查看错误是否已自行解决"。要求那意味着"你必须去脏化你先前脏化的所有页面，以实际让后续的 fsync() 做任何事情"确实不合理 - 一个给定的程序可能不知道先前写入了什么，或者也不需要知道，期望 fsync() 调用将刷新任何脏页面，如其文档

由 mimo-v2.5 模型翻译，花费 172366 tokens

计算机延迟：1977-2017

Sun, 24 Dec 2017 00:00:00 +0000

我一直有种挥之不去的感觉：现在用的电脑似乎比小时候用的要慢。通常我不太相信这种感觉，因为实证研究已表明人类感知并不可靠。于是我随身携带一台高速相机，测量了过去几个月遇到的设备的响应延迟。结果如下：

计算机	延迟 (毫秒)	年份	时钟频率	晶体管数量
苹果 2e	30	1983	1 MHz	3.5k
德州仪器 ti 99/4a	40	1981	3 MHz	8k
定制 Haswell-E 165Hz	50	2014	3.5 GHz	2G
Commodore PET 4016	60	1977	1 MHz	3.5k
SGI Indy	60	1993	0.1 GHz	1.2M
定制 Haswell-E 120Hz	60	2014	3.5 GHz	2G
ThinkPad 13 ChromeOS	70	2017	2.3 GHz	1G
iMac G4 OS 9	70	2002	0.8 GHz	11M
定制 Haswell-E 60Hz	80	2014	3.5 GHz	2G
Macintosh Color Classic	90	1993	16 MHz	273k
PowerSpec G405 Linux 60Hz	90	2017	4.2 GHz	2G
MacBook Pro 2014	100	2014	2.6 GHz	700M
ThinkPad 13 Linux chroot	100	2017	2.3 GHz	1G
联想 X1 Carbon 4G Linux	110	2016	2.6 GHz	1G
iMac G4 OS X	120	2002	0.8 GHz	11M
定制 Haswell-E 24Hz	140	2014	3.5 GHz	2G
联想 X1 Carbon 4G Windows	150	2016	2.6 GHz	1G
NeXTcube	150	1988	25 MHz	1.2M
PowerSpec G405 Linux	170	2017	4.2 GHz	2G
环球数据包往返	190
PowerSpec G405 Windows	200	2017	4.2 GHz	2G
Symbolics 3620	300	1986	5 MHz	390k

这些是测试按键到终端显示字符之间的延迟（更多细节见附录）。结果按从快到慢排序。在延迟列中，背景颜色从绿色过渡到黄色再到红色最后到黑色，设备越慢，背景越深。没有设备是绿色的。当同一台机器测试多个操作系统时，操作系统名称以粗体显示。当同一台机器测试多个刷新率时，刷新率以斜体显示。

在年份列中，设备越老旧，背景颜色越深且紫色越浓。如果旧设备更慢，我们会在图表中看到年份列随着向下阅读而变深。

接下来的两列显示处理器的时钟频率和晶体管数量。数字越小颜色越深、蓝色越浓。如前所述，如果较慢的时钟频率和较小的芯片与更长的延迟相关，这些列会在表格向下阅读时变深，但实际情况似乎恰恰相反。

作为参考，数据包通过光纤从纽约到东京再到伦敦返回纽约的环球往返延迟也被插入表中。

从整体结果看，最快的机器都是古老的。新机器的表现参差不齐。具有异常高刷新率显示器的花式游戏设备几乎能与70年代末80年代初的机器相媲美，但“普通”的现代电脑无法与三四十年前的机器竞争。

我们也可以看看移动设备。这种情况下，我们关注浏览器中的滚动延迟：

设备	延迟 (毫秒)	年份
iPad Pro 10.5" + Apple Pencil	30	2017
iPad Pro 10.5"	70	2017
iPhone 4S	70	2011
iPhone 6S	70	2015
iPhone 3GS	70	2009
iPhone X	80	2017
iPhone 8	80	2017
iPhone 7	80	2016
iPhone 6	80	2014
Game Boy Color	80	1998
iPhone 5	90	2012
BlackBerry Q10	100	2013
华为荣耀 8	110	2016
谷歌 Pixel 2 XL	110	2017
Galaxy S7	120	2016
Galaxy Note 3	120	2016
Moto X	120	2013
Nexus 5X	120	2015
一加 3T	130	2016
BlackBerry KEYone	130	2017
Moto E (2G)	140	2015
Moto G4 Play	140	2017
Moto G4 Plus	140	2016
谷歌 Pixel	140	2016
三星 Galaxy Avant	150	2014
华硕 Zenfone 3 Max	150	2016
索尼 Xperia Z5 Compact	150	2015
HTC One M4	160	2013
Galaxy S4 Mini	170	2013
LG K4	180	2016
数据包往返	190
HTC Rezound	240	2011
Palm Pilot 1000	490	1996
Kindle Oasis 2	570	2017
Kindle Paperwhite 3	630	2015
Kindle 4	860	2011

如上所述，结果按延迟排序，并按设备从快到慢用绿色到黄色再到红色最后到黑色进行颜色编码。同样，设备越老旧，年份颜色越紫（且越深）。

如果我们排除与其他设备属于不同类别的 Game Boy Color，所有最快的设备都是苹果手机或平板电脑。下一个最快的设备是 BlackBerry Q10。虽然我们没有足够的数据真正说明为什么 BlackBerry Q10 作为非苹果设备却异常快，但一个合理的猜测是它得益于拥有物理按键，这比触摸屏更容易实现低延迟。另外两个拥有物理按键的设备是 Game Boy Color 和 Kindle 4。

在这些 iPhone 和非 Kindle 按键设备之后，我们看到了各种不同年份的安卓设备。在底部，我们看到古老的 Palm Pilot 1000，然后是各种 Kindle。Palm 因触摸屏和显示屏而受限，那个时代的触摸屏技术要慢得多；Kindle 使用 E-Ink 显示屏，这种显示屏比现代手机使用的显示屏慢得多，所以看到这些设备垫底并不奇怪。

为什么 `Apple 2e` 如此之快？

与现代电脑（非最新的 iPad Pro）相比，Apple 2 在输入和输出两端都有显著优势，并且除了最精心编写的代码外，它在输入和输出之间也具有优势，因为 Apple 2 不必处理上下文切换、不同进程间交接涉及的缓冲等。

在输入端，如果我们看看现代键盘，通常以 100 Hz 到 200 Hz 的频率扫描输入（例如，Ergodox 声称以 167 Hz 扫描）。相比之下，Apple 2e 实际以 556 Hz 扫描。详情见附录。

如果我们看看流水线的另一端——显示屏，我们也能发现延迟膨胀。我有一台显示器，包装上标称 1 ms 切换时间，但如果我们看看从屏幕上首次看到字符痕迹到字符完全稳定显示需要多长时间，很容易达到 10 ms。你甚至可以在一些以低延迟著称的高刷新率显示器上看到这种效果。

在 144 Hz 下，每帧耗时 7 ms。屏幕的变化会有 0 ms 到 7 ms 的额外延迟，因为它要等待下一个帧边界才能被渲染（平均而言，我们期望最大延迟的一半，即 3.5 ms）。除此之外，即使我家的显示器标称 1 ms 切换时间，但实际上从显示器开始改变颜色到完全改变颜色，似乎需要 10 ms。当我们把等待下一帧的延迟加上实际颜色变化的延迟加起来，我们得到预期延迟为 7/2 + 10 = 13.5ms。

对于 Apple 2e 中的老式 CRT，我们预期是 60 Hz 刷新率的一半（16.7 ms / 2）加上可忽略的延迟，即 8.3 ms。这在今天很难被超越：最先进的“游戏显示器”可以将总显示延迟降到相同范围，但在市场份额方面，拥有这种显示器的人非常少，甚至标称为快速的显示器也不一定真的快。

iOS 渲染流水线

如果我们看看输入和输出之间发生了什么，现代系统与 Apple 2e 之间的差异太多，不写一整本书无法描述。为了了解现代机器的情况，这里是前 iOS/UIKit 工程师 Andy Matuschak 对 iOS 上发生事情的高层级概述，他说呈现时应附带免责声明：“这是我对过时信息的过时记忆”：

硬件有自己的扫描率（例如，120 Hz 用于最近的触摸屏面板），这可能会引入高达 8 ms 的延迟。
事件通过固件传递到内核；这相对快速，但系统调度考虑可能在这里引入几毫秒。
内核通过 mach 端口将这些事件传递给特权订阅者（此处为 backboardd）；可能存在更多的调度损失。
backboardd 必须确定哪个进程应该接收事件；这需要与窗口服务器（共享该信息）进行锁操作（一次返回内核，更多的调度延迟）。
backboardd 将该事件发送给相关进程；在事件被处理之前可能有更多的调度延迟。
这些事件仅在主线程上出队；主线程上可能正在发生其他事情（例如，由于计时器或网络活动），因此可能会导致更多延迟，具体取决于该工作。
UIKit 引入了 1-2 ms 的事件处理开销，受 CPU 限制。
应用程序决定如何处理事件；应用程序编写不佳，因此通常需要许多毫秒。后果被批处理在一个数据驱动的更新中，通过 IPC 发送到渲染服务器。
- 如果应用程序因为事件需要一个新的共享内存视频缓冲区（每当有非平凡的事情发生时就会发生这种情况），这将需要与渲染服务器进行往返 IPC；更多的调度延迟。
- （平凡的更改是渲染服务器本身可以合并的更改，例如仿射变换更改或图层颜色更改；非平凡的更改包括与文本、大多数光栅和矢量操作相关的任何内容。）
- 这类更新通常最终是三重缓冲的：GPU 可能正在使用一个缓冲区进行渲染；渲染服务器可能为下一个帧排队了另一个缓冲区；而你想绘制另一个。这里有更多的（跨进程）锁操作；更多的进入内核之旅。
渲染服务器将这些更新应用到其渲染树（几毫秒）。
每 N Hz，渲染树被刷新到 GPU，GPU 被要求填充一个视频缓冲区。
- 实际上，屏幕缓冲区通常也是三重缓冲的，原因与我上面描述的相同：GPU 正在绘制一个；另一个可能正在被读取以准备下一帧。
每 N Hz，该视频缓冲区与另一个视频缓冲区交换，显示器直接从该内存驱动。
- （这个 N Hz 不一定与前一步骤的 N Hz 理想对齐。）

Andy 说“这里实际发生的工作量通常相当小。几毫秒的 CPU 时间。主要开销来自：”

周期性扫描率（输入设备、渲染服务器、显示器）未完美对齐。
跨进程边界的多次交接，每一次都有可能调度其他任务而不是输入事件的后果。
大量的锁操作，尤其是跨进程边界的，需要进入内核。

相比之下，在 Apple 2e 上，基本上没有交接、锁或进程边界。一些非常简单的代码运行并将结果写入显示内存，这会在下一次扫描时导致显示器更新。

刷新率 vs. 延迟

关于计算机结果的一件奇怪的事情是刷新率的影响。我们从 24 Hz 提升到 165 Hz 获得了 90 ms 的改进。在 24 Hz 下，每帧耗时 41.67 ms；在 165 Hz 下，每帧耗时 6.061 ms。正如我们上面看到的，如果没有缓冲，我们预期由帧刷新增加的平均延迟在前一种情况下是 20.8ms，在后一种情况下是 3.03 ms（因为我们预期在一个帧的均匀随机点到达，需要等待 0ms 到整个帧时间），差异约为 18ms。但实际差异是 90 ms，这意味着我们有相当于 (90 - 18) / (41.67 - 6.061) = 2 个缓冲帧的延迟。

如果我们将同一台机器上的其他刷新率结果绘制出来（未显示），我们会看到它们大致符合一条“最佳拟合”曲线，假设对于运行 powershell 的那台机器，无论刷新率如何，我们都会得到 2.5 个帧时间的延迟。这让我们可以估计如果我们给这台低延迟游戏设备配备一个 无限 Hz 显示器，延迟会是多少——我们期望延迟为 140 - 2.5 * 41.67 = 36 ms，几乎与七八十年代快速但标准的机器一样快。

复杂性

今天人们购买的几乎每台电脑和移动设备都比七八十年代的常见型号慢。低延迟游戏台式机和 iPad Pro 可以达到三四十年前快速机器的范围，但大多数现成设备甚至都接近不了。

如果我们必须选择一个延迟膨胀的根本原因，我们可能会说是因为“复杂性”。当然，我们都知道复杂性是坏事。如果你在过去十年参加过非学术、非企业的技术会议，很可能至少有一个演讲是关于复杂性如何是万恶之源，我们应该致力于减少复杂性。

不幸的是，消除复杂性比发表一个我们应该消除复杂性的演讲要困难得多。很多复杂性为我们直接或间接地带来了好处。当我们比较现代花式键盘与 Apple 2 键盘的输入时，我们看到使用相对强大且昂贵的通用处理器处理键盘输入可能比专用的键盘逻辑更慢，后者既更简单又更便宜。然而，使用处理器让人们能够轻松定制键盘，并且将“编程”键盘的问题从硬件转移到软件，这降低了制造键盘的成本。更昂贵的芯片增加了制造成本，但考虑到这些小批量手工键盘设计成本的巨大占比，用制造成本换取编程便利性似乎是净赢。

我们在流水线的每个部分都看到这种权衡。其中最大的例子之一是你可能在现代桌面电脑上运行的操作系统与 Apple 2 上运行的循环。现代操作系统允许程序员编写通用代码，可以处理同一台机器上同时运行的其他程序，并且相当合理的通用性能，但我们为此付出了巨大的复杂性成本，而使这一切变得轻松的交接带来了显著的延迟损失。

很多复杂性可能被称为偶然复杂性，但大多数偶然复杂性之所以存在，是因为它非常方便。从硬件架构到系统调用接口再到我们使用的 I/O 框架，我们在各个层面都承担了复杂性，其中很多如果今天我们能坐下来重写所有系统及其接口是可以消除的，但重新发明宇宙以减少复杂性太不方便了，而且我们从规模经济中获益，所以我们忍受现状。

由于这些原因以及更多，实际上，解决由“过多”复杂性引起的性能不良的方案往往是增加更多复杂性。特别是，我们看到让我们回到三四十年前最快机器速度的进展，并非来自听从减少复杂性的呼吁，而是通过堆砌更多复杂性实现的。

iPad Pro 是现代工程的壮举；投入其中用于提高输入和输出两端刷新率以及确保软件流水线没有不必要缓冲的工程就是复杂的！设计和制造高刷新率显示器以降低系统延迟，其复杂性也是非平凡的，并且对于标准 60 Hz 显示器并非必要。

这实际上是降低延迟时的一个常见主题。减少延迟的一个常见技巧是添加缓存，但向系统添加缓存会使其更复杂。对于生成新数据且无法容忍缓存的系统，解决方案通常更复杂。例如可能是大规模 RoCE 部署。它们可以将远程数据访问延迟从毫秒范围降低到微秒范围，从而启用新类别的应用程序。然而，这付出了巨大的复杂性代价。早期的大规模 RoCE 部署轻松耗费数十人年的努力才正确完成，并且带来了巨大的运营负担。

结论

有点荒谬的是，一台现代游戏机以 4,000倍 于 Apple 2 的速度运行，其 CPU 拥有 500,000倍 的晶体管（其 GPU 拥有 2,000,000倍 的晶体管），在非常精心编写的应用程序中，也许能管理与 Apple 2 相同的延迟，前提是我们有一个刷新率接近 3倍 的显示器。更荒谬的是，直到2017年10月之前拥有最快单线程性能的 Powerspec G405 的默认配置，其从键盘到屏幕（大约 3英尺，可能实际布线 10英尺）的延迟，比环球发送数据包（从纽约到东京再到伦敦返回纽约，16187英里，更多是因为运行最短光纤长度的成本）还要高。

从积极的一面看，我们可以说正在走出延迟的黑暗时代，现在可以组装一台电脑或购买一台平板电脑，其延迟范围与七八十年代现成设备相当。这让我想起了屏幕分辨率和密度的黑暗时代，当时九十年代的 CRT 提供了比非笔记本电脑 LCD 更好的分辨率和更高的像素密度，直到最近。4K 显示器现在已成为标准，价格合理的 8K 显示器也即将出现，超越了我们在消费级 CRT 上看到的任何东西。我不知道我们是否会在延迟方面看到同样的改善，但人总是怀有希望。有独立的开发者在为某些非常精心编写的应用程序的用户改善体验，但尚不清楚有什么力量能导致大多数用户看到的默认体验显著改善。

关于延迟测量的其他文章

终端延迟
键盘延迟
鼠标 vs. 键盘延迟（人为因素，非设备延迟）
编辑器延迟（Pavel Fatin 著）
Windows 10 合成延迟（Pekka Vaananen 著）
AR/VR 延迟（Michael Abrash 著）
延迟缓解策略（John Carmack 著）

附录：为什么要测量延迟？

延迟很重要！对于非常简单的任务，人们能感知低至 2 ms 甚至更短的延迟。此外，增加的延迟不仅用户会注意到，还会导致用户执行简单任务时的准确性下降。如果你想直观地了解延迟是什么样子，而你手头又没有一台快速的旧电脑，请查看这个关于触摸屏延迟的 MSR 演示。

最常被引用的关于响应时间的文档是 Nielsen 集团关于响应时间的文章，该文章声称低于 100ms 的延迟感觉等同并被感知为瞬时。一个简单的方法来看到这是错误的是，进入你的终端尝试 sleep 0; echo "pong" 与 sleep 0.1; echo "test"（或者，试试玩一个没有延迟补偿的老游戏，比如 Quake 1，用 100 ms 的 ping，甚至 30 ms 的 ping，或者在终端中以 30 ms 的 ping 打字）。有关此以及其他延迟误区的更多信息，请参见这份关于延迟常见误区的文档。

吞吐量也很重要，但这已被广泛理解和测量。如果你去几乎任何主流评论或基准测试网站，你都能找到各种各样的吞吐量测量，因此编写额外的吞吐量测量价值不大。

附录：Apple 2 键盘

Apple 2e 没有使用编程的微控制器读取键盘，而是使用了一个更简单的专用芯片 AY 3600 来读取键盘输入。如果我们查看AY 3600 数据手册，我们可以看到扫描时间是 (90 * 1/f)，去抖时间列为 strobe_delay。这些量由一些电容器和电阻器决定，对于 Apple 2e，这些似乎是 47pf、100k 欧姆 和 0.022uf。将这些数字代入AY3600 数据手册，我们可以看到 f = 50 kHz，给出 1.8 ms 的扫描延迟和 6.8 ms 的去抖延迟（假设数值准确——电容器可能随时间退化，所以我们应该预期旧 Apple 2e 上的实际延迟更短），总共不到 8.6 ms 用于内部键盘逻辑。

与扫描率为 167 Hz、扫描两次以进行去抖的键盘相比，等效数字是 3 * 6 ms = 18 ms。在 100Hz 扫描率下，这变为 3 * 10 ms = 30 ms。18 ms 到 30 ms 的键盘扫描加上去抖延迟，与我们进行的一些初步键盘延迟测量结果一致。

供参考，Ergodox 使用 16 MHz 微控制器，约有 80k 晶体管；而 Apple 2e CPU 是 1 MHz 芯片，有 3.5k 晶体管。

附录：为什么安卓手机的延迟应该比旧苹果手机高？

正如我们所看到的，原始处理能力对流水线中许多导致延迟的原因帮助不大，例如不同进程之间的交接，因此一台处理器比古老 iPhone 强大 10 倍的安卓手机，并不能保证其响应更快，即使它能更快地渲染 JavaScript 密集型页面。

如果你与从事非苹果移动 CPU 工作的人交谈，你会发现他们运行像 Dhrystone（一个甚至在其创建的1984年就已无关紧要的合成基准测试）和 SPEC2006（一个工作站基准测试的更新版本，在90年代甚至可能在2000年代初期，如果你关心工作站工作负载，那与移动工作负载完全不同）这样的基准测试。这个问题出现在组件制造商有一个中间目标，该目标仅与实际用户体验有弱相关性。我听说 Pixel 手机的团队中有人关心端到端延迟，但当你必须使用为 Dhrystone 和 SPEC2006 等优化的组件时，很难获得良好的延迟。

如果你与苹果的人交谈，你会发现他们相当谨慎，但他们很长时间以来一直以端到端用户体验为目标，并且他们能够进行“全栈”优化，这是安卓厂商很难做到的。并非绝对不可能，但要对芯片进行更改并贯穿操作系统，除非谷歌亲自优化，否则你不太可能看到，而谷歌直到最近才真正重视端到端体验。

在未被测量的方面表现不佳是一个常见主题，我们在查看终端延迟时也见过。在检查终端延迟之前，公开的基准测试都是面向吞吐量的，优先考虑性能的终端致力于增加吞吐量，即使增加终端吞吐量并非真正有用。在那些终端延迟基准测试之后，一些终端作者开始研究他们的延迟，找到了可以削减缓冲和消除延迟的地方。你测量什么，就得到什么。

附录：实验设置

大多数测量使用 iPhone SE 中的 240fps 相机（4.167 ms 分辨率）进行。响应时间低于 40 ms 的设备使用 Sony RX100 V 的 1000fps 相机（1 ms 分辨率，PAL 模式）重新测量。表格中的结果是多次运行的结果，并四舍五入到最近的 10 ms，以避免造成虚假精确的印象。对于台式机结果，测量是从按键开始移动到屏幕更新完成。请注意，这与网上大多数键盘到屏幕更新测量不同，后者通常使用的设置实际上消除了大部分或全部键盘延迟，作为端到端测量，除非你与计算机有心灵感应，否则这并不现实（这并不是说这些测量没用——如果作为程序员，你想要一个可重复的基准测试，减少无法控制的测量噪声是很好的，但这与最终用户无关）。人们通常主张从以下之一测量：{按键触底、开关的触觉反馈}。除了测量方便之外，似乎没有理由做这些，但人们经常声称那是用户期望键盘“真正”工作的时候。但这些与开关实际触发的时间无关。按键触底和激活之间的距离，以及感觉反馈和激活之间的距离都是任意的，可以调整。有关键盘误区的更多信息，请参阅这篇关于键盘延迟测量的文章。

另一个显著的区别是，测量是在尽可能接近默认操作系统设置的情况下进行的，因为大约 0% 的用户会摆弄显示设置以减少缓冲、禁用合成器等。等待屏幕更新完成也与大多数端到端测量不同——大多数测量认为任何屏幕上检测到运动时更新就“完成”。等待屏幕完全改变类似于 WebPageTest 的“视觉完成”时间。

计算机结果使用系统的“默认”终端（例如 Windows 上的 Powershell，Lubuntu 上的 lxterminal），这很容易导致快速终端和慢速终端之间 20 ms 到 30 ms 的差异。在终端中测量时间与测量完整的端到端时间之间，本文中的测量应该比其他类似文章中的测量慢（那些文章倾向于测量游戏中首次变化的时间）。

Powerspec G405 基准结果使用集成显卡（机器没有附带显卡），60 Hz 结果使用了一块便宜的显卡。基准结果是 30 Hz，因为集成显卡仅支持 HDMI 输出，而连接的显示器仅在 HDMI 上以 30 Hz 运行。

移动设备的结果是通过使用默认浏览器，访问 https://danluu.com，并测量从手指移动到屏幕首次更新以指示滚动开始发生的延迟。在不适用的情况下（Kindle、Game Boy Color 等），采取对该平台有意义的操作（在 Kindle 上

由 mimo-v2.5 模型翻译，花费 34115 tokens

如何评判决策质量？——在易于评估的领域审视决策效果

Tue, 21 Nov 2017 00:00:00 +0000

[AI 摘要] 本文通过棒球和棋盘游戏案例，论证即使在易于评估的领域，糟糕决策也可能长期存在。

在科技乌托邦圈子里，我常听到这样的论调：某些看似低效的做法不可能真的低效，因为市场是高效的，低效之处很快会被消除。一个颇具争议的例子是企业不可能存在歧视，因为市场竞争过于激烈，无法容忍歧视行为。争议较小的例子是，当你看到大公司做出看似极其低效的决策时，也许这并非低效，只是你缺乏理解该决策为何有效的必要信息。这类言论常伴随着“激励很重要”或CEO“切身利益攸关”（而评论者则不然）的说法。不幸的是，这类争论难以平息，因为即使事后回顾，通常也无法获得足够信息来确定某项决策的确切“价值”。即使在决策导致明确成功或失败的情况下，导致结果的因素如此之多，以至于很难精确弄清事情为何发生。在本系列文章中，我们将审视两类例子，从中可以观察人们的决策质量如何，以及当他们面对易于获取的数据证明其决策糟糕时作何反应。这两类例子都来自决策者或讨论者似乎非常重视决策，且数据清楚地表明决策非常糟糕的领域。第一类例子来自体育运动，第二类来自棋盘游戏。体育运动的好处在于，它们通常有详细的逐场比赛数据和明确的胜负标准，这让我们能大致判断某项决策的预期价值。本文将审视某项运动中糟糕决策的代价，并简要讨论为何体育运动中的决策质量可能与其他领域相当或更好。体育运动是沃土，因为在相当近期之前，决策并非数据驱动且普遍糟糕，因此我们拥有超过一个世纪的美国主要运动数据，而且在其中相当长的一段时间里，球迷会撰写分析文章，指出决策有多糟糕以及因此让球队损失了多少，但球队对此置之不理（这种情况现已改变，基本上每支球队都有一支统计学博士或等效人员组成的团队在分析数据）。

棒球

在另一篇文章中，我们审视了体育运动中“招聘”决策如何纯属无稽之谈。在本文中，仅仅因为“理性圈”某位顶级思想领袖给出了一个常见借口，即棒球比赛中的场上决策成本并不高（“糟糕的场上决策会输掉比赛吗？当然会。但不会那么多。也许一年162场里输掉4场。”；整篇文章暗示这没什么大不了的，浪费4场比赛没关系），我们将审视糟糕决策的代价有多大，以及球队为购买等量胜利在其他方面花费了多少。不过，你可以对橄榄球、冰球、篮球等进行类似的分析，据我所知，在所有这些情况下，你会得到大致相似的结果。

我们将把棒球建模为一个状态机，因为这既便于理解特定决策的预期价值，也让我们无需赘述大部分棒球规则就能讨论决策的价值。

我们可以将每场棒球比赛视为一个独立事件。每场比赛中，两支球队对阵，得分更高（跑分）的队伍获胜。比赛分为9个“局”，每局每队有一次进攻机会。每局中，每队进攻直到累计3个“出局”。任何特定进攻都可能产生出局，也可能不产生。

我们状态机的一个状态块是出局数和局数。我们将追踪的另外两个状态块是“跑垒员”情况和“击球员”是哪个。每支球队为其现役球员定义一个击球顺序，每位球员击球一次后，顺序循环重复，直到该队累计3个出局，该局结束。击球员的状态会跨局保存。例如，你可能会看到1至5号击球员在第一局击球，第二局6至9号然后又是1号击球，第三局2号击球……以此类推。

当一名球员击球时，该球员可能推进到垒包，垒上的球员也可能根据发生的情况推进。当一名球员推进4个垒包（即经过一垒、二垒、三垒，到达本该称为四垒但实际不这么叫的地方）时，就得一分，该球员离开垒包。如上所述，各种事件可能导致球员出局，此时他们也不再在垒上。

我们状态机的一个示例状态是：

{一垒, 三垒; 2出局}

这表示有一名球员在一垒，一名在三垒，有两个出局数。注意这与比分、实际参赛球员和局数无关。

另一个状态是：

{--; 0出局}

使用这样的模型，如果我们想确定上述状态的预期价值，只需查看一个赛季中所有局数的总跑分除以局数，即可找到从上述状态预期能得到的跑分（忽略第九局，因为棒球规则的一个特点会扭曲第九局的统计数据）。如果这样做，我们会发现，从上述状态，一支球队预期能得到 .555 分。

然后我们可以计算所有其他状态的预期跑分：

	0	1	2
垒包	出局数
--	.555	.297	.117
一垒	.953	.573	.251
二垒	1.189	.725	.344
三垒	1.482	.983	.387
一二垒	1.573	.971	.466
一三垒	1.904	1.243	.538
二三垒	2.052	1.467	.634
满垒	2.417	1.650	.815

在此表中，每个条目表示从某个特定状态在该局剩余部分预期能得到的跑分。每列显示出局数，每行显示垒上状态。配色方案是：起始状态（.555 分）背景为白色。预期跑分更高的状态更蓝，预期跑分更低的状态更红。

此表和本文中的其他统计数据来自坦戈等人的《The Book》，该书主要讨论1999年至2002年间的棒球。若对使用更详细模型后的变化感兴趣，请参阅附录。

我们在此为一局追踪的状态是垒上情况和出局数。每局开始时无人在垒且无人出局。

如上所述，我们看到该局开始时预期得分为.555。如果一次进攻让球员上一垒且未造成出局，我们现在的预期得分为.953，即让球员上一垒且无出局的价值为.953 - .555 = .398分。

这立即让我们能评估某些决策的价值，例如在无出局且一垒有人时试图“盗”二垒。如果我们观察击球员状态未改变的情况，成功的盗垒使我们进入{二垒, 0出局}状态，即带来1.189 - .953 = .236分。失败的盗垒使我们进入{--, 1出局}状态，即带来.953 - .297 = -.656分。要达到盈亏平衡，我们需要成功的次数是失败次数的.656 / .236 = 2.78倍，即需要.735的成功率才能保本。如果我们想计算一次盗垒的平均价值，我们可以对所有状态进行加权求和，但现在，我们只需说明这是可能做到的，并且你需要盗垒的成功率达到约.735才合理。

然后我们可以查看球队的盗垒成功率，发现在任何给定赛季，也许只有5-10支球队做得比盈亏平衡更好，其余20-25支球队处于保本线或以下（主要是以下）。如果我们看那个时代一支表现不佳但非历史最差的盗垒球队，他们的成功率可能是0.6。在那个时代，一支球队尝试100到200次盗垒并不罕见。为了估算，假设所有尝试都发生在{一垒, 0出局}状态，那么每次尝试的平均跑分价值为0.4 * (-.656) + 0.6 * .236 = -0.12分。另一个一阶近似是10分的差值相当于1胜，那么100次尝试损失1.2胜，200次尝试损失2.4胜。

如果我们使用实际状态而非一阶近似来计算，会发现平均一次盗垒价值-.467分，平均一次成功盗垒价值.175分。在这种情况下，一次成功率为0.6的盗垒尝试价值为0.4 * (-.467) + 0.6 * .175 = -0.082分。根据这个新的近似，我们估计对于一支盗垒糟糕且频繁的球队，相比“禁止盗垒”规则，其“常规”盗垒每赛季造成的胜场损失约为0.82至1.64胜。注意这低估了盗垒的代价，因为准备盗垒会增加被“牵制出局”的可能性，而我们未考虑这一点。从我们状态机的角度看，被牵制出局几乎等同于盗垒失败，但计算牵制出局概率差异所需的分析超出了本文的范围。

我们也可以对教练可能引起（或阻止）的其他进攻进行类似分析。对于“故意四坏球保送”，我们看到一次故意四坏球保送似乎为对手带来.102分。2002年，一支“大量”投出故意四坏球的球队可能投出50次，给对手带来50 * .102分，损失约5分或0.5胜。

如果我们乐观地假设“牺牲触击”从不失败，每次牺牲触击的代价是.027分。如果我们看投手不击球的联盟，一支大量使用牺牲触击的球队可能执行了49次牺牲触击（我们这样是为了避免“投手触击”，这会给近似计算增加复杂性），总共损失49 * .027 = 1.32分或0.132胜。

另一个由教练做出的决定是设定击球顺序。球员按1-9的顺序（模9）轮流击球。也就是说，当第10位“球员”上场时，实际上是回到1号球员击球。比赛在某个时间点结束，因此并非队中每个人都获得相同数量的“击球机会”。

有一个老生常谈的理由来证明将速度最快的球员放在第一棒，将“打击率”高的球员放在第二棒，相当不错的球员放第三棒，最好的击球员放第四棒等。这个故事或类似版本已经沿用了一百多年。

我不会详细讲解计算更优击球顺序的数学过程，因为我认为没有简短易描述的近似方法。事实证明，如果我们计算“最优”顺序与前文所述故事所证明的“典型”顺序之间的差异，使用最优顺序似乎每赛季价值1到2胜。

这些近似都遗漏了重要信息。在四种情况中有三种，我们假设始终是平均球员，而没有考虑具体是谁在击球。上述信息其实在一定程度上考虑了这一点，但并未完全考虑。这与更好的近似方法有何不同，这是一个长篇故事，对于一篇用棒球来讨论非棒球领域决策的文章来说可能过于详细，所以我们只能说，我们有一个相当不错但并非惊人的近似，它表明一位遵循传统智慧做出糟糕决策、其决策处于棒球赛季中正常糟糕范围内的教练，仅在这三项决策上就可能让球队损失约1 + 1.2 + .5 + .132 = 2.83胜，相较于一个说“永远不做那些平均而言具有负价值的行为”的决策规则。如果我们与更好的决策规则（比如“在这些行为具有正价值时做，负价值时不做”）或一位通常能做出好决策的经理相比，保守估计，这可能价值3胜。

我们审视了四项决策（牺牲触击、盗垒、故意四坏球保送和击球顺序）。但还有许多其他决策！让我们任意假设，如果我们审视所有决策而不仅仅是这四项，拥有适用于所有决策的更好启发式方法可能每赛季价值4或5胜。

每赛季4或5胜到底意味着什么？一种看法是，棒球队打162场比赛，所以一支“平均”球队赢81场。如果我们看涵盖的赛季，进入季后赛的球队胜场数为{103, 94, 103, 99, 101, 97, 98, 95, 95, 91, 116, 102, 88, 93, 93, 92, 95, 97, 95, 94, 87, 91, 91, 95, 103, 100, 97, 97, 98, 95, 97, 94}。由于系统结构，我们无法为某个赛季定出一个数字N，说N胜是进入季后赛的必要条件，胜场少于N的球队无法进入，但我们可以说95胜给了一支球队不错的季后赛机会。95 - 81 = 14。5胜超过了平均球队与进入季后赛球队之间差值的三分之一。这无论在声望还是直接经济价值上都是大事。

如果我们从边际角度而非平均角度看，每个联盟中进入季后赛与未进入的球队之间最小胜场差为{1, 7, 8, 1, 6, 2, 6, 3}。对于处于边缘的球队，5胜的差值并不总是决定成功赛季（进入季后赛）与失败赛季（未进入）的因素，但大多数赛季都有球队与季后赛门槛的胜场差在5胜以内。如果我们实际运营一支棒球队，我们会希望使用更精细的模型，但作为初步近似，我们可以说场上决策是球队表现的重要因素，并且通过某种计算，我们可以确定非最优决策的预期代价。

看待5胜价值的另一种方式是，获得一位比平均水平高出5胜（WAA）的非投手球员需要花费多少（我们关注非投手是因为他们往往每场比赛都上场，而投手只在部分比赛中上场，使得投手与非投手之间的比较更复杂）。在8个非投手位置（我们关注非投手位置是为了简化比较）上，有30支球队，所以我们有240个球队-位置对。2002年，在这240个球队-位置对中，有两个≥5 WAA，德克萨斯队-游击手（阿历克斯·罗德里格斯，年薪2200万美元）和旧金山队-左外野手（巴里·邦兹，年薪1500万美元）。如果我们看我们关注的日期范围内的其他赛季，要么有2个，要么有3个球队-位置对能在单赛季获得≥5 WAA。这些并非跨赛季稳定，因为球员表现波动很大，所以不像找个厉害的人付他1500万美元那么简单。例如，2002年，有7位非投手年薪1400万美元或以上，但只有两位价值达到5 WAA或以上。作为参考，2002年球队平均总薪资（每队26人）为6700万美元，最低3400万，最高1.26亿。当时100万美元的经理薪水会被认为很高，因此一位5 WAA的经理是超值交易。

5 WAA假设典型决策以糟糕但非最差的方式与事件对应。更典型的情况可能是经理给球队造成3胜的损失。那么在2002年，240个球队-位置对中有25个，单个球员能弥补因传统智慧管理造成的损失。能提供如此价值且未因球员交易机制而被特定球队锁定在人为低价合同的球员，仍然比经理昂贵得多。

如果我们审视球队如何采用数据分析来改进场上决策和球队组建决策，这是一个缓慢的、跨越数十年的过程。《点球成金》描述了从使用直觉和观察来选择球员到将统计数据纳入流程的部分转变。至少从1971年开始，统计极客就在谈论如何做到这一点，但直到90年代才真正有球队认真对待，这些想法直到2000年代中期才真正成为主流，那时一本畅销书已经出版。

如果我们审视球队在本文所述的场上决策方面有多大改进，这个过程甚至更慢。时至今日，数据驱动的决策仍未成为主流。情况正在改善，如果我们看过去二十年这些非最优决策的总体成本，随着直觉驱动的决策逐渐与统计极客几十年来一直主张的做法更趋一致，总体成本一直在下降。例如，如果我们看从1999年至今所有球队的牺牲触击总数，我们看到：

1999	2000	2001	2002	2003	2004	2005	2006	2007	2008	2009	2010	2011	2012	2013	2014	2015	2016	2017
1604	1628	1607	1633	1626	1731	1620	1651	1540	1526	1635	1544	1667	1479	1383	1343	1200	1025	925

尽管有几十年的统计数据表明牺牲触击被过度使用，但直到2012年左右，我们才看到所有球队的使用量真正下降。原因各队各例不同，但不断重复的基本故事是，对于数据驱动的球队组建和数据驱动的场上决策，拥有决策权的人往往坚持传统智慧，而非使用“激进的”数据驱动理念。发生这种情况有多种原因。一个高层原因是，我们谈论的这种变化是文化变革，而文化变革是缓慢的。即使在这种变化发生且更数据驱动的球队相对于其预算表现更出色时，反数据的人仍然嘲笑任何使用数据的人。如果你是早期的数据信徒之一，你必须愿意承受许多业界大牌、球迷、朋友等称你愚蠢。在面对这种反对时，科学共识需要一代人才能转变，所以如果棒球不是这样，人们也不会感到惊讶。

一个具体的低层原因是，看似明显非最优的决策能持续这么久，是因为球队结果中存在大量噪音。你有时会看到一位经理做出一些激进决策（不一定基于数据），随后结果不佳，导致管理层解雇该经理。波动性如此之大，你无法根据小样本判断球员或经理，但这并不能阻止人们这样做。波动性和对激进想法的怀疑相结合，极大地抑制了违背传统智慧的行为。

这种噪音的众多后果之一是，“世界大赛”（棒球冠军赛）的赢家很大程度上由随机性决定。一支球队能否进入季后赛是由162场比赛决定的，这不足以消除所有随机性，但足以使结果不主要由随机性决定。季后赛则不然，其持续时间太短，无法主要由球队质量的差异决定结果。一旦球队赢得世界大赛，人们就会编出各种自圆其说的故事来证明该队为何应该获胜，但如果我们纵观所有比赛，就会发现这些故事仅仅是故事。这或许与听人们讲述他们创业为何成功没什么不同。

有些指标能更好地预测未来的胜负（即比胜负本身波动更小），但直到最近，说服人们相信这些指标有意义也是一个激进的想法。

棋盘游戏

以上是棒球的例子。现在来看棋盘游戏的例子。在这个例子中，我们将审视那些对“现代”棋盘游戏策略发表评论的人，我指的是他们对卡坦岛、波多黎各、方舟动物园等游戏策略的评论。

人们经常激烈争论什么有效，什么无效。如今，这类讨论大多发生在boardgamegeek（BGG）上，这是一个迄今为止最大的棋盘游戏讨论论坛。这些讨论的一个特点是，人们在BGG和boardgamearena（BGA）——一个在线棋盘游戏平台，玩家的等级（Elo）被追踪，你可以看到他们的Elo等级分——上使用相同的用户名。

所以，在这些讨论中，你会看到有人说策略X占主导地位。然后另一个人会出来说，不，策略Y能打败策略X，当别人用策略X时，我总用策略Y赢，等等。如果你理解这个游戏，你会看到主张X的人是对的，主张Y的人是错的，然后你会查一下这些人的Elo，发现X玩家是高排名玩家，Y玩家是低排名玩家。

奇怪的是，为什么低排名玩家如此自信地坚持他们的立场是正确的？他们不仅每场比赛都收到表明他们错了的信息（因为他们经常输），还有一个等级分聚合了他们所有的游戏表现，大致告诉他们水平如何。尽管这个等级分告诉他们在游戏中不知道自己在做什么，他们却完全确信自己是优秀的玩家，下得很好，而且他们不仅有好的策略，这些策略好到足以去建议等级分高得多的玩家如何玩。

当人们纠正这些玩家时，他们常常感到被冒犯，因为他们确信自己很强，他们会说“我是优秀的[游戏名]玩家。我赢了很多场比赛”，接着是他们的建议未被认真对待的愤慨，和/或关于认为策略X有效的人都是在群体思维中，即使这些人是在同一个有竞争力的在线玩家池中玩，如果策略X玩家真在进行错误的群体思维，策略Y玩家会打败他们并获得更高的等级分。而且，正如我们在审视电子游戏技能时指出的，玩家经常对输掉游戏和没有变得更好表达极大的挫败和愤怒，所以很明显他们想做得更好并赢球。但即使屏幕始终显示一个相当准确总结你技能的等级分，似乎也不足以让人们意识到，他们平均而言做出糟糕的决策，通过听取高排名玩家的建议而不是坚持他们那失败的策略，他们可以很容易地做出更好的决策。

在审视电子游戏《守望先锋》时，我们注意到玩家经常高估自己的技能，并将失败归咎于队友。但在这种棋盘游戏中，玩家通常不是组队的，所以没有其他人可以责怪。不仅没有可以责怪的队友，在大多数游戏中，最严肃的等级格式是1对1，而不是某种多人乱斗，所以你甚至不能责怪一个不在你队里的随机人。总的来说，某人在1对1游戏中的等级分，是衡量其领域特定决策技能最准确的指标。

然而，人们对自己的技能极其自信，尽管他们的等级分很低。如果你看当今的棋盘游戏策略评论，几乎所有的评论都是错误的，当你查看玩家的等级分时，几乎所有评论都来自那些在他们玩的每款游戏中等级都很低的玩家，他们似乎不懂如何玩好任何游戏。当然，如果有人乐在其中，玩得糟糕本身没有任何问题。这里的不协调在于，人们玩得糟糕，有一个明确定义的等级分表明他们玩得糟糕，却坚信自己玩得很好，并在人们指出他们提倡的策略无效时感到被冒犯。

游戏之外的生活

在现实世界中，很少能得到像体育和棋盘游戏中那样清晰的证据来证明我们决策的质量。在做出工程决策时，你几乎从未拥有像棒球那样干净的数据，也从未拥有一个能基本准确总结你过去决策质量的Elo等级分。这使得在体育和棋盘游戏中根据反馈调整并做出好决策容易得多，然而，我们可以观察到，体育和棋盘游戏中的大多数决策都是糟糕的。在体育运动中，这基本上一直是事实，尽管涉及巨额资金；在棋盘游戏中也是如此，尽管人们对它们非常投入，似乎非常重视。

如果我们思考我们所审视的棒球决策的一般版本，发生的情况是决策具有概率性收益。实际结果（胜负）方差非常高，因此可能做出好决策却很久看不到直接效果。即使有指标能让我们更好地了解决策的“真实”价值，如果你在一个管理层不相信这些指标的环境中运作，如果你想做一些激进的事情，而其价值只能通过某些听起来深奥的指标来证明，那么你要保住工作（或一开始就找到工作）就会很困难，除非他们给你一两年机会。在指标被接受方面确实发生过一些重大转变，但这需要几十年时间。

如果我们审视商业或工程决策，情况就复杂得多。如果我们将产品或基础设施的成功视为“胜利”，那么团队能否获得“胜利”似乎存在更多噪音。而且，与棒球不同，那种能让某人分析“胜利”和“失败”以确定根本原因的逐场比赛甚至比赛数据并未被记录，因此无法确定决策的真实价值。即使数据可用，决定某件事是否是“胜利”的因素也多得多，即使我们有数据，也不清楚我们能否确定决策的预期价值。

我们已经看到，在一个人们能坐下来确定决策预期价值的领域，这类分析可能需要几十年才能影响一些重要决策。如果我们审视那些更难确定决策真实价值的领域，我们应该期望多久才能让“好”的决策浮现出来？似乎需要很长时间，也许是永远，除非棒球和其他运动的结构使得替换糟糕决策者、引入更好决策者特别困难。

有人可能会说棒球不同，因为球队数量固定，新球队进入市场非常罕见，但如果你看看公共云、操作系统、搜索引擎、汽车制造商等情况，看起来差别并不大。实际上，接管一支棒球队并更换管理层似乎便宜得多（有时棒球队售价约为10亿美元），而且在美国，我们刚才讨论的市场中，棒球队的数量也比有竞争力的产品数量多。也有人可能会说，如果你看棒球队的结构，很明显职位通常不是基于决策能力来分配的，其他因素往往占主导，但这在棒球领域似乎并不比在工程领域更明显。

这并不是说我们期望到处都有明显糟糕的决策。如果你在《点球成金》出版前后（以及之后相当长一段时间）混迹于棒球统计极客论坛，你可能会有这种印象，但如果你看同时期的一级方程式赛车（F1），你会看到车队雇佣拥有经济学和博弈论专长的博士来确保他们做出合理的决策。这并不意味着F1车队总是做出完美决策，但至少他们避免了做出几十年来有兴趣的业余爱好者都能识别为低效的决策。有些领域竞争激烈，你必须进行严格分析才能生存，而有些领域竞争则较为平缓。在有生之年，曾几何时，训练体育项目被认为是不绅士的，任何使用类似现代训练技术训练的人都将拥有巨大优势。在过去的十年左右，我们看到了类似的转变，但这次是棒球中的统计技术，而不是各种运动的训练。

如果我们想审视决策质量，简单地说我们期望一家公司做出好决策是因为他们暴露在市场中，做出好决策有经济价值，公司内部的人如果做出好决策很可能会获得丰厚回报，这是过于简单化的。你甚至无法通过询问人们是否正在做严格、数据驱动的决策来判断这是否正在发生。如果你问棒球界的人他们是否在决策中使用数据，他们在70年代和80年代都会说是的。棒球长期以来一直被称为人们跟踪各种数字然后使用这些数字的运动。只是人们没有回测他们的预测，更不用说用保留数据回测他们的预测了。

范式转变——有效地使用数据驱动决策——在过去几十年里以不同的速度冲击着不同领域，包括运动领域内外。为什么这种变化在F1发生得比在棒球早，是由于F1车队与棒球队在激励结构上的差异以及机构文化的差异。我们可能会在未来的一篇文章中探讨这个问题，但这被证明是一个相当复杂的问题，需要更多的背景知识。

纵观全局，我们可以将这个杯子视为半空（哇，人们在做出他们认为非常重要的简单决策时表现糟糕，那么他们在做非简单决策时肯定糟糕透顶），或者将杯子视为半满（哇，你可以在很多地方找到改进的好机会，甚至在那些人们声称由于经济学101推理如“他们一定在做出正确决策因为他们被高度激励”而可能很难的领域，这可能会让人误以为没有容易的机会）。

附录：我们棒球分析中的非理想因素

为了使这是一篇简短的博客文章而不是一本书，我们讨论的近似模型做了许多简化。一个主要的简化是所有跑分都等值的观点。这足够接近事实，是一个不错的近似。但有些情况下近似效果不太好，例如当比赛进行到第九局且比分持平时。在这种情况下，增加得1分概率但降低得多分概率的决策实际上是正确选择。

这常被用作相对较晚局数牺牲触击的理由。但如果我们看成功牺牲触击的概率，会发现它在较晚局数会下降。我们没有讨论防守如何布置，但防守方可以采用降低成功牺牲触击概率但提高非触击成功概率的方式布置，反之亦然。在最后一局之前，这实际上使得较晚局数的牺牲触击更糟，而不是更好！如果我们考虑所有这些因素，在平局的最后一局，牺牲触击是否是好主意取决于我们尚未讨论的另一个因素——当前击球员。

在我们简化的模型中，我们计算了所有击球员的平均预期跑分。但在任何特定时间，是某个特定球员在击球。成功的牺牲触击推进跑垒员并增加一个出局。替代方案是让击球员“自由挥棒”，这将导致某种随机结果。击球员越好，出现比牺牲触击结果更好的结果的概率就越高。要确定最优决策，我们不仅需要知道当前击球员有多好，还需要知道后续击球员有多好。支持牺牲触击的一个常见理由是投手是糟糕的击球手，而且因为他们是糟糕的击球手，他们练习牺牲触击很多，所以他们做得不错，但事实证明投手也是低于平均水平的牺牲触击者，如果我们详细看数据，认为我们应该期待投手牺牲触击因为他们是糟糕击球手的论点站不住脚。

另一个牺牲触击（或一般触击）的原因是，有时这样做的倾向会引发防守变化，使非触击进攻效果更好。

完整的计算还应考虑当前击球员的球数和坏球数（这是我们完全没有讨论过的状态）、击球手和垒上球员的速度、比赛所在的具体球场、对方投手以及他们防守的质量。所有这些都可以做到，即使在笔记本电脑上——就计算机而言，这都是“小数据”，但即使对一个特定决策进行分析，其细节也会比本文所有内容（包括这份免责声明）长得多。考虑到所有这些非理想因素并没有推翻一般结果，这或许有点令人惊讶，但事实证明它没有（它发现牺牲触击在许多情况下具有正预期价值，但牺牲触击仍被过度使用了几十年）。

故意四坏球保送的情况类似，我们分析中的非理想因素似乎支持投出故意四坏球。特别是，支持故意四坏球保送的两个主要传统理由是：

通过保送当前击球员，我们可以制造“强迫进垒”或“双杀”的机会（增加一局或两局出局的概率）。如果比赛在最后一局平分，让另一名球员上垒几乎没有坏处，却有增加不让任何跑者得分并维持平局的概率的好处。
通过保送当前击球员，我们可以让下一个、更差的击球员上场。

人们应用第(1)条理由的一个例子是在{一垒, 三垒; 2出局}状态。防守方如果三垒的球员推进一个垒包就会输球。推理是，通过保送一名球员将状态变为{一二三垒; 2出局}，并不会增加三垒球员得分结束比赛的概率（如果当前击球员“将球打进场内”），而让另一名球员上垒增加了防守方能够取得出局的概率。

这个推理的漏洞在于击球员不一定会将球打进场内。在状态变为{一二三垒; 2出局}后，投手可能会投出非故意四坏球，导致每名跑者推进一个垒包并输掉比赛。事实证明，处于这个状态并不会非常影响非故意四坏球的概率。投手非常努力地避免四坏球，但与此同时，击球员也非常努力地想引诱四坏球！

关于第(2)条，这种理由通常被应用的两种情况是当前击球员优秀或卓越，或者当前击球员紧挨着投手之前击球。让我们分别看看这两种情况。

巴里·邦兹2001、2002和2004赛季是历史上统计意义上最好的赛季之一，也是现代棒球中能找到的最极端案例。如果我们进行同样的分析并考虑邦兹之后击球球员的质量，我们发现对方球队有时确实应该故意四坏球保送邦兹，但在大多数情况下没有必要故意四坏球保送，而且邦兹经常在没有必要的情况下被故意四坏球保送。对于一个没有打出现代棒球历史上统计意义上最佳赛季的击球员来说，故意四坏球保送甚至更不合理。

对于投手击球的情况，进行类似的分析也表明，在某些情况下故意四坏球保送是合适的（非晚局，{一二垒; 2出局}，当投手不是显著高于平均水平的投手击球手时）。即使故意四坏球保送并非总是错误的决策，但它仍然被严重过度使用了。

有人可能会争辩说，我们的简单分析存在所有这些可能推翻分析的非理想因素，是棒球决策并非那么糟糕的迹象，但我认为这站不住脚。一个能在一两小时内完成的一阶近似发现，平均而言决策似乎相当糟糕。如果一支球队对数据分析感兴趣，这应该引导他们进行更详细的分析，考虑基于传统智慧对显而易见的一小时分析的批评。似乎这并未被做到，至少几十年没有。

问题在于，在人们开始运行数据之前，我们只能依靠故事。有人会说“在2出局时，你应该保送投手之前的击球员，让投手上场[在某些情况下]让投手上场并取得确定的出局”。另一个人可能会回应“我们在晚局显然不应该这样做，因为投手会被代打换下，而在早局我们不应该这样做，因为即使有效并取得轻松出局，也给对方球队在下一局开局用他们的1号击球手而不是一个轻松出局创造了条件”。哪个故事是正确的故事，最终是一个实证问题。我发现最不幸的是，在人们开始运行数据、争论变成故事与数据之争之后，人们仍然坚持基于故事的论点长达数十年。我们在商业和工程领域也看到同样的情况，但在那里可以说更情有可原，因为那些领域的决策往往更难量化。即使你能把某件事简化为一个简单的工程方程，总有人可以争辩说工程决策并非真正重要，而其他难以量化的商业考量才是最重要的。

附录：控球权

我发现一件有趣的事是，在橄榄球、棒球和篮球中的统计分析表明，几十年来球队一直严重低估了控球权的价值。棒球本身没有控球的概念，但如果你把进攻视为“拥有控球权”，将累计3个出局视为“失去控球权”，那就非常相似。

在橄榄球中，我们看到保持控球权如此重要，以至于在第四档弃踢通常是一个错误，但这并没有阻止球队基本上一直默认弃踢。在篮球中，那些出手很多但命中率很低的球员被高估了（或者可以说现在仍然如此）。

我认为这不是根本性的——控球权如此有价值源于每项游戏的规则。这是武断的。不过，我仍然觉得这很有趣。

附录：对管理决策的其他分析

布鲁姆等人的《管理重要吗？来自印度的证据》审视了管理干预的影响以及对生产力的效果。

布鲁姆的其他工作。

德拉维尼亚等人的《美国零售连锁店的统一定价》声称发现零售连锁店留下了大量未实现的利润（利润的百分之七），并探讨了可能的原因及其影响。

这类工作与体育工作相比的好处在于，它试图量化人为游戏之外事物的影响。缺点是研究对象相当混乱，很难弄清楚研究到底意味着什么。例如，如果你看关于创新的研究，经济学家通常用专利作为创新的代理指标，然后基于某个变量与专利数量得出结论。但如果你熟悉工程专利，你就知道专利数量是创新非常差的代理指标。在硬件领域，IBM以产出大量无用专利而闻名（既指对创新无用，也指在专利诉讼中作为反击无用），而有些公司提交的专利数量少得多却获得了更大的效益。

据我所知，我们在这里的选择是要么了解一个在某种意义上完全无关的背景中的大量决策，要么拥有模糊的信息，并且可能对一个看似与现实世界相关的背景知之甚少。我很乐意听到更多属于任一阵营的研究（或者更好的是，没有这两种问题的研究）。

感谢莉亚·汉森、大卫·特纳、米沃什·丹、安德鲁·尼科尔斯、贾斯汀·布兰克、@hoverbates、凯特·墨菲、本·科恩、帕特里克·科利森以及一位匿名评论者的评论/更正/讨论。

由 mimo-v2.5 模型翻译，花费 22218 tokens

Android设备过时程度如何？

Sun, 12 Nov 2017 00:00:00 +0000

[AI 摘要] 文章通过数据分析指出Android设备日益过时，这给开发者带来挑战并导致大量设备面临安全风险。

众所周知，与iOS设备相比，Android设备往往更容易过时，但这究竟意味着什么？让我们查看Android市场份额数据，了解市面上设备的实际“年龄”。下方图表的X轴为日期，Y轴为Android市场份额，所有设备份额总和为100%（由于Google提供的公开数据精度较低，存在部分误差）。

颜色代表设备“年龄”：

蓝色：当前版本（API主版本）
黄色：6个月
橙色：1年
深红色：2年
亮红色/白色：3年
浅灰色：4年
灰色：5年
黑色：6年及以上

观察图表可见多条反S型曲线，从左至右每两条曲线之间设备逐渐老化。每条曲线对应一个新Android版本的发布及运行该版本的设备群体。随着时间推移，运行该版本的设备老化。当设备升级时，它会从一条曲线转移到另一条曲线，颜色变为较新的状态。

该图表在三个方面低估了过时设备的数量：

第一，此处使用API版本数据，无法获取小版本更新的市场份额，因此假设同一API版本的设备在新API发布前均为最新状态。但许多（或许是大多数）设备不会在API版本内接收更新。

第二，此图表显示市场份额，但Android设备总量随时间急剧增长。例如，若观察第80百分位最过时设备（即从底部向上20%处划线），今日第80百分位设备比2014年同期过时数月。Android的巨大增长意味着如今过时设备数量远超2014年。

第三，数据来自抓取Google Play商店的市场份额信息，反映的是最近7天内访问Play商店的设备。通常，访问Play商店的设备比未访问的设备更可能保持更新，因此数据存在未知偏差，使图表显示的设备比实际更“新”。无论是传统移动设备还是取代传统嵌入式设备、POS终端等的移动设备，这似乎都合理。

从安全角度看，部分设备会在不升级主版本的情况下接收安全更新，这会使日期看起来比实际更过时。然而，研究人员使用更细粒度数据研究设备更新情况时发现，此效应并不显著。

图表显示，随着时间推移，世界积累了更大比例的老旧设备。这符合直觉，无需数据也能推断——2010年初Android手机使用年限难以超过一年，而现在已有可能存在使用近十年的Android设备。

若不观察数据，一个不易察觉的现象是新版本采用速度似乎正在放缓——观察图表右上角最近几条曲线（对应最新Android版本）可见，其斜率较之前版本更平缓。仅凭现有数据无法判断斜率变缓的原因，可能包括：

Android增长放缓
Android设备更替（升级速度）减慢
获得更新的设备减少

缺乏更多数据的情况下，无法确定各因素的贡献程度。另外，如您知道追溯至2010年的Android活跃设备合理数据来源，请告知！我希望能制作配套图表展示过时设备总数。

但即便基于现有数据，我们仍可推测当前使用中的过时设备数量。2017年5月，Google宣布Android活跃设备超过20亿。查看最新统计数据（图表最右侧），可见近半数设备已过时两年。此时我们应预期有超过十亿设备过时两年！鉴于Android的更新模式，其中约0%设备可能升级至现代Android版本。

百分位数

由于图表信息密集，观察局部可能更清晰。若观察单条水平线，它对应特定百分位的设备“年龄”：

本图中X轴为日期，Y轴为“年龄”（月）。每条线对应不同百分位（百分位越高越老），即顶部图表在该百分位的水平切片。

每条曲线大致呈现两个阶段（另含其他细节）。第一阶段设备“年龄”随时间快速增长；第二阶段设备平均仅略微老化。第二阶段中，新版本发布有时会将较新设备推入该百分位，使设备“年龄”减小，但频率不足以抵消普遍老化趋势。整体而言，若当前趋势持续，未来过时Android设备比例将更高，这与首个更复杂的图表显示一致。

日期视角

另一种观察方式是查看垂直切片而非水平切片。每条垂直线对应特定日期所有设备的“年龄”：

本图X轴为“年龄”百分位，Y轴为原始“年龄”（月）。每条线代表一个日期，日期越早颜色越浅/黄，日期越新颜色越深/绿。

与同数据的其他视图一样，可见Android设备似乎随时间变得更加过时。若绘制所有可用日期的数据，图表将过于密集，但我们可通过动画查看：

iOS对比

作为参考，iOS 11发布于两个月前，尽管11月数据发布于iPhone X上市之前，其已占据近50% iOS市场份额（而最新Android版本8月发布时份额不足1%）。极有可能在明年初iOS 11市场份额将超过50%，甚至可能达到75%，即iOS对应图表中第50百分位（红色）线在“年龄=0”处，第75百分位（橙色）线偶尔降至0也并非不可能。与Android类似，部分旧设备固执地拒绝更新；发布于两年多前的iOS 9.3目前份额略高于5%。这意味着在iOS图表中，第99百分位（绿色）线可能处于略高于两年的位置（仅为Android图表对应值的一半）。

Windows XP对比

人们有时将Android与Windows XP相比，因两者在市面上都有大量设备且多数不再获得安全更新。但这对Windows XP极不公平，它发布于2001年10月，直至2014年4月仍在提供安全更新，持续十二年半。此外，微软在官方支持期后仍发布了至少一次安全更新（2017年5月针对WannaCry勒索软件的更新）。尽管微软决定在仍有大量XP设备在用时终止支持，但支持旧操作系统超过十二年并在十五年后发布紧急安全补丁，使微软在设备支持方面与Google和Apple处于完全不同的层次。

Android与Windows的另一区别在于Android的规模在桌面领域前所未有。2017年PC销量约2亿台。仅三星自2008年起年销量即达此数。当然，2008年这些并非Android设备，但Android在非iOS移动领域的主导地位意味着总体上它们主要是Android设备。如今，我们仍可见近50年历史的PDP-11设备在用。PDP设备数量稀少，遇到一台是有趣而古雅的惊喜（共售出60万台）。台式设备比PDP更早淘汰，移动设备淘汰更快，但现代计算设备的普及导致数量差异巨大，意味着50年后我们将看到更多XP时代PC在用，而移动设备在50年后可能更多。许多古老的PDP、VAX、DOS等设备因非联网配置而基本安全，但许多将服役数十年的老旧XP和Android设备情况似乎并非如此。

结论

我们已看到Android设备似乎随时间变得更加过时。这使开发者难以针对“新”Android API特性开发（“新”指过去几年引入的特性）。这也意味着大量Android设备在安全方面滞后，绝对数量和相对iOS均如此。

直到最近，Android仍与硬件紧密绑定，导致更新旧设备极为困难，需要针对手机特定（或至少SoC特定）工作进行定制Android构建。Google声称此问题已在最新Android版本（8.0，Oreo）中解决。记得Google 2011年“Android更新联盟”公告的人可能对近期公告持怀疑态度。2011年，Google与美国运营商宣布将保持设备更新18个月，但多数未兑现。然而，即使当前公告非空谈且最新Android版本解决了更新问题，我们也看到Android版本采用需数年，且最近几版Android采用速度明显慢于以往。此外，尽管这应使更新更便捷，Android在更新方面可能仍将落后iOS一段时间。Google承诺其最新手机（Pixel 2，2017年10月）将获得三年更新。这似乎是进步，但从上图可见，延长一年支持远不足以保持大多数Android设备更新。但若您使用iPhone，最新iOS版本（2017年9月发布）支持回溯至iPhone 5S（2013年9月发布）。

查看最新Android版本（8.0，2017年8月发布），若您使用两年机龄设备仍能获得更新则相当幸运。获得支持的最老“Google”手机为Nexus 6P（2015年9月发布），支持期近两年。

回溯至与iPhone 5S同期发布的设备，情况更糟。当时我在Google工作获得一部Moto X，该机是当时最接近官方Google手机的设备（当时Google拥有Moto）。Moto X发布于2013年8月（比iPhone 5S早一个月），其支持的最新Android版本为5.1，发布于2015年2月，仅一年半后。对于同期的Android手机，Moto X支持期异常长。随着时间推移情况看起来更糟是个好兆头，但按当前改善速度，还需要数年才能出现支持良好的Android设备，而该Android版本广泛采用又需数年。可能Fuchsia能解决此问题，但Fuchsia距广泛采用仍需多年。

在后续文章中，我们将探讨Android响应延迟，其远高于iPhone和iPad延迟。

感谢Leah Hanson、Kate Murphy、Daniel Thomas、Marek Majkowski、@zofrex、@Aissn、Chris Palmer、JonLuca De Caro及一位匿名人士的评论/修正/相关讨论。

同时感谢Victorien Villard提供这些图表所依据的数据！

由 mimo-v2.5 模型翻译，花费 6857 tokens

UI向后兼容性

Thu, 9 Nov 2017 00:00:00 +0000

[AI 摘要] 文章讨论了UI向后兼容性的重要性，以及破坏它如何损害用户体验，并提出了改进方法。

大约每个月一次，我常用的应用程序会改变其用户界面，破坏肌肉记忆，基本上诱使用户做他们不想做的事情。

Zulip

在近期的记忆中，Zulip（一个Slack竞争对手）更改了其换行行为，使得ctrl + enter发送消息而不是插入换行。在这一更改后，我发送了一些半成品消息，看起来其他一些人也这样做了。

大约在他们做出这一更改时，他们还做了另一个更改，导致一系列点击原本会向某人发送私信，现在却会向在线人员中字母顺序排列的第一位发送私信。大多数人没有注意到这是一个变化，但当我提到过去几周我发生了几次这种情况时，多人立即表示他们完全相同的事情也发生了。有些人还提到导航快捷键的行为被更改，可能导致人们广播消息而不是发送私信。在两种情况下，有些人都责怪自己，不知道为什么他们开始犯错误，导致他们将消息发送到错误的地方。

门

不久前，我在Black Seed Bagel，那里有一扇门，从两面看都75%像一扇“推”门，但实际上从外面是推门，从里面是拉门。另一个让它看起来更像从里面“推”门的线索是，大多数企业都有向外开的门（在美国，当房间容量超过50时，出口门必须这样，许多小空间的企业也自愿遵循相同的惯例）。在大约一小时的谈话过程中，我看到很多人进进出出，我猜有十个人在第一次尝试出门时都失败了。当人们成对或成组旅行时，前面的人通常会说“我很傻。我们一分钟后刚用过这扇门”。但人们实际上并不傻。如果有什么是傻的，那就是设计这样的门，让用户必须记住哪些门像“正常”门一样，哪些门的提示被反转了。

如果你对物理世界感兴趣，《设计心理学》提供了许多现实世界的例子，其中用户被微妙地推动去做错误的事情。它还讨论了通用原则，让你能看到一般想法，并在设计软件时应用和避免相同的问题。

Facebook

上周，Facebook更改了界面，以至于我正常点击序列来隐藏故事现在会保存故事而不是隐藏它！保存与隐藏几乎是相反的！从用户角度来看，以及作为提要排名的信号，都是相反的。这种更改的真正“伟大”之处在于，如果你通过点击次数来衡量新功能的“参与度”，它在A/B测试中表现非常好，因为许多用户会意外保存他们本想隐藏的故事。今年早些时候，Twitter做了类似的事情，交换了“时刻”和“通知”的位置。

即使进行更改的人没有为了提高参与度数字而创建这个棘手的界面，这种更改仍然有问题，因为它毒化了分析数据。虽然从技术上讲可以构建一个模型来区分意外点击和有意点击，但这很少见（我不知道有任何A/B测试这样做），即使在用户显然会意外触发操作的情况下，我仍然看到开发人员和产品经理根据原始统计数字（如DAU/MAU）来证明功能的合理性。

API向后兼容性

当涉及软件API时，有一种观点认为，对于某些广泛使用的软件类别，你永远不应该破坏向后兼容性。一个著名的例子是Linus Torvalds：

人们应该基本上总能感觉他们可以更新内核而根本不用担心它。

我拒绝引入“只有当你同时更新另一个程序时才能更新内核”的限制。如果内核曾经为你工作，规则就是它继续为你工作。 …… 我见过，并且可以指出，很多项目说“我们需要为了进展而破坏那个用例”或者“你依赖了未记录的行为，那是你的问题”或者“有更好的方法做你想做的事，你必须更改到那个新的更好的方法”，而我根本认为这在非常早期的alpha版本之外是不可接受的，那些实验用户知道他们签了什么。内核在过去的二十年里没有处于那种情况。 …… 我们在内核内部经常进行API破坏。我们会通过说“你现在需要做XYZ”来修复内部问题，但那是关于内部内核API的，然后那些做这个的人显然也必须修复该API的所有内核内部用户。没有人能说“我现在破坏了你使用的API，现在你需要修复它”。破坏了某事的人也必须修复它。 …… 而我们根本不破坏用户空间。

Raymond Chen引用Colen的话：

从客户的立场来看这个场景。你购买了程序X、Y和Z。然后你升级到Windows XP。你的计算机现在随机崩溃，程序Z根本不工作。你会告诉你的朋友，“不要升级到Windows XP。它随机崩溃，而且与程序Z不兼容。”你会调试你的系统来确定程序X导致崩溃，并且程序Z不工作是因为它使用了未记录的窗口消息吗？当然不会。你会退还Windows XP盒子退款。（你几个月前购买了程序X、Y和Z。30天退货政策不再适用于它们。你唯一能退还的是Windows XP。）

虽然这种观点是少数派，但它是有影响力的少数派。很少听到这种针对UI向后兼容性的论点。你可能会争辩说这没关系——如今人们被迫升级，所以东西坏了也没关系。但即使用户无法逃避，这仍然是糟糕的用户体验。

对这种观点的反对意见是，维护兼容性会产生技术债务。确实如此！例如，Linux充满了由于“不破坏用户空间”规定而略有或适度错误的API。一个例子是int recvmmsg(int sockfd, struct mmsghdr *msgvec, unsigned int vlen, unsigned int flags, struct timespec *timeout);。你可能期望如果没收到数据包，超时会触发，但手册页写道：

timeout参数指向一个struct timespec（参见clock_gettime(2)），为接收操作定义超时（秒加纳秒）（但参见BUGS！）。

BUGS部分写道：

timeout参数不按预期工作。超时仅在每个数据报接收后检查，因此如果在超时过期前收到多达vlen-1个数据报，但之后没有收到更多数据报，调用将永远阻塞。

这可以说甚至不是recvmmsg最糟糕的错误特性，它返回一个ssize_t到大小为int的字段中。

如果你有“我们根本不破坏用户空间”这样的政策，这种技术债务将永远存在。但在我看来，世界上最广泛使用的桌面、笔记本电脑和服务器操作系统费尽心思维护向后兼容性并非巧合。

UI向后兼容性的论点可以说比API向后兼容性的论点更强，因为破坏性的API更改可以通过机械方式修复，并且在适当的环境中，所有调用者都可以在API更改的同时修复。没有等效的方法可以深入人们的脑海并改变用户习惯，因此破坏性的UI更改不可避免地会给某些用户带来痛苦。

UI向后兼容性的论点可以说比API向后兼容性的论点更弱，因为API向后兼容性的成本较低——如果某些API有问题，你可以创建一个新的API，然后将旧API记录为不应使用的东西（如果你查看Linux系统调用，你会看到很多这样的例子）。这在GUI中并不真正有效，因为UI元素为少量的屏幕空间而竞争。我认为一个被低估的论点是，改变UI并不像大多数公司认为的那样伟大——非常过时的UI，没有更新以跟上趋势，也可以成功（例如，plentyoffish和craigslist）。公司甚至可以在没有任何重大UI更新的情况下取得巨大成功，更不用说UI重新设计了——LinkedIn火箭般增长的很大一部分发生在UI基本上冻结的时期。我被告知冻结UI不是有意的设计决定；相反，它是严重技术债务的副作用，并且UI在重写让人们可以自信地更改UI时被解冻。LinkedIn在解冻前端后成功地添加了很多暗模式，但以前的UI在增长方面似乎运行良好。

尽管有一些UI不总是更新以跟踪最新趋势并取得了成功，但在大多数公司，基本上不可能提出不应该随意更改UI而不添加功能的论点，更不用说提出UI不应该用新功能替换旧功能的论点了。

UI弃用

一个可能更容易提出的论点是，快捷方式和类似快捷方式的UI元素可以在移除前被弃用，类似于API演变在进行破坏性更改前会添加弃用警告。与其定期更改UI以至于用户的肌肉记忆被用来对付他们并导致用户做与想要相反的事情，UI可以更改为先前训练的操作集导致什么也不发生。例如，Facebook可以将“隐藏帖子”向下移动并在旧位置插入一个空操作项，然后在人们习惯于不在旧“隐藏帖子”位置点击“隐藏帖子”后，他们可以将“保存帖子”放在旧“隐藏帖子”位置。

Zulip可以做类似的事情，导致一系列曾经让你向想要的人发送私信的操作现在不发送消息，而不是向在线列表中字母顺序排列的第一位发送私信。

这些解决方案并不理想，因为用户仍然需要在新东西上重新训练肌肉记忆，但这仍然比当前情况好得多，在当前情况下，许多UI定期引入看似任意的变化，引发混乱和困惑。

在某些情况下（例如，空操作菜单项），这对新用户来说呈现了一个相当奇怪的界面。用户不期望看到一个什么也不做的菜单项，箭头说点击菜单的其他地方。这可以通过仅向经常使用旧快捷方式或类似快捷方式路径的用户推出弃用“警告”来修复。如果有多个更改被弃用，这会导致组合爆炸，但如果你定期弃用多个独立项目，那相当极端，用户无论如何都会感到困惑。考虑到避免用户敌对更改所付出的努力以及“快速行动，打破常规”思维模式的主导地位，仅仅为了避免给用户带来糟糕体验而添加这种复杂性的论点在大多数公司可能站不住脚，但这至少在原则上似乎可行。

打破现有用户工作流程对于像Facebook这样的应用程序可能无关紧要，因为它在其领域中的主导地位使其相对粘性，但大多数应用程序更像Zulip而不是Facebook。当Zulip和Slack都还年轻时，Zulip消息无法编辑或删除。这是有意的——消息是不可变的，我认识的每个建议允许编辑的人都被否决了，因为可变消息不符合不可变模型。当时，如果有一个UI更改或错误导致用户意外发送公开消息而不是私信，那基本上是永久性的。我看到人们意外发送公开消息的频率足以让我养成将私信对话转移到另一个媒介的习惯。这并没有太困扰我，因为我习惯了古怪的软件，但我知道有些人当时尝试了Zulip，至今仍拒绝使用Zulip，因为那时遇到的UI问题。那是一个极端的例子，但用户倾向于避免给他们带来反复痛苦的应用程序这一普遍想法并不牵强。

在用户保留研究中，似乎额外的500毫秒页面加载延迟会负面影响保留率。如果是这样，切换UI以至于用户必须花费5秒钟撤销一个操作或以无法撤销的方式广播私信公开，应该对保留率有显著影响，尽管我不知道有任何公开研究对此进行调查。

结论

如果我从事UI工作，我可能有一些建议或行动呼吁。但作为局外人，我谨慎提出实际建议——程序员似乎特别容易进入一个他们不熟悉的领域，告诉专家应该如何解决他们的问题。虽然这偶尔有效，但最可能的结果是，局外人要么重新发明了几十年来已知的东西，要么完全忽略了问题最重要的部分。

如果快捷方式不经常坏到我花和实际使用应用程序一样多的时间有意识地阻止自己使用它们，那当然会很好。但可能有一些原因使得测试/强制执行很困难。需要进行健壮UI测试的平台数量巨大，即使没有添加这种额外类型的测试，测试也很困难。而且，即使在讨论功能正确性问题时，“快速行动，打破常规”也比“尽量少打破东西”更时髦。由于UI“正确性”通常优先级甚至低于功能正确性，不清楚有人如何能成功提出投入更多努力的论点。

另一方面，尽管有这些免责声明，Google有时确实做了本文中描述的确切事情。Chrome最近移除了backspace后退功能；如果你按backspace，你会得到一条笔记告诉你使用alt+left代替，当地图前一阵子移动一些项目时，他们放置了空操作占位符指向新位置。这并不意味着Google总是做得很好——在2016年愚人节，Gmail将发送并存档替换为发送并附加一个在某些上下文中冒犯的gif——但这些例子表明，在重大更改中维护向后兼容性不仅仅是一个假设想法，它可以并且已经被做了。

感谢Leah Hanson、Allie Jones、Randall Koutnik、Kevin Lynagh、David Turner、Christian Ternus、Ted Unangst、Michael Bryc、Tony Finch、Stephen Tigner、Steven McCarthy、Julia Evans、@BaudDev和一位反对公开致谢的匿名人士对评论/更正/讨论的贡献。

如果你好奇为什么“匿名”反对致谢，那是因为他们首先在Paul Graham的写作中看到这些，他的致谢是硅谷的谁是谁。匿名的看法是，这些列表作为一种信号传递。我不会说这是错的，但我在写作中得到了很多帮助，不仅来自阅读草稿的人，也来自偶尔有帮助的公共互联网评论，我认为重要的是要明确这不是一个人的努力来对抗Bunnie Huang所称的“偶像效应”。

在未来的文章中，我们将探讨行长度如何影响可读性的实证研究。我阅读了我能找到的每项研究，但我可能漏掉了一些。如果你知道一项好研究你认为我应该包括，请让我知道。

由 mimo-v2.5 模型翻译，花费 9185 tokens

文件系统错误处理

Mon, 23 Oct 2017 00:00:00 +0000

[AI 摘要] 本文通过错误注入测试比较了新旧文件系统的错误处理能力，发现现代文件系统大多能正确传播写错误，但仅btrfs能检测并纠正静默失败。

我们将复现大约十年前关于文件系统健壮性的论文中的一些结果：Prabhakaran等人SOSP 05论文（在文件系统下层注入错误）和Gunawi等人FAST 08论文（研究文件系统检查可能返回错误的函数返回码的频率）。

Prabhakaran等人在块设备层（紧邻文件系统下层）注入错误，发现ext3、reiserfs、ntfs和jfs大多能合理处理读错误，但ext3、ntfs和jfs大多忽略了写错误。虽然这篇论文很有趣，但现在在系统上安装Linux的人更可能使用ext4而非Prabhakaran等人测试的那些已过时的文件系统。我们将尝试在更现代的文件系统如ext4和btrfs、一些传统文件系统如exfat、ext3和jfs以及overlayfs上复现该论文的一些基本结果。

Gunawi等人发现大多数错误未被检查。在查看现代文件系统的错误注入后，我们将看看文件系统的错误处理代码改善了多少（或多差）。

错误注入

文件读取的简图可能是：pread系统调用 -> 操作系统通用文件系统代码 -> 文件系统特定代码 -> 块设备代码 -> 设备驱动 -> 设备控制器 -> 磁盘。磁盘收到请求后，将数据传回：磁盘 -> 设备控制器 -> 设备驱动 -> 块设备代码 -> 文件系统特定代码 -> 操作系统通用文件系统代码 -> pread。我们将查看在块设备层（文件系统正下方）注入错误的情况。

让我们看看2017年注入错误与Prabhakaran等人2005年的发现有何不同。

	2005			2017
	read	write	silent	read	write	silent	read	write	silent
	file						mmap
btrfs				prop	prop	prop	prop	prop	prop
exfat				prop	prop	ignore	prop	prop	ignore
ext3	prop	ignore	ignore	prop	prop	ignore	prop	prop	ignore
ext4				prop	prop	ignore	prop	prop	ignore
fat				prop	prop	ignore	prop	prop	ignore
jfs	prop	ignore	ignore	prop	ignore	ignore	prop	prop	ignore
reiserfs	prop	prop	ignore
xfs				prop	prop	ignore	prop	prop	ignore

每行显示一个文件系统的结果。read和write分别表示读取和写入数据，其中块设备返回错误表示操作失败。silent表示读取失败（数据不正确），但块设备未指示错误。这可能发生在磁盘损坏、瞬时读取失败或瞬时写入失败静默导致写入坏数据的情况下。file表示操作在通过open打开的文件上进行，mmap表示测试在通过mmap映射的文件上进行。ignore（红色）表示错误被忽略，prop（黄色）表示错误被传播且pread或pwrite系统调用返回错误码，fix（绿色）表示错误被纠正。未纠正任何错误。灰色条目表示未测试的配置。

从表中可以看出，2005年ext3和jfs在块设备指示写入失败时仍忽略写错误，而情况已改善，任何你可能使用的文件系统都能正确告知写入失败。jfs没有改善，但jfs现在在遗留安装外很少使用。

除btrfs外，其他测试的文件系统均未正确处理静默失败。其他测试的文件系统既不复制也不校验数据，因此无法检测静默失败。zfs可能也能正确处理静默失败，但未测试。尽管apfs出现晚于btrfs和zfs，但它明确决定不校验数据并在块设备静默错误时静默失败。我们将稍后讨论这一点。

在错误被传播的所有测试情况下，文件读写分别从pread或pwrite返回EIO；mmap读写导致进程接收SIGBUS信号。

上述2017年测试使用8k文件，其中包含文件数据的第一个块在块设备层返回错误或被损坏（取决于测试）。下表测试相同内容，但使用445字节文件而非8k文件。选择445是任意的。

	2005			2017
	read	write	silent	read	write	silent	read	write	silent
	file						mmap
btrfs				fix	fix	fix	fix	fix	fix
exfat				prop	prop	ignore	prop	prop	ignore
ext3	prop	ignore	ignore	prop	prop	ignore	prop	prop	ignore
ext4				prop	prop	ignore	prop	prop	ignore
fat				prop	prop	ignore	prop	prop	ignore
jfs	prop	ignore	ignore	prop	ignore	ignore	prop	prop	ignore
reiserfs	prop	prop	ignore
xfs				prop	prop	ignore	prop	prop	ignore

在小文件测试表中，所有结果相同，除了btrfs在所有测试情况下返回正确数据。这里的情况是，该文件系统是在旋转磁盘上创建的，默认情况下，btrfs在旋转磁盘上复制文件系统元数据（可以在SSD上配置这样做，但不是默认值）。由于文件很小，btrfs将文件打包进元数据，文件随元数据一起复制，允许文件系统在某个块返回坏数据或报告失败时纠正错误。

Overlay

Overlayfs允许将一个文件系统“叠加”在另一个上。如初始提交所述，一个用例可能是将一个（上层）可读写目录树放在一个（下层）只读目录树上，所有修改都进入上层可写层。

虽然未在表格中列出，我们还测试了除fat外的每个文件系统作为overlay fs的下层文件系统（ext4在所有测试中作为上层文件系统）。每个测试的文件系统在overlay中作为底层使用时显示相同结果。fat未测试，因为挂载fat会导致文件系统不支持错误。

错误纠正

btrfs默认不在SSD上复制元数据，因为开发者认为冗余无法防止SSD错误（这也是apfs没有冗余的原因）。SSD执行一种写合并，这可能导致连续发生的写入落入同一个块。如果该块完全失效，冗余副本将全部丢失，因此冗余在旋转驱动器上提供的保护更少。

我不确定这意味着冗余没有帮助——单个闪存单元随操作退化并随老化失去电荷。SSD内置磨损均衡和纠错，旨在降低块返回坏数据的概率，但随着时间的推移，一些块会发展出如此多的错误以至于纠错无法修复，块将返回坏数据。在这种情况下，读取应返回一些坏位和大部分好位。据我所知，关于SSD错误率的公开数据似乎与这一观点一致。

错误检测

相关地，似乎apfs不校验数据，因为“[apfs]工程师认为Apple设备基本上不会返回虚假数据”。关于SSD可靠性的公开研究未发现没有模型有时不返回坏数据。普遍认为SSD比旋转磁盘更少返回坏数据，但当谷歌在所有驱动器上研究时，他们发现：

硬盘的年度更换率之前报告为2-9%[19,20]，这与我们看到的闪存驱动器在4年内更换4-10%相比很高。然而，闪存驱动器在错误率方面不太吸引人。超过20%的闪存驱动器在四年内出现不可纠正错误，30-80%出现坏块，2-7%出现坏芯片。相比之下，之前关于HDD的工作[1]报告，在大型人群中只有3.5%的磁盘在32个月内出现坏扇区——考虑到硬盘上的扇区数量比固态驱动器上的块或芯片数量高出几个数量级，且扇区比块小，因此故障不那么严重，这个数字很低。

虽然从某种意义上说SSD比旋转磁盘更可靠，但从另一种意义上说它们似乎更不可靠。Apple在其驱动器上使用某种自定义固件，将更多位用于纠错，这并非不可能，但即使如此，你可能会将非Apple驱动器插入Apple计算机，并希望获得某种数据损坏保护。

内部错误处理

既然我们已经复现了Prabhakaran等人的一些测试，我们将转向Gunawi等人。由于论文相当复杂，我们只看其中一小部分，即他们检查三个函数调用filemap_fdatawait、filemap_fdatawrite和sync_blockdev以查看这些函数有多少次未检查错误。

他们查看这些函数的理由如下：

如第3.1节所述，一个函数可以同时返回多个错误码，仅检查其中一个就足够了。然而，如果我们知道某个函数只返回单个错误码，但调用者没有正确保存返回值，那么我们会知道这样的调用确实是一个缺陷。为了找到文件系统代码中的真实缺陷，我们检查了三个重要的函数：sync_blockdev、filemap_fdatawrite和filemap_fdatawait，我们已知它们只返回单个错误码。不检查这些函数返回错误码的文件系统显然会让上层故障未被注意到。

忽略这些函数的错误似乎有相当严重的后果。filemap_fdatawait的文档说：

filemap_fdatawait — 等待所有正在写回的页面完成 ... 遍历给定地址空间的正在写回的页面列表并等待所有页面。检查地址空间的错误状态并返回它。由于地址空间的错误状态被此函数清除，调用者负责检查返回值并处理和/或报告错误。

sync_blockdev的代码旁注释说：

通过其映射写出并等待与块设备关联的所有脏数据。不获取超级块锁。

在这两种情况下，忽略错误码可能意味着数据未能写入磁盘而未通知写入者数据实际上未写入？

让我们看看这些函数调用有多少次没有完全忽略错误码：

fn	2008	'08 %	2017	'17 %
filemap_fdatawait	7 / 29	24	12 / 17	71
filemap_fdatawrite	17 / 47	36	13 / 22	59
sync_blockdev	6 / 21	29	7 / 23	30

此表适用于fs下的所有代码。每行显示一个函数调用的数据。对于每年，最左边的单元格显示对返回值做了某些处理的调用数量（除以总调用数）。右边的单元格显示对返回值做了某些处理的调用百分比。“做了某些处理”在这里使用非常宽松——根据返回值分支然后在任一分支中未能处理错误、返回返回值而调用者未能处理返回值、以及保存返回值然后忽略它，都出于此表目的视为做了某些处理。

例如，Gunawi等人指出cifs/transport.c有

int SendReceive () { 
    int rc;
    rc = cifs_sign_smb(); // 
    ... 
    rc = smb_send();
}

尽管cifs_sign_smb返回了错误码，但在被smb_send覆盖之前从未检查过，这在我们的目的上算作使用了，即使错误未被处理。

总的来说，该表似乎显示现在处理的错误比Gunawi等人2008年分析时处理的错误多得多，但仅从原始数字很难说这意味着什么，因为某些错误可能不处理是可以接受的，不同代码行以不同概率执行。

结论

文件系统错误处理似乎有所改善。当块设备报告错误时，在pwrite上报告错误可能是健壮文件系统应做的最基本错误传播；2005年很少文件系统正确报告该错误。今天，在没有复杂因素且最简单的错误条件（不涉及整个驱动器死亡）下，大多数文件系统将正确报告错误。

大多数文件系统没有数据校验，将错误检测和纠正留给用户空间软件。当我和大公司的服务器端开发者交谈时，他们的答案通常是“谁在乎？我们所有的文件访问都通过校验数据的库，跨机器和数据中心的冗余处理了故障，因此我们只需要错误检测而不需要纠正”。虽然对某些大公司的开发者来说这是真的，但有很多软件并非健壮编写，只是假设文件系统和磁盘没有错误。

这是与Wesley Aptekar-Cassels的联合项目；项目的大部分工作在RC结对编程时完成。我们也得到了Kate Murphy的很多帮助。Wesley (w.aptekar@gmail.com) 和 Kate (hello@kate.io) 都在找工作。他们很棒，如果你在招聘，我强烈建议与他们交谈！

附录：C语言中的错误处理

已经付出了相当多的努力来正确处理错误。但C语言使出错变得非常容易，即使你付出了相当多的努力，甚至应用了额外的工具。代码中的一个例子是submit_one_bio函数。如果你看定义，可以看到它标注了__must_check，这将在结果被忽略时导致编译器警告。但如果你查看submit_one_bio的调用，会发现它的调用者未标注，可以忽略错误。如果你深入挖掘，会发现一个错误传播路径如下：

submit_one_bio
submit_extent_page
__extent_writepage
extent_write_full_page
write_cache_pages
generic_writepages
do_writepages
__filemap_fdatawrite_range
__filemap_fdatawrite
filemap_fdatawrite

距离submit_one_bio九层之远，我们看到了老朋友`filemap_fdatawrite，我们知道它经常未被检查错误。

关于如何防止这类事情意外发生，存在一个非常古老的辩论。一派思想，我称之为Uncle Bob (UB) 学派，认为我们无法用工具或流程修复这些问题，只需要成为更好的程序员以避免错误。你经常会听到UB学派的人说，“你无法用更好的工具（或流程）消除所有错误”。在他著名且广受好评的演讲Simple Made Easy中，Rich Hickey说

野外发现的每个错误的真相是什么？

[观众回答：有人写了它？] [观众回答：它被写出来了。]

它被写出来了。是的。关于它更有趣的事实是什么？它通过了类型检查器。

[观众笑声]

它还做了什么？

[观众回答：（听不清）]

它通过了所有测试。好吧。那么现在怎么办？对吧？我想我们处于一个我想称之为护栏编程的世界。真可悲。我们就像：我能改变因为我有测试。谁那样做？谁开车到处撞护栏然后说，“哇！幸好我有这些护栏，否则我永远赶不上演出。”

[观众笑声]

如果你看这个演讲，Rich使用“简单性”的方式就像Uncle Bob使用“纪律”。这些陈述的使用方式大致等同于Ken Thompson说“错误就是错误。你写的代码有错误，因为你就是这样”。UB学派将工具和流程抛在一边，说完全依赖工具或流程是不安全的。

Rich的修辞技巧很巧妙——我听过那句话被引用数十次来反对测试或工具或类型。但是，像护栏一样，大多数工具和流程不是为了消除所有错误，而是为了降低错误的严重性或概率。如果我们看这个特定的函数调用，可以看到静态分析工具未能发现这个错误。这是否意味着我们应该放弃静态分析工具？静态分析工具可以查找所有submit_one_bio调用，并向你显示错误传播N层后被丢弃的情况。Gunawi等人正是这样做的，并发现很多错误。一个人基本上无法在没有工具的情况下做同样的事情。他们可以尝试，但人们如果手动挖掘这类东西能达到95%的准确率就很幸运了。代码的巨大体量保证了手工操作的人会犯错。

比静态分析工具更好的是一种语言，使忘记检查错误更难。这里的一个问题是，有时丢弃错误是有效的。在许多地方，没有接口允许错误从文件系统传播出去，因此丢弃错误是正确的，除非更改接口。在当前情况下，作为读代码的外部人员，如果你看一堆丢弃错误的调用，很难说所有这些中哪些是错误，哪些是正确的。如果默认情况是我们有一种护栏说“此错误必须被检查”，人们仍然可能错误地忽略错误，但你至少得到一个注释说明省略是有意的。例如，如果你被迫编写代码明确表明你忽略错误，并且在旨在健壮的代码中（如文件系统代码），故意丢弃错误的代码很可能附带解释为什么丢弃错误的注释。

附录：为什么这没有早点做？

毕竟，如果我们知道现代文件系统能否正确执行基本任务就好了。文件系统开发者可能知道这些，但因为我不关注LKML，在我们进行实验之前我不知道自2005年以来事情是否有所改善。

我们这里看的论文来自Andrea和Remzi Arpaci-Dusseau的研究实验室。Remzi有一个演讲，提到研究生不想复制和更新旧工作。考虑到他们面临的激励，这完全合理。我这里不是要针对学术界——这项工作来自学术界，不是工业界。如果没有学术激励系统，这种工作可能根本不会发生。

总的来说，资助正确性工作似乎相当困难。有相当多的论文关于寻找错误的新方法，但关于将现有技术应用于现有代码的工作相对较少。在学术界，这似乎很难获得好的出版物，在开源世界，这似乎比编写新代码对人们吸引力更小。这也完全合理——人们应该做他们想做的事，即使他们喜欢研究正确性，那通常也不是一个好的职业决定。我前几天晚上去RC招聘会，我的徽章写着我对测试感兴趣。第一个和我说话的人开口就是“你做QA吗？”。当我在硬件行业工作时，那不会是个危险信号，但在软件行业，“QA”是低技能、枯燥且薪酬微薄工作的代号。工业界大多认为测试和QA是事后考虑。因此，公司依赖的开源项目通常资金严重不足。谷歌资助了一些很棒的工作（如afl-fuzz），但这是例外而非规则，即使在谷歌内部也是如此，大多数公司不资助任何开源工作。这篇文章的工作由几个有意暂时失业的人完成，这不是一个可扩展的模型。

偶尔，你会看到有人花费大量精力提高正确性，但这通常是以大量免费劳动力完成的。Kyle Kingsbury可能是典型例子——据我所知，他在Jepsen分布式系统测试工具上工作了多年晚上和周末，然后将其转变为咨询业务。他这样做很棒——他证明了几乎每个开源分布式系统都有严重的数据丢失或损坏错误。我认为这很棒，但像这样英勇努力的故事总是让我担心，因为英勇不可扩展。如果Kyle没有出现，他和他的工具发现的大多数错误今天是否仍困扰着开源分布式系统？这是个可怕的想法。

如果我知道如何资助更多正确性工作，我会尝试说服你我们应该切换到这种新模式，但我不知道有哪种资助模式有效。我设置了Patreon（捐赠账户），但足以真正资助大量工作将是相当非凡的。如果你看看程序员从捐赠中赚了多少钱，如果我赚的比在工业界工作少两个数量级，那已经让我成为Patreon上前1%的程序员。如果我赚的比在工业界少一个数量级，那将是非凡的。我脑海里想到的，唯一从Patreon赚得更多的程序员要么制作吸引力更广的东西（如游戏），要么是Evan You，他制作了现存使用最广泛的前端库之一。如果我实际赚的和在工业界一样多，我怀疑那会让我成为Patreon上收入最高的程序员，即使按行业标准，我的薪酬并不特别。

如果我必须猜测，我认为这种工作难以资助的部分原因是消费者没有激励公司资助这类工作。如果你看“大”科技公司，其中两家在正确性上比竞争对手认真得多。这导致关于丢失电子邮件、文档以及整个账户的恐怖故事少得多。如果你看对消费者的影响，可能类似于1%的人看到丢失/损坏电子邮件与0.001%的人之间的差异。我认为如果将成本乘以所有消费者，这相当重要，但绝大多数消费者不会基于这种差异做决定。如果你看正确性问题更明显的领域，如数据库或备份，你会发现即使最差的解决方案也有辩护者会跳进任何讨论说“对我来说有效”。一个90%时间有效的备份解决方案相当糟糕，但如果你有一个90%时间有效的方案，它仍然会有坚定的辩护者跳进讨论说“我从备份恢复过三次，从未失败！你肯定在编造！”。我不责怪公司理性地响应消费者，但我认为结果对消费者来说是不幸的。

顺便说一句，做免费开放工作的一大奇迹是，你做的免费工作越多，抱怨你做得不够的人就越多。正如David MacIver所说，做开源工作就像做正常的带薪工作，只不过你得到的是抱怨而不是现金。基本上可以保证这篇文章有史以来最普遍的评论是我们没有测试某人钟爱的文件系统，因为我们是btrfs吹捧者或只是懒惰，尽管我们包含了允许任何人添加测试的仓库链接。几乎每次我做任何免费实验工作，那些显然没有阅读实验设置或源代码的人就会抱怨实验不可能正确，因为[某件不真实的事情，任何人查看设置都能看到]，而我没有在他们想看到的确切东西上运行实验是绝对不可原谅的。由于我很久以前在竞技视频游戏中玩过，我习惯了更激烈的网络喷子，但总的来说，这种激励系统似乎是倒置的。

附录：实验设置

对于错误注入设置，实验设置的高层视图是使用dmsetup模拟磁盘上的坏块。

运行的命令列表如下所示：

cp images/btrfs.img.gz /tmp/tmpeas9efr6.gz
gunzip -f /tmp/tmpeas9efr6.gz
losetup -f
losetup /dev/loop19 /tmp/tmpeas9efr6
blockdev --getsize /dev/loop19
#        0 74078 linear /dev/loop19 0
#        74078 1 error
#        74079 160296 linear /dev/loop19 74079
dmsetup create fserror_test_1508727591.4736078
mount /dev/mapper/fserror_test_1508727591.4736078 /mnt/fserror_test_1508727591.4736078/
mount -t overlay -o lowerdir=/mnt/fserror_test_1508727591.4736078/,upperdir=/tmp/tmp4qpgdn7f,workdir=/tmp/tmp0jn83rlr overlay /tmp/tmpeuot7zgu/
./mmap_read /tmp/tmpeuot7zgu/test.txt
umount /tmp/tmpeuot7zgu/
rm -rf /tmp/tmp4qpgdn7f
rm -rf /tmp/tmp0jn83rlr
umount /mnt/fserror_test_1508727591.4736078/
dmsetup remove fserror_test_1508727591.4736078
losetup -d /dev/loop19
rm /tmp/tmpeas9efr6

查看此github仓库以获取执行测试的确切命令集。

注意所有这些测试都是在linux上完成的，所以fat指的是linux的fat实现，而不是windows的fat实现。zfs和reiserfs未测试，因为它们无法以我们测试其他文件系统的确切相同方式轻松测试（我们中一人花了一两个小时试图让zfs工作，但其配置接口与所有测试的文件系统不一致；reiserfs似乎有统一接口，但测试它需要对看似已死的文件系统做额外工作）。ext3支持现在由ext4代码提供，所以现在的ext3含义与2005年不同。

所有测试在ubuntu 17.04, 4.10.0-37和arch, 4.12.8-2上运行。我们在两台机器上得到相同结果。所有文件系统均使用默认配置。对于btrfs，这意味着复制元数据但不复制数据，据我们所知，设置对其他文件系统没有影响。

本文第二部分没有太多实验设置可说。设置是grep linux源代码中的相关函数。

感谢Leah Hanson、David Wragg、Ben Kuhn、Wesley Aptekar-Cassels、Joel Borggrén-Franck、Yuri Vishnevsky和Dan Puttick对本文的评论/纠正。

由 mimo-v2.5 模型翻译，花费 17962 tokens

键盘延迟

Mon, 16 Oct 2017 00:00:00 +0000

[AI 摘要] 文章通过实际测量指出，许多游戏键盘虽标榜低延迟，但实测延迟并不一定优于普通键盘，且现代键盘普遍增加了用户感知的延迟。

如果你观察“游戏”键盘，很多都以速度快为卖点，售价100美元或更高。你可能会看到如下广告文案：

定制设计的键帽，缩短了按键触发并注册操作所需的时间
8倍更快 - 1000Hz轮询率：响应时间0.1毫秒
配备45克轻压力轴体和比标准Cherry MX红轴快40%的触发速度，对你的对手施加终极性能优势
全球最快的超级轮询率1000Hz
全球最快的游戏键盘，1000Hz轮询率，0.001秒响应时间

尽管有这些说法，我只能找到一个人公开对键盘延迟进行了基准测试，而他只测试了两款键盘。总的来说，我的看法是，如果有人在没有基准测试的情况下提出性能声称，这些声称很可能不真实，就像未经测试（或未经其他方式验证）的代码应该被视为有缺陷一样。

游戏键盘的情况让我想起和汽车销售员交谈：

销售员：这辆车超级安全！它有12个安全气囊！我：那很好，但碰撞测试表现如何？销售员：12个安全气囊！

当然，游戏键盘有1000Hz轮询率，但那又怎样？

两个明显的问题是：

键盘延迟重要吗？
游戏键盘真的比其他键盘更快吗？

键盘延迟重要吗？

一年前，如果有人问我是否会构建自定义装置来测量键盘延迟，我会说这很傻，然而我现在正用逻辑分析仪测量键盘延迟。

这一切都始于我有一种感觉，一些旧电脑比现代机器反应快得多。例如，运行macOS 9的iMac G4或Apple 2都比我的4.2 GHz Kaby Lake系统感觉更快。我从不相信这种感觉，因为有几十年的研究表明，用户的感受常常与事实完全相反，所以我买了一台高速摄像机，开始测量实际的按键到屏幕更新延迟以及鼠标移动到屏幕更新延迟。事实证明，那些感觉快的机器确实更快，比我的现代计算机快得多——70年代和80年代的计算机通常在30ms到50ms范围内，而现代计算机在终端中按键时通常处于100ms到200ms范围内。在经过良好优化的游戏中，配合高端游戏设置，可以降到50ms范围内，有一款非凡的消费设备可以轻松低于50ms，但默认体验要慢得多。现代计算机拥有更好的吞吐量，但其延迟却不太理想。

总之，当我进行这些测量时，我的4.2 GHz Kaby Lake拥有你能买到的任何机器中最快的单线程性能，但其延迟却比一台来自70年代的快速机器（大约是Apple 2的6倍）更差，这似乎有点奇怪。为了弄清楚延迟从何而来，我开始测量键盘延迟，因为那是管道的第一部分。我的计划是查看端到端管道，并从起点开始，排除键盘延迟作为真正的延迟源。但结果键盘延迟相当显著！我惊讶地发现，我测试的键盘中位数延迟比Apple 2的整个端到端管道还要高。如果这让你立刻感到荒谬，请考虑Apple 2有3500个晶体管，运行在1MHz，而Atmel的一名员工估计，如今许多高端键盘中使用的内核有80k个晶体管，运行在16MHz。那是20倍的晶体管，运行在16倍的时钟速度——键盘通常比70年代和80年代的整台计算机更强大！然而，如今中等键盘增加的延迟与70年代快速机器的整个端到端管道相当。

让我们看看一些键盘上测量的按键到USB延迟：

键盘	延迟 (ms)	连接	游戏
apple magic (usb)	15	USB FS
hhkb lite 2	20	USB FS
MS natural 4000	20	USB
das 3	25	USB
logitech k120	30	USB
unicomp model M	30	USB FS
pok3r vortex	30	USB FS
filco majestouch	30	USB
dell OEM	30	USB
powerspec OEM	30	USB
kinesis freestyle 2	30	USB FS
chinfai silicone	35	USB FS
razer ornata chroma	35	USB FS	是
olkb planck rev 4	40	USB FS
ergodox	40	USB FS
MS comfort 5000	40	无线
easterntimes i500	50	USB FS	是
kinesis advantage	50	USB FS
genius luxemate i200	55	USB
topre type heaven	55	USB FS
logitech k360	60	“unifying”

延迟测量值是从按键开始移动到与该按键相关的USB数据包出现在USB总线上的时间。数字四舍五入到最近的5 ms，以避免给出虚假的精确感。easterntimes i500也以tomoko MMC023的名义销售。

连接列指示使用的连接类型。USB FS代表USB全速协议，它允许高达1000Hz的轮询率，这是高端键盘常用宣传的功能。USB是USB低速协议，是大多数键盘使用的协议。“游戏”列指示该键盘是否被标记为游戏键盘。无线表示某种键盘专用的加密狗，unifying是罗技的无线设备标准。

我们可以看到，即使在有限的键盘测试集下，键盘之间的延迟差异也可能高达45毫秒。此外，连接了较慢键盘的现代计算机不可能像70年代或80年代的快速机器那样灵敏，因为仅键盘本身就比某些旧计算机的整个响应管道还慢。

这确立了现代键盘是我们过去四十年所见的延迟膨胀的一个原因。问题的另一半是，现代键盘增加的延迟是否真的对用户有影响？从表格中可以看出，在测试的键盘中，平均延迟差异可达40毫秒。40毫秒的延迟能被察觉吗？让我们先看看一些键盘的延迟测量值，然后看看关于用户能察觉多少延迟的经验研究。

有相当多的经验证据表明，对于非常简单的任务，人们可以察觉到低至2毫秒或更短的延迟。此外，增加延迟不仅对用户来说是可察觉的，它还会导致用户执行简单任务时准确性下降。如果你想直观地了解延迟是什么样子，而且手边没有一台超快的旧计算机，可以看看这个关于触摸屏延迟的MSR演示。

游戏键盘比其他键盘更快吗？

我真的很想在做出有力声明之前测试更多键盘，但根据这里的初步测试，游戏键盘通常似乎并不比非游戏键盘更快。

游戏键盘经常声称拥有减少延迟的功能，例如通过USB FS连接并使用1000Hz轮询。USB低速规范规定数据包之间的最小时间为10ms，或100 Hz。然而，通常会看到USB设备将此时间向下舍入到最接近的2的幂，并以8ms或125Hz运行。在8ms轮询下，由于需要等待下一个轮询间隔而增加的平均延迟为4ms。在1ms轮询下，USB轮询带来的平均延迟为0.5ms，两者相差3.5ms。虽然对于像Apple magic键盘这样快速的键盘来说，这可能是延迟的一个重要贡献因素，但显然其他因素主导了大多数键盘的延迟，并且这里测试的游戏键盘如此之慢，以至于减少3.5ms也无济于事。

关于游戏键盘的另一点需要注意的是，它们通常宣传“N键无冲”（同时按下n个键的能力——对于许多键组合，典型键盘通常只允许同时按下两个键，不包括修饰键）。尽管这里通常没有测试，我试过一款“Razer DeathStalker Expert Gaming Keyboard”，它宣传“最多支持10个按键同时按下的防鬼键能力”。这款雷蛇游戏键盘并未以有用的方式实现此功能，许多三键组合无效。我想他们的广告声称在技术上可能是真实的，因为3在某些情况下可以“最多10个”，但就像游戏键盘声称通过1000 Hz轮询具有更低延迟一样，这种说法往好了说也是极具误导性的。

结论

大多数键盘增加了足够的延迟，导致用户体验明显变差，而宣传速度的键盘并不一定更快。我们测量的两款游戏键盘并不比非游戏键盘快，而测量的最快的键盘是一款来自Apple的极简键盘，其市场定位更侧重于设计而非速度。

先前，我们已经看到终端可以增加显著的延迟，在轻度悲观条件下，如果你选择“正确的”终端，延迟可达100毫秒。在未来的文章中，我们将查看整个端到端管道，看看其他地方延迟是如何悄悄增加的，我们还将看看一些现代设备如何保持低延迟。

附录：延迟从何而来？

一个主要的延迟来源是按键行程时间。测量的最快键盘也具有最短的按键行程距离，这并非巧合。我用来测量端到端延迟的视频设置是240帧/秒的摄像机，这意味着帧间隔为4毫秒。当拍摄“正常”按键和打字时，一个键完全按下需要4-8帧。大多数开关会在键完全按下之前就开始触发，但按键行程时间仍然很显著，很容易增加10ms的延迟（或更多，取决于开关机制）。与之对比的是测量的Apple“magic”键盘，其按键行程如此之短，以至于用240帧/秒的摄像机无法捕捉，表明按键行程时间<4毫秒。

请注意，与我在网上找到的另一个测量不同，此测量是从按键开始而非开关激活时开始的。因为作为一个人，你不是激活开关，你是按下键。从开关激活时间开始的测量会错过这个延迟的巨大组成部分。例如，如果你在玩游戏，看到某事发生时从前进切换到后退，你必须支付按键移动的代价，这对不同键盘是不同的。对此的一个常见回应是，“真正的”玩家会预加载按键，这样他们就不必支付按键行程的代价，但如果你拿着高速摄像机四处观察人们实际如何使用键盘，即使观察游戏玩家，显著预加载按键的按键比例基本上为零。如果你观察高水平的职业玩家，可能会看到不同的情况，但即便如此，例如，使用标准wasd或esdf布局的人们通常不会在从后退切换到前进时预加载按键。此外，认为按键有一堆无用的行程没关系，因为你可以在真正按下键之前先按下一点键的想法简直荒谬。这就像说现代计算机的延迟没关系，因为有些人构建的游戏盒子，在运行经过特殊优化的软件时，可以获得50毫秒的响应时间。普通的、非硬核游戏用户根本不会这样做。既然这是市场的绝大部分，即使所有“认真的”玩家都这样做，那也只是一个舍入误差。

另一个主要的延迟来源是扫描键盘矩阵和去抖动。这两种延迟都不是固有的——键盘使用矩阵而不是每个键一根线，因为这样可以节省几美元，大多数键盘扫描矩阵的速率如此之慢，以至于产生了人类可察觉的延迟，因为这样可以节省几美元，但制造商如果愿意在制造键盘上多花一点钱，就可以使该延迟远低于人类感知的阈值。关于去抖动延迟，请参见下文。

虽然我们在这篇文章中没有讨论吞吐量，但当我测量我的打字速度时，我发现我用低行程Apple键盘打字比用任何其他键盘都快。没有办法为此做盲测实验，但Gary Bernhardt和其他人也观察到了同样的现象。有些人声称按键行程对打字速度不重要，因为他们使用最小必要行程，因此这不可能重要，但就像上面关于按键的说法一样，如果你拿着高速摄像机观察人们实际打字时的情况，很难找到真正这样做的人。

2022年更新

当我进行这些实验时，似乎没有人测试过多款键盘的延迟。我觉得我得到的结果非常反直觉，所以我试图找到任何其他人的键盘延迟测量结果，我能找到的只是一篇论坛帖子，有人试图测量他们的键盘（仅一款），结果在同一范围内，但使用的设置不够快，无法真正正确测量延迟。我还用高速摄像机拍摄了我的测试以及非测试按键，以查看按键需要多长时间，结果与我现在得到的结果并非明显不一致。

在我写完这篇文章后的一两年，我目睹了一些游戏鼠标和键盘制造商讨论如何制造更低延迟的设备，他们开始发布确实具有更低延迟的设备，而不是他们之前拥有的那些，基本上是游戏皮肤，并且经常发光。

如果你想要一款非Apple键盘（我和很多人交谈过，他们报告说长时间使用Apple键盘后手指会疼）的低延迟键盘，SteelSeries Apex Pro延迟相当低；对于鼠标，Corsair Sabre也相当快。

自那时以来的另一个变化是，更多人理解去抖动不必增加明显的延迟。当我写原始文章时，有多个键盘制造商向我解释说这篇文章是错误的，在去抖动时不可能不增加延迟。我觉得这非常奇怪，因为我认为一个电气工程专业的新生，或者甚至一个玩电子的高中生，都应该明白为什么情况并非如此，但无论出于什么原因，多个以制造键盘为生的人不理解这一点。现在，如何在不增加延迟的情况下进行去抖动已成为常识，当我看到有人声称去抖动必然会增加大量延迟的讨论时，他们通常会被纠正。这种知识已传播到大多数键盘制造商，并降低了某些新键盘的延迟，尽管我知道至少有一家键盘制造商仍然不相信你可以进行低延迟的去抖动，他们新键盘的结果仍然是增加了相当多的延迟。

附录：对认为延迟不重要的常见论点的反驳

在撰写本文之前，我阅读了我能找到的关于延迟的内容，很难找到非专家文章或评论区没有至少一个以下列出的论点：

计算机和设备很快

对延迟问题最常见的回应是，输入延迟基本上为零，或者非常接近零，以至于可以忽略不计。例如，这篇询问键盘延迟的Slashdot文章上的两个顶级评论是键盘速度太快，以至于键盘速度无关紧要。甚至有人说：

没有一款现代键盘的延迟是50毫秒。你（人类）有那种延迟。至于响应时间，你只需要增加USB栈上的轮询时间就可以了。

正如我们所看到的，一些设备确实有50毫秒范围内的延迟。这段话以及该帖子中的其他评论说明了另一个常见的谬误——输入设备受限于USB轮询的速度。虽然这在技术上是可能的，但大多数设备远远不够快，以至于受到USB轮询延迟的限制。

不幸的是，大多数关于输入延迟的在线解释都假设USB总线是限制因素。

人类无法察觉100毫秒或200毫秒的延迟

这里有一位“研究视觉感知和认知的认知神经科学家”，他提到人类反应时间大约是200毫秒，然后又加了一堆科学术语来说没人能真正察觉到100毫秒以下的延迟。这有点不寻常，因为评论者声称某种特殊权威，并使用很多术语，但人们常声称你无法察觉到50毫秒或100毫秒的延迟，因为人类反应时间是200毫秒。这实际上没有道理，因为它们是独立的量。这种论证就像说你不会注意到航班延迟一小时，因为航班时长是六小时。

这种推理的另一个问题是，从按键到屏幕更新的完整管道相当长，如果你说在这里添加10毫秒，在那里添加10毫秒总是没关系的，你最终会在整个管道中得到更大的膨胀，这就是我们今天所处的情况，你可以购买一台拥有你能买到的最快单线程性能的CPU的系统，却得到70年代机器6倍的延迟。

没关系，因为游戏循环以60Hz运行

这从根本上与上述谬误相同。如果你有一个延迟等于时钟周期的一半，就有50%的几率该延迟会将事件推迟到下一个处理步骤。这比100%的几率好，但我不明白为什么人们认为延迟需要与时钟周期一样长才会有影响。作为参考，这里测量的最慢和最快键盘之间45ms的差异对应60fps下的2.7帧。

由于去抖动，键盘不可能比5毫秒/10毫秒/20毫秒更快响应

即使不通过复杂手段优化开关机制，如果你愿意在系统中引入滞后，键盘也没有理由不能在看到边沿时立即假定按键（或释放）正在发生。这在其他类型的系统中是常见的做法，据我所知，没有理由键盘不能做同样的事情（也许有些确实如此）。去抖动时间可能会限制按键的重复速率，但没有固有的理由它必须影响延迟。如果我们考虑重复速率，想象一下由于引入滞后，按键状态变化速率限制为5毫秒。这给了我们一个完整的按键周期（按下和释放）每10毫秒，或每个键每秒100次按键，这远远超出了任何人的能力。你可能会争辩说这引入了一种不精确性，这在某些应用（音乐、节奏游戏）中可能很重要，但这受限于开关机制。使用带有滞后的去抖动机制不会让我们比之前更糟。

去抖动延迟的另一个问题是，大多数键盘制造商似乎混淆了扫描速率和去抖动延迟。常见的是扫描速率在100 Hz到200 Hz范围内的键盘。这可以用“因为去抖动延迟是5ms，所以更快扫描没有意义”之类的说法来辩解，这结合了上面提到的两个谬误。如果你拿出Apple 2e的原理图，你会发现扫描速率大约是50 kHz。其去抖动时间大约是6毫秒，对应167 Hz的频率。为什么扫描这么快？快速扫描允许键盘控制器几乎立即（最多20微秒后）开始去抖动计时，而现代键盘以167 Hz扫描，可能在6毫秒后，或300倍的时间后才开始去抖动计时。

抱歉这里没有解释术语，但我认为任何提出这个异议的人都应该理解这个解释:-)。

附录：实验设置

USB测量设置是一个被切开以暴露电线的USB电缆，连接到逻辑分析仪。逻辑分析仪的确切型号并不重要，但如果你对细节感兴趣，这组实验使用了一个salae pro。虽然USB电缆的确切型号并不重要，但如果你想重复实验，我建议使用相对较短的USB电缆。切开电缆会损害信号完整性，我发现，使用很长的电缆时，一些弱驱动数据线的键盘驱动能力不足，无法用我使用的廉价逻辑分析仪获得良好的信号。

输入开始是通过同时按下两个键来测量的——键盘上的一个键和一个也连接到逻辑分析仪的按钮。这会引入一些抖动，因为两个按钮不会完全同时被按下。为了校准设置，我们使用了两个连接到逻辑分析仪的相同按钮。中位数抖动<1毫秒，90百分位抖动大约5毫秒。这足以使快速键盘的尾部延迟测量无法通过此设置实现，但像这里进行的平均延迟测量似乎应该没问题。输入抖动可能通过构建一个装置来减少到可忽略不计的水平，该装置可以同时触发逻辑分析仪并按下被测键盘上的一个键。有了这样的设置，平均延迟测量也会更好（因为更容易运行大量的测量）。

如果你想知道确切的设置，使用了一个E-switch LL1105AF065Q开关。电源和地线由一块arduino板提供。没有特别理由使用这个设置。事实上，用一个完整的arduino来供电有点荒谬，但这都是用手头的备用零件完成的，这些东西碰巧是RC实验室里的东西，除了开关。没有两种相同的开关，所以我们买了几个开关，以便可以用两个相同的开关进行校准测量。这里开关的确切类型并不重要；任何低电阻开关都可以。

测试通过按下z键，然后在USB总线上寻找字节29，然后标记包含相应信息的第一个数据包的结束来进行。但，如上所述，任何键都可以。

我实际上并不信任这个设置，我想在测试更多键盘之前构建一个完全自动化的设置。虽然测量结果与我能在网上找到的另一个键盘测量结果一致，但这个设置存在固有的不精确性，可能在1毫秒到10毫秒的范围内。虽然对多次测量取平均可以减少这种不精确性，但由于测量是由人完成的，不能保证甚至不太可能误差是独立的并会平均抵消。

这个项目是在Wesley Aptekar-Cassels、Leah Hanson和Kate Murphy的帮助下完成的。

感谢RC、Ahmad Jarara、Raph Levien、Peter Bhat Harkins、Brennan Chesley、Dan Bentley、Kate Murphy、Christian Ternus、Sophie Haskins和Dan Puttick，让我们使用他们的键盘进行测试。

感谢Leah Hanson、Mark Feeney、Greg Kennedy和Zach Allaun对本文的评论/修正/讨论。

由 mimo-v2.5 模型翻译，花费 19301 tokens

分支预测

Wed, 23 Aug 2017 00:00:00 +0000

[AI 摘要] 本文介绍CPU分支预测的基本原理、必要性以及从静态到动态的各种经典预测算法，旨在为读者理解现代分支预测研究奠定基础。

这是2017年8月22日在Two Sigma举行的关于分支预测的演讲伪记录，为RC组织的“localhost”系列演讲拉开序幕。

你们中有多少人在代码中使用分支？如果使用if语句或模式匹配，请举手示意。

大部分听众举手

接下来的部分我不请你们举手了，但我猜想，如果我问有多少人觉得自己能很好地理解CPU执行分支时做了什么、这对性能有什么影响，以及有多少人觉得自己能理解现代关于分支预测的论文，举手的人会变少。

本次演讲的目的是解释CPU“分支预测”的方式和原因，并介绍经典分支预测算法的基本原理，使你能够阅读关于分支预测的现代论文并大致理解其内容。

在讨论分支预测之前，我们先探讨CPU为什么要做分支预测。为此，我们需要了解一点CPU的工作原理。

就本次演讲而言，你可以将计算机想象为CPU加一些内存。指令存储在内存中，CPU从内存中执行一系列指令，这些指令类似于“将两个数相加”、“将一块数据从内存移动到处理器”等。通常，执行完一条指令后，CPU将执行下一个顺序地址处的指令。然而，存在一种称为“分支”的指令，可以改变下一条指令的来源地址。

以下是CPU执行一些指令的抽象示意图。x轴代表时间，y轴区分不同的指令。

这里，我们依次执行指令A、B、C、D。

一种可能的CPU设计方式是让CPU完成一条指令的所有工作，然后继续下一条指令，完成下一条的所有工作，以此类推。这没什么问题；许多老式CPU就是这样做的，一些现代低成本CPU仍然如此。但如果你想制造更快的CPU，你可能会制造像流水线一样工作的CPU。也就是说，你将CPU分成两部分，这样一半CPU可以做指令的“前半部分”工作，而另一半CPU处理指令的“后半部分”工作，就像流水线一样。这通常被称为流水线CPU。

如果你这样做，执行过程可能看起来像上图。在指令A的前半部分完成后，CPU可以在执行指令B的前半部分的同时处理A的后半部分。当A的后半部分完成时，CPU可以开始处理B的后半部分和C的前半部分。在此图中，你可以看到流水线CPU在单位时间内可以执行的指令数是非流水线CPU的两倍。

CPU没有理由只能分成两部分。我们可以将CPU分成三部分，获得3倍加速，或分成四部分获得4倍加速。这并非严格成立，通常对于三级流水线或四级流水线，我们获得的加速比小于3倍或4倍，因为将CPU分成更多部分并使用更深的流水线会产生开销。

一个开销来源是如何处理分支。CPU为一条指令需要做的第一件事就是获取指令；为此，它必须知道指令的位置。例如，考虑以下代码：

if (x == 0) {
  // 做些事情
} else {
  // 做其他事情
}
  // 后续操作

这可能转化为类似下面的汇编代码：

branch_if_not_equal x, 0, else_label
// 做些事情
goto end_label
else_label:
// 做其他事情
end_label:
// 后续操作

在这个例子中，我们将x与0进行比较。if_not_equal，则跳转到else_label并执行else块中的代码。如果比较失败（即x为0），则继续执行，执行if块中的代码，然后跳转到end_label以避免执行else块中的代码。

对流水线处理来说特别有问题的指令序列是：

branch_if_not_equal x, 0, else_label
???

CPU不知道这会是

branch_if_not_equal x, 0, else_label
// 做些事情

还是

branch_if_not_equal x, 0, else_label
// 做其他事情

直到分支完成（或几乎完成）执行。由于CPU为一条指令需要做的第一件事就是从内存中获取指令，而我们不知道???会是什么指令，因此在前一条指令几乎完成之前，我们甚至无法开始处理???。

早些时候，当我们说三级流水线能获得3倍加速或20级流水线能获得20倍加速时，那假设是每个周期都能启动一条新指令，但在这里，这两条指令几乎是串行的。

解决这个问题的一种方法是使用分支预测。当遇到分支时，CPU会猜测分支是“跳转”还是“不跳转”。

在这种情况下，CPU预测分支不会被采用，并在执行分支后半部分的同时开始执行stuff的前半部分。如果预测正确，CPU将在执行stuff后半部分时，像我们在第一个流水线图中看到的那样，可以开始另一条指令。

如果预测错误，当分支完成执行时，CPU将丢弃stuff.1的结果，并开始执行正确的指令而不是错误的指令。因为如果没有分支预测，我们会停顿处理器且不执行任何指令，所以我们的处境并不比没有做预测时更糟（至少在我们考虑的详细程度上）。

这样做对性能有什么影响？为了估算，我们需要一个性能模型和一个工作负载。就本次演讲而言，我们的CPU卡通模型是一个流水线CPU，其中非分支指令平均每个时钟执行一条，未预测或预测错误的分支需要20个周期，正确预测的分支需要一个周期。

如果我们看看最常用的“工作站”整数工作负载基准测试SPECint，其组成大约是20%分支和80%其他操作。在没有分支预测的情况下，我们预计“平均”指令耗时分支百分比 * 1 + 非分支百分比 * 20 = 0.2 * 20 + 0.8 * 1 = 4 + 0.8 = 4.8周期。在完美、100%准确的分支预测下，我们预计平均指令耗时为0.8 * 1 + 0.2 * 1 = 1周期，加速比达4.8倍！另一种看法是，如果我们的流水线具有20个周期的分支预测错误代价，那么仅分支一项就带来了接近5倍于理想流水线加速比的额外开销。

让我们看看能做些什么来改善。我们将从最朴素的方法开始，逐步介绍更好的方案。

总是预测跳转

与其随机预测，我们可以查看所有程序执行中的所有分支。如果我们这样做，会发现“跳转”和“不跳转”分支并不完全平衡——跳转的分支比不跳转的分支多得多。一个原因是循环分支通常是跳转的。

如果我们预测每个分支都是跳转的，可能会达到70%的准确率，这意味着我们将为30%的分支支付预测错误代价，使得平均指令代价为(0.8 + 0.7 * 0.2) * 1 + 0.3 * 0.2 * 20 = 0.94 + 1.2 = 2.14周期。如果我们将“总是预测跳转”与“无预测”和“完美预测”进行比较，尽管它是一个非常简单的算法，却获得了完美预测大部分的好处。

向后跳转则跳转，向前跳转则不跳转（BTFNT）

预测分支为跳转对循环效果很好，但对其他所有分支效果不佳。如果我们根据分支是向前跳转（跳过代码）还是向后跳转（回到之前的代码）来查看分支是否被跳转，我们会看到向后跳转的分支比向前跳转的分支更常被跳转，因此我们可以尝试一种预测器，预测向后跳转的分支会跳转，向前跳转的分支不会跳转（BTFNT）。如果我们在硬件中实现这种方案，编译器作者会与我们合作，安排代码使得编译器认为会跳转的分支是向后跳转的，而认为不会跳转的分支是向前跳转的。

如果我们这样做，可能达到约80%的预测准确率，使得我们的代价函数为(0.8 + 0.8 * 0.2) * 1 + 0.2 * 0.2 * 20 = 0.96 + 0.8 = 1.76每指令周期。

使用者

PPC 601（1993年）：也使用编译器生成的分支提示
PPC 603

一位预测器

到目前为止，我们研究的是不存储任何状态的方案，即预测忽略程序执行历史的方案。在文献中，这些被称为静态分支预测方案。这些方案的优点是简单，但缺点是对于那些行为随时间变化的分支预测效果不佳。如果你想看一个行为随时间变化的分支示例，可以想象如下代码：

if (flag) {
  // 事情
  }

在程序执行过程中，我们可能有一个阶段flag被设置且分支被跳转，另一个阶段flag未被设置且分支未被跳转。静态方案无法对此类分支做出良好的预测，因此让我们考虑动态分支预测方案，其预测可以根据程序历史而变化。

我们可能做的最简单的事情之一是根据分支的上次结果进行预测，即如果分支上次跳转，我们预测跳转；如果分支上次未跳转，我们预测未跳转。

因为为每个可能的分支存储一个位数太多了，无法可行存储，所以我们维护一个包含我们见过的一定数量的分支及其上次结果的表。在本次演讲中，让我们将未跳转存储为0，将跳转存储为1。

在这种情况下，仅仅为了让内容适合图示，我们有一个64项的表，这意味着我们可以用6位索引，因此我们用分支地址的低6位索引表。执行一个分支后，我们更新预测表中的条目（如下所示），下次再次执行该分支时，我们索引到相同的条目并使用更新后的值进行预测。

我们可能会观察到别名，即两个不同位置的分支映射到表中的同一位置。这并不理想，但在表的速度和成本与大小之间存在权衡，这实际上限制了表的大小。

如果我们使用一位方案，可能会达到85%的准确率，代价为(0.8 + 0.85 * 0.2) * 1 + 0.15 * 0.2 * 20 = 0.97 + 0.6 = 1.57每指令周期。

使用者

DEC EV4（1992年）
MIPS R8000（1994年）

两位预测器

一位方案对于TTTTTTTT…或NNNNNNN…这样的模式效果良好，但对于大多数跳转但有一个不跳转的分支流...TTTNTTT...，会导致预测错误。这可以通过为每个地址添加第二位并实现一个饱和计数器来修复。让我们任意地说，当分支不跳转时计数减少，当跳转时计数增加。如果我们查看二进制值，最终会得到：

00: 预测不跳转
01: 预测不跳转
10: 预测跳转
11: 预测跳转

饱和计数器的“饱和”部分意味着，如果我们从00向下计数，它不会下溢，而是停留在00；从11向上计数时停留在11的情况类似。此方案与一位方案相同，只是预测表中的每个条目是两位而不是一位。

与一位方案相比，两位方案在相同大小/成本下可以有一半的条目（如果我们只考虑存储成本而忽略饱和计数器的逻辑成本），但即便如此，对于大多数合理的表大小，两位方案提供了更好的准确率。

尽管简单，但这效果很好，我们可能期望两位预测器达到约90%的准确率，这给我们带来了1.38每指令周期的代价。

一个自然的做法是将该方案推广到n位饱和计数器，但事实证明，增加更多位对准确率的影响相对较小。我们还没有真正讨论分支预测器的成本，但从每个分支2位增加到3位会使表大小增加1.5倍，而收益甚微，这使得在大多数情况下不值得付出成本。两位方案预测不佳的最简单和最常见的情况是NTNTNTNTNT...或NNTNNTNNT…这样的模式，但增加到n位也无法很好地预测这些模式！

使用者

LLNL S-1（1977年）
CDC Cyber?（80年代初）
Burroughs B4900（1982年）：状态存储在指令流中；硬件会覆盖指令以更新分支状态
Intel Pentium（1993年）
PPC 604（1994年）
DEC EV45（1993年）
DEC EV5（1995年）
PA 8000（1996年）：实际上是一个3位移位寄存器，带多数表决

两级自适应，全局（1991年）

如果我们考虑如下代码：

for (int i = 0; i < 3; ++i) {
  // 这里的代码。
  }

这段代码会产生类似TTTNTTTNTTTN...的分支模式。

如果我们知道分支的最近三次执行，我们应该能够预测分支的下一次执行：

TTT:N
TTN:T
TNT:T
NTT:T

我们之前考虑的方案使用分支地址索引到一个表，该表告诉我们根据最近历史，分支更可能跳转还是不跳转。这告诉我们分支倾向于哪个方向，但它无法告诉我们是否处于重复模式的中间。为了解决这个问题，我们将存储最近分支的历史以及一个预测表。

在这个例子中，我们将4位分支历史与2位分支地址连接起来索引预测表。与之前一样，预测来自一个两位饱和计数器。我们不想仅使用分支历史来索引预测表，因为如果这样做，任何具有相同历史的两个分支都会别名到同一表项。在真正的预测器中，我们可能会有一个更大的表并使用更多的分支地址位，但为了让表适合幻灯片，我们的索引只有6位长。

下面，我们将看到执行分支时更新了什么。

粗体部分是被更新的部分。在此图中，我们从右向左移入新的分支历史位，更新分支历史。由于分支历史被更新，预测表索引的低位被更新，因此下次再次执行同一分支时，我们将使用表中的不同条目进行预测，这与之前索引由分支地址固定的方案不同。旧条目的值被更新，因此下次再次执行具有相同分支历史的同一分支时，我们将拥有更新的预测。

由于此方案中的历史是全局的，它将正确预测内层循环中的NTNTNTNT…等模式，但可能并非总能对更高级别的分支做出正确预测，因为历史是全局的，会被其他分支的信息污染。然而，这里的权衡是，保持全局历史比保持一个本地历史表更便宜。此外，使用全局历史让我们能够正确预测相关分支。例如，我们可能有：

if x > 0:
  x -= 1
if y > 0:
  y -= 1
if x * y > 0:
  foo()

如果第一个分支或下一个分支未跳转，那么第三个分支肯定不会跳转。

使用此方案，我们可能达到93%的准确率，给我们带来1.27每指令周期的代价。

使用者

Pentium MMX（1996年）：4位全局分支历史

两级自适应，局部（1992年）

如上所述，全局历史方案的一个问题是，可以被干净预测的本地分支的历史会被其他分支污染。

获得良好本地预测的一种方法是为不同的分支保持单独的分支历史。

我们不是保持单个全局历史，而是保持一个局部历史表，通过分支地址索引。此方案与我们刚看过的全局方案相同，只是我们保持了多个分支历史。一种思考方式是，全局历史是局部历史的特例，其中我们跟踪的历史数量为1。

使用此方案，我们可能达到约94%的准确率，这给我们带来了1.23每指令周期的代价。

使用者

Pentium Pro（1996年）：4位局部分支历史，用PC的低位索引。注意这存在一些争议，Agner Fog声称PPro及后续处理器使用4位全局历史
Pentium II（1997年）：同PPro
Pentium III（1999年）：同PPro

gshare

全局两级方案必须做出的一个权衡是，对于固定大小的预测表，必须将位分配给分支历史或分支地址。我们希望将更多位分配给分支历史，因为这允许跨越更“远距离”的关联以及跟踪更复杂的模式；我们希望将更多位分配给分支地址，以避免不相关分支之间的干扰。

我们可以通过同时哈希分支历史和分支地址来尝试兼顾两者，而不是连接它们。一种最简单合理的做法，也是第一个提出的机制是xor它们。这种将位xor在一起的两级自适应方案称为gshare。

使用此方案，我们可能看到约94%的准确率。这是我们从刚看过的局部方案获得的准确率，但gshare避免了保持大型局部历史表的需要；在需要跟踪更少状态的情况下获得相同的准确率是一个重大改进。

使用者

MIPS R12000（1998年）：2K条目，11位PC，8位历史
UltraSPARC-3（2001年）：16K条目，14位PC，12位历史

同意预测器（1997年）

分支预测错误的原因之一是不同分支别名到同一位置时的干扰。有许多方法可以减少别名到同一预测表项的分支之间的干扰。事实上，本次演讲只涉及90年代发明的方案的原因是，提出了各种各样的减少干扰的方案，内容太多无法在半小时内覆盖。

我们将看一个方案，它可能会让你了解减少干扰方案的样子，即“同意”预测器。当两个分支-历史对冲突时，预测要么匹配，要么不匹配。如果匹配，我们称之为中性干扰；如果不匹配，我们称之为负面干扰。其思想是大多数分支往往有强烈的倾向（也就是说，如果我们在预测表中使用两位条目，我们期望没有干扰时大多数条目在大多数时间是00或11，而不是01或10）。对于程序中的每个分支，我们将存储一个位，我们称之为“倾向”。预测表不是存储绝对的分支预测，而是存储预测是否与倾向匹配或不匹配。

如果我们看看这是如何工作的，预测器与gshare预测器相同，只是我们做了上述更改——预测是同意/不同意而不是跳转/不跳转，并且有一个通过分支地址索引的倾向位，为我们提供了同意或不同意的对象。在原始论文中，他们建议使用你看到的第一个值作为倾向，其他人建议使用配置文件引导优化（基本上运行程序并将数据反馈给编译器）来确定倾向。

注意，当我们执行一个分支，然后稍后回到同一分支时，我们将使用相同的倾向位（因为倾向是通过分支地址索引的），但我们将使用不同的预测表项（因为那是通过分支地址和分支历史索引的）。

如果这看起来奇怪，让我们看一个具体例子。假设我们有两个分支，分支A有90%的概率跳转，分支B有10%的概率跳转。如果这两个分支别名，我们假设每个分支跳转的概率是独立的，那么它们不一致并产生负面干扰的概率是P(A跳转) * P(B不跳转) + P(A不跳转) * P(B跳转) = (0.9 * 0.9) + (0.1 * 0.1) = 0.82。

如果使用同意方案，我们可以重新计算，但两个分支不一致并产生负面干扰的概率是P(A同意) * P(B不同意) + P(A不同意) * P(B同意) = P(A跳转) * P(B跳转) + P(A不跳转) * P(B跳转) = (0.9 * 0.1) + (0.1 * 0.9) = 0.18。另一种看法是，要发生破坏性干扰，其中一个分支必须与其倾向不一致。根据定义，如果我们正确确定了倾向，这不太可能发生。

使用此方案，我们可能达到约95%的准确率，给我们带来1.19每指令周期的代价。

使用者

PA-RISC 8700（2001年）

混合预测器（1993年）

正如我们所看到的，局部预测器可以很好地预测某些类型的分支（例如内层循环），全局预测器可以很好地预测某些类型的分支（例如某些相关分支）。一种尝试兼顾两者优势的方法是同时拥有两种预测器，然后有一个元预测器来预测应该使用局部还是全局预测器。一个简单的方法是让元预测器使用与上面两位预测器相同的方案，只不过它预测的不是跳转或不跳转，而是局部预测器或全局预测器。

正如存在许多可能的减少干扰的方案（上面的同意预测器是其中之一），也存在许多可能的混合方案。我们可以使用任何两种预测器，而不仅仅是局部和全局预测器，我们甚至可以使用两种以上的预测器。

如果我们使用局部和全局预测器，我们可能达到约96%的准确率，给我们带来1.15每指令周期的代价。

使用者

DEC EV6（1998年）：局部（1k条目，10位历史，3位计数器）和全局（4k条目，12位历史，2位计数器）预测器的组合
IBM POWER4（2001年）：局部（16k条目）和gshare（16k条目，11位历史，与分支地址异或，16k选择器表）
IBM POWER5（2004年）：双模态（未涵盖）和两级自适应的组合
IBM POWER7（2010年）

未涵盖的内容

本次演讲中我们有很多内容没有涵盖！正如你可能预料的，我们未涵盖的材料集合比我们涵盖的要大得多。我将简要描述一些我们没有涵盖的内容，并提供参考文献，以便你如果想了解更多信息可以查阅。

一个主要我们没谈到的是如何预测分支目标。注意，即使对于一些无条件分支（即不需要方向预测因为总是跳转的分支），也需要这样做，因为(某些)无条件分支有未知的目标。

分支目标预测成本很高，以至于一些早期CPU的分支预测策略是“总是预测不跳转”，因为当预测分支不会被跳转时，不需要分支目标！总是预测不跳转的准确率不高，但仍然比根本不预测要好。

在我们没有讨论的减少干扰的预测器中，包括双模态、gskew和YAGS。简单来说，双模态有点像同意预测器，它尝试根据方向分离分支，但双模态使用的机制是，我们保持多个预测表，并使用基于分支地址的第三个预测器来预测对于特定的分支和分支历史组合使用哪个预测表。双模态似乎比同意预测器更成功，因为它被更广泛地使用。在gskew中，我们至少保持三个预测表，并使用不同的哈希来索引每个表。其思想是，即使两个分支别名，这两个分支也只会在一个表中别名，因此我们可以使用投票，另外两个表的结果将覆盖可能来自别名表的不良结果。我不知道如何简要描述YAGS :-)。

因为我们没有讨论速度（即延迟），所以我们没有讨论的一个预测策略是拥有一个小/快的预测器，当较慢但更准确的预测器计算出其结果时，可以覆盖它。

一些现代CPU有完全不同的分支预测器；AMD Zen（2017年）和AMD Bulldozer（2011年）芯片似乎使用基于感知器的分支预测器。感知器是单层神经网络。

有人认为Intel Haswell（2013年）使用TAGE预测器的变体。TAGE代表TAgged GEometric history length predictor。如果我们看看我们涵盖过的预测器，并查看程序的实际执行以查看哪些分支我们预测不正确，一个主要类别是需要大量历史的分支——相当多的分支需要几十或几百位历史，有些甚至需要超过一千位分支历史。如果我们有一个单一的预测器，甚至是一个结合几种不同预测器的混合预测器，保持一千位历史是适得其反的，因为这会降低对那些需要相对少量历史的分支（特别是相对于成本而言，这是大多数分支）的预测准确率。TAGE预测器的一个思想是，通过保持几何级数的历史长度，每个分支都可以使用适当的历史。这解释了GE部分。TA部分是分支被标记，这是预测器用来跟踪哪些分支应使用哪组历史的机制，我们没有讨论过。

现代CPU通常有专门的预测器，例如循环预测器可以准确预测循环分支，而通用分支预测器无法合理存储足够的历史来对循环的每次迭代做出完美预测。

我们完全没有讨论使用更多空间和获得更好预测之间的权衡。改变表的大小不仅会改变预测器的性能，还会改变哪些预测器相对更好。

我们也没有讨论不同的工作负载如何影响不同的分支预测器。预测器性能不仅基于表大小而变化，还基于运行的特定程序而变化。

我们还将分支预测错误代价视为固定的东西，但事实并非如此，同样，非分支指令的代价在不同工作负载之间也有很大差异。

我尽量避免引入非自解释的术语，因此如果你阅读文献，术语会有所不同。

结论

我们研究了各种经典的分支预测器，并非常简要地讨论了几种较新的预测器。我们讨论的一些经典预测器今天仍在CPU中使用，如果这是一个一小时而不是半小时的演讲，我们可以讨论最先进的预测器。我认为很多人觉得CPU神秘且难以理解，但我认为CPU实际上比软件更容易理解。我可能有偏见，因为我以前研究CPU，但我认为这不是我偏见的结果，而是根本性的。

如果你考虑软件的复杂性，主要的限制因素是你的想象力。如果你能想象出足够详细的东西并能写下来，你就能制造出来。当然，有些情况下那不是限制因素，有更实际的东西（例如大规模应用程序的性能），但我认为我们大多数人把大部分时间花在编写软件上，其中限制因素是创造和管理复杂性的能力。

硬件与此大不相同，因为存在反对复杂性的力量。你实现的每一块硬件都要花钱，所以你想实现尽可能少的硬件。此外，性能对大多数硬件很重要（无论是绝对性能还是每美元、每瓦特或其他成本的性能），而增加复杂性会使硬件变慢，从而限制性能。今天，你可以花300美元购买一个现成的CPU，可以超频到5 GHz。在5 GHz下，一个工作单元是五分之一纳秒。作为参考，光在一纳秒内大约传播一英尺。另一个限制因素是当CPU不能一直完美工作时，人们会非常不高兴。虽然CPU确实有bug，但bug率比几乎所有软件都低得多，也就是说，验证/测试的标准高得多。增加复杂性使测试和验证变得更困难。因为CPU的正确性标准高于大多数软件，增加复杂性给CPU带来了更高的测试/验证负担，这使得增加类似数量的复杂性在硬件上比在软件上成本高得多，即使不考虑我们讨论的其他因素。

这些反对芯片复杂性的因素的一个副作用是，对于任何特定的“高级”通用CPU功能，它通常概念上足够简单，可以在半小时或一小时的演讲中描述。CPU比许多程序员想象的更简单！顺便说一下，我说“高级”是为了排除像晶体管和电路设计这样的东西，它们可能需要相当多的底层（物理或固态）背景才能理解。

CPU内部系列

感谢Leah Hanson、Hari Angepat和Nick Bergson-Shilcock审阅了演讲的练习版本，感谢Fred Clausen Jr.在本文中发现了一个错别字。对于本文有些草率的状态表示歉意——我写得很快，以便参加演讲的人可以很快参考“记录”并查找参考文献，但这意味着错误可能比通常多，组织结构也不如普通博客文章好。特别是，在演讲中通过一系列动画解释的内容，在文中没有以相同程度的细节解释。我浏览时注意到，对每种预测器不擅长处理哪些分支的解释较少，因此对每个预测器的动机说明也较少。我可能会尝试回头添加更多动机，但不太可能完全重组文章并在有几幅静态图形与文本相邻时生成一组新的更能传达概念的图形。感谢Julien Vivenot、Ralph Corderoy、Vaibhav Sagar、Mindy Preston、Stefan Kanthak和Uri Shaked在这篇仓促写成的文章中发现错别字。

由 mimo-v2.5 模型翻译，花费 20443 tokens

Sattolo算法

Wed, 9 Aug 2017 00:00:00 +0000

[AI 摘要] 本文解释了Sattolo算法如何通过交换不同循环的元素，生成一个恰好包含一个循环的排列。

我最近遇到一个问题，解决方案的一部分是进行一系列指针访问，以伪随机顺序遍历一块内存。Sattolo算法为这个问题提供了解决方案，因为它生成了一个列表的排列，且该排列恰好只有一个循环，这保证了我们即使以随机顺序遍历，也能到达列表的每个元素。

然而，我在网上能找到的解释该算法为何有效的说明，要么使用了某种数学工具（如斯特林数、假设读者熟悉循环表示法等），要么使用了我难以跟随的逻辑。我发现对于那些可以但不必使用大量数学工具来解释的概念，这种情况很常见。我并不认为使用现有数学方法本身有什么问题——如果你熟悉这些概念，它是一个不错的思维捷径。如果你正在上组合数学课，涵盖斯特林数然后快速得出一系列结果（如果你熟悉斯特林数，这些结果的证明是微不足道的）是有意义的，但对于那些只对单个结果感兴趣的人来说，不幸的是很难找到一个相对简单、不需要任何背景知识的解释。当我在寻找简单解释时，还发现很多人在不恰当的地方使用了Sattolo算法，也有许多人不知道他们寻找的正是Sattolo算法，所以这里尝试提供一个不假设具有本科组合数学背景的、解释该算法为何有效的说明。

在我们看Sattolo算法之前，先来看一下Fisher-Yates算法。这是一个原地算法，用于生成数组/向量的随机排列，其中每种可能的排列都以均匀概率出现。

我们将查看Fisher-Yates的代码，然后看如何证明该算法产生了预期结果。

def shuffle(a):
    n = len(a)
    for i in range(n - 1):  # i 从 0 到 n-2，包含。
        j = random.randrange(i, n)  # j 从 i 到 n-1，包含。
        a[i], a[j] = a[j], a[i]  # 交换 a[i] 和 a[j]。

shuffle 接受一个数组并产生该数组的一个排列，即洗牌。我们可以将这个循环视为依次放置数组 a 的每个元素，从 a[0] 到 a[n-2]。在某次迭代 i 中，我们从 n-i 个元素中选择一个进行交换，并将元素与某个随机元素交换。数组的最后一个元素 a[n-1] 被跳过，因为它总是会与自身交换。一种能看出这能以均匀概率产生每种可能排列的方法是写下每个元素最终出现在任何特定位置的概率¹。另一种方法是观察该算法的两个事实：

Fisher-Yates产生的每个输出都是以均匀概率产生的

Fisher-Yates产生的输出数量与排列数量相同（且每个输出都是一个排列）

(1) 对于我们在算法中进行的每次随机选择，如果我们做出不同的选择，就会得到不同的输出。例如，如果我们看结果中的 a[0]，将原始 a[k]（对于某个 k）中的元素放置到结果 a[0] 中的唯一方法是在迭代 0 中交换 a[0] 和 a[k]。如果我们选择不同的元素进行交换，最终会得到不同的 a[0]。一旦我们放置了 a[0] 并查看结果 a[1]，对于 a[1] 以及每个 a[i] 同样如此。此外，每次选择都以相同的幅度缩减范围——存在某种对称性，尽管我们先放置 a[0]，但本可以先放置任何其他元素；每次选择都有相同的效果。这有点类似于你可以通过每次均匀随机选择一个数字来均匀随机选择一个整数的原因。

(2) Fisher-Yates产生多少种不同的输出？在第一次迭代中，我们固定了 a[0] 的 n 种可能选择之一，然后在给定该选择的情况下，我们固定了 a[1] 的 n-1 种选择之一，接着是 a[2] 的 n-2 种，依此类推，因此有 n * (n-1) * (n-2) * ... 2 * 1 = n! 种可能的不同输出。

这与 n 个元素的可能排列数完全相同，推理过程也基本相同。如果我们想计算 n 个元素的可能排列数，我们首先为第一个位置选择 n 种可能元素之一，为第二个位置选择 n-1 种，依此类推，得到 n! 种可能的排列。

由于Fisher-Yates只产生唯一的排列，并且输出数量与排列数量完全相同，因此Fisher-Yates产生每种可能的排列。由于Fisher-Yates以均匀概率产生每个输出，因此它以均匀概率产生所有可能的排列。

现在，让我们看看Sattolo算法，它几乎与Fisher-Yates相同，也产生输入的洗牌版本，但产生的东西却大不相同：

def sattolo(a): n = len(a) for i in range(n - 1): j = random.randrange(i+1, n) # i+1 而不是 i a[i], a[j] = a[j], a[i]

我们不是像在Fisher-Yates中那样随机选择一个元素进行交换，而是随机选择一个不是被放置元素的元素，即我们不允许一个元素与自身交换。这的一个副作用是没有任何元素最终停留在其原始位置。

在我们讨论为什么这能产生预期结果之前，让我们先确保在术语上达成共识。看待数组的一种方式是将其视为图的描述，其中索引指示节点，值指示边指向的位置。例如，如果我们有列表 0 2 3 1，可以将其视为从其索引指向其值的有向图，这是一个具有以下边的图：

0 -> 0 1 -> 2 2 -> 3 3 -> 1

节点0指向自身（因为索引0处的值为0），节点1指向节点2（因为索引1处的值为2），依此类推。如果我们遍历这个图，会发现有两个循环。0 -> 0 -> 0 ... 和 1 -> 2 -> 3 -> 1...。

假设我们交换位置0的元素与某个其他元素。可以是任何元素，但假设我们与位置2的元素交换。那么我们将得到列表 3 2 0 1，可以将其视为以下图：

0 -> 3 1 -> 2 2 -> 0 3 -> 1

如果我们遍历这个图，会看到循环 0 -> 3 -> 1 -> 2 -> 0...。这是一个恰好有一个循环的排列的示例。

如果我们交换两个属于不同循环的元素，会将两个循环合并成一个循环。一种理解方式是，当我们交换列表中的两个元素时，我们实际上是抬起指向每个元素的箭头头部并交换它们的指向（而不是保持不动的箭头尾部）。追踪这个结果就像追踪一个8字形。举个例子，假设我们将 0 与另一个循环的任意元素交换，比如元素2，我们最终会得到 3 2 0 1，其唯一的循环是 0 -> 3 -> 1 -> 2 -> 0...。注意这个操作是可逆的——如果我们再次进行相同的交换，会再次得到两个循环。一般来说，如果我们交换来自同一循环的两个元素，会将该循环拆分成两个独立的循环。

如果我们向Sattolo算法输入由 0 1 2 ... n-1 组成的列表，我们将得到一个恰好有一个循环的排列。此外，我们生成任何具有恰好一个循环的排列的概率是相同的。让我们看看Sattolo算法为什么能生成恰好一个循环。之后，我们将弄清楚为什么它能以均匀概率生成所有可能的循环排列。

对于Sattolo算法，假设我们从列表 0 1 2 3 ... n-1 开始，即一个包含 n 个长度为 1 的循环的列表。在每次迭代中，我们进行一次交换。如果我们在两个独立的循环中交换元素，将合并这两个循环，将循环数量减少1。然后我们将进行 n-1 次迭代，将循环数量从 n 减少到 n - (n-1) = 1。

现在让我们看看为什么可以安全地假设我们总是交换来自不同循环的元素。在算法的每次迭代中，我们将某个索引 > i 的元素与索引 i 处的元素交换，然后递增 i。由于 i 被递增，放入索引 i 的元素再也不会被交换，即每次交换将被交换的两个元素中的一个放入其最终位置，即对于每次交换，我们取两个可能可交换的元素并使其中一个变得不可交换。

一开始，我们有 n 个长度为 1 的循环，每个循环有 1 个可交换元素。当我们用某个随机元素交换初始元素时，我们将取一个可交换元素并使其不可交换，创建一个长度为 2 的循环（其中有 1 个可交换元素），并留下 n-2 个其他循环（每个有 1 个可交换元素）。

维护的关键不变式是每个循环恰好有 1 个可交换元素。当我们有 n 个长度为 1 的循环时，该不变式在开始时成立。只要这个事实成立，每次我们合并任意长度的两个循环时，我们将取一个循环中的可交换元素与另一个循环中的可交换元素交换，使两个元素中的一个变得不可交换，并创建一个仍然只有一个可交换元素的更长循环，从而维持不变式。

由于我们无法交换来自同一循环的两个元素，因此每次交换都会合并两个循环，每次迭代将循环数量减少1，直到我们运行了 n-1 次迭代，恰好剩下一个循环。

为了看出我们以相同概率生成每个循环，注意每种输出只有一种产生方式，即改变任何特定的随机选择都会导致不同的输出。在第一次迭代中，我们随机选择 n-1 种放置方式之一，然后 n-2 种，然后 n-3 种，依此类推，因此对于任何特定的循环，我们以概率 (n-1) * (n-2) * (n-3) ... * 2 * 1 = (n-1)! 生成它。如果我们能证明有 (n-1)! 个具有恰好一个循环的排列，那么我们就知道我们以均匀概率生成每个具有恰好一个循环的排列。

假设我们有一个长度为 n 的任意列表，恰好有一个循环，并且我们添加一个元素，有 n 种方式将其扩展为长度为 n+1 的循环，因为我们可以将新元素添加到 n 个位置中的任何一个并保持循环，这意味着长度为 n+1 的循环数，cycles(n+1)，是 n * cycles(n)。

例如，假设我们有一个产生路径 0 -> 1 -> 2 -> 0 ... 的循环，并且我们想要添加一个新元素 3。我们可以用 -> 3 -> 替换任何一个 ->，从而得到一个长度为4而不是长度为3的循环。

在基础情况下，有一个长度为2的循环，即排列 1 0（长度为2的另一个排列 0 1 有两个长度为1的循环，而不是一个长度为2的循环），因此我们知道 cycles(2) = 1。如果我们应用上述递推关系，得到 cycles(n) = (n-1)!，这恰好是Sattolo算法生成的不同排列的数量，这意味着我们生成了所有具有一个循环的可能排列。由于我们知道我们以均匀概率生成每个循环，我们现在知道我们以均匀概率生成所有可能的单循环排列。

另一种看待有 (n-1)! 个具有恰好一个循环的排列的方式是，我们将每个循环旋转，使 0 位于开头，并将其写为 0 -> i -> j -> k -> ...。这些排列的数量与 0 -> 右侧元素的排列数量相同，即 (n-1)!。

结论

我们已经研究了两个完全相同的算法，除了两个字符的更改。这些算法产生非常不同的结果——一个算法产生随机排列，另一个产生恰好有一个循环的随机排列。我认为这些算法很巧妙，因为它们非常简单，只是一个双重循环加上一个交换。

在实践中，你可能不“需要”知道这些算法是如何工作的，因为大多数现代语言的标准库都会提供某种生成随机洗牌的方法。如果你有一个洗牌函数，如果你不介意一个非原地且需要额外遍历的算法，你可以生成一个恰好有一个循环的排列。我将这作为读者的练习，但如果你想得到提示，一种方法类似于“替代”的看待有 (n-1)! 个具有恰好一个循环的排列的方式。

虽然我说你可能不需要知道这些，但如果你要实现自定义洗牌算法，你确实需要知道！这听起来可能显而易见，但长期以来一直有人实现不正确的洗牌算法。这在游戏和90年代甚至21世纪初的在线赌博网站中很常见，你仍然会看到偶尔实现错误的洗牌，例如当微软实现了一个错误的洗牌并未能正确随机化浏览器选择投票时。当时，javascript random array sort 的Google搜索结果是微软最终使用的那个不正确的算法。该网站已经修正，但你仍然可以在网上找到不正确的教程。

附录：生成随机错排

一个没有任何元素停留在其原始位置的排列称为错排。当我在搜索Sattolo算法的用途时，发现很多人使用Sattolo算法来生成随机错排。虽然Sattolo算法生成错排，但它只生成恰好有一个循环的错排，而存在多于一个循环的错排（例如 3 2 1 0），所以它不可能以均匀概率生成随机错排。

生成随机错排的一种方法是使用Fisher-Yates生成随机洗牌，然后重试直到得到一个错排：

def derangement(n): assert n != 1, "无法生成长度为1的错排" a = list(range(n)) while not is_derangement(a): shuffle(a) return a

这个算法很简单，并且极有可能最终返回一个错排（当 n != 1 时），但我们应该预期运行多久才能返回结果并不立即明显。也许我们第一次尝试就得到一个错排并运行 shuffle 一次，或者可能需要100次尝试，我们必须做100次洗牌才能得到一个错排。

为了弄清楚这一点，我们想要知道随机排列（洗牌）是错排的概率。为此，我们需要知道给定一个长度为 n 的列表，有多少个排列以及有多少个错排。

既然我们已经深入附录，我将假设你知道n 个元素的排列数是 n!，什么是二项式系数，并且熟悉泰勒级数。

为了计算错排的数量，我们可以从排列数 n! 开始，减去有元素保留在起始位置的排列数，即 (n choose 1) * (n - 1)!。这不完全正确，因为它双重减去了有两个元素保留在起始位置的排列，因此我们必须加回 (n choose 2) * (n - 2)!。这也不完全正确，因为我们过度校正了有三个元素保留的排列，因此我们必须将它们加回来，依此类推，结果是 ∑ (−1)ᵏ (n choose k)(n−k)!。如果我们展开这个表达式并除以 n! 并化简，得到 ∑ (−1)ᵏ (1 / k!)。如果我们看元素数量趋于无穷大时的极限，这看起来就像泰勒级数中的 e^x，其中 x = -1，即 1/e，即在极限情况下，我们预期排列中错排的比例是 1/e，即我们预期生成一个错排需要进行的交换次数是生成随机排列的 e 倍。像许多交错级数一样，这个级数收敛很快。当 k = 10 时，它在7位有效数字内接近 e！

关于我们算法的一个小问题是，如果我们将第一个元素放在第一个位置，我们已经知道没有错排，但我们继续放置元素直到创建整个排列。如果我们拒绝非法放置，我们可以做得比 e 倍的开销更好。也有可能提出一个非拒绝的算法，但我真的很喜欢朴素的拒绝算法，因为当由“不断重试”组成的简单随机算法运行良好时，我觉得这很令人愉快。

附录：维基百科对Sattolo算法的解释

我写这个解释是因为我发现维基百科中的解释相对难以理解，但如果你觉得上面的解释难以理解，也许你会喜欢维基百科的版本：

Sattolo算法总是产生长度为n的循环这一事实可以通过归纳法证明。假设通过归纳，在循环的初始迭代之后，剩余迭代根据长度为n-1的循环排列前n-1个元素（这些剩余迭代只是应用于前n-1个元素的Sattolo算法）。这意味着追踪初始元素到其新位置p，然后将原始位于位置p的元素追踪到其新位置，依此类推，只有在访问所有其他位置后才会返回到初始位置。假设初始迭代将最后一个元素与位置k（非最终位置）的元素交换，并且随后对前n-1个元素的排列将其移动到位置l；我们将所有n个元素的排列π与剩余的前n-1个元素的排列σ进行比较。如上所述，追踪连续的位置，在到达位置k之前，σ和π之间没有区别。但在π下，原始位于位置k的元素被移动到最后一个位置而不是位置l，并且原始位于最后一个位置的元素被移动到位置l。从那里开始，π的位置序列再次跟随σ的序列，并且所有位置都将在返回到初始位置之前被访问，如要求所示。

至于排列的等概率性，只需观察修改后的算法涉及 (n-1)! 个不同的随机数序列，每个序列显然产生不同的排列，并且在随机数源无偏的假设下，每个序列都以等概率出现。由此产生的 (n-1)! 个不同的排列恰好穷尽了长度为n的循环集：每个这样的循环都有一个唯一的循环表示法，其中值n位于最终位置，这允许 (n-1)! 种排列剩余的值来填充循环表示法的其他位置

感谢 Mathieu Guay-Paquet, Leah Hanson, Rudi Chen, Kamal Marhubi, Michael Robert Arntzenius, Heath Borders, Shreevatsa R, @chozu@fedi.absturztau.be, 和 David Turner 的评论/纠正/讨论。

a[0] 在循环的第一次迭代中被放置。假设 randrange 在相应范围内以均匀概率生成整数，原始 a[0] 与任何元素（包括自身）交换的概率是 1/n，因此结果 a[0] 是原始 a 中任何元素的概率是 1/n，这正是我们想要的。

a[1] 在循环的第二次迭代中被放置。此时，a[0] 是未修改数组中的某个元素。让我们称未修改的数组为 original。对于某个 k，a[0] 是 original[k]。对于任何特定的 k 值，它包含 original[k] 的概率是 1/n。然后我们将 a[1] 与范围 [1, n-1] 内的某个元素交换。

如果我们想弄清楚 a[1] 是 original 中某个特定元素的概率，我们可以这样想：a[0] 是 original[k_0]，对于某个 k_0。然后 a[1] 变成 original[k_1]，对于某个 k_1，其中 k_1 != k_0。由于 k_0 是均匀随机选择的，如果我们对所有 k_0 积分，k_1 也是均匀随机的。

另一种看法是，我们放置 a[0] 并选择 k_0，然后再放置 a[1] 并选择 k_1，这是任意的。我们完全可以先放置 a[1] 并选择 k_1，因此，在所有可能的选择中，选择 k_0 不可能偏向选择 k_1。 ^[返回]

由 mimo-v2.5 模型翻译，花费 12488 tokens

终端延迟

Tue, 18 Jul 2017 00:00:00 +0000

[AI 摘要] 该文章通过测量和分析指出，许多终端的输入延迟过高，足以影响用户体验，而常见的性能基准测试（如stdout吞吐量）对此关注不足。

微软研究院在2012年有一个精彩的演示，展示了延迟对平板电脑使用体验的影响。如果你不想看那个三分钟的视频，他们基本上制作了一个可以模拟任意延迟的设备，延迟可低至几毫秒以下。在100毫秒（1/10秒）时——这是消费级平板电脑的典型值——体验非常糟糕。在10毫秒（1/100秒）时，延迟可以被注意到，但体验尚可。而在<1毫秒时，体验非常好，如同纸笔般流畅。如果你想亲自看看这个效果的迷你版本，可以试试用随机一款安卓平板搭配手写笔，与当前一代的iPad Pro搭配Apple Pencil进行对比。Apple设备的端到端延迟远高于10毫秒，但差异仍然相当明显——这足以让我实际上会用新的iPad Pro来记笔记或画图表，而我觉得安卓平板完全无法胜任纸笔替代品。

如果你尝试不同延迟的VR头显，也能看到类似的现象。20毫秒感觉良好，50毫秒感觉有延迟，而150毫秒则令人难以忍受。

奇怪的是，我很少听到有人抱怨键盘和鼠标输入慢。一个原因可能是键盘和鼠标输入很快，输入的反馈几乎是即时的。但我认为这并非事实。人们经常告诉我这是真的，但我认为恰恰相反。认为计算机对输入响应很快，快到人类无法察觉延迟的观点，是我从专业程序员那里听到的最常见的性能相关谬误。

当人们测量普通计算机上游戏的端到端延迟时，通常发现延迟在100毫秒的范围内。

如果我们看看Robert Menzel对游戏端到端管线的分析，就不难理解为什么我们预期会有100+毫秒的延迟：

~2毫秒（鼠标）
8毫秒（等待游戏处理输入的平均时间）
16.6毫秒（游戏模拟）
16.6毫秒（渲染代码）
16.6毫秒（GPU正在渲染上一帧，当前帧被缓存）
16.6毫秒（GPU渲染）
8毫秒（错过垂直同步的平均时间）
16.6毫秒（显示器内部的帧缓存）
16.6毫秒（重绘帧）
5毫秒（像素切换）

请注意，这假设使用的是游戏鼠标和相当不错的LCD显示器；鼠标和像素切换的延迟通常会慢得多。

通过调整可以达到40毫秒的范围，但绝大多数用户不会进行这种调整。即使他们调整了，这仍然远未达到平板电脑和VR开始真正“感觉正确”的10毫秒至20毫秒范围。

按键到显示的测量主要是在游戏中进行的，因为游戏玩家比大多数人更关心延迟，但我认为大多数应用程序在延迟方面与游戏相差不大。虽然游戏通常比“典型”应用程序每帧做更多的工作，但它们也比“典型”应用程序优化得好得多。Menzel为游戏分配了33毫秒，一半用于游戏逻辑，一半用于渲染。非游戏应用程序需要多少时间？Pavel Fatin为文本编辑器测量了这个，发现延迟范围从几毫秒到几百毫秒不等，他使用他编写的一个应用程序进行了测量，该应用程序使用java.awt.Robot生成按键并进行屏幕截图，我们可以用它来测量其他应用程序的延迟。

就个人而言，我想看看不同终端和shell的延迟，原因有几个。首先，我大部分时间都在终端中度过，通常也在终端中进行编辑，所以我看到的延迟至少是终端的延迟。其次，我看到被引用最多的终端基准测试（至少多出两个数量级）是终端显示输出的速度，通常是通过在大型文件上运行cat来测量的。这几乎是我能想到的最没用的基准测试。我不记得上次有什么任务是受限于我向终端的stdout执行cat文件的速度（除非我是在emacs中使用eshell），也想不出任何任务对这个子测量有用。我关心的最接近的东西是当我意外地向stdout输出太多内容时，我能多快按下^C中止命令。但正如我们在查看实际测量时将看到的，终端吸收大量stdout输入的能力与其对^C的响应速度只有微弱的关联。我能滚动整个页面的速度听起来相关，但在实际测量中，这两者并不高度相关（例如，emacs-eshell滚动很快，但接收stdout极慢）。另一件我关心的事情是延迟，但知道某个终端具有高stdout吞吐量，对我了解其延迟几乎没有帮助。

让我们看看一些不同的终端，看看是否有些终端增加了足够的延迟，以至于我们预期差异会很明显。如果我们在我的笔记本电脑上测量从按键到内部屏幕捕获的延迟，我们会看到不同终端的以下延迟

这些图表显示了每个终端延迟的分布。Y轴是延迟（毫秒）。X轴是百分位数（例如，50代表50%百分位按键，即中位数按键）。除非另有说明，测量是在macOS上进行的。左侧的图表是机器空闲时的情况，右侧的图表是负载下的情况。如果我们只看中位数延迟，有些设置看起来还不算太糟——terminal.app和emacs-eshell在未加载时大约是5毫秒，小到很多人不会注意到。但大多数终端（st、alacritty、hyper和iterm2）都在你可能预期人们会注意到额外延迟的范围内，即使机器空闲。如果我们看机器空闲时的尾部延迟，比如99.9%百分位延迟，每个终端都进入了根据用户交互研究应该被察觉的范围。作为参考，某些终端内部生成按键到GPU内存的往返时间比从波士顿发送数据包到西雅图再返回所需的时间（约70毫秒）还要慢。

所有测量都是在输入仅发生在单个终端上、电池充满并使用交流电源供电的情况下完成的。负载测量是在编译Rust时进行的（同样，使用充满电的电池和交流电源供电，并且为了使测量可重现，每次测量在下载所有依赖项后15秒开始进行Rust的干净构建，每次运行之间留有足够时间以避免跨运行的热节流干扰）。

如果我们看中位数加载延迟，除了emacs-term，大多数终端在负载下的表现并不比空闲时差多少。但当我们看尾部测量，比如90%百分位或99.9%百分位测量时，每个终端都变得慢得多。在macOS和Linux之间切换会有一些差异，但不同终端的差异也不同。

这些测量远非最坏情况（如果我们使用低电量的电池供电，并在编译开始10分钟后进行以加剧热节流，很容易看到几百毫秒的延迟）但即便如此，每个终端的尾部延迟都是可以观察到的。另外，请记住，这只是总端到端延迟的一小部分。

为什么人们不抱怨键盘到显示的延迟，就像他们抱怨手写笔到显示的延迟或VR延迟那样？我的理论是，对于VR和平板电脑，人们都有使用低得多延迟应用程序的大量经验。对于平板电脑，这个“应用程序”是纸和笔；对于VR，这个“应用程序”是不戴VR头显时转头。但每个应用程序的输入到显示延迟都太差了，以至于大多数人只是习惯了糟糕的延迟。

另一个理论可能是，键盘和鼠标输入与平板电脑输入有根本性的不同，使得延迟不那么明显。即使没有任何数据，我也觉得这不可信，因为当我通过增加几十毫秒额外延迟的方式访问远程终端时，我发现打字有明显的滞后感。而事实证明，当额外延迟进行A/B测试时，人们能够并且确实注意到了我们正在讨论的这个范围内的延迟。

只是为了能将最常用的基准测试（stdout的吞吐量）与延迟进行比较，让我们测量不同终端接收stdout输入的速度：

终端	stdout (MB/s)	空闲50% (毫秒)	负载50% (毫秒)	空闲99.9% (毫秒)	负载99.9% (毫秒)	内存 (MB)	^C
alacritty	39	31	28	36	56	18	正常
terminal.app	20	6	13	25	30	45	正常
st	14	25	27	63	111	2	正常
alacritty tmux	14
terminal.app tmux	13
iterm2	11	44	45	60	81	24	正常
hyper	11	32	31	49	53	178	失败
emacs-eshell	0.05	5	13	17	32	30	失败
emacs-term	0.03	13	30	28	49	30	正常

终端接收stdout的速度与其延迟之间的关系并不明显。就此而言，终端接收stdout的速度与其看起来是否流畅之间的关系也不明显。在这次测试中，terminal.app看起来非常慢。滚动的文本跳跃很多，好像屏幕很少更新。此外，hyper和emacs-term在这个测试中都遇到了问题。Emacs-term真的无法跟上输出速度，测试完成后需要几秒钟显示才能完成更新（显示已输出多少行的状态栏似乎是最新的，所以它在测试结束前就完成了递增）。Hyper更加落后，在闪烁几次后几乎不再更新屏幕。Hyper Helper进程的CPU使用率锁定在100%大约两分钟，整个期间终端完全无响应。

alacritty使用tmux进行了测试，因为alacritty不支持向上滚动，文档中指出如果你想向上滚动应该使用tmux。只是为了有另一个参考，terminal.app也使用tmux进行了测试。对于大多数终端，tmux似乎不会降低stdout速度，但alacritty和terminal.app足够快，以至于它们实际上受限于tmux的速度。

Emacs-eshell从技术上讲不是一个终端，但我也测试了eshell，因为它可以在某些用例中作为终端的替代品。实际上，Emacs（包括eshell和term）的速度足够慢，以至于我关心它接收stdout的速度。过去使用eshell或term时，我发现如果运行一个将大量日志输出到stdout或stderr的命令，我有时需要等待几千行文本滚动过去。由于这种情况很少发生，对我来说除非它慢到我需要等待半秒或一秒，否则真的不是什么大问题，而没有其他终端慢到需要在意这个。

相反，我足够频繁地输入单个字符，以至于我会注意到尾部延迟。假设我以120字/分钟的速度打字，这相当于每分钟600个字符，或者每秒10个字符的输入。那么我预期每100秒就会看到一次99.9%尾部延迟（千分之一）！

总之，我更关心的cat“基准测试”是当我意外运行一个命令向屏幕输出数百万行而非数千行内容时，我能否^C中止该进程。对于这个基准测试，除了hyper和emacs-eshell外，所有终端都没问题，这两个终端都挂起了至少十分钟（我在十分钟后终止了每个进程，而不是等待终端追上）。

启动时的内存使用也包含在表中作为参考，因为这是另一个我看到人们用来测试终端的测量。虽然我觉得终端启动时使用40MB内存有点荒谬，但即使是我在用的这台三年前的淘汰笔记本电脑也有16GB RAM，所以将40MB压缩到2MB对用户体验没有任何显著影响。天啊，甚至我们最近买的300美元Chromebook都有16GB RAM。

结论

大多数终端的延迟足够大，如果终端作者更专注于延迟而非其他功能或其他方面的性能，用户体验本可以得到改善。然而，当我搜索终端基准测试时，我发现终端作者（如果他们测试任何东西的话）测试的是接收stdout的速度或启动时的内存使用。这很不幸，因为大多数“低性能”终端接收stdout的速度已经比人类能跟上的速度快好几个数量级，因此进一步优化stdout吞吐量对大多数用户的实际用户体验影响相对较小。对于减少空闲终端在我这台现在相当低端的笔记本电脑上使用0.01%内存的内存使用来说，情况也是如此。

如果你从事终端开发，也许可以考虑相对更多地优化延迟和交互性（例如对^C的响应性），相对更少地优化吞吐量和空闲内存使用。

更新：作为对本文的回应，alacritty的作者解释了alacritty的延迟来源，并描述了alacritty如何降低其延迟

附录：阴性结果

Tmux和延迟：我尝试了tmux和各种终端，发现差异在测量噪声范围内。

Shell和延迟：我尝试了多个shell，发现即使在最快的终端中，shell之间的差异也在测量噪声范围内。Powershell在我的测试设置中使用起来有些问题，因为它不能正确处理颜色（输入的第一个字符显示为终端指定的颜色，但其他字符无论设置如何都是黄色的，这似乎是一个待解决的问题），这让我使用的图像识别设置感到困惑。Powershell也不能始终如一地将光标放在它应该在的位置——它在一行内随机跳跃，这也让我使用的图像识别设置感到困惑。然而，尽管有其他问题，powershell的性能与其他shell相当。

Shell和stdout吞吐量：如上所述，不同shell之间的速度差异在测量噪声范围内。

单行与多行文本和吞吐量：尽管一些文本编辑器在处理极长的行时会变慢，但当我将一个大文件放入终端时，无论该文件全是单行还是每80个字符换行一次，吞吐量都相似。

队头阻塞/协调遗漏：我以每秒10.3个字符的速率运行这些测试。但事实证明这并不重要，人类能够达到的输入速率和延迟与每10.3秒输入一次非常相似。可以压垮终端，hyper是第一个在高输入率下开始崩溃的，但使尾部延迟变差所需的速度超出了我所知的任何人类的打字速度。

附录：实验设置

所有测试都在一台双核2.6GHz 13英寸2014年中MacBook Pro上完成。该机器有16GB RAM和2560x1600屏幕。操作系统版本是OS X 10.12.5。一些测试在Linux（Lubuntu 16.04）上进行，以比较macOS和Linux。每次延迟测量都进行了1万次按键。

延迟测量使用.键完成，吞吐量测量使用默认的base32输出完成，这都是纯ASCII文本。George King指出，不同类型的文本可能会改变输出速度：

我注意到Terminal.app在输出非拉丁Unicode范围时会显著变慢。我知道有三件事可能导致这种情况：必须加载不同的字体页面，必须解析BMP之外的代码点，以及宽字符。

第一点可能归结为字体字形的延迟加载、字体回退计算以及字形页面的缓存（或其他类似机制）的非常复杂的混合。

第二点有点推测性，但我敢打赌Terminal.app使用了基于UTF16的Cocoa NSString，由于代理对的原因，当代码点高于BMP时几乎肯定会进入慢速路径。

终端在运行测试前都已全屏显示。这会影响测试结果，并且调整终端窗口大小会并确实显著改变性能（例如，在保持其他条件不变的情况下调整窗口大小可以使hyper比iterm2更慢）。macOS上的st是在XQuartz下作为X客户端运行的。为了看看XQuartz本身是否缓慢，我尝试了runes，另一个使用XQuartz的“原生”Linux终端；runes的尾部延迟比st和iterm2好得多。

“空闲”延迟测试是在新重启的机器上完成的。所有终端都在运行，但输入一次只发送到一个终端。

“负载”延迟测试是在Rust编译开始15秒后进行的，编译在后台运行。

终端带宽测试通过创建一个大型伪随机文本文件完成：

timeout 64 sh -c 'cat /dev/urandom | base32 > junk.txt'

然后运行：

timeout 8 sh -c 'cat junk.txt | tee junk.term_name'

Terminator和urxvt没有测试，因为它们在Mac上并非完全容易安装，我不想费劲去让它们工作。Terminator很容易从源码构建，但它启动时挂起，没有达到shell提示符。Urxvt通过brew安装，但它的一个依赖项（也通过brew安装）版本错误，导致无法启动。

感谢Kamal Marhubi、Leah Hanson、Wesley Aptekar-Cassels、David Albert、Vaibhav Sagar、Indradhanush Gupta、Rudi Chen、Laura Lindzey、Ahmad Jarara、George King、Tim Dierks、Nikith Naide、Veit Heller和Nick Bergson-Shilcock的评论/纠正/讨论。

由 mimo-v2.5 模型翻译，花费 10821 tokens

关于鼠标与键盘效率的广泛引用研究完全不可信

Tue, 13 Jun 2017 00:00:00 +0000

[AI 摘要] 本文反驳了关于鼠标效率高于键盘的广泛引用研究，指出这些研究方法存在问题，且实际任务中各有利弊。

键盘和鼠标哪个更快？许多程序员相信键盘在所有（编程相关的）任务上都更快。然而，一些被广泛引用的AskTog网页声称，苹果的研究表明，鼠标在所有方面都比键盘更快，而那些认为键盘更快的人只是在自欺欺人。这听起来可能有些极端，但举个例子，其中一页说作者“从未见过[键盘]的表现超过鼠标”。

但鼠标不可能在所有任务上都更快——几乎没有人能用鼠标在屏幕上点击软键盘比用物理键盘打字更快。相反，有一些任务更适合使用鼠标而非键盘（例如，第一人称射击游戏中的瞄准）。对于一个没有预设立场的人来说，问题不应该是在所有任务上哪个更快，而是哪些任务用键盘更快，哪些用鼠标更快，以及哪些任务在两者结合使用时更快？

你可能会问这是否重要。这要看情况！我认识的一位最好的程序员是“二指禅”打字员，所以显然成为优秀程序员并不一定需要特别快的输入速度。但我正在做一个简单的数据处理任务，其速度受限于我能输入大量枯燥代码的速度。如果我能更快，这个任务就能更快完成，我也会去做那些现在没时间做的其他任务。我可以打字速度超过100字/分钟，这还不错，但我可以说话速度超过400字/分钟，而我的思考速度远超说话速度。即使在说话时，我经常也感到受到限制；打字就更差了，在这里花半秒、那里花一秒进行导航操作显然也无助于效率。当我刚进入科技行业时，我从事一个普通的测试/验证/质量保证角色，主要工作是分类测试失败。即使在我开始自动化任务之前，我每天能分类的bug数量几乎是同一职位其他人的两倍，因为我认真对待基本导航任务的效率。如今，我的工作不再90%是重复性的，但我估计我在电脑前大约三分之一的时间都花在那些受我的输入和导航速度限制的机械性任务上。如果我能更快完成这些枯燥的任务，花更少时间在上面，而把更多时间花在有趣的事情上，那就太好了。

无论如何，首先，让我们看看被引用的研究，看看鼠标在哪些地方确实更快。网上的大多数引用，追溯源头后，都指向AskTog，这是一个由Bruce Tognazzini（他自称为“人机交互设计领域的公认领导者”）创建的网站。

被引用最多的AskTog页面声称他们投入了5000万美元的研发资金，并进行了各种研究；该页面声称，除了其他发现外，这5000万美元的研发显示“测试对象一致报告打字比使用鼠标快”，而“秒表一致证明使用鼠标比打字快”。该论点声称这既证明了鼠标比键盘更快，也解释了为什么程序员认为键盘比鼠标更快（尽管实际上更慢）。然而，这个结果无法复现，因为“Tog”不仅没有引用实验细节，他甚至没有描述实验，只是做出了一个笼统的断言。

第二个被广泛引用的AskTog页面是对前一页回应的回应，它只是重复说第一页已经证明了键盘快捷键更慢。尽管有很多讽刺意味的话，比如“也许我们这些年一直被误导了。也许那些一次又一次显示Mac用户生产力更高、学得更快、购买更多软件包等等的独立研究，不知何故都是有缺陷的。也许……”，但和之前一样，没有引用实际结果。然而，其中有一个伪科学的解释，说明为什么鼠标比键盘更快：

命令键并不更快。正如我从八月专栏中了解到的那样，决定使用一个命令键所花费的时间与使用鼠标一样长。区别在于，命令键的决定是一个高级认知功能，不会形成长期记忆。因此，主观上，键盘似乎更快，而实际上使用它们通常需要同样长的时间。

由于获取鼠标是一个低级认知功能，用户在获取鼠标期间无需中断对主要任务的认知过程。因此，使用鼠标的用户实现了更高的生产力。

这引发了一个问题：为什么在键盘上打字就与使用命令键不同呢？确实有些人不精通触摸打字，在打字时需要思考要按哪个键。这些人打字非常慢，甚至可能比那些能快速使用鼠标在软键盘上打字的人更慢。但也有精通键盘的人，他们可以在有意识地思考要按哪些键的情况下打字。这里隐含的断言是，不可能像精通键盘打字那样精通命令键。这可能是真的，但我认为这个说法非常不可信，无论是从原则上，还是从我观察到的那些确实似乎精通命令键的人来看，而且这个说法没有提供任何证据支持。

第三个被广泛引用的AskTog页面引用了一个单一的实验，作者输入了一段文字，然后需要将所有的“e”替换为“|”，分别使用方向键或鼠标。作者发现，使用方向键的平均时间是99.43秒，使用鼠标的平均时间是50.22秒。没有提供关于段落长度或“e”数量的信息。第三页是对一位用户引用具体编辑示例（他们发现使用键盘比使用鼠标更快）的回应。

我的基准测试经验是，绝大多数微基准测试都有错误或误导性的结果，因为它们很难正确设置，而且即使设置正确，要理解微基准测试结果与现实世界结果之间的关系也需要对该领域有深入的理解。因此，除非作者证明对其特定领域的基准测试有深入的理解，否则我对来自微基准测试的广泛主张持深度怀疑态度，即使那样，我也会问为什么他们认为其结果具有普遍性。认为微基准测试很难正确解读的观点在理解基准测试的人群中被广泛认同。

描述的e -> |替换任务不仅是一个微基准测试，而且是一个奇怪的人工微基准测试。

根据结果中给出的时间，该任务要么是为非常初级的用户设计的，要么是禁止使用任何查找和替换功能。这篇特定的AskTog专栏文章是对一位提到编辑任务的程序员的回应，因此这个微基准测试没有意义，除非那个程序员被困在一个不允许使用编辑器基本功能的实验中。此外，替换任务本身不切实际——人们多久会将e替换为|一次？

我计时了这个任务（移除了奇怪的禁止查找替换限制），得到了以下结果：

键盘快捷键：1.26秒
M-x，“replace-string”（而不是使用映射的键盘快捷键）：2.8秒
用鼠标导航到查找替换功能：5.39秒

第一个结果是使用键盘快捷键得到的。第二个结果是我在别人的Emacs设置中可能会做的（它映射了不同的快捷键）；Emacs允许通过按“M-x”并输入完整的命令名称来运行命令。这比直接使用键盘快捷键慢得多，但仍然比使用鼠标快（至少对我来说，在这里）。这是否意味着键盘很棒而鼠标很糟糕？不，这个结果几乎完全没意义，因为我几乎不花时间做单字符查找替换，所以单字符查找替换的速度无关紧要。

此外，因为我习惯使用键盘，这里的鼠标速度可能异常慢。这一点在这里尤其明显，因为我通常的编辑器设置（emacs -nw）不允许使用鼠标，所以我最终为鼠标测试使用了一个不熟悉的编辑器TextEdit。我每个任务只做了一次，以避免“练习”特定任务（这可能会不切实际地让键盘快捷键版本几乎瞬间完成，因为快速按下一连串练习过的键很容易）。然而，这意味着我使用的是一个不熟悉的鼠标，在不熟悉的菜单中操作。此外，像许多很久以前玩过电子游戏的人一样，我习惯于关闭“鼠标加速度”，但Mac默认开启此功能，我没有进行必要的繁琐步骤来禁用鼠标加速度。另外，我使用的录制程序（QuickTime）使整个机器变慢，这可能对鼠标速度的影响大于对键盘速度的影响，而且我碰巧使用的程序的菜单设置迫使我在两个级别的菜单中导航。

话虽如此，尽管不习惯使用鼠标，如果我想找一个我使用鼠标比使用键盘更快的微基准测试，这很容易：让我试试选择一个屏幕上但不在光标附近的文本块：

键盘：1.8秒
鼠标：0.7秒

我倾向于通过在Emacs中搜索块开头的某个东西、设置标记，然后搜索标记结尾的某个东西来选择文本块。我通常输入三个字符以确保获得唯一的文本片段（如果我认为三个字符不够，我会输入更多）。这使得选择任务比替换任务稍慢，因为替换任务使用单个字符，而此任务使用多个字符。

鼠标更适合选择文本块，以至于即使在一个不熟悉的鼠标设置中（我最终不得不进行修正，而不是能够一次完成选择），鼠标的速度仍然快了一倍多。但是，如果我想选择屏幕外的内容，而且选择范围很大，无法在一屏内显示，那么键盘时间不会改变，而鼠标时间会变得慢得多，使得键盘更快。

除了进行测量，我还（非正式地）询问了人们他们认为键盘或鼠标对于特定任务哪个更快。查找替换和选择文本这两个任务对大多数人来说结果是显而易见的。但并非所有任务都显而易见；滚动就是一个人们没有强烈倾向的任务。让我们看看滚动，这是一个键盘和鼠标都很适合的任务。为了具体，让我们看看向下滚动4页：

键盘：0.49秒
鼠标：0.57秒

虽然有一些差异，而且我怀疑如果我重复足够多次实验，可能会得到统计上显著的结果，但差异很小，不足以具有实际意义。

与Tog的结果（每个人都认为键盘更快，而实际上鼠标更快）相反，我发现人们很擅长估计哪个设备对哪个任务更快，也擅长估计何时两种设备会给出相似的结果。一个可能的原因是我调查的是程序员，特别是RC的程序员，他们可能与Tog在他的研究中可能研究的群体不同。他在一个研究如何设计通用计算机UI的小组中工作，在80年代，专注于研究那些许多人在成长过程中使用计算机、然后选择了一份整天使用计算机职业的人，这实际上是不合理的。对等的群体将不得不在60年代甚至更早开始使用计算机，但即使他们做到了，输入设备也相当不同（滚球鼠标直到1972年才发明，而且发明后肯定没有立即广泛使用）。研究那些相对不精通计算机输入设备的人群没有错，但将这些结果推广到那些相对精通的人群就有问题了。

与键盘或鼠标的倡导者的主张不同，当我亲自做实验时，结果是混合的。有些任务使用键盘会快得多，而有些使用鼠标会快得多。此外，大多数结果很容易预测（当结果相似时，预测是很难预测）。如果我们看看网上最广泛引用的、权威的结果，会发现它们做出了非常强烈的主张，认为鼠标比键盘快得多，但除了一个站不住脚的实验外，没有任何证据支持这些主张。可能那些值得称道的5000万美元研发投入到了有效的实验中，但如果这些实验存在，它们并未被引用。

我花了一些时间回顾这个主题的文献，但没有找到任何确凿的证据。与其像我在另一个有争议的话题上做的那样逐点总结每项研究，我将提到使这些研究对我来说无关紧要的高级问题。我能找到的所有研究都至少存在以下列出的一个问题；如果你有一个研究链接，不是因为以下原因之一而无关紧要，我很乐意了解！

研究年代久远：不清楚80年代中期关于与计算机交互的研究如何转化为今天人们与计算机的交互方式。即使忽略编辑程序的差异，界面也存在巨大差异。鼠标更精确，一个不错的现代光学鼠标可以移动得像人能移动的那么快而不会跟踪不稳定，这在我试过的任何80年代鼠标上都不成立，只有90年代的高质量鼠标（在球最近清洁过且鼠标放在优质鼠标垫上时）才成立。键盘改进没有那么大，但即便如此，在现代低键程键盘上打字也比在80年代的任何键盘上快得多。
狭窄的微基准测试：并非所有这些都像那个没有查找替换功能的e -> |任务一样无关紧要，但即使对于那些并非明显无关紧要的任务，也不清楚结果对我的实际工作有什么影响。
并非键盘与鼠标的比较：已发表的研究中只有一小部分是关于键盘与鼠标的比较。当一项研究是关于设备交互时，通常是关于某种新型设备或新的交互模型。
描述模糊：许多研究会说类似“发现了7.8%的改进，结果在p < 0.005下显著”这样的话，却没有提供足够的信息来判断结果是否真的具有实际意义，而不仅仅是统计显著性（回想一下，实际上无意义的滚动结果差异是0.08秒，这也可以报告为16.3%的改进）。
不熟练的用户：在一篇典型的论文中，他们注意到用户可能需要长达两秒钟的时间才能将鼠标从屏幕一侧移动到另一侧的滚动条。虽然为了找出对使用最困难的用户来说最容易的界面类型而研究不熟练的用户有其价值，但一项研究用户需要2秒才能将鼠标移到滚动条上的研究似乎与我的用户体验无关。当我为自己计时时，从屏幕另一侧移动到滚动条并滚动一小段距离需要0.21秒，尽管使用了一个不熟悉的鼠标（与我习惯的不同灵敏度）并运行着一个使鼠标操作比平时更困难的录制程序。
看似不合理的结果：一些研究声称显示从一种设备切换到另一种设备时总体生产力大幅提高（例如，从一种鼠标切换到另一种鼠标带来20%的总体生产力提升）。

结论

Tog的组织花费5000万美元进行的神秘研究完全有可能证明，除了原始文本输入外，鼠标在所有任务上都更快，但似乎没有足够的信息来了解实际研究是什么。关于用户输入有很多公开研究，但我找不到任何相关的研究能告诉我是否应该在边际上更多或更少地使用鼠标。

当我亲自查看各种任务时，结果是混合的，并且与我调查的大多数程序员预测的方式一致。这个结果如此乏味，如果不是有大量的人相信键盘总是比鼠标快或反之亦然，它几乎不值得一提。

请让我知道是否有相关主题的研究我应该阅读！我不熟悉相关领域，所以可能我用了错误的关键词搜索或读错了论文。

附录：给自己

我意识到相对于搜索（博客文章中没有明确提到，但占文本选择任务的一半）来说，滚动是如此之快。我倾向于使用搜索来滚动到屏幕外的内容，但看来当我没有光标位置要求时，应该考虑使用滚动。

感谢Leah Hanson、Quentin Pradet、Alex Wilson和Gaxun对本文的评论/修正，感谢Annie Cherkaev、Chris Ball、Stefan Lesser和David Isaac Lee的相关讨论。

由 mimo-v2.5 模型翻译，花费 8244 tokens

创业公司期权 vs. 现金

Wed, 7 Jun 2017 00:00:00 +0000

[AI 摘要] 本文质疑为何创业公司不支付现金而是提供期权，并分析了期权价值常被高估的原因以及少数非愤世嫉俗的理由。

我经常与声称其薪酬方案预期价值高于 Facebook、Google、Twitter 或 Snapchat 等公司同等方案的创业公司交流。对于这种说法，我不理解的一点是：如果这是真的，为什么创业公司不去找投资者，按他们声称的期权价值出售期权，然后用现金支付我？期权的非显性价值及其波动性是招聘的一大障碍。

此外，根据我的风险函数和风险投资家（VC）的风险函数，这对每个人似乎都是一笔更好的交易。和大多数人一样，额外收入给我的效用是递减的，但风险投资家在收入方面的效用可以说是近乎线性的。而且，即使风险投资家与我有相同的风险函数，由于风险投资家持有的是多元化的投资组合，同样的期权对他们来说价值比对我更高，因为他们能比我更有效地分散下行风险。如果这些创业公司对其期权价值的声称属实，那么这里应该存在一个能让所有各方都变得更好的交易。

在十年前的一系列经典文章中，Paul Graham 似乎旨在说服人们去创办或加入创业公司，他写道：“如果你想致富，你会怎么做？我认为你最好的选择是创办或加入一家创业公司。几个世纪以来，这一直是可靠的致富途径”，以及“风险和回报总是成正比的。”这种风险回报论断被用来支持这样一个观点：通过加入创业公司并接受高风险的股权包，人们在预期中能比接受支付现金或现金加公开股票的工作赚更多的钱。然而，其前提——风险和回报总是成正比——在一般情况下并不成立。基础金融课程指出，只有那些风险无法被分散的资产才会承担风险溢价（平均而言）。既然风险投资家能够并且确实分散了风险，就没有理由相信一个通过在创业公司工作“投资”期权的员工会因为所承担的风险而获得划算交易。顺便说一下，当你审视历史回报时，风险投资基金的业绩似乎并没有超过其他投资类别，尽管它们购买的是一种比普通员工获得的期权下行风险更小的股权。

那么，为什么创业公司不能或不愿意获得更多投资并用现金支付员工呢？让我们先看看一些愤世嫉俗的原因，然后再看看一些没那么愤世嫉俗的原因。

愤世嫉俗的原因

一种可能的答案，也许是最简单的答案是，期权并不值创业公司声称的价值，而且创业公司更喜欢期权，因为其缺乏价值的事实不如现金那么明显。一个简单的论据是，如果你看看投资者为早期或中期创业公司的一小部分支付的价格，以及公司如果将员工期权池给投资者所能筹集的额外现金，通常不足以支付员工具有竞争力的薪酬方案。鉴于风险投资家平均而言并没有超额回报，这似乎意味着员工期权的价值并不像创业公司经常声称的那么高。如果你能说服人们接受一系列价值未知的彩票票根，而不是现金，薪酬成本会便宜得多。

员工期权被错误表述的一些常见方式有：

将行权价作为价值

一家公司给你 100 万份期权，行权价为 10 美元，可能会声称这些期权“价值”1000 万美元。然而，如果股价在期权有效期内一直保持在 10 美元，这些期权最终将价值 0，因为行权价为 10 美元的期权是一种以 10 美元购买股票的权利，这与授予价值为每股 10 美元的实际股票不同。

将公开估值作为价值

假设一家公司通过出售 30% 的股份筹集了 3 亿美元，使公司的隐含估值达到 10 亿美元。我看到最常见的错误表述是，公司会声称因为他们给了例如 0.1% 公司的期权，你的期权价值就是 10 亿 * 0.001 = 100 万美元。一个相关且常见的错误表述是，公司去年融资后价值有所增加，例如，公司价值翻了一番，所以你的期权价值 200 万美元。即使你假设行权价为 0，并采用公司最后一次融资时的估值，你的期权的隐含价值也不是 100 万美元，因为投资者购买的是与你作为员工获得的股份类别不同的股票。

风险投资家获得的优先股和员工获得的普通股之间存在许多差异；让我们看几个具体的场景。

假设那些为公司 30% 股份支付 3 亿美元的投资者拥有直线（1倍）清算优先权，公司以 5 亿美元出售。1 倍清算优先权意味着投资者在低贱的普通股股东获得任何东西之前，将首先拿回其投资额的 1 倍，因此投资者将获得 3 亿美元作为其 30% 股份的回报。其余 70% 的股权将分配剩下的 2 亿美元：你持有的行权价为 0 美元的 0.1% 普通股期权价值 28.5 万美元（而不是你可能预期的 5 亿 * 0.001 = 50 万美元）。

风险投资家获得的优先股通常至少有 1 倍清算优先权。假设在上述场景中，投资者拥有 2 倍清算优先权。他们将在普通股股东分配公司剩余部分之前拿回投资额的 2 倍。由于 2 * 3 亿 > 5 亿，投资者将拿走所有东西，其余的股权持有者将获得 0。

你的普通股和优先股的另一个区别是，优先股有时附带反稀释条款，而你作为普通工程雇员没有机会获得这种条款。让我们看一个真实公司稀释的实例。Mayhar 在公司估值为 500 万美元时获得了 0.4% 的股份。到公司价值 10 亿美元时，Mayhar 在公司的股份被稀释了 8 倍，这使得他在公司的份额价值低于 50 万美元（减去他行使期权的成本），而不是 400 万美元（减去行使期权的成本）。

这个故事还有一些额外的复杂因素，说明了期权通常比看起来价值更低的其他原因。Mayhar 在加入时负担不起行权费用（支付行权价乘以他所持期权对应的股份数），这对于那些并非来自富裕家庭、刚大学毕业就加入创业公司的人来说很常见。四年后他离开时，他负担得起行权成本，但由于美国税法的一个怪异之处，他要么负担不起税单，要么不想为这个仍然是彩票票根的东西支付这笔费用——当你行使期权时，你实际上是对当前估值与行权价之间的差额征税。即使公司在几年后成功上市，价值增长 10 倍，你仍然在行使期权的那一年负有税单责任（如果公司长期保持私有状态或失败，你什么也得不到，只有未来的税收抵扣）。由于，像大多数期权一样，Mayhar 的期权有 90 天的行权窗口，他没有从期权中得到任何东西。

虽然这比平均稀释程度要严重，但也存在更糟糕的情况，例如，投资者和高级管理层基本上保留了他们的股权，而其他人则被稀释到股权变得毫无价值的情况。

这些只是优先股和普通股之间的差异导致期权价值与根据公开估值天真计算的价值可能大相径庭的众多方式中的一部分。我经常看到公司和员工都使用公开的优先股估值作为基准来精确地评估普通股期权的价值，但这是不可能的，即使在原则上，如果没有公司的股权结构表（显示不同投资者持有公司多少股份）以及每次投资的具体细节。即使你能得到这些（通常你得不到），确定插入模型以得出预期价值的适当数字也并非易事，因为它需要回答诸如“在收购中，高层管理人员会与投资者勾结，把一切都留给自己，而让员工一无所获的概率是多少？”这样的问题。

将布莱克-斯科尔斯估值作为价值

由于上述问题，人们有时会尝试使用模型来估计期权的价值。布莱克-斯科尔斯模型因其知名度和易于使用的封闭解而被普遍使用，它是最常用的模型。不幸的是，布莱克-斯科尔斯模型的大多数主要假设对于创业公司期权来说是错误的，这使得布莱克-斯科尔斯模型的输出与你的期权实际价值之间的关系不明确。

期权对公司来说通常是免费的

当员工自愿或非自愿离开时，很大一部分期权会返还给员工期权池。我找不到全面的数据，但据轶事传闻，听说超过 50% 的期权最终被从员工那里收回并返还给通用池。Dan McKinley 指出一项（未经证实的）分析显示，只有 5% 的员工授予的期权被行权。即使按照保守估计，授予期权打五折听起来也相当不错。打 20 折听起来就很惊人了，这解释了为什么公司如此喜欢期权。

未来金钱总和的现值

当有人说创业公司的薪酬方案和 Facebook 的一样值钱时，他们通常是指在 N 年内支付的总价值相似。但固定名义金额的金钱越早到手就越值钱，因为你可以（至少）将其投资于低风险资产，如国债，并获得一些回报。

这是你在经济学入门课上会听到的抽象论点，但在实践中，如果你生活在一个生活成本相对较高的地方，比如旧金山或纽约，尽早拿到钱而不是晚拿还有更大的价值，因为它让你可以住在一个相对不错的地方（无论你如何定义不错），而不需要和比美国其他地方认为合理的数量更多的室友挤在一起。上几代的许多创业公司似乎推迟了它们的首次公开募股（IPO）；对于那些有合同禁止他们在二级市场出售期权的公司的员工来说，这很可能意味着他们潜在的大部分财富在他们职业生涯的头十年都被锁定了。即使创业公司的薪酬方案在考虑通货膨胀和利息后价值更高，对于大多数还不算富裕的人来说，这是否是一个好的选择也不清楚。

非愤世嫉俗的原因

我们已经看了公司可能想提供期权而非现金的一些愤世嫉俗的原因，即他们可以声称他们的期权比实际价值更高。现在，让我们看看公司可能想发放股票期权的一些非愤世嫉俗的原因。

从员工的角度来看，一个非愤世嫉俗的原因可能是股票期权回溯日期（backdating），至少在这个漏洞被大部分填补之前是这样。直到 2000 年代早期，许多公司都回溯了期权授予的日期。让我们看一个由 Jessie M. Fried 解释的例子

授予 Reyes 的期权覆盖 120 万股。报告的授予日期是 2001 年 10 月 1 日，当时该公司的股票交易价格约为每股 13 美元，是当年最低的收盘价。一周后，股价为每股 20 美元，一个月后，股价收盘接近每股 26 美元。

Brocade 在其 2002 年的委托书（proxy statement）中向投资者披露了这次授予，表格标题为“上一财政年度的期权授予”，按照 SEC 规定的格式编制。除其他外，该表描述了这次及对高管的其他授予的细节，包括期权覆盖的股份数量、行权价和期权的到期日。分析师（包括那些汇编标准普尔著名的 ExecuComp 数据库的人）使用此表中的信息，根据授予日计算每次期权授予的 Black Scholes 值。在计算价值时，分析师基于公司关于设定行权价程序的陈述，假设期权是按当时价格授予的（at-the-money）。计算出的价值随后被股东、研究人员和媒体广泛用于估算 CEO 的总薪酬。为 Reyes 的 120 万股股票期权授予计算出的 Black Scholes 值（分析师假设是按当时价格授予的）为 1320 万美元。

然而，SEC 已得出结论，授予 Reyes 的期权被回溯日期了，实际授予日的市场价格可能约为每股 26 美元。让我们假设股票在期权实际授予时确实在以每股 26 美元交易。因此，如果 Brocade 遵守其仅授予按当时价格期权的政策，它应该给 Reyes 行权价为每股 26 美元的期权。相反，它给了 Reyes 行权价为每股 13 美元的期权，因此这些期权有 13 美元的内在价值（in the money）。并且它报告这次授予时，就好像它在股价为 13 美元时给了 Reyes 按当时价格的期权。

如果 Brocade 在股价为 26 美元时授予 Reyes 按当时价格的期权，行权价为 26 美元，那么期权授予的 Black Scholes 值将约为 2600 万美元。但由于这些期权有 1300 万美元的内在价值，它们甚至更有价值。根据一项估计，它们价值 2800 万美元。因此，如果分析师被告知 Reyes 在股价为 26 美元时收到了行权价为 13 美元的期权，他们会报告其价值为 2800 万美元，而不是 1320 万美元。简而言之，在这个特定场景中回溯这个期权授予的日期，将使 Brocade 能够多给 Reyes 200 万美元价值的期权（Black Scholes 值），同时报告的金额却少了 1500 万美元。

虽然股票期权回溯日期现在不再（轻易地）可能，但可能还有其他漏洞或税法的后果使得期权比现金更划算。我一时只能想到一个原因，所以我花了几周时间询问人们（包括多位创始人）关于创业公司可能更喜欢期权而非等值现金的非愤世嫉俗的原因。

激励性股票期权（ISOs）的税收优惠

在美国，激励性股票期权（ISOs）具有这样的特性：如果持有期在行权日期后一年以及授予日期后两年，期权所有者只需对行权价与股价之间的差额缴纳长期资本利得税，而不是普通收入税。通常，资本利得税率低于普通收入税率。

这并不像听起来那么好，因为行权价与股价之间的差额需缴纳替代最低税（AMT）。我个人认为这不相关，因为我倾向于尽快卖出雇主股票以尽可能分散风险，但如果你有兴趣弄清楚 AMT 如何影响你在行使 ISOs 时的税单，请参阅此解释了解更多信息。对于加州居民，加州在州层面对资本利得的处理也相对较差，这也使得这种差异比你从资本利得税与普通收入税率比较中预期的要小。

合格小企业股票（QSBS）的税收优惠

有一类股票可免于联邦资本利得税和许多州的州税（但在加州不行）。这很有趣，但似乎人们很少在符合条件时利用它，而且许多创业公司并不符合条件。

其他期权的税收优惠

美国国税局（IRS）指出：

大多数非法定期权（nonstatutory options）没有容易确定的公允市场价值。对于没有容易确定的公允市场价值的非法定期权，授予期权时不产生应税事件，但在你行权时，你必须将收到股票的公允市场价值减去支付的金额计入收入。在你出售通过行使期权获得的股票时，会产生应税收入或可抵扣损失。你通常将此金额视为资本利得或损失。

估值是虚假的

股票期权的一个特点是，要符合 ISOs 的资格，行权价必须至少等于公允市场价值。对于上市公司来说这很容易确定，但私营公司股份的公允市场价值有点随意。对于 ISOs，我对要求的理解是公司必须“善意地尝试”确定公允市场价值。对于其他类型的期权，有其他法规规定公允市场价值的定义。无论如何，创业公司通常每年一到 N 次聘请外部公司为其普通股进行公允市场价值估算。这至少在假设的“真实”估值和用于期权目的的公允市场价值之间造成了两个可能的差距。

首先，估值更新相对不频繁。我常听到一个说法是，公司的估值很久没更新了，现在公司价值翻了一番，所以你基本上是打了五折。

其次，进行估值的公司缺乏产生“正确”估值的激励。这些公司是由创业公司付费的，而创业公司在法律估值尽可能低时会受益。

我并不真的相信这些事情让期权变得很神奇，因为我从创业公司和创始人那里听到了完全一样的说法，这意味着他们的报价已经考虑了这些因素并相应定价。然而，如果法律估值和“真实”估值之间存在很大差距，并且这使得公司能够有效地提供更高的薪酬（就像股票期权回溯日期那样），我可以看出这如何会促使公司倾向于选择期权。

控制权

即使员工获得了与风险投资家相同类别的股票，如果创始人将员工持有的股权转移给风险投资家，他们的控制权也会减少，因为员工持有的股权分散在相对较多的人手中。

留住人才

这个答案经常被作为非愤世嫉俗的原因告诉我。其理念是，如果你给员工期权并设置一个条款禁止他们在二级市场出售期权，许多员工将无法在不放弃大部分薪酬的情况下离职。个人认为，这对我来说是一个愤世嫉俗的原因，但并非每个人都这么看。例如，Andreessen Horowitz 的执行合伙人Scott Kupor 最近提出了一个方案，如果员工在流动性事件之前离职，将失去所有期权，据称是为了帮助员工。

无论你是否认为雇主能够长期锁定员工是好是坏，期权锁定似乎是一个糟糕的留才机制——用现金支付的公司似乎有更好的留任率。举个例子，Netflix 支付的薪资与 Google 等地方高级职位的总薪酬相当，而且据轶事传闻，他们的员工流失率似乎低于时尚的湾区创业公司。事实上，即使 Netflix 经常大声宣扬如果员工不合适就会让他们走人，但他们的非自愿流失率似乎并不高于时尚的湾区创业公司——他们只是对此更诚实，这是因为他们招聘的卖点不包括你离职时拿到低于市场水平的薪酬。如果你认为这种比较不公平，因为 Netflix 最近的记忆里已不是创业公司，你可以与金融类创业公司比较，例如 Headlands，它与 Uber、Airbnb 和 Stripe 成立于同一时代。他们（以及其他一些金融创业公司）支付高额现金，这似乎并没有导致比给予非流动性期权授予的同龄创业公司更高的流失率。

在那些因此导致员工比原本停留更久的案例中，期权锁定往往对所有相关方都是一笔糟糕的交易。这种情况对员工显然很糟糕，而且平均而言，公司也不想要不快乐的、只等待归属期或流动性事件的人。

激励一致性

另一个常被提及的原因是，如果你给人们期权，他们会更努力地工作，因为当公司表现好时他们也会表现好。这是最激烈地给出的理由（“你不应该信任一个只对支票感兴趣的人”等）。

然而，据我所知，用期权支付报酬几乎完全将工作表现与薪酬脱钩。如果你看看像微软、谷歌、苹果和 Facebook 这样让许多人致富的公司，几乎没有任何变得富有的员工对公司成功起到了关键作用。谷歌和微软各自让数千人致富，但其中绝大多数人只是碰巧在正确的时间出现在正确的地点，并且很可能在另一份不会让他们致富的工作中同样容易。相反，绝大多数创业公司期权包最终价值很少甚至为零，但几乎没有哪个期权最终变得一文不值的员工是导致期权变得一文不值的关键。

如果期权是薪酬的重要组成部分，选择一家将会成功的公司比努力工作重要得多。参考一下，据估计微软到 1992 年创造了大约 10^3 名百万富翁（经通胀调整，为 175 万美元）。随后股价上涨了 20 多倍。微软以让那些并非特别出色的人致富而闻名；据估计，到 90 年代末，他们总共让 10^4 人致富。这些人中的绝大多数与微软竞争对手中类似职位的人没有什么不同。他们只是碰巧中了一张中奖的彩票。这与创始人声称他们通过给予期权所获得的东西相反。如上所述，像 Netflix 这样支付现金的公司，似乎不存在员工生产力的问题。

顺便说一句，通过在微软工作致富的人中有很大一部分是在其 1986 年 IPO 之后加入的。谷歌也是如此，虽然 Facebook 还太年轻，我们无法很好地了解 IPO 后的长期情况，但在 IPO 一两年后（2012 年，5 年前）加入的人为自己做得相当不错。在 IPO 前加入的人做得更好，但如上所述，大多数人的个人财富回报是递减的。使得风险投资运作的同样幂律分布也意味着，仅微软一家公司在 1986 年至 1999 年间通过 IPO 让人们致富的数量，就可能超过同期所有 IPO 前科技公司创造的总和。类似的情况可能在 2004 年至 Facebook IPO 的 2012 年间对谷歌来说也是成立的，即使将因 Facebook IPO 致富的人算作由 IPO 前公司致富的人，你也可以对苹果做类似的计算。

风险投资公司 vs. 市场

对于风险投资回报（因此创业公司股权）无法跑赢市场的说法，有几个潜在的反驳论点。

一个论点是，当人们这么说时，他们通常是指风险投资家扣除费用后，风险投资基金的回报没有跑赢市场。作为获得创业期权的员工，你不会（直接）支付风险投资费用，这意味着你可以通过保留风险投资费用来跑赢市场。

另一个论点是，一些投资者（如 YC）似乎一直表现相当不错。如果你加入一家由精明投资者资助的创业公司，你也可以做得很好。要理解这一点，你必须意识到公司价值高于“预期”，而公司没有同样的认识，因为需要公司给你一个没有恰当评估其价值的期权包。为了让你有这种期望并得到一笔好交易，这不仅要求创始人不要对公司成功的概率过于自信，实际上还要求创始人信心不足。虽然这不是不可能的，但我听说的大多数创业公司报价都有相反的问题。

投资

本节是 2020 年的更新。本文最初撰写时，我没有意识到不是极其富有的人也可以投资创业公司。但搬到旧金山后，我发现实际上投资创业公司非常容易，而且你不需要特别富有（对于程序员来说）就可以这样做——人们通常在种子轮会接受小支票（小至 5000 美元或更少）。如果你能直接投资种子轮，这比作为早期员工加入是一笔更划算的交易。

截至撰写本文时，公司以 1000 万美元估值进行种子轮融资相当常见。这意味着你需要投资 10 万美元才能获得 1%，这大约相当于你期望作为非常早期员工获得的股权。然而，如果你加入公司，你的股权将分四年归属，你获得的股权类别更差，而且你（通常）获得关于公司股权结构的信息要少得多。作为投资者，你只需要投资 2.5 万美元就能获得相当于早期员工 1 年的股权。此外，你可以投资多家公司，这能给你带来更好的风险调整回报。根据大公司目前支付的水平（高级工程师年薪可能约 38 万美元，资深工程师年薪约 60 万美元），在大公司工作并每年花 2.5 万美元投资创业公司，从财务回报的角度来看，严格优于在创业公司工作。

结论

有许多因素可以使期权比看起来更有价值或更不值钱。从员工的角度来看，使期权比看起来更有价值的因素可以使股权价值比天真计算高出数十个百分点。使期权比看起来更不值钱的因素，其方式大多难以量化。

是使期权相对更有价值的因素占主导，还是使期权相对更不值钱的因素占主导，这是一个实证问题。我的直觉是使期权相对更不值钱的因素更强，但这只是猜测。从公开数据了解这一点的方法是查看成功的创业公司的 S-1 文件。由于本文已经约 5000 字，我会留待另一篇文章，但我会指出，在我初步浏览的少数几家 99 百分位（估值超过 10 亿美元）退出案例中，中位数员工的表现似乎比在 Facebook/Google/Amazon 标准职业道路上的人要差。

从公司的角度来看，有几个因素可以通过向员工发放相对更多的期权、向投资者发行相对更少的股权，让公司保留更多的杠杆/控制权。

这一切对创始人和投资者来说听起来都很好，但我看不出这对员工有什么好处。如果你有我遗漏的其他原因，我很乐意听听。

_如果你喜欢这篇文章，你可能也喜欢这篇关于在大公司工作与在创业公司工作之间权衡的另一篇文章。

附录：注意事项

许多创业公司并不声称他们的报价在财务上有竞争力。随着时间的推移，我听到的“如果你想致富，你会怎么做？我认为你最好的选择是创办或加入一家创业公司。几个世纪以来，这一直是可靠的致富途径。”越来越少，而“我们在财务上无法与 Facebook 竞争，但是……”越来越多。我从多位创始人那里听说，与创始人股权和工作量相比，作为早期员工加入是一笔极不划算的交易。

一些创业公司提供的报价实际上与大公司的报价具有竞争力。我看到一些试图提供有吸引力的报价的创业公司，对于“资深”人士，他们愿意支付比上市公司高得多的薪水，因为他们理解期权由于其时间线、风险状况和预期价值对员工来说并不好。

报价存在巨大差异，其中很大一部分实际上是随机的。我知道有个人从一家创业公司（通常不给出特别强的报价）获得了比谷歌更优厚的报价，如果你四处打听，你会听到很多这样的案例。即使在平均薪酬不具竞争力的创业公司，创业公司的报价也并非总是低于谷歌/Facebook/亚马逊的报价。

本文中与税收相关的任何内容都是针对美国的。例如，我被告知在加拿大，“你可以推迟缴纳行权时行权价远低于公允市场价值的期权的税款，直到处置，只要公司是加拿大控制并在加拿大运营的”。

你可能会反对我们审视期权时的同样推理逻辑也可以应用于限制性股票单元（RSUs），甚至是上市公司的 RSUs。确实如此，尽管创业公司期权最大的缺点被减轻或不存在了，但现金相比 RSUs 仍然对员工有显著优势。不幸的是，我知道的唯一一家在招聘中利用这一点来发挥优势的非金融公司是 Netflix；如果你能想到其他使用相同薪酬模式的科技公司，请告诉我。

一些创业公司有一个滑动比例，允许你选择不同金额的期权/薪水组合。我还没见过一个报价让你可以将滑块调到 100% 现金和 0% 期权（或 100% 期权和 0% 现金），但总有人愿意给你一个全现金报价。

在当前环境下，审视公开退出案例可能会使数据偏向不太成功的公司。过去几代创业公司中最成功的那些尚未通过收购退出的公司，目前都选择不进行 IPO。有可能，一旦所有数据齐全，加入创业公司的平均回报看起来会大不相同（尽管我怀疑中位数回报不会改变太多）。

顺便说一句，我并不反对接受创业公司的报价，即使它很低。我大学毕业时接受了我拿到的最低报价，我的伴侣最近也接受了她得到的最低报价（与最高报价相差近 2 倍）。有很多理由你可能会接受一个并非财务上最优的报价。然而，我认为你应该知道自己将要面对什么，并且不要接受一个你以为财务上很棒，但实际上只是平庸甚至糟糕的报价。

附录：非反驳论点

我听到的最常见异议是，大多数创业公司没有足够的钱支付等值的现金，并且无法通过出售“通常”属于他们的员工期权池来筹集那么多钱。也许吧，但这并不是一个反驳论点——它是在论证大多数创业公司的期权价值不足以兑换成等值的金钱，即期权并不像声称的那么值钱。这种论点可以用各种方式表述（例如，支付工资而非期权会增加消耗率，减少跑道，使创业公司默认死亡等），但这种形式的论点本质上等同于承认创业公司期权价值不高，因为如果期权价值足够高，典型的薪酬方案应该与谷歌或 Facebook 典型的“资深”报价一样值钱。

如果你不相信这一点，想象一家典型估值的创业公司，正处于给新员工发放 0.1% 股权期权的阶段。现在想象某个非理性的旁观者愿意达成一笔交易，以 10 亿美元的价格获得公司 0.1% 的股份。是拿这笔钱并从 10 亿美元现金池中支付员工，还是用期权池中 0.1% 的期权片支付员工，哪个更值得？除非你认为手头现金与股权价值之间的比率接近无限大，否则你的答案应该是“是”。像“期权优于现金，因为支付现金会增加消耗率，使创业公司在任何估值下默认死亡”这样的绝对陈述，等同于说正确的比率是无限大。这显然是荒谬的；存在某个正确的比率，我们可能在正确比率是多少上有分歧，但对于典型的创业公司来说，正确的比率不应该无限大。既然这是一个如此常见的异议，如果你有这个异议，我想问你的是，为什么你不主张创业公司应该支付更少的现金和更多的期权？论点是当前的比例恰好是最优的吗？如果是，为什么？此外，为什么在筹集金额大致相同、处于同一阶段的不同公司之间，这个比例变化这么大？所有这些公司给出的都是最优报价吗？

第二常见的异议是，如果你选对了创业公司并使用合适的模型来评估期权，创业公司期权实际上价值很高。也许吧，但如果这是真的，为什么他们不能通过给风险投资家更多真实价值的股权来筹集更多资金，然后支付现金呢？

另一个常见的异议类似于“我认识很多从创业公司赚了 100 万美元的人”。我也是，但我也认识很多人在上市公司工作赚了远超这个数。本文是关于薪酬方案的相对价值，而非绝对价值。

致谢

感谢 Leah Hanson、Ben Kuhn、Tim Abbott、David Turner、Nick Bergson-Shilcock、Peter Fraenkel、Joe Ardent、Chris Ball、Anton Dubrau、Sean Talts、Danielle Sucher、Dan McKinley、Bert Muthalaly、Dan Puttick、Indradhanush Gupta 和 Gaxun 提供的评论和修正。

由 mimo-v2.5 模型翻译，花费 16210 tokens

网络臃肿如何影响网速慢的用户

Wed, 8 Feb 2017 00:00:00 +0000

[AI 摘要] 本文探讨了现代网页臃肿如何导致在慢速连接下的用户难以甚至无法访问网站，并通过案例和数据说明了问题所在，呼吁重视网页性能优化。

几年前，我从威斯康星州开车前往华盛顿州，沿途大多住在乡村的酒店里。我预料到农村地区可能缺乏有线网络，网速会较慢，但依然惊讶地发现一大部分网站无法访问。一些样式轻量的博客还可以阅读，学术人员那些自1995年起就没更新过样式的网站也能用。但几乎没有商业网站是可用的（谷歌除外）。当我测量我的连接时，发现带宽大致相当于90年代我用的56k调制解调器。延迟和丢包率比拨号上网的平均水平糟糕得多：延迟在500ms到1000ms之间，丢包率在1%到10%之间。这些数字和我在拨号上网状况差的日子看到的数据差不多。

尽管我的连接只比90年代差一点，但绝大部分网站都无法加载。为什么网站不能在拨号或类似拨号的连接下正常工作呢？如果我试图看YouTube或浏览Pinterest，那确实很难在没有带宽的情况下提供视频和图片。但我的在线兴趣在媒体方面相当“无聊”。我在线上消费的内容几乎都是纯文本，即使它们碰巧用图片和花哨的JavaScript进行了样式化。事实上，我最近尝试使用w3m（一个基于终端的网页浏览器，默认不支持CSS、JavaScript，甚至图片）使用了一周，结果发现我经常访问的网站中只有两个在w3m下不太好用（Twitter和Zulip，至少按照我的使用方式，它们本质上是基于文本的网站）¹。

最近，当我在使用不稳定的移动连接尝试阅读一篇Joel on Software的博文时，我再次意识到网页在慢速连接下的表现有多差。HTML加载完成了，但五个CSS请求或十三个JavaScript请求中的一个超时了，导致页面损坏。我没有看到文章，而是看到了整整三页的侧边栏、菜单和广告，然后才看到标题，因为页面需要某种布局修改才能合理显示。页面的设计常常使得如果某个依赖项未能加载，页面就难以甚至无法阅读。在慢速连接下，至少一个依赖项失败是很常见的。刷新两次后，页面正常加载了，我得以阅读这篇相当引人入胜的关于消除依赖项的博文。

抱怨人们不再像过去那样关心性能，我们正在让臃肿毫无必要地拖慢速度，这属于“老头冲云喊话”的范畴；我可能听起来像那个抱怨他的文字处理器以前只占1MB内存，现在却需要1GB内存的人。当然，那可以优化，但花时间做优化是有实际成本的，而且即使一台300美元的笔记本电脑也配有2GB内存，所以何必费心呢？但情况并不完全相同——关心网页性能的不只是我这样的技术迷。当微软查看实际测量的连接速度时，他们发现一半的美国人没有宽带速度。见鬼，仅AOL在2015年就有200万拨号上网用户。在美国以外，网速慢的人更多。我最近和本·库恩聊了聊，他花了不少时间在非洲，关于他的网络连接：

我见过在埃塞俄比亚吉吉加晚上使用移动热点时，ping延迟高达约45秒，丢包率高达50%的情况。（我现在就在这里，目前有150ms的ping延迟且无丢包，但现在是上午10点。）一天中有些时段延迟很少低于10秒，丢包率低于10%。过去大约一年网络好了很多；以前除了清晨，其他时间一直都那么差。

……

Speedtest.net报告下载速度2.6 mbps，上传速度0.6 mbps。我意识到可能不应该在移动数据上运行速度测试，因为带宽非常昂贵。

我们位于埃塞俄比亚的服务器有光纤上联，但它经常宕机，我们会回退到16kbps的卫星连接，不过我想普通人遇到那种情况会直接停止使用互联网。

如果你觉得在56k连接上浏览网页很糟糕，试试从埃塞俄比亚用16k连接吧！

到目前为止我们看到的都是个例。让我们用各种模拟连接加载一些程序员可能常访问的网站，获取页面加载时间的数据。webpagetest 让我们可以看到网站从世界各地加载需要多长时间（以及为什么需要这么长时间）。它甚至允许我们模拟不同类型的连接，并在各种移动设备上加载网站。下表列出的时间是页面“视觉完成”的时间；根据webpagetest的测量，这是指折叠以上内容停止变化的时间。

每一行是一个网站。对于同时支持纯HTTP和HTTPS的站点，两者都进行了测试；URL为HTTPS，除非明确指定为HTTP。前两列显示通过线路传输的数据量（MB，包括头部、握手、压缩等）以及建立的TCP连接数。其余列显示在从光纤（FIOS）到较差连接的各种连接上加载页面的时间（秒）。“Bad”具有拨号上网的带宽，但有1000ms的ping延迟和10%的丢包，这大致相当于我在乡村小旅馆使用互联网时的情况。“😱”模拟了来自埃塞俄比亚吉吉加的16kbps卫星连接。行按测量到的数据传输量排序。

测试的超时时间是6分钟；任何超过这个时间的都列为FAIL。加载失败的页面也列为FAIL。从表中可以明显看出几点：

很大一部分网站在连接状况差的情况下无法使用。即使在拨号连接状况良好（0%丢包，无延迟尖峰）时，有些网站也无法加载。
有些网站会使用大量数据！

在差连接下的网络

就商业网站而言，谷歌对于网速慢的人来说基本上是最优选择。在拨号上网时，50%的页面加载时间是一分半钟。但至少它能加载——当我在蒙大拿州乡村地区使用缓慢、共享的卫星连接时，几乎所有商业网站都无法加载。我可以通过谷歌缓存查看仅有静态内容的网站，但实时站点根本没有希望加载。

有些网站会使用大量数据

尽管这里只测试了两个非常大的网站，但有很多网站会使用10MB或20MB的数据。如果你在美国阅读本文，可能你并不在意，但如果你在毛里塔尼亚、马达加斯加或瓦努阿图浏览网页，加载一次codinghorror将花费你超过人均每日GNI的10%。

页面大小很重要

尽管有Maciej等人的努力，页面大小不重要的迷思仍在传播。据我所知，HN上关于网页优化的历史最高票链接是一篇题为“极速页面加载 - 全栈开发者指南”的文章。在该页面底部，作者链接了他的另一篇博文，题为“页面大小无关紧要”。

通常被归咎的罪魁祸首是带宽：低带宽地区（3G，发展中世界）的用户被坑了。但数学上说不通。Akamai将全球平均连接速度定为3.9兆比特每秒。

“极速”指南在拨号或慢速移动连接下无法正常显示，因为图片超时。在Reddit上，它在高负载下也失败了：“讽刺的是，那个页面加载太慢，我关闭了窗口”，“很多……gif什么也不做，只会让你的浏览体验更糟”，“我甚至没看到那些gif；标题加载后就卡住了”，等等。

“页面大小无关紧要因为平均速度快”这个观点的缺陷在于，如果你将我的公寓楼（配备了1Gbps互联网）里某人的连接速度和使用56k拨号上网的人的速度平均，你会得到500 Mbps的平均速度。这并不意味着拨号上网的人真的能加载一个5MB的网站。3.9 Mbps的平均速度来自Akamai 2014年的报告，但那只是一个平均值。如果你查看Akamai 2016年的报告，你可以发现整个国家超过90%的IP地址都慢于这个速度！

是的，除了页面大小，还有很多其他因素也很重要，是的，确实可能创建一个很小但加载很慢的页面，也可能创建一个很大的页面因为所有权重都不是阻塞的而加载得还行，但总页面大小仍然与加载时间有相当好的相关性。

自发布以来，“极速”指南更新了一些JavaScript，只在你向下滚动足够远时才加载图片。如果你看页面大小数字（如果webpagetest没有被设置为滚动），这会让它在webpagetest上看起来好很多，但对于想阅读页面的慢速连接用户来说，这是更差的用户体验。如果你无论如何都要阅读整个页面，重量就会增加，你再也不能通过加载网站来预加载图片了。相反，如果你在阅读，你必须在每个部分停留几分钟来等待该部分的图片加载。这还算幸运，因为用于加载图片的JavaScript没有加载失败。

平均用户谬论

就像许多人开发时考虑平均连接速度一样，许多人对“用户是谁”有固定的看法。也许他们认为有快连接且富有的客户，也有慢连接且不会花钱的客户。也就是说，粗略地说，平均而言可能是对的，但网站不是在平均值上运行，而是在特定领域运行。杰米·布兰登写道他使用Airbnb的经历：

我昨晚花了三个小时试图通过过载的wifi和大概率是卫星连接在Airbnb上预订房间。OAuth在糟糕的连接上似乎特别糟糕。Facebook的OAuth完全无法加载，而Google的OAuth让我在“选择账户” -> “请重新输入密码” -> “选择账户”的循环中转了几次。尝试登录的次数太多了，以至于触发了Airbnb的某种两步验证，那也没用（邮件中的确认链接指向一个写着“请登录以查看此页面”的页面），最终我只是被要求发送邮件到account.disabled@airbnb.com，而他们至今未回复。

Airbnb没有测试这些东西尤其令人恼火，因为旅行几乎是这个网站存在的全部意义，他们甚至不能声称服务网络连接差的人无利可图。

尾延迟怎么办？

我原本计划在这篇文章中展示50%分位数、90%分位数、99%分位数等尾加载时间。但50%分位数的结果已经如此糟糕，以至于我不知道展示其他结果是否还有意义。如果你查看90%分位数的结果，你会看到大多数页面在拨号连接下加载失败，而“Bad”和“😱”连接对几乎所有网站来说都是无望的。

HTTP 与 HTTPS

你可以看到，对于一个不加载很多阻塞资源的小网站，HTTPS明显比HTTP慢，尤其是在慢速连接上。实际上，今天这并不重要，因为几乎没有网站这么小，但如果你设计一个网站时考虑到网速慢的用户真的重要，这是值得注意的。

如何让页面在慢速连接下可用

详细版本是，要真正理解正在发生什么，建议阅读高性能浏览器网络，这是一本关于网络性能的优秀书籍，可免费获取。

简短版本是，大多数网站优化如此之差，以至于一个对此一无所知的人也能将主要提供文本和偶尔图片的网站的页面加载时间提高10倍。当我在2013年开始这个博客时，我使用Octopress，因为Jekyll/Octopress是当时最广泛推荐的静态网站生成器。一篇有一两张图片的普通博客文章在有线连接上需要11秒加载，因为Octopress默认在头部包含多个无用的JavaScript文件（用于我从未使用过的功能，如嵌入Flash视频和Delicious集成），这些文件阻塞了页面渲染。仅仅将这些JavaScript包含移到页面底部就使页面加载时间减半，进行其他一些调整又使加载时间减少了一个数量级。在我做出这些更改时，我对网页优化一无所知，除了我在一个40分钟关于互联网工作原理的讲座中听到的2分钟关于优化的简短介绍，而我能够在几个小时内将博客速度提高20倍。你可能认为我现在走得太远了，删除了太多CSS，但我为快速连接的人获得了20倍的加速，而且是在做出影响网站外观的更改之前（对于慢速连接，加速要大得多）。

这很正常。许多不同类型博客软件和CMS的流行主题包含如此明显的反优化，以至于任何程序员，即使没有前端经验，只需将webpagetest指向他们的网站并查看输出，就能发现巨大的改进空间。

浏览器呢？

虽然很容易责怪页面作者，因为页面端有很多唾手可得的优化机会，但浏览器端同样有很多唾手可得的机会。为什么当我在慢速卫星连接上时，我的浏览器会打开6个TCP连接试图同时下载六张图片？这只会保证这六张图片都会超时！即使我在客户端调整超时，配置为防止DoS攻击的服务器也不会允许长时间不活动的连接。我有时可以通过刷新几次页面（每次等待十分钟）让一些图片加载，但为什么浏览器不替我处理重试呢？想一想，浏览器可以为慢速连接用户做很多优化，但正因为它们没有这样做，目前用户最好的解决方案似乎是：尽可能使用w3m，当w3m不行时再切换到带有广告拦截功能的浏览器。但为什么用户必须使用两个完全不同的程序，其中一个只有电脑极客才会觉得舒服的基于文本的界面呢？

结论

当我在谷歌工作时，有人告诉我一个故事，有一次“他们”完成了一次大规模的优化冲刺，却发现测量到的页面加载时间增加了。当他们深入研究数据时，发现加载时间增加的原因是，在优化之后他们从非洲获得了更多流量。该团队的产品从对慢速连接用户不可用变得可用，这导致许多慢速连接用户开始使用该产品，从而实际上增加了加载时间。

昨晚，在一个关于WebSocket协议的演讲中，加里·伯恩哈特指出，设计WebSocket协议的人做了诸如使用可变长度字段来存储帧长度以节省几个字节之类的事情。相比之下，如果你看看Alexa前100名网站，几乎所有网站都有大量的冗余；这些100个网站使用的总带宽可能大于所有WebSocket连接使用的总带宽之和。尽管如此，如果我们只看本文中测试的三个前35名网站，有两个在传输未压缩的JavaScript，两个将裸域重定向到www子域，还有两个由于没有尽可能压缩图像（在不牺牲质量的情况下）而发送了大量多余信息。如果你看看Twitter，它不在我们的表格中，但上面提到过，他们实际上做了一种反优化，如果你上传一个甚至没有优化得特别好的PNG文件，他们会将其重新编码为更大的JPEG并产生可见伪影！

“使用bcrypt”已经成为存储密码时合理默认选择的口号。如果“使用webpagetest”也能以同样的方式流行起来，网络世界将会更美好。它并不总是完成工作的最佳工具，但它肯定胜过当前的默认做法。

附录：实验注意事项

上述测试是通过在AWS West 2区域的一个c4.xlarge虚拟机上使用私有webpagetest镜像，在Chrome浏览器中无其他标签页打开且除webpagetest软件和浏览器外没有其他程序运行的情况下，模拟连接进行首次页面加载来完成的。这在许多方面是不现实的。

相对而言，这对那些边缘存在感较强的网站不利。当我在蒙大拿州乡村地区时，我进行了一些测试，发现我到谷歌的延迟明显好于到其他任何网站。这在测试结果中并未反映出来。此外，这种设置意味着页面几乎肯定会从CDN缓存中提供。对于谷歌和亚马逊这样的网站来说，这应该没有区别，但它会减少那些流量较少、不会“总是”从缓存中提供的网站的页面加载时间。例如，当我的文章不在社交媒体上流行时，55%到75%的流量来自CDN缓存，而当我有文章流行时，比例更接近90%到99%。但测试设置意味着在我和其他博客网站上，测试期间的CDN缓存命中率可能>99%，因为这些博客没有广泛到通常总有缓存副本可用。

所有测试都假设是首次页面加载，但对于谷歌和亚马逊这样的网站来说，假设其许多或大部分资源已缓存是完全合理的。对于像我这样的网站，大部分流量来自社交媒体推荐的首次访问者，测试首次页面加载时间可能是合理的。

c4.xlarge是一台相当强大的机器。今天，大多数页面加载来自移动设备，即使是最快的移动设备也不如c4.xlarge快；大多数移动设备比最快的移动设备慢得多。大多数桌面页面加载也将来自比c4.xlarge慢的机器。虽然结果没有显示，但我也使用t2.micro实例运行了一组测试：对于像我这样的简单网站，差异可以忽略不计，但对于像亚马逊这样的复杂网站，页面加载时间差了多达2倍。正如你可能预料的，对于任何特定网站，随着连接变慢，差异会变小。

正如乔伊·赫斯指出的，许多拨号上网提供商试图通过压缩或其他技巧来减少页面的有效大小，而这些测试都没有考虑这一点。

Firefox、IE和Edge的性能特征通常与Chrome有很大不同。就此而言，不同版本的Chrome也可能有不同的性能特征。我只是使用Chrome，因为它是使用最广泛的桌面浏览器，而且仅运行这一整套测试就花费了超过一整天的虚拟机时间。

模拟的糟糕连接添加了恒定的延迟和固定（10%）的丢包。在现实中，糟糕的连接具有高度可变的延迟，峰值远高于模拟延迟，丢包率高的时段可能持续数分钟、数小时甚至数天。将“😱”放在表格最右侧可能让它看起来像是最糟糕的连接，但丢包情况可能会糟糕得多。

同样，虽然codinghorror碰巧位于表格底部，但它远非加载最慢的页面。举个例子，我最初考虑将slashdot包含在表格中，但它如此之慢，以至于导致总测试运行时间显著增加，因为它在六分钟时超时的次数太多。即使在FIOS上，它也需要15秒才能加载，发出了高达223个请求，使用了100个TCP连接，而大小“只有”1.9MB。令人惊讶的是，slashdot在FIOS上加载时，CPU也会100%占用整整17秒。回想起来，这可能是一个值得包含的好例子，因为正是像slashdot这样病态优化不当的网站，让“页面大小无关紧要”的迷言听起来合理。

比较的网站功能不同。仅看博客，一些博客在首页放置整篇博客文章，在某些方面更方便，但也更慢。商业网站差异更大——它们通常不能合理地是静态网站，必须有相对较大的JavaScript负载才能良好运行。

附录：讽刺之处

本文中的主表格大约有50kB的HTML（未压缩或压缩）；这比本文其他所有内容的总和还要大。这个表格大得离谱，因为我使用了一个库（pandas）来生成表格，而不是手动编写脚本，而且我们知道，大多数库的默认设置会产生大量的冗余代码。它甚至没有节省时间，因为我想使用的每个节省时间的内置功能都有bug，迫使我不得不自己编写所有的热力图/渐变/样式代码！由于懒惰，我留下了pandas生成表格的脚手架代码，导致表格看起来比需要的大一个数量级。

这不是对pandas的批评。Pandas在它设计的用途上可能非常好；它只是不为制作精简网站而设计。CSS类名很长，如果你希望避免生成CSS时意外的名称冲突，这是合理的。几乎每个td、th和tr元素都标记了冗余的rowspan=1或colspan=1，对于生成的代码来说，如果你不关心大小，这是合理的。每个单元格都有自己的CSS类，即使许多单元格与其他单元格共享样式；同样，这可能在代码生成时简化了事情。每一份冗余都是完全合理的。不幸的是，据我所知，没有工具能将臃肿的表格变成精简的表格。纯HTML压缩器无法更改类名，因为它不知道某些外部CSS或JS是否依赖于类名。HTML压缩器理论上可以确定不同的单元格具有相同的样式并合并它们，除了前面提到的潜在但不存在的外部依赖项的问题，但这超出了我所知工具的能力范围。

再讽刺一层，考虑一下，虽然我认为50kB的表格是臃肿，但这个页面经过gzip压缩后只有12kB，即使包含了所有冗余。谷歌的AMP目前有超过100kB的阻塞JavaScript必须在页面加载前加载！我没有理由使用AMP页面，因为AMP比我现在使用的纯HTML加几行内嵌CSS和偶尔图片的设置要慢，但结果是，与AMP页面相比，我因为没有使用AMP来“加速”（实际上是减速）我的页面而受到谷歌的惩罚。

感谢Leah Hanson, Jason Owen, Ethan Willis和Lindsey Kuper的评论/修正

不包括工作所需的微软内部内容。许多网站仅适用于IE，甚至在Edge上都无法工作。我未在w3m中尝试这些网站，但我怀疑它们不行！事实上，我怀疑甚至不到一半的非IE特定内部网站能在w3m中工作。 ^[返回]

由 mimo-v2.5 模型翻译，花费 32581 tokens

HN：精华部分

Sun, 23 Oct 2016 00:00:00 +0000

HN 的评论糟透了。对于任何我了解的话题，绝大多数评论都是相当明显地错误的。大多数时候，根本没有任何来自该话题知情人士的评论，而排在第一位的评论听起来很合理，但完全不正确。此外，许多评论都毫无理由地刻薄。你经常会听到用类似“这总比另一种可能性好——在那里每个人都互相拍马屁，说‘这太棒了’”之类的话来为刻薄的评论辩护，仿佛刻薄是抵御空洞陈词滥调的某种护身符。我见过有人反对这一点；当被追问时，人们常说不刻薄就不可能或没效率教会别人东西，仿佛告诉别人他们很蠢能帮助他们学习似的。就好像人们是通过看西蒙·考威尔来学习如何解释事物，无法理解没有掺杂人身攻击的解释概念。保罗·格雷厄姆说过，“哦，你永远不应该读 Hacker News 上关于你写的任何东西的评论”。关于HN评论的大多数负面评价都是真的。

然而，我还没有发现一个公共互联网论坛拥有比HN更好的技术评论。在我熟悉的话题上，虽然一个帖子甚至能有一个消息灵通的评论都很罕见，但当这些评论出现时，它们通常会浮到顶部。在其他论坛上，消息灵通的评论要么不存在，要么即使出现，也会被听起来合理但完全错误的评论淹没，并且它们出现的频率甚至比HN还低。

按数量计算，有趣的“技术帖子”可能更多地存在于评论而非链接中。好吧，这取决于你觉得什么有趣，但对我来说确实如此。如果我看到 nkurz 关于底层优化的评论， patio11 关于商业的评论， nostrademons 关于公司运作的评论，我几乎可以肯定我会读到一条有趣的评论。我大概能想到20到30个人，他们不太写博客，但在HN上写出了很棒的评论，而且我怀疑我甚至没有认识到在HN上写出优秀评论的人的一半¹。

我整理了一个非常简短的我喜欢的评论列表，因为评论似乎会丢失。如果你写一篇博客文章，人们会在几年后引用它，但评论大多会消失。我觉得这很可悲——HN上有很多很棒的材料（当然，还有更多不那么棒的材料）。

Word文件格式是怎么回事？

基本上，Word文件格式就是内存的二进制转储。我没开玩笑。他们就是把内存里的东西原样写到了磁盘上。我们可以试着推断原因（也许这样更快，也许让代码更小），但我觉得主要原因是原始开发者不知道更好的做法。

后来，当他们试图添加功能时，不得不尝试保持向后兼容性。这就是很多复杂性所在。有很多疯狂的变通方法，如果允许你重新设计文件格式，这些本来很简单。很明显这是管理层强制的，因为没有哪个软件开发者会无缘无故地让自己经历那种折磨。

后来他们添加了快速保存功能（我忘了它实际叫什么）。这种方式在不改变原始文件的情况下向文件追加更改。他们实现这个功能的方式非常巧妙，但也大大复杂化了文件结构。

有一点我觉得必须指出（我记得在slashdot上发布了一篇关于这篇文章的长文），那就是文字处理器的双向文件转换几乎是不可能的。因为文件格式不包含足够的信息来格式化文档。最明显的地方是分页。文件格式没有说明在哪里对文本流进行分页（除非用户明确输入）。它依赖格式化程序来完成。每个文字处理器格式化文本的方式完全不同。例如，Word出了名地错误处理脚注分页。但他们无法更改，因为这会破坏向后兼容性。这就是Word Perfect至今仍能生存的少数原因之一——它是唯一按照美国司法部要求格式化法律文件的文字处理器。

只考虑分页问题，你就能看出问题所在。当读取Word文档时，你必须像Word那样分页——但文件格式没有告诉你那是什么。然后，如果有人修改了文档，你需要重新保存它，你需要用某种方式标记它应该像Word那样分页（即使它可能现在包含了Word中没有的功能）。如果只是分页问题，你也许能做到，但实际上所有问题都是这样。

我建议有兴趣的人阅读（一部分）XML Word文件格式。你会看到大量用于“像Word 95那样格式化”之类事情的标志。这个格式没有说那是什么——因为很明显，文件格式的作者也不知道。它淹没在无望的遗留代码混乱中，没人能弄清楚它现在到底是干什么的。

NULL的乐趣

这是另一个关于这个精美特性的例子：

  #include 
  #include 
  #include 
  #define LENGTH 128

  int main(int argc, char **argv) {
      char *string = NULL;
      int length = 0;
      if (argc > 1) {
          string = argv[1];
          length = strlen(string);
          if (length >= LENGTH) exit(1);
      }

      char buffer[LENGTH];
      memcpy(buffer, string, length);
      buffer[length] = 0;

      if (string == NULL) {
          printf("String is null, so cancel the launch.\n");
      } else {
          printf("String is not null, so launch the missiles!\n");
      }

      printf("string: %s\n", string);  // 对于null未定义行为，但实践中有效

      #if SEGFAULT_ON_NULL
      printf("%s\n", string);          // 当使用裸“%s\n”时，对null段错误
      #endif

      return 0;
  }

  nate@skylake:~/src$ clang-3.8 -Wall -O3 null_check.c -o null_check
  nate@skylake:~/src$ null_check
  String is null, so cancel the launch.
  string: (null)

  nate@skylake:~/src$ icc-17 -Wall -O3 null_check.c -o null_check
  nate@skylake:~/src$ null_check
  String is null, so cancel the launch.
  string: (null)

  nate@skylake:~/src$ gcc-5 -Wall -O3 null_check.c -o null_check
  nate@skylake:~/src$ null_check
  String is not null, so launch the missiles!
  string: (null)

看起来英特尔的ICC和Clang还没有赶上GCC的优化。如果你依赖这种优化来获得所需的性能，那可就糟了！但在批评GCC之前，请考虑一下，所有这三个编译器在 string 为 NULL 时执行 printf("string: "); printf("%s\n", string) 都会段错误，尽管将 printf("string: %s\n", string) 作为单个语句则没有问题。你能看出为什么两个单独的语句会导致段错误吗？如果不能，参见这里获取提示：https://gcc.gnu.org/bugzilla/show_bug.cgi?id=25609

如何确保备份的自动驾驶系统保持专注？

良好的工程设计尽可能消除用户做错事的可能性。……你不会设计一个容易被滥用的功能，然后再用说明书来试图防止这种滥用。

澳大利亚曾发生过一起名为“瀑布出轨”的事故[1]。事故发生是因为司机心脏病发作，造成了7人死亡（老实说，这个数字之低简直是奇迹）。根本原因是“死人开关”失灵。

在“瀑布出轨”案例中，司机有两个“死人开关”可用：1）油门手柄必须对抗弹簧保持在小角度旋转；2）地上的一个踏板可以被踩下。你必须执行其中一个动作，目的是让司机可以在两者之间交替，以防手腕或脚抽筋。未能执行任一动作都会触发紧急刹车。

事实证明，这位司机太胖了，以至于当他心脏病发作时，他的腿能够将踏板踩到足够的程度，使紧急系统保持关闭状态。因此，“死人开关”从未触发，而驾驶座上却躺着一个“死人”。

我不太记得“瀑布出轨”系统的具体情况，但对抗这个问题的一种方法是要求踏板保持在完全松开和完全踩下之间的中间位置。其想法是，一条失去知觉的腿会完全踩下踏板，从而触发刹车，而完全松开的踏板也会触发刹车。我不知道他们是否采用了这种系统，但这确实是铁路系统使用的一种方法。

无论如何，汽车也存在同样的问题。如果你失去知觉，你的脚变得松软，根据你的脚相对于踏板的位置以及它对地面的杠杆作用，一条足够重的腿可能会将踏板保持在一定程度的下压状态。

我熟悉的另一个确保司机在驾驶时保持清醒的系统叫做“警觉性系统”。它的工作原理是：定期地，仪表盘上会有一个灯开始闪烁，司机必须确认这一点。如果他们不确认，蜂鸣器警报就会响起。如果他们仍然不确认，火车刹车就会启动，并被认定为司机丧失能力。让我告诉你一些我参与其中的故事。

我们刚开始时，有一个简单的警觉性系统。每30秒左右（例如），司机需要按一个按钮。好吧，酷。但后来司机们变得如此习惯于每30秒按一次按钮，以至于我们发现司机睡着了/打瞌睡了，但仍然每30秒准确地按一次按钮，因为这已经深入他们的潜意识，成为一个纯粹下意识的动作。

于是我们引入了随机时间警觉性系统，时间间隔在30-60秒之间（例如）变化，并且你只能在灯开始闪烁后的一小段时间内确认它。结果，司机们开始睡着/半睡着状态，并在警报响起时立即按下它，每次都这样。

于是我们引入了随机时间、任务关联的警觉性系统，这终于彻底解决了这个问题。现在，司机必须按下一个按钮，或者转动一个旋钮，或者执行一系列不同的活动，并且他们必须在随机选择的时间执行随机选择的活动来确认他们的清醒。直到那时，我们才终于解决了司机警觉性的问题。

另见。

声望

好奇他为什么需要换到更声望高的职位？大多数人在30多岁时就会意识到，声望是傻子的游戏；这是一种通过授予来自他们并不真正关心的人的赞誉，来诱导人们去做他们并不真正想做、而且不太有趣的事情的方式。

为什么联邦快递总部在孟菲斯？

……我们注意到我们还需要：
(1) 一个合适的、现有的机场作为枢纽。
(2) 枢纽所在地的良好天气，例如相对较少的雪、雾或雨。
(3) 便于使用良好的停机坪空间，即停放和服务飞机以及分拣包裹的地方。
(4) 良好的劳动力供应，例如用于分拣中心。
(5) 相对较低的生活成本以保持低价。
(6) 友好的监管环境。
(7) 候选机场不要太繁忙，例如，不希望到达的飞机盘旋很长时间才能降落。
(8) 机场侧风相对较少，并且有多条跑道可供选择，以防万一有风。
(9) 跑道海拔不要太高，例如，不要高到限制最大总起飞重量，例如，排除丹佛。
(10) 跑道尽头附近没有高大障碍物，例如山脉。
(11) 充足的喷气燃料供应。
(12) 便于18轮卡车进出，以便在卡车和飞机之间交换包裹，例如，这样部分货物可以卡车运到枢纽，储存在那里，然后通过飞机直接运送给下订单的客户，比如在晚上11点之前下订单，第二天上午10点之前送达。
所以，大约有三个候选地点，孟菲斯，以及我记忆中的辛辛那提和堪萨斯城。
孟菲斯机场有一些二战时期的旧机库紧挨着跑道，联邦快递可以使用它们作为分拣中心、飞机维护和总部办公室空间。交易达成——就是孟菲斯了。

为什么Etherpad加入了Wave，以及为什么结果没有预期

出售给Google的决定是我和我的联合创始人一生中最艰难的决定之一。我们对Wave的愿景感到兴奋，尽管我们看到了产品的缺陷。Wave团队告诉我们，他们希望我们帮助他们让Wave变得更简单、更像Etherpad，我们想我们可以在那方面提供帮助，但最终我们没能成功让Wave变得更简单。我们害怕作为竞争对手的Google：他们有更多的工程师和更多的资金支持这个项目，而且他们运作这个项目更像一个独立的初创公司，而不是一个正常的大公司部门。Wave办公室在澳大利亚，拥有几乎完全的自主权。最后，在AppJet濒临失败1.5年后，能够宣称我们的努力取得了成功，并为我们所有冒险投资的投资者提供可观的回报，这很有诱惑力。

最终，我们加入Wave的决定并没有像我们希望的那样奏效。最大的教训是，拥有更多工程师和资金实际上可能对项目有害多于有益，所以我们为此害怕Wave作为竞争对手是错误的。事后看来这似乎很明显，但当时并非如此。其次，我完全低估了在Wave代码库上迭代的难度。我习惯于在一夜之间重写软件的主要部分。由于Wave使用的软件开发流程，实际上不可能在产品上迭代。我本应更多地调查他们具体的软件工程流程，但我只是因为他们看起来运作得像初创公司，就假设他们能像初创公司一样迭代。许多产品问题整个Wave团队都知道，但我们被一个基于糟糕技术选择和笨重工程流程、阻碍快速迭代的大型复杂代码库所拖累。

科技新闻的准确性

当我掌握有关后来在科技媒体上爆料的内部信息时，我总是对读者对文章的感知与我亲身经历的方式如此不同而感到震惊。在我参与过的初创公司和大型功能发布中，我看到过：高管们在已有整个部门工作了一年的情况下，仍然断然否认他们正在开发某个产品类别；初创公司的成立日期比Crunchbase/Wikipedia列出的日期早1.5年；记者数了他们访问时遇到的人数，并将此报告为“团队规模”，因为公司拒绝公布该信息；从未曝光的融资轮次；被报道为“金额未披露”的收购，但实际上其金额少于创始人在该公司接受带薪工作所能获得的收益；项目开始日期实际上是项目达到当前规模的时候，忽略了之前一个小团队花了一年时间（或其他小团队花了3-4年时间）处理该问题的时间；以及被广泛报道为公司成功核心的算法或其他技术，但公司实际上并未使用。

戴尔自毁式音箱

作为VLC的主要开发者，我们早就知道这个故事，这只是戴尔在机器上使用了垃圾组件并责怪别人。和他们不可能进行任何讨论。所以让我解释一下……

在这种情况下，VLC只是使用Windows API（DirectSound），并将16位有符号整数（s16）发送到Windows内核。

VLC允许将输入音量放大到超过解码后的音量。这就像重放增益、有缺陷的编解码器、录制质量差的文件或后期放大一样，可能导致饱和。

但如果你用Audacity处理你的mp3文件，增加音量并用WMP播放，或者在你的编解码器输出后添加一个DirectShow滤镜来放大音量，效果也是一样的。例如，很长一段时间里，VLC的ac3和mp3编解码器与参考输出相比音量太低（-6dB）。

最坏的情况是，这会降低动态范围并大量饱和，但不会损坏你的硬件。

VLC不会（也不能）修改输出音量来损坏扬声器。VLC是一个使用官方平台API的软件。

这里的问题是戴尔声卡输出的功率（可以近似为振幅平方的一个因子）是戴尔扬声器无法承受的。简单地说，声卡最大输出10瓦，而扬声器只能承受6瓦，并且它们的BIOS或驱动程序都没有阻止这一点。

而且由于VLC存在于许多机器上，责怪VLC很简单。“相关不等于因果”对廉价的戴尔支持来说似乎太复杂了……

在职学习，初创公司 vs 大公司

在别人的初创公司工作，我学会了如何快速拼凑解决方案。我学会了不确定性，并在不确定是否有效时选择一个方向。我了解到大多数初创公司都会失败，而当它们失败时，最终过得好的人是那些一直在为自己利益着想的人。我学到了很多基本的技术技能，如何快速编写代码、学习新API以及将软件部署到多台机器上。我了解到扩展开发团队的问题出现得有多快，以及应该多早开始投资自动化。

在Google工作，我学会了如何一劳永逸地解决问题，并将这种文化融入组织。我了解到即使在成功的公司里，一切都是暂时的，伟大的产品通常是由许多人通过大量辛勤工作构建的，而不是伟大的灵光一现。我学会了如何为规模设计系统，以及用于构建健壮、高可用、频繁部署系统的许多实践。我了解了研究的价值以及花大量时间解决一个单一重要问题的价值：许多初创公司采用散弹枪方法，一个接一个地参加周末黑客马拉松，却发现没人想要它们，而常常有一些机会没人解决，因为没人愿意投入工作。我学会了如何在团队中工作，并试图理解其他人想要什么。我了解到对大型组织来说真正痛苦的问题是什么。我学会了如何严格研究市场并使用数据来做出产品决策，而不是基于一个人认为最好的东西做决定。

我们辜负了这个人，我们要做哪些不同的事情？

我曾参加过公司领导层会议，在那里离职事件只是简单地标记为“遗憾是/否”，根据我的经验，没有任何单个离职会产生影响。大规模的离职会有影响，趋势会有影响，但一个人从未有过影响，即使那个人是创始人。

合理化的说法总是把问题推回给离职员工：“他们倦怠了”，“他们失去了高效工作的能力”，“他们已经向前看了”，“他们只是没能跟上公司的发展”，从来不是“我们辜负了这个人，我们要做哪些不同的事情？”

AWS的起源故事

总之，当我还在那里时，SOA（面向服务的架构）的工作正在全面展开。这很痛苦，而且一团糟，因为每个团队的做法都不同，每个API都不同，基于不同的假设，并且用不同的语言编写。

但我想纠正一个误解，即这导致了AWS的诞生。它没有。S3是由它自己的团队从头开始编写的。我在亚马逊工作时，亚马逊零售网站没有任何部分运行在AWS上。我知道，当AWS被隆重推出时，他们说“为亚马逊.com提供动力的服务现在可以为你的业务提供动力了！”或类似的话。这纯粹是谎言。他们共享的只有数据中心和标准硬件配置。即使在我离开的时候，当AWS全力运行（并且可能已经在运行Reddit了），亚马逊.com也没有任何部分运行在AWS上，除了少数几个小型、实验性且相对较新的项目。我相信现在有更多部分已经采用，但AWS一直是一个独立的团队（而且根据我所见，是一个管理得更好的团队）。

为什么Windows这么慢？

我（和其他人）花了很多努力让Linux Chrome构建变得更快。例如有多个新实现的构建系统（http://neugierig.org/software/chromium/notes/2011/02/ninja.h..。），试验gold链接器（例如，测量和调整仍然默认关闭的线程标志https://groups.google.com/a/chromium.org/group/chromium-dev/..。），以及挖掘其中的bug和其他文档不足的东西，比如“thin” ar归档文件。

但同样真实的是，那些在Windows方面比我这个Linux学徒更像巫师的人也参与了Chrome Windows构建的工作。如果你问我最初的问题，我会说根本问题在于，在Windows上，你只能使用微软提供的东西，通常无法做得更好。例如，将Chrome构建从Visual Studio迁移出来将是一项巨大的工程，大到很少被考虑。（另一种表述方式是这是IDE问题：你要么得到整个IDE，要么什么都得不到。）

在解决Windows性能差的问题时，人们首先购买了固态硬盘，这甚至从未出现在我的脑海里（“你的系统有足够的RAM，文件系统的内核缓存应该已经在内存中了！”）。但无论出于什么原因，在Linux方面，一些谷歌员工认为值得重写Linux链接器使其快一倍（这项工作早于Chrome），所有Linux开发者现在都从中受益。也许区别在于，当人们为Windows或Mac编写很棒的工具时，他们试图出售它们而不是免费赠送。

为什么Windows这么慢，内部人士视角

我是Windows开发人员，参与NT内核开发。（证明：[编辑：文件名已隐去]的修订版#102的SHA1哈希值是[编辑：哈希值已隐去]。）出于显而易见的原因，我通过Tor发布此消息。

Windows在许多场景下确实比其他操作系统慢，而且差距正在扩大。问题的根源在于社会性。你几乎看不到为了自身荣耀而进行的改进，这在Linux世界里很常见。

诚然，偶尔会看到天真的人试图让事情变得更好。这些人几乎总是失败。我们确实可以并且确实为特定的场景（那些有能力分配资源的人认为影响业务目标的场景）提高了性能，但这项工作是西西弗斯式的。没有正式或非正式的系统性能改进计划。我们开始关注安全问题是因为SP3之前的Windows XP对业务构成了生存威胁。我们的低性能对业务没有构成生存威胁。

看，组件所有者通常对外部补丁怀有公开的敌意：如果你是一个开发者，接受一个外部补丁会让你的主管不高兴（因为需要维护这个补丁，并在发货评审会上为这个计划外的设计变更辩护），让测试人员不高兴（因为测试人员负责确保这个变更不会破坏任何东西，而你刚刚给他们增加了工作），让项目经理不高兴（因为代码变动会影响进度）。你没有动力接受自己团队之外的更改。你总能找到理由说“不”，而说“是”的动力非常小。

按城市划分成功退出的概率？

请参阅链接中的大型表格 :-）。

招聘紧缩

破纪录：初创公司可能也拒绝了许多工程候选人，这些候选人的表现会与他们现有团队中的任何人一样好甚至更好，因为科技行业的招聘流程是民间传说式的、非理性的。

摘录太长。请参阅链接！

你应该离开一份糟糕的工作吗？

我是一个42岁非常成功的程序员，到目前为止在我的职业生涯中经历过很多情况，其中许多都极具挫败感。我给你最好的建议就是离开你正在做的事情。真的。即使你声称自己没有条件这样做，你真的有。没关系。你是自由的。好吧，你在帮你男朋友的初创公司，但合适的代价是多少？如果他知道这让你的灵魂备受煎熬，他还会让你这样做吗？

我并不是随便使用“灵魂备受煎熬”这个短语。当它慢慢发生时，就像这些情况一样，很难看清正在发生的事情的规模。但这是一个非常严重的情况，如果任其发展，可能会损害你余生做好工作的潜力。

警告倦怠的评论者是对的。倦怠是一个非常严重的情况。如果你把自己逼到严重倦怠，即使在一份表面上很棒的工作中，你也很难在未来任何工作中保持高效。把倦怠当作身体损伤来对待。我曾经倦怠过一次，花了至少12年才恢复到全部生产力。不要那样做。

更广泛地说，最好和最有创造力的工作源于快乐和兴奋。如果你失去了对与编程相关的事情感到快乐和兴奋的能力，你就无法做到最好。这个问题与倦怠是分开的、平行的！如果你倦怠了，你可能仍然能在项目/想法的开始短暂地感受到快乐和兴奋，但随着日常工作的现实开始，它们会很快消退。或者，如果你没有倦怠，但也缺乏好奇心，那么你很可能永远不会开始去做那些好的工作。

你职业生涯中现在的阶段越早，这段时间对你的发展就越重要。程序员通过实践学习。如果你将自己置于一个不断受到挑战并以能力上限工作的环境中，那么几年过去后，你的技能将大大提高。就像去密集学习几年功夫，或者参加海豹突击队训练之类的。但这不仅仅是持续的一次性增长。你完成事情越快，完成得越彻底、越少出错，你能执行的想法就越多，这意味着你未来学习得也越快。从长远来看，编程技能就像复利。现在多一点意味着以后会多很多。现在少一点意味着以后会少很多。

所以，如果你让自己处于一个并非真正具有挑战性的位置，每天都很沮丧，完成事情很慢，那么你不仅仅是现在过得慢。你正在拉低整个职业生涯的复利曲线。这是一个严重的问题。如果我能回到我职业生涯的早期，我会无情地砍掉我做过的所有糟糕工作（其中有很多）。

在政治上不受欢迎时创造变革

一个小故事。一个熟人讲述了修复后院“排水”的故事。他们试图种植一些对过度潮湿敏感的植物，但植物在死亡。不浇水、少浇水似乎都没有改变。它们死了。一位专业园丁建议说，他们的问题是排水问题。于是他们挖了大约3英尺深（那里的土壤非常非常湿），试图建造更好的排水系统。由于他们在山坡上，所以没有考虑地下水位问题。结果发现他们的“问题”是，为他们家和山上房子供水的总水管在他们的房产处压力太大（因为它必须在山顶也保持压力），导致管道接缝漏水，并将大量水抽入了他们房产下的地基。问题不在于他们的花园，而在于城市供水系统设计不良。

虽然我从未被问过是否是工程师，但我经历过类似Rachel在会议上和建议方面的经历。同事会对你形成一个内部价值评估，然后根据那个评估做出回应。如果他们否定了你，他们会忽视你；如果你在公共场合证明他们的评估错了，他们会攻击你。这些都是管理问题，也是这些故事中严重缺乏的。

如果你是一次会议的“负责人”，而有人试图发言却没有得到机会。你有责任让他们发言。作为“老板”，你可以自然地通过你的职位权力打断讨论，从其他成员那里收集更多信息。问一些像“有没有人有顾虑？”这样的问题也很重要，以引出那些有有效意见但太胆怯不敢分享的人。

在高度政治化的环境中，有两种创造变革的方式，一种是公开操作，即为自己收集政治权力，然后运用它来实施变革；另一种是隐蔽操作，即以足够微妙的方式实施变革，以至于政治有机体不会反应（有时被称为“触发抗体”）。

后一种方法的问题在于，如果你在帮助实现积极变革的同时让每个人都不生气，没有人会将其归功于你（这对变革推动者来说是好事，因为如果他们知道抗体就会反应，但如果经理没有认识到它，那就是坏事）。我问我的经理他想要什么是“真实”的，但他（或其他人）未能实现，他给了我一个，18个月后，那个变革就位了。他不相信是我实现了那个变革。我建议他选择一个他希望发生的变革，不告诉我，然后18个月后我们可以看看那个变革是否发生了:-）。但他对组织动力学的理解也不够，不知道在没有变革的源头指回自己的情况下实现变革是否可能。

如何从Google获得技术支持

严重依赖谷歌产品？✓
在谷歌的客户服务上碰壁？✓
有现成的受众可以利用来引起某个随机谷歌员工的注意？✓
登上Hacker News首页？✓
好消息！你的问题应该在2-5个工作日内得到解决。我们这些依赖谷歌服务的傻瓜只能无助地盯着收件箱，等待对我们支持工单（永远不会有回应）的回复。我觉得如今几乎成了一种[仪式]：严重依赖谷歌服务，结果出了问题，却被晾在一边。

接受融资

如果我没记错的话，PayPal也非常相似——它以15亿美元被收购，但Max Levchin的份额只有大约3000万美元，Elon Musk的份额只有大约1亿美元。相比之下，许多早期的Web 2.0宠儿（Del.icio.us、Blogger、Flickr）只卖了2000万到4000万美元，但他们的创始人只拿了少量种子轮，因此收购价格的绝大部分归创始人所有。4000万美元收购的75% = 10亿美元收购的3%。

创始人在接受融资时需要考虑这一点。如果你看看那些巨大的科技财富——盖茨、佩奇/布林、奥米迪亚、贝佐斯、扎克伯格、惠利特/帕卡德——它们通常来自在寻求投资时已经盈利或已经处于用户增长曲线快速上升期并有明确变现路径的公司。那些为了争取客户而拼尽全力、需要大量外部资金的公司通常财务结果要差得多。

StackOverflow vs. Experts-Exchange

很多以某种方式参与过Experts-Exchange（EE）的人不理解StackOverflow（SO）。

EE的基本价值流是“专家”为有问题的新手提供有价值的“答案”。在这个等式中，有一个人提问，一个人写答案。

StackOverflow认识到，对于每一个提问的人，会有100-10000人在Google上输入同样的问题，并找到已经写好的答案。在我们的等式中，我们是一个由写答案的人组成的社区，这些答案将被成百上千人阅读。我们的项目更像维基百科——协作地为整个互联网创建资源。

因为这个资源是由社区提供的，所以它属于社区。这就是为什么我们的数据是自由可用的，并在知识共享许可下发布。我们这样做特别是因为EE将社区生成的资源据为己有并决定设置付费墙的负面经历。

许多EE贡献者的态度，比如Greg Young计算出他“免费工作”了半年，并没有被每月在SO上写答案的60万人所共享。当你和他们交谈时，你会发现在StackOverflow上，回答问题是为了学习。它是为了创建一个永久性的成果，让互联网变得更好。它是为了帮助某人在五分钟内解决一个问题，而这个问题他们自己可能要花几个小时来解决。而不是为了免费工作。

一旦EE引入了金钱概念，他们就迫使每个人都将自己的EE工作视为仅仅如此——工作。

从亚马逊机器人赚钱

我看到我的一本旧教科书卖了个好价钱，于是我把它和另外两本二手书一起挂了出去。我把价格定得比最低价低1美元，但在一个小时内，两个卖家都把价格改得比我低0.01美元和0.02美元。我又降了两次价，每次降1美元，每次他们都以低一两美分的价格击败我。于是，我所做的就是每小时降几美元，连续降了一天，直到所有人都定价低于5美元。然后我买了他们的书，再把我的价格改回去。

经营企业是什么样子

虽然我喜欢这里的观点，但我认为危险在于工程师们可能会错误地认为制作披萨是经营一家成功的披萨店的主要限速因素。经营一家成功的披萨店更多的是：去当地酒店推销，留下50份菜单放在前台；雇佣既能在及时送达披萨又不会侵吞你（微薄）利润、同时雇佣成本几乎为零的司机；维护一个足够整洁的厨房以通过当地卫生检查员的年度检查（并处理与之相关的47份不同文件）；能够权衡诸如“我是否应该银行贷款建造一个新的砖炉，这样会让披萨味道更好，但这意味着在未来3年里每月将占用我3000美元的现金流，还是我应该雇佣一个额外的厨师？”等问题；采购食材，确保每天都能以相当稳定的价格获得充足且优质的供应；定价时既要考虑到你所选客户群的本地竞争力，又要为企业产生健康的毛利率；理解为什么健康的毛利率并不意味着健康的净利率，租金仍然需要支付；保持足够好的记录，以便在你无法支付工资之前就能知道你的企业是否在死亡，并且每年能够向税务机关提供相对准确的账目；平衡“中号披萨五折”促销活动与不想蚕食老顾客生意的欲望；等等，等等，顺便说一句，番茄酱应该是酸的但不酸，奶酪应该在烤出微脆外壳的同时融化。

你想以写软件为生吗？谷歌正在招聘。你想经营一个软件企业吗？祝你好运。软件现在只占你工作生活的10%。

如何处理管理不善？

我倾向于这样理解：你的工作不是保护人们（尤其是高级管理层）免受其决策后果的影响。根据你自己的最大利益做出决策；由组织来确保你的利益与他们的利益一致。

谷歌过去有一个严重的问题：代码重构和维护在绩效评估中不受奖励，而发布则受到高度重视，这导致每个人都试图尽可能快地发布东西，没有人去清理留下的烂摊子。最终发布开始变慢，拉里开始问“为什么我们不能拥有好东西？”，每个人都回答“因为你一直付钱让我们累积技术债务。”结果，成立了专门负责代码健康和维护的团队，那些已经在做这些工作的团队得到了更多关注，重构贡献在绩效评估中开始算数。此外，许多对这种情况感到厌烦的前谷歌员工去了Facebook，我听说，他们在Facebook建立了一种文化，在这种文化中，那些辛苦的工程维护工作受到同行的重视。

如果人们只是英勇地牺牲自己，在没人关心的工作上耗尽自己，这一切都不会发生。有时，在有决策权的人意识到问题并开始纠正之前，需要高度可见的后果。如果这些后果从未发生，他们会继续相信这不是一个问题，不会太关注它。

不可变性的一些缺点

承担责任

我祖父教我的事情是，你一生都要与你所有的决定共存。当你做出将他人置于风险之中的决定时，你承担着让某人的生活更艰难、甚至可能艰难得多的风险。也许更重要的是，再多的“我很抱歉我做了那个……”也无法挽回它。有时是小事，比如吃了最后一份因为你以为大家都吃过了；有时是大事，比如认定家够近了、而且你足够清醒可以安全到达那里。它们都是我们每天都在做的决定。而随着我年龄增长，那些我希望自己做了不同选择的决定所带来的负担并不会变轻。你可以对自己撒谎，合理化你的选择，但这也无法改变它们。

我年轻时并不明白其中任何一点。

并非完全撒谎的人

我花了太长时间才想明白这一点。有些人真的、并且充满热情地相信他们对你说的话，但实际上他们个人无法实现，所以你不能真的指望那个“承诺”。

我过去以为那些人是为了利用别人而撒谎，但随着年龄增长，我开始认识到这些“是的”型的人升职很快。而且对他们中的一些人来说，他们确实相信他们所说的。

作为一名工程师，我发现一旦我能“校准”某人的“是的”程度，我就可以与他们合作，明白他们只做出“一厢情愿的”承诺，而不是“经过深思熟虑的”承诺。

所以当有人，比如史蒂夫·乔布斯，说“我们要把它变成一个开放标准！”时，我的第一个问题是“太好了，我需要你的支持来让它成为开放标准，这样我就可以指望你在有人反对这项努力时运用你的职位影响力来帮助我，对吗？”如果这个问题的答案是否定的，那么他们就是在撒谎。

区别当然是微妙的，但很重要。史蒂夫显然不会去标准会议投票等等，但如果经理鲍勃因差遣5人参加倡导Facetime协议作为开放标准的开放视频聊天工作组而面临会计部门的反对，认为这将超出他的差旅预算，那么鲍勃经理去找史蒂夫说：“我需要你在这里帮忙，这5个人需要去辩论这个标准，防止它被谷歌派去的5个人变成垃圾。”然后史蒂夫给会计部门写了一行字：“别找这个家伙的麻烦，我们需要这个。”那么一切就都好了。但另一方面，如果他说“我们得省钱，派一个人去”，那么我就更同情那些指控他含糊其辞的说法了。

是什么让工程师高效？

对于那些在谷歌内部工作的人来说，看看杰夫和桑贾伊的提交历史和代码审查仪表板是很有价值的。就编写的代码量而言，他们实际上并不比一个熟悉代码库的优秀SWE3（软件工程师三级）多多少。

他们之所以被当作摇滚明星，是因为他们能够将这种生产力应用于真正重要的事情上；他们能够挑出问题中真正重要的部分，然后专注于那里，因此最终结果比SWE3写的代码影响更大。SWE3可能会花时间写一堆单元测试，这些测试捕获的bug实际上不会发生，或者从一个系统迁移到另一个系统，而后者并不是一个大的改进，或者陷入一个架构死胡同，最终还得重写。杰夫或桑贾伊（或任何其他在同一水平运作的人）会花时间向客户验证提议的API以确保它满足他们的需求，或者测量子系统的性能以便完全理解他们的构建块，或者在构建系统之前在脑海中模拟系统的运行，以便快速测试替代方案。他们实际上写的代码并不比初级开发人员多（很多时候，他们写的更少），但他们写的代码为他们提供了更多信息，这使他们确保自己写的是正确的代码。

我觉得这一点需要比现在更多地被强调，因为围绕10x（10倍效率）开发者的神话已经形成，这并没有太大帮助。特别是，人们需要意识到，如果你不允许这些开发者自己做架构选择，他们很快就会变成1x开发者（或更差）——他们一开始就很优秀的原因是他们知道如何确定某些工作是否会是无用的，并且从一开始就避免去做。如果你规定他们无论如何都要去做，他们会变得和任何其他开发者一样慢。

努力工作，成为英雄

我也听过一次“英雄”演讲。如果有人再提到“英雄”这个词，而当时没有燃烧的建筑，我会立即开始寻找新的工作。在我们的行业中，这似乎普遍是“我们即将利用你，因为项目人员不足、预算和时间不足，而这正是我们计划好的，所以你最好像个牛仔一样挺住。”的代码词。

也许如果你在写《雷神之锤》会有所不同，但我保证，当年销量第43位的游戏也有程序员被“鼓励前进”，用的是死后等待的荣耀故事。

通过看电影学英语

有一次我和一个好朋友在这里用英语交谈。
"你想出去吃烤鸡肉串吗？"
"去你的！"
"……（切换到日语）我最近做了什么很严重的事情冒犯你了吗？"
"没有，当然没有。"
"哦，好吧，我担心了。那么，那个短语，是你只有在极度痛苦、极度想要冒犯我的情况下才会说的，或者我想你可以在朋友之间开玩笑地说，但你我通常都不是那样说话的。"
"我是从一部电影里学来的。我以为它的意思是‘不’。"

聪明且能把事做成

真实的故事：我去听了一位“工程界元老”（这些是被认为非常成功并被员工效仿的低职级工程师）的演讲。这个人说他们来谷歌工作时，被分配了XYZ系统来处理（遗憾的是，我不能透露实际系统）。他们说他们花了几天时间查看这个复杂而破旧的系统，搞不清楚，于是他们写了一个新系统。是的，他们提交了那个。这个人是个编码上帝，不是吗？（讽刺）我问旧系统怎么样了（我知道，但想听听他们的看法），他们说它还在，因为还有几个东西在使用它，但（相当自豪地）几乎所有其他东西都已迁移到他们的新系统了。

所以如果你仔细阅读，这个人创建了一个新系统来“替换”一个他们不理解的现有系统，并让几乎所有人都迁移到了新系统。这让他们变得超级厉害，因为他们有了一个大项目可以写在内部简历上，而一大堆人不得不写新代码来适应从旧系统到这个新系统的转换，这个新系统不完美地重建了旧系统（记住他们不理解原系统），以至于那些依赖于更晦涩部分的系统尚未被转换（因为显然没有人理解依赖代码或旧系统）。

这个人聪明吗？根据一些同行的说法，耀眼的聪明。他们能把事做成吗？当然，他们从头开始编写了XYZ系统的替代品！一个人？你能想象吗？我会雇佣他们吗？除非他们是我候选人库中最后一个合格的人，而且我时间紧迫，否则不会。

这个轶事概括了“聪明且能把事做成”的人的危险一面。

公开演讲技巧

有些孩子是在足球场上长大的。我是在公开演讲中长大的（实际上是作为言语障碍的行为疗法）。如果你想在短时间内大幅提高：

摘录太长。请参阅链接。

公司可能不适合的一个原因

我能理解这一点，但我也能理解问题的另一面。有时不是我，而是你。拿一个能把事做成的人来说，突然在你的组织里，他们无法交付了。可能是他们的问题，但也可能是你的问题。

我在谷歌工作时就有过这种经历。我在那里做什么都异常困难。我花了一些时间来评估这一点，因为在那之前我的职业生涯中从未出现过无法推动事情前进的情况，而我真的很想理解这一点。简短的答案是，谷歌培养出了一些人，他们把大部分甚至全部时间都花在阻止变革上。我花了一段时间才弄明白是什么驱使一个人反对变革。

恐惧是风险和安全。人们频繁调动，所以你遇到的情况是：人们负责他们没有构建、不理解所有动态部分的系统，如果他们搞砸了，可能会得到糟糕的评级。处理处于这种情况的人时，要么教育他们并带领他们，要么强推过去。教育需要时间，而在此期间，“老师”什么也做不成。这在进化上有利于强推 :-)

所以你可以雇佣一个能把事做成的人，但如果在你的组织里，把事做成需要他们成为一个混蛋，而他们不愿意那样做，那么他们就不会像你希望的那样成功。

在谷歌工作是什么样子

我能看出这是由外人写的，因为它关注的是福利，并重复了一些已经成为流行媒体陈词滥调但并不完全准确的说法。

大多数谷歌员工会告诉你，在那里工作最好的事情是有能力与非常聪明的同事一起解决真正困难的问题，并拥有大量可用的资源。我记得我问我的面试官，如果我有很好的20%想法，我是否可以使用谷歌的索引之类的东西，他说：“当然。这是鼓励的。我通常会直接抓取4000台左右的机器，运行MapReduce来测试某个假设。”我的电话筛选员，当我问他那里工作是什么样子时，他说：“这是一个非常聪明的人去变得平庸的地方，”结果证明这既是真的，也是我在那里工作获得的最好的事情之一。

NSA vs. Black Hat

整个事件都是一场精心策划的媒体操作。基思·亚历山大是信号情报、电子战和情报领域约30年的资深人士，也是美国陆军四星上将——这比你想象的还要厉害。他是真正意义上的间谍头子和政治大师。任何认为他走进凯撒宫会议厅时，对演讲结果没有近乎完美预测的人，都是在自欺欺人。

起哄亚历山大正中他的下怀。这给了他一个机会，让自己相对于批评者显得更合理，而且更普遍地（也是令人担忧地），让NSA相对于NSA监控的反对者显得更合理。他能够“分裂选票”，利用观众的反应，让那些可能对NSA项目有严重保留意见的人为他冷静优雅地处理辱骂而鼓掌；其中许多人可能只是为了抗议起哄者而鼓掌，毕竟起哄者让他们更难跟上亚历山大想说的话。

主旨演讲没有提供严肃的问答环节。问题经过了预审；所有与会者只能投票选择问题。这次演讲不可能产生其他结果，只能是有效地、不受挑战地、全力为NSA的项目辩护。

截止日期是必要的吗？

有趣的是，当我在谷歌工作时，我发现最令人惊讶的事情之一是几乎完全无法理解“截止日期”的概念。多年来，公司只需要将代码提交到发布分支，然后在几周内部署到“集群”就算发布了。

当然，有“流程”，比如“在某个集群里进行金丝雀测试，并观察几周的结果，然后再向全世界发布。”但完全垂直整合是一种独特的情况。

在Windows上调试 vs. 在Linux上调试

作为一个尝试转向Linux的非常有经验的游戏开发者，我以前也发表过关于这个的文章（并遭到了反应型Linux拥护者的猛烈抨击）。

主要原因是Linux上的调试很糟糕。gdb用起来很糟糕，所有试图与gdb接口以“改进”它的IDE都做得不好（主要是因为gdb本身不擅长被接口）。需要有人把这个东西从轨道上炸掉，然后从头开始构建一个新的调试器，并提供一个库风格的API，让IDE能够以丰富而微妙的方式检查可执行文件。

生产力至关重要。如果一个合理的调试环境的缺乏让我损失了哪怕5%的生产力，那也太多了，因为游戏需要大量的工作来制作。在项目结束时，我已经没有5%的精力剩下了。它需要一切。（但目前的Linux状况远不止是5%的生产力损耗。我不知道确切是多少，但如果我猜，大概是20%左右。）

当你变得富有会发生什么？

有趣的是，人们甚至不知道自己对金钱有复杂情绪，直到他们变得“富有”。我看过许多人，也许有上百人，从“工作糊口”变成“天哪，我现在有的钱可以支付我所有现在的账单，也许还有未来的账单。”这还不包括那个住在我们街区、一年中赢得加州彩票的家伙。

它以意想不到的方式影响人们。如果是突然发生的（比如中彩票或IPO突然飙升），可能很难处理。但重要的是要意识到自己正在处理一件特殊事件。就像所爱的人去世或配偶突然离婚一样。

并非每个人都感到“内疚”，也并非每个人都感到“自满”。湾区很多百万富翁和亿万富翁外表上没有变化。但关键是，这种情绪来自于价值观与现实之间的认知失调。你重视什么？现实是什么？

我在谷歌认识的一位女性在开始工作时非常矛盾。她一直觉得，如果她有了比需要的更多的钱，她会帮助她看到的那些无家可归的人。在通过谷歌股票变得富有后，她发现自己想把钱存起来用于未来孩子的教育和需求。她是个坏人吗？之前？之后？如果你把孩子的大学教育费用捐给了当地的食品银行，你的孩子会恨你吗？你的同事会恨你吗，因为你能够解决食品银行当前的食品缺口但你没有？

微软收购Skype

这是微软的ICQ时刻。在一家公司的核心能力正在变成大宗商品的时候，为它支付过高的价格。有人对Skype有任何忠诚度吗？当然没有。他们会使用内置于他们智能手机、平板电脑、电脑等中的任何视频聊天。他们会使用Facebook最终推出的视频聊天服务或谷歌提供的服务。当有这么多替代品存在并深度集成到他们已经使用的产品/服务中时，没有人会主动寻找Skype。当然，没有人会仅仅因为集成了Skype就去购买微软的产品。谁在乎它是FaceTime、Facebook视频聊天还是谷歌视频聊天？对用户来说都一样。

有了70亿美元，他们本可以以史诗级的公关噱头赠送大约1500万部Windows Mobile手机。它不是坏产品——他们只是需要让人们意识到它的存在。如果他们想把钱冲进马桶，他们还不如让用户参与这个过程？

Google Fiber怎么了？

当Fiber团队非常年轻的时候（基本上是从发布前2周到发布后2周），我曾短暂地在Fiber团队工作过（我从搜索团队借调来，专门是为了帮助他们实现发布目标）。我在那里的时候，瓶颈是当地政府法规，事实上，选择堪萨斯城是因为它有一个统一的城市/县/公共事业监管机构，对谷歌非常有利。要铺设光纤到户，你需要获得电线杆的通行权（这些电线杆由谷歌的竞争对手拥有），或者需要挖掘街道的许可（这需要市政府的大量许可）。无论哪种情况，有线电视和电话公司与当地监管机构关系非常密切，所以你遇到的是你绝对需要批准的敌对守门人。

技术很棒（1G互联网和高清电视！），软件都运行良好，雇佣承包商铺设光纤本身的经济性也确实可行。大问题是监管俘获。

回顾Uber和AirBnB的成功，我认为破解ISP业务的方法是为你的客户提供大规模违法的工具。例如，你可以想象一家ISP初创公司基本上这样说：“这是一个盒子、一根电线和一个其他客户位置的地图。插到他们的插口上，如果你能说服其他人插到你的插口上，我们就会根据你签约的数量给你每月账单打折。”但谷歌通常不愿意违法——他们会严格遵守法律允许的边界，但如果监管机构说“不，你不能那样做”，他们就不会去做，而不是去对抗监管机构。

确实，Fiber正逐步淘汰，转而支持谷歌收购的WebPass，后者基本上做同样的事情，但是用无线代替光纤。WebPass只需要业主的同意，就把城市排除在外。

在微软TechEd上演讲是什么样子

我在美国和欧洲的TechEd上演讲过两次，并且两次都在与会者反馈中名列前茅。

我再也不会在TechEd上演讲了，我也告诉了微软同样的事情，同样的原因。活动工作人员要求过多，不体谅演讲者的时间。他们反复将我拖入强制性的虚拟和面对面会议，讨论一些本可以通过电子邮件解决的无关紧要的细节。他们规定了演讲者穿的裤子颜色。管理得太过微观。

赫兹为什么突然变得如此不可靠？

赫兹今年早些时候裁掉了几乎所有的一线IT员工。

为了获得遣散费，我们被迫培训在印度的IBM替代者。赫兹的IBM和紧缩战略是新的SMT对资产负债表一团糟的解决方案，但他们通过将高管薪酬提高35%（包括给CIO 600万美元奖金）来犒劳自己。

我个人去了Alphabet公司，获得了大幅加薪，现在我有幸参与真正令人惊叹的工作，所以我过得很好。但直到今天，想到我们曾经出色的赫兹团队，成员非常聪明，由我遇到过的最好的老板领导，真正推动赫兹的创新，却被像昨天的垃圾一样扔掉了，我还是感到难过。

在初创公司把禁止条款写入合同之前，他们有时会通过后台沟通阻止销售

不要指望一定能卖掉股票来支付税款。我在非常良好的状态下离开了（我当时是这么认为的），但当我打算出售时，交易被叫停了[1]。幸运的是，我有一个备用计划，我没事[2]。

[1] 与公司的一位投资者达成了口头协议，然后投资者对我沉默了。当我跟进时，他说交易“实在太小了。”我联系了公司寻求帮助，他们说他们实际上告诉了他不要从我这里买。如果他们没有出于某种原因决定告诉我，我永远也不会知道。教训是私营公司股票的市场往往很小，买家更关心他们与公司的关系，而不是拥有你的股份。即使股票条款允许他们购买，他们也可能不买。

亚马逊一个旨在降低面试成本的试点项目

我和原帖作者一样参加了第一个测试，逻辑推理部分对我来说似乎有点无关紧要，浪费时间。与第二个在线测试相比，那根本不算什么。

第二个测试的环境就像《黑镜》中的场景。他们不仅要求整个过程开启网络摄像头和麦克风，我还必须安装他们的定制软件，以便监考人员可以监控我的屏幕并控制我的电脑。他们打开了macOS系统偏好设置，以便禁用所有截屏快捷键，他们还手动关闭了我正在运行的所有后台服务（甚至包括f.lux！）。

然后他们要求我拿起笔记本电脑，用网络摄像头向他们展示我的房间。他们特别要求看看我桌子上东西以及房间的墙壁和天花板。我的桌子上有一些铅笔和纸，用来做草稿纸，这显然是必要的，他们告诉我那是不允许的。显然这让我有点不高兴，因为我用它来草绘例子和概念。他们还看到我桌上的手机，要求我把它放到手臂够不到的地方。

在那之后，他们告诉我，在测试进行到一半允许的5分钟上厕所休息之前，我不能离开房间。我忘了告诉我室友我在参加这个测试，他玩L4D2（《求生之路2》）在线游戏时有点吵（显然有点分心）。我问监考人员我是否可以短暂离开房间让他安静一下。他们说在厕所休息之前我不能离开，所以我无能为力。后来，我正忙于思考一个问题，调整了坐姿，把脸稍微移出了摄像头视野。监考人员又给我发消息，要求我移动，以便能看到我的整个脸。

亚马逊面试，第二部分

面试的第一部分与链接的经历完全一样。没有编码问题，只有推理。第二部分我不得不使用ProctorU而不是Proctorio。个人认为这个经历超级奇怪但可以理解，我待会儿会讲到，有人通过我的网络摄像头全程看着我，我的麦克风开着。测试前他们需要检查我的身份证。他们需要我展示我所在的整个房间（那是我的卧室）。我的台式机在我的笔记本电脑后面开着，所以我关掉了我的电脑（我不记得是我主动提出的还是他们要求的），但他们还要求我用东西盖住显示器，这在我关掉后就显得很傻了，所以我用一条毛巾盖住了它们。然后他们用LogMeIn远程连接到我的机器，检查正在运行的程序。我退出了所有个人聊天程序，几乎只运行Chrome窗口。

……

直到我收到录用通知，我才和真正在亚马逊工作的人（通过电子邮件或网络摄像头）交谈过。

被甲骨文收购是什么感觉？

我们公司被甲骨文收购了。我们以为一切都会好。起初没有任何变化。慢慢地，他们开始拧紧螺丝。5年笔记本电脑更换政策。你会得到公司标准的笔记本电脑，并且你会喜欢它。销售？哦，那些家伙可以每两年买新Mac，他们想要什么都行。然后你明白了软件工程师在公司等级制度中的地位。甲骨文将我们产品的平均价格从同一规模交易的10万美元提高到500万美元。我们的销售额从500-700万美元增加到超过4000万美元，工程人员没有增加（15人团队）。但奖金发放时，我们所有人都被排名，有些人什么也得不到。作为顶级绩效者，我得到了一些期权，价值大概5000美元。

甲骨文的存在是为了从财富1000强中榨取最大可能的金钱。其他人都可以滚蛋。你无能的互联网愤怒毫无意义。如果它没有惹恼X公司的CTO，那就不重要。如果它能让那个CTO开出更大的支票，那么它就会受到极大的热情欢迎。

这种文化让很多（但不是所有）优秀的人感到疲惫，然后离开。剩下的是大量的平庸和架构宇航员。产品越复杂越好——这意味着额外的咨询费用！

我的亲戚在一家依赖Micros的公司工作。当甲骨文宣布收购时，我告诉他们立即开始备用计划，因为甲骨文迟早会搞砸他们。几年过去了，这被证明是真的：甲骨文正在慢慢排挤Micros经销商和独立软件供应商，吞噬所有收入，同时提高价格。

由 mimo-v2.5 模型翻译，花费 41601 tokens

编程书籍推荐与避坑指南

Sun, 16 Oct 2016 08:06:34 +0000

市面上充斥着各种“程序员必读的12本计算机书单”，这纯属无稽之谈。这个领域如此宽泛，几乎没有哪个主题能成为所有程序员的必读内容。即便某个主题确实至关重要，人们的学习偏好也差异巨大，很难有哪本书能成为所有人眼中该主题的最佳选择。

这份清单列出了一些主题和书籍，我本人读过这些书，对这些主题足够熟悉，能说明深入学习它们能带来什么收获，而且我也读过其他相关书籍，可以解释为何要选择这本而非那本。

算法 / 数据结构 / 复杂性

为什么要关注这个领域？嗯，有实用主义的理由：即便你在工作中从不使用这些东西，大多数薪酬最高的公司也会在面试中考察它们。抛开功利面不谈，我发现算法的用处和数学类似。任何特定算法对任何特定问题有用的概率都很低，但对哪类问题可解、哪类问题难以处理、以及近似方法何时有效有一个总体认识，往往很有帮助。

McDowell；《程序员面试金典》

包含一些与谷歌、脸书、微软等公司初级面试难度匹配的问题和解答，并附有解释。我通常向那些只想通过面试而不想真正学习算法的人推荐这本书。它刚好够应付面试，但并没有真正教你任何知识背后的“为什么”。如果你想真正学习算法和数据结构，请看下面。

Dasgupta, Papadimitriou, 和 Vazirani；《算法》

对我来说这本书似乎完美无缺。它将算法分类（例如，分治或贪心），并教你如何识别应该用哪种算法来解决特定问题。作为一本入门书，它涵盖了恰当的主题范围，篇幅适中，适合在几个周末内读完，并且附有适合入门水平的练习题。此外，它在章节中间设置了一些子问题，让你反思那些非显而易见的思想，确保你不会遗漏任何内容。

我知道有些人不喜欢它，因为它相对来说数学味/证明味较浓。如果是你，你可能会更喜欢 Skiena 的书。

Skiena；《算法设计手册》

这是 Dasgupta 那本书的更长、更全面、更实用、数学味更淡的版本。它的相似之处在于，它试图教你如何识别问题、使用正确的算法，并清晰地解释该算法。书中穿插了许多“实战故事”，展示了算法在实际编程中的影响，让内容更有说服力。

CLRS；《算法导论》

不知为何，这本书竟然出现在了半数“程序员必读的N本书”书单中，尽管它如此全面和严谨，以至于几乎没有从业者能通读全书。作为算法课程的教科书，它很棒，你会学到精选的主题。作为教科书，它的练习题难度足够高，可用于研究生级别的课程（我研究生算法课约一半的练习题取自 CLRS，另一半取自 Kleinberg & Tardos），这对教科书来说是个优点，但作为大多数人的独立入门读物，这极不实用。

举个例子，书中有一整章讲 Van Emde Boas 树。它们确实很精妙——一种具有 O(lg lg n) 插入、删除以及查找、后继和前驱操作的平衡树状结构是可能的，这有点令人惊讶，但算法入门不该包含 Van Emde Boas 树。

Kleinberg & Tardos；《算法设计》

对 CLRS 的评价同样适用于此——它被广泛推荐为入门书，尽管作为入门书并不合理。就我个人而言，我觉得 Kleinberg 的阐述比 CLRS 更容易理解，但很多人有相反的看法。

Demaine；《高级数据结构》

这是一套讲义和笔记，不是书。但如果你想学习一套连贯（但不会全面到难以驾驭）的、在大多数本科课程中不太可能见到的数据结构材料，这是绝佳选择。这些笔记并非设计成独立阅读材料，所以如果你还没接触过这些内容，最好配合视频观看。

Okasaki；《函数式数据结构》

研读起来很有趣，但与其他算法和数据结构书籍不同的是，我还没能把这本书里的任何东西应用到真正重要的性能问题领域。

读完这本书后的几年里，如果有人告诉我，理解纯函数式惰性数据结构的性能并不难，我就会问他们书中一个让我困惑的证明部分。我说的不是什么偏僻的超级难题，而是正文内容，作者认为太显然而无需解释的部分。没人能解释清楚。推理这类事情比人们通常声称的要难。

Dominus；《高阶 Perl》

一本温和的函数式编程入门书，碰巧使用了 Perl。你大概也可以同样轻松地用 Python 或 Ruby 来学习这本书。

如果你一直关注潮流，这本书今天可能看起来有点过时，但这只是因为其中的许多思想已成为主流。如果你想知道为什么应该关注这个人们一直在谈论的“函数式编程”，而你听到的一些口号无法打动你，甚至让你反感（类型即命题，它很好因为它是数学，等等），那么请给这本书一个机会。

Levitin；《算法》

我是在亚马逊上看到这两段宣传语后下单买的：“其他的学习增强功能包括章节总结、练习提示和详细解答手册。”以及“学生的学习通过练习提示和章节总结得到进一步支持。”其中一段甚至印在了书上，但拿到书后，我能找到的自学资源只有雅虎问答上一些询问哪里能找到提示或解答的帖子。

最后我选择了 Dasgupta 的书，它可以从作者网站上免费获取。

Mitzenmacher & Upfal；《概率与计算：随机化算法与概率分析》Probability and Computing: Randomized Algorithms and Probabilistic Analysis

这本书我可能比任何其他算法书都获益更多。许多随机化算法很容易移植到其他应用，并且能大大简化问题。

书中对概率论有足够的入门介绍，因此你无需具备任何概率基础。此外，关于尾部界限（例如，切诺夫界）的内容对许多计算机科学理论证明很有用，这在入门概率论教科书中并未涵盖。

Sipser；《计算理论导论》

经典的计算理论入门书。图灵机等。证明常常在“证明概要”的层面给出。许多重要结果（例如，赖斯定理）被推到了练习题中，因此你必须完成关键练习题。不幸的是，大多数关键练习题没有解答，所以你无法检查你的答案。

如果想看更现代的主题选择，可以看看 Aurora & Barak 的书。

Bernhardt；《计算》

涵盖了计算理论的一些亮点。解释令人愉悦，有些视频我看了不止一遍，纯粹是为了看 Bernhardt 如何解释事物。面向没有计算机科学背景的普通程序员观众。

Kearns & Vazirani；《计算学习理论导论》

经典，但已过时且错误百出，也没有勘误可用。当我想学习这些材料时，最终拼凑了 Klivans 和 Blum 两门课程的笔记。

操作系统

为什么要关注这个领域？拥有一些操作系统知识可以节省数天甚至数周的调试时间。这是 Julia Evans 的博客的一个常见主题，根据我的经验也是如此。我很难想到有谁构建实用系统且懂一点操作系统知识，却没发现这些知识能节省时间。然而，读操作系统书籍的人存在偏差——往往是从事相关工作的人！如果你做非常高层次的工作，读这些书可能收获不同。

Silberchatz, Galvin, 和 Gagne；《操作系统概念》

这是我在威斯康星大学时使用的教材，在 the comet book 成为标准之前。我猜它还行。它在较高层面涵盖了概念，涵盖了主要观点，但在技术深度、事物如何工作的细节、高级主题和清晰阐述方面有所欠缺。

Cox, Kasshoek, 和 Morris；《xv6》

这本书很棒！它解释了如何在真实系统中实际实现东西，并且它自带了一个你可以试用的操作系统实现。通过设计，作者倾向于简单实现而非优化实现，因此使用的算法和数据结构通常与你在生产系统中看到的大不相同。

这本书与那些讨论更现代操作系统工作原理的书（如 Love 的《Linux 内核开发》或 Russinovich 的《Windows 内核原理》）搭配阅读效果很好。

Arpaci-Dusseau 和 Arpaci-Dusseau；《操作系统：三向曲线》

对各种操作系统主题进行了很好的解释。比我所知的任何其他入门操作系统书都更深入。例如，关于文件系统的章节描述了多个真实文件系统的细节，并讨论了 ext4 的主要实现特性。如果我对这本书有一个批评，那就是它非常 *nix 为中心。许多描述的事情只是 *nix 中的实现方式，并非固有，但文本大多没有说明什么是固有的，什么是 *nix 的实现细节。

Love；《Linux 内核开发》

书名可能有点误导——这基本上是一本关于 Linux 内核如何工作的书：各部分如何组合在一起，使用了什么算法和数据结构等等。我读过第2版，现在已经相当过时了。第3版有一些更新，但引入了一些错误和不一致，并且仍然过时（出版于2010年，涵盖2.6.34）。即便如此，它是对现代操作系统如何工作的良好介绍。

这本书的另一个缺点是，每当比较 Linux 和 Windows 时，作者就失去了所有客观性。基本上每次比较，作者都会说 Linux 显然且无可辩驳地做出了正确的选择，而 Windows 在做蠢事。总的来说，我更喜欢 Linux 而非 Windows，但在许多领域 Windows 更优越，也有一些领域两者旗鼓相当但 Windows 多年领先。然而，从这本书里你永远无法知道这些。

Russinovich, Solomon, 和 Ionescu；《Windows 内核原理》

关于现代操作系统如何工作的最全面的书。只是恰好是关于 Windows 的。从 *nix 背景出发，我觉得读这本书很有趣，只是为了看看差异。

这绝对不是入门书，你应该在阅读之前具备一些操作系统知识。如果你打算买这本书的实体版，可能要等到第7版发行（2017年初）。

Downey；《信号量小书》

将一个通常在操作系统教科书中只占一两个小节的主题扩展成一本300页的独立书籍。这本书是一系列练习题，有点像《Schemer 小书》，但阐述更多。它从解释信号量是什么开始，然后通过一系列练习构建更高层的并发原语。

当我刚开始编写线程/并发代码时，这本书非常有帮助。我属于Butler Lampson 并发学派，也就是说我更喜欢把所有与并发相关的代码塞进一个黑盒子里，由别人来写。但有时你被迫去写这个黑盒子，如果是这样，这本书很好地介绍了编写可能（但希望不是完全）正确的并发代码所需的思维方式。

我希望有人能用这种风格写一本书，但同时更底层也更上层。我很想看到类似的练习，但从几个具有不同内存模型（比如 x86 和 Alpha）的不同架构的指令级原语开始，而不是从信号量开始。如果我今天在写底层线程代码，我很可能使用 c++11 的线程原语，所以我想要一本使用这些而不是信号量的书（如果我是在针对 Win32 API 编写线程代码，我可能会用到信号量）。但由于那本书不存在，这似乎是次优选择。

我听说 Doug Lea 的《Java 并发编程》也相当不错，但我只是快速浏览过。

计算机体系结构

为什么要关注这个领域？你将学到的具体事实和琐事在进行低级别性能优化时很有用，但真正的价值在于学会如何权衡性能与其他因素（无论是功耗、成本、尺寸、重量还是其他）之间的关系。

理论上，这种推理应该与专业方向无关，但根据我的经验，搞体系结构的人更可能“理解”这种推理，并进行一些粗略计算，从而避免无谓地丢掉2倍、10倍（或100倍）的性能。这听起来显而易见，但我能想到多家大公司的生产系统正在放弃10倍到100倍的性能，而这些系统运行的规模即使2倍的性能差异也足以支付一位副总裁的薪水——所有这些都是因为人们没有仔细思考其设计的性能影响。

Hennessy & Patterson；《计算机体系结构：量化研究方法》

这本书教你如何在多约束（例如，性能、总拥有成本和功耗）下进行系统设计，以及如何权衡取舍。它恰好主要使用微处理器和超级计算机作为案例。

这本书的新版本有实质性增补，你真的需要最新版本。例如，最新版本增加了（除其他外）一章关于数据中心设计的内容，它回答了诸如运营支出/资本支出在电力、配电和冷却方面花费了多少，在支持人员和机器上花费了多少，使用低功耗机器对尾延迟和结果质量有何影响（以必应搜索结果为例），以及设计数据中心时还应考虑哪些其他因素等问题。

假设读者有一些背景知识，但这些背景知识在附录中呈现（可在线免费获取）。

Shen & Lipasti；《现代处理器设计》

介绍了构建高性能奔腾 Pro（1995年）时代微处理器所需的大部分知识。考虑到此类处理器的复杂性，这并非易事。此外，还介绍了一些更高级的思想以及从各种工作负载中提取多少并行性的界限（以及你可能如何进行此类计算）。书中关于值预测的部分异常多，因为作者发明了这个概念，而且在第一版出版时这仍然是热门话题。

就纯 CPU 体系结构而言，这可能是现有最好的书。

Hill, Jouppi, 和 Sohi；《计算机体系结构读物》

出于历史原因阅读，看看我们在解释事物方面进步了多少。例如，比较 Amdahl 关于阿姆达尔定律的论文（两页，仅有一个非显而易见的图表，没有公式）与现代教科书中的阐述（一段文字，一个公式，可能还有一个图表来澄清，但通常足够清晰，不需要额外图表）。

似乎越往前追溯情况越糟糕；由于体系结构是一个相对年轻的领域，这里的内容其实都不难理解。如果你想看看我们在解释事物方面进步有多显著的一个戏剧性例子，可以比较 Maxwell 关于麦克斯韦方程组的原始论文与现代教材对同一内容的阐述。如果你喜欢历史，这很有趣；但如果你只是想学习东西，可能会有点费劲。

算法博弈论 / 拍卖理论 / 机制设计

为什么要关注这个领域？世界上一些最大的科技公司依靠广告收入运营，而这些广告是通过拍卖销售的。这个领域解释了它们如何以及为何有效。此外，当你试图弄清楚如何设计有效分配资源的系统时，这些材料也很有用。¹

特别是，激励相容机制设计（大致来说，就是如何创建系统，使得当人们出于自身私利行事时，系统能提供全局最优结果）应该是任何在公司设计内部激励系统的人的必读内容。如果你曾经在一家“懂这个”的大公司和一家“不懂”的大公司工作过，你会发现那家不懂的公司，有大笔大笔的钱基本上被白白烧掉了，因为设定激励的人创建了极其浪费的系统。这个领域为你提供背景知识，让你理解什么样的机制会带来什么样的结果；阅读案例研究会给你一个非常长（且有趣）的错误清单，这些错误可能造成数百万甚至数十亿美元的损失。

Krishna；《拍卖理论》

据我上次所知，这是市场上唯一一本全面、现代的拍卖理论入门书。第一章就涵盖了经典的第二价格拍卖结果，然后继续涵盖风险规避、投标环、相互依存的价值、多重拍卖、非对称信息以及其他现实世界的问题。

相对枯燥。除非你已经对这个主题感兴趣，否则不太可能激起动力。需要理解基本的概率和微积分。

Steighlitz；《狙击手、诱饵和鲨鱼：eBay与人类行为》

似乎是为外行设计的拍卖理论趣味入门书。不需要数学背景，并将数学内容放在小号字体中。涵盖了大约 Krishna 那本书1/10的内容，也许更少。读起来很有趣。

Crampton, Shoham, 和 Steinberg；《组合拍卖》

讨论了诸如 FCC 频谱拍卖如何演变成现在这样，以及机制设计中的“漏洞”如何导致数亿甚至数十亿美元的损失等问题。这是一本每章由不同作者撰写的书之一。尽管如此，它仍然保持了连贯性，我不介意通读它。它的自包含性足够好，你可能无需先读 Krishna 就能读它，但我不推荐这样做。

Shoham 和 Leyton-Brown；《多智能体系统：算法、博弈论和逻辑基础》

书名是这本书最糟糕的地方。除此之外，它是算法博弈论的一个不错的入门介绍。本书涵盖了基本的博弈论、拍卖理论以及其他计算机科学人士可能还不熟悉的经典主题，然后涵盖了计算机科学与这些主题的交叉部分。假设读者没有特定的背景知识。

Nisan, Roughgarden, Tardos, 和 Vazirani；《算法博弈论》

对算法博弈论各种结果的综述。需要相当多的背景知识（建议先读 Shoham 和 Leyton-Brown 的书）。例如，第五章基本上是 Devanur, Papadimitriou, Saberi, 和 Vazirani 的 JACM 论文《通过凸规划的原始-对偶算法实现市场均衡》的拓展，增加了一些动机和相关问题。阐述很好，结果也很有趣（如果你对这类东西感兴趣的话），但如果你想通读一本书来获得该领域的入门介绍，这可能不是你想要的选择。

杂项

Beyer, Jones, Petoff, 和 Murphy；《站点可靠性工程》

描述了谷歌如何处理运维工作。具有典型的谷歌口吻，这对许多有“传统”运维背景的人来说是令人反感的，并且假设许多事情只能用 SRE 模型来做，而实际上在没有完全采用 SRE 的情况下也能做到。

更长的描述，请参见这篇关于谷歌 SRE 书籍的22页笔记。

Fowler, Beck, Brant, Opdyke, 和 Roberts；《重构》

在我读它的时候，单凭关于代码异味的章节就值回票价了。但这本书非常成功，以至于重构和代码异味的思想已成为主流。

Steve Yegge 有一段关于这本书的精彩推荐：

2003年10月，当我第一次读这本书时，我感到一种可怕的寒意，就像你突然意识到自己上班5年来一直忘了拉裤子拉链一样。第二天我随口问了一圈：“是的，呃，你读过那本，嗯，《重构》，当然，对吧？哈哈，我问是因为我很久以前就读过了，当然不是现在。”在我调查的20人中，只有1人读过。谢天谢地，我们所有人都忘了拉裤链，不只是我。

……

如果你是一位经验相对丰富的工程师，你会认出书中80%或更多的技术是你已经弄明白并开始习惯性使用的。但它给所有这些技术都命了名，并客观地讨论了它们的优缺点，我觉得这非常有用。而且它推翻了两三条我从最早当程序员起就珍视的准则。不注释代码？局部变量是万恶之源？这家伙是疯子吗？读它，自己判断！

Demarco & Lister；《人件》

我大学时读这本书觉得很有说服力。它甚至有各种研究支持他们的说法。没有截止日期比有截止日期好。独立办公室比格子间好。基本上所有与我交谈过的开发人员都同意这些。

但几乎每一家成功的公司都是以相反的方式运作的。就连微软也在将建筑从独立办公室改造成开放式布局。有没有可能这些事情其实没那么重要？如果它们真的那么重要，为什么像 Fog Creek 这样坚信此道的公司没有大肆碾压他们的竞争对手？

这本书符合我的偏见，我很希望这本书是对的，但元证据让我想带着批判性的眼光重读一遍，并查阅原始资料。

Drummond；《帝国的叛逆者》

这本书解释了微软激进的文化是如何形成的。引言写道：

微软不一定招募盖茨的克隆体（尽管公司园区里有很多），而是招募那些与盖茨共有某些显著特质的人——傲慢、好斗和高智商。

……

盖茨以嘲笑他人的想法是“愚蠢的”，或者更糟，“随机的”而闻名，只是为了看看他或她如何为某个立场辩护。这种敌对的管理技巧不可避免地在指挥链中蔓延，并创造了一种冲突文化。

……

微软培育了一种达尔文主义秩序，资源经常被掠夺和囤积以获取权力、财富和声望。一位去度假的经理回来时可能会发现他的地盘被竞争对手袭击，他的项目被置于不同的指挥之下或完全取消。

关于在微软面试：

“你喜欢微软什么？” “Bill 很牛，”St. John 说。“我喜欢牛。我喜欢杀死竞争对手和主宰市场的感觉。”

……

他不确定自己表现如何，觉得自己可能卡壳了，然后问他是否是“善于与人打交道的人”。 “不，我觉得大多数人都是白痴，”St. John 回答。

这些答案正是微软想要的。它们带来了一份强力的录用通知和激烈的追求。

关于微软的开发者布道：

曾几何时，微软的布道师通常也负责通过出现在竞争对手的会议上、确保加入标准委员会然后干扰标准制定、以及试图影响媒体来颠覆竞争对手。

……

“我们是微软内部负责操翻微软竞争对手的团队。”

如果你考虑去微软工作，请读这本书。尽管书中描述的事件已过去很久，但你今天仍能在微软看到这种文化的痕迹。

Bilton；《孵化推特》

一本有趣的书，讲述了推特早期发生的背后捅刀、管理不善和随意解雇的故事。我说随意，指的是有报道称关键工程师被解雇，只是为了向其他重要人物显示现任管理层仍然掌权。

我不认识当时在推特工作的人，但我认识许多在下一代初创企业早期工作过的人，有几家公司的人有过极其相似的经历。如果你考虑去一家时髦的初创公司工作，请读这本书。

Galenson；《老大师与年轻天才》

这本书是关于艺术以及生产力如何随年龄变化的，但如果其论点成立，它可能也适用于编程。Galenson 应用统计学来确定艺术的“伟大程度”，然后用此来推断艺术家的生产力如何随年龄增长而变化。我没有时间详细研究数据，所以在有更多空闲时间之前我不得不保持怀疑，但即使对持怀疑态度的人来说，这也是有趣的读物。

数学

为什么要关注这个领域？从纯粹的投资回报率角度看，我怀疑学习数学对99%的工作来说是否“值得”。据我所知，我比大多数程序员更常使用数学，但我也用得不那么频繁。但拥有合适的数学背景有时会派上用场，而且我真的很享受学习数学。你的体验可能不同。

Bertsekas；《概率导论》

倾向于直观解释而非 epsilon-delta 严格性的本科入门教材。对于任何希望进行更严格推导的人，书后有一些练习题会更详细地探讨。

包含许多带有可用解答的练习题，这使其成为一本很好的自学教材。

Ross；《概率论基础教程》

这是那种定期推出新版本以迫使学生购买新书的书之一（目前亚马逊售价高达174美元）²。我在威斯康星学概率时这是标准教材，我真的想不出有谁觉得它有用。避开。

Brualdi；《组合数学导论》

Brualdi 是一位出色的讲师，是我本科期间最好的老师之一，但这本书错误百出，也不是特别清晰。自那时起这本书已经出了两个新版本，但根据亚马逊评论，书中仍然有很多错误。

关于替代的入门教材，我听说 Camina & Lewis 的书不错，但我自己没读过。另外，Lovasz 是一本很好的组合数学书，但它算不上入门。

Apostol；《微积分》

第一卷涵盖了微积分 I + 微积分 II 的内容。第二卷涵盖了线性代数和多变量微积分。它在多变量微积分之前先讲线性代数，这使得多变量微积分更容易理解。

从编程角度来看这也很有道理，因为我从微积分中获得的大部分价值在于它在近似等方面的应用，而这在按此顺序教授时清晰得多。

如果没有教授或助教的帮助，这本书可能是一本艰难的入门书。Spring SUMS 系列通常非常适合自学入门各个领域，但我没读过他们的微积分入门书，所以无法推荐。

Stewart；《微积分》

又一本为了赚钱而推出带有微小更改的新版本的书。这是威斯康星非荣誉微积分课程的标准教材，结果是我教了很多人用 Apostol 中涵盖的方法进行复杂的积分运算，这些方法对许多人来说直观得多。

这本书的方法是，对于一类问题，你应该匹配到众多可能公式中的一个，然后套用公式。Apostol 更多地教你一些技巧和直觉，可以应用于各种问题。我不确定你为什么会买它，除非是课程要求。

硬件基础

为什么要关注这个领域？人们经常声称，要成为一名优秀的程序员，你必须理解你使用的每一个抽象。这纯属胡扯。现代计算对任何人来说都太复杂了，无法真正全面了解底层发生的事情。事实上，现代计算能够做到它所能做到的事情的原因之一就是，即使你对你操作层面之下的大部分技术栈没有深入理解，你也能高效工作。

话虽如此，如果你对软件之下有什么感到好奇，这里有几本书可以让你入门。

Nisan & Shocken；《Nand到俄罗斯方块》

如果你只想读一本书，这可能是最佳选择。这是一本“101”级别的入门书，深入到门电路和布尔逻辑。正如书名所示，它将从与非门带你到一个可运行的俄罗斯方块程序。

Roth；《逻辑设计基础》

比你在《Nand到俄罗斯方块》中看到的更详细地介绍门电路和逻辑设计。书中充满练习题，似乎是为自学设计的。请注意，上面的链接指向第5版。有更新、更贵的版本，但它们似乎改进不多，新材料有很多错误，而且贵得多。

Weste; Harris, 和 Bannerjee；《CMOS VLSI设计》

在布尔门电路之下一层，你会接触到 VLSI，一个历史术语（超大规模集成），在今天已经没有太大意义了。

比替代方案更广泛、更深入，阐述清晰。探索了设计空间（例如，关于加法器的部分不只是随意提到几种不同类型，而是探讨了所有可以做出的权衡）。同时，既有习题又有解答，这使其非常适合自学。

Kang & Leblebici；《CMOS数字集成电路》

这是很久以前威斯康星的标准教材。它难懂到助教基本上重新解释了项目和考试所需的几乎所有内容。我觉得它作为参考书还行，但不是一本很好的学习教材。

与 West 等人的书相比，Weste 在设计权衡方面花了更多功夫（例如，在创建并行前缀树加法器时，在设计空间中处于某个特定点到底意味着什么？）。

Pierret；《半导体器件基础》

在 VLSI 之下一层，你将了解晶体管的实际工作原理。

对固态器件的解释非常漂亮。文本准确地把握了你需要了解的基础知识（例如，能带图），然后利用这些基础加上清晰的解释，让你很好地理解不同类型的结和器件是如何工作的。

Streetman & Bannerjee；《固态电子器件》

涵盖了与 Pierret 相同的材料，但似乎用数学公式替代了 Pierret 所追求的直观理解。

Ida；《工程电磁学》

在晶体管之下一层，你将接触电磁学。

厚度是其他

由 mimo-v2.5 模型翻译，花费 35033 tokens

招聘与柠檬市场

Sun, 9 Oct 2016 09:44:14 +0000

[AI 摘要] 本文探讨了招聘优秀开发者的市场是否因信息不对称而沦为“柠檬市场”，并分析了招聘经理面临的常见障碍。

Joel Spolsky 有一篇关于"寻找优秀开发者"的经典博文，他在文中推广了这样一个观点：优秀的开发者根本找不到，其推论是，如果你能找到某人，那他就不算优秀。Joel 写道：

优秀的软件开发者——实际上，每个领域最优秀的人——几乎从不流入招聘市场。

一位平均意义上的优秀开发者，整个职业生涯大概只会申请，总共，大约，四份工作。

……

如果你运气好，真的非常走运，他们会在开放的招聘市场上出现一次，比如说，当他们的配偶决定去安克雷奇接受医学实习时，他们真的会把简历发给他们认为在安克雷奇少数几个愿意工作的公司。

但大多数情况下，优秀的开发者（这几乎是个同义反复），嗯，是优秀的（好吧，这就是个同义反复），并且，通常，潜在的雇主会很快认识到他们的优秀，这意味着，基本上，他们可以去任何他们想去的地方工作，所以他们真的不会投出很多简历或申请很多工作。

这听起来像是你想雇佣的那种人吗？应该是的。这个规则的推论——优秀的人从不流入市场的规则——是，糟糕的人——那些严重不合格的人——会经常出现在市场上。他们总是被解雇，因为他们做不了自己的工作。他们的公司会失败——有时是因为任何雇佣他们的公司可能也会雇佣很多不合格的程序员，所以累积起来就是失败——但有时是因为他们确实如此不合格以至于毁了公司。是的，这种事会发生。

谢天谢地，这些病态不合格的人很少得到工作，但他们确实不断地申请，而当他们申请时，他们会去 Monster.com 一下子勾选 300 或 1000 份工作，试图中彩票。

我猜想，敏锐的读者会指出，我忽略了最大的一个群体，那些扎实、有能力的人。他们比优秀的人更多地出现在市场上，但比不称职的人少，总的来说，他们会在你的 1000 份简历堆中以小数量出现，但最主要的是，现在帕洛阿尔托几乎每一位桌上放着 1000 份简历的招聘经理，都会看到完全相同的 970 份简历，来自同样那批申请帕洛阿尔托所有工作的 970 名不称职人士中的一小部分，他们可能一生都会如此，而只有 30 份简历值得考虑，其中也许，很少，有一位是优秀的程序员。好吧，也许连一个都没有。

Joel 的论点基本上是，与"糟糕"的开发者相比，"优秀"的开发者不会拥有那么多的工作机会，因为公司会努力留住"优秀"的开发者。Joel 还假设，公司可以很容易地识别潜在的"优秀"开发者。但这两个说法很难调和。如果识别潜在的"优秀"开发者如此容易，为什么不去尝试招募他们呢？同样有理由认为"优秀"的开发者在市场上是供大于求的，因为他们有更好的机会，而"糟糕"的开发者才会死守他们的工作。这种逆向选择在衰退的公司中很常见；我在 IBM 的实习期以及其他地方都见到过这种情况¹。

"优秀"的开发者在市场上应该是供大于求还是供不应求？如果我们听听关于招聘的抱怨轶事，我们可能会问，开发者的市场是否是一个柠檬市场。这个想法可以追溯到 Akerlof 1970 年获得诺贝尔奖的论文《"柠檬"市场：质量不确定性和市场机制》。Akerlof 以二手车销售为例，将市场分为好的二手车和坏的二手车（坏车被称为"柠檬"）。如果没有办法区分好车和柠檬车，好车和柠檬车将以相同的价格出售。因为买家无法区分好车和坏车，他们愿意支付的价格是基于市场上平均质量的价格。由于车主知道自己的车是不是柠檬车，非柠檬车的车主就不会出售，因为平均价格被柠檬车的存在拉低了。这导致了一个反馈循环，使得市场上只剩下柠檬车。

这个模型当然与 Joel 的模型不同。Joel 的模型假设"优秀"的开发者是"黏性强"的——他们在每份工作上都会待很长时间。这基于两个假设；第一，潜在的雇主很容易识别谁是"优秀"的，第二，一旦某人被识别为"优秀"，他们现在的雇主会不惜一切代价留住他们（就像在柠檬市场中一样）。但仅第一个假设就足以阻止开发者就业市场成为柠檬市场。如果你能辨别一个潜在的员工是优秀的，你只需去给他们提供目前薪水的两倍（我见过实际发生这种情况）。你需要信息不对称才能创造柠檬市场，而 Joel 假设不存在信息不对称。

如果我们抛开 Joel 的论点，看看就业市场，确实存在信息不完全，但现有的和潜在的雇主都拥有不完全的信息，而谁的信息更好则差异很大。实际上，潜在雇主比现有雇主拥有更好信息的情况非常普遍！

举个例子，我曾与一位合作过的人，我们称他为 Bob，他通过做必要的苦力工作挽救了两个不同的项目，防止了项目彻底崩溃。这两个项目都被宣布为成功，晋升随之而来，他们进行了一场大规模的公关活动，涉及在所有常规媒体如《连线》、《财富》等上发表文章。这为那些擅长邀功的人带来了极好的效果，但对 Bob 来说却并非如此。事实上，我最近合作过的另一个人向我提到，管理层一直在问他为什么 Bob 做简单的任务要花那么长时间。答案是 Bob 忙于确保他负责的服务在发布时不会发生全球性中断，但在 Bob 所在的组织里，这不是能获得功劳的事情。结果是，Bob 的人脉圈知道他很优秀，这使得他很容易在任何其他地方以市场价找到工作。但他的管理层完全不知情，而且根据我目前看到的报价，他们支付他的薪水大约只有他能在别处赚到的一半。公司内部信息传递如此之差，以至于外部管理层对某人的生产力有比内部管理层更清晰看法的情况屡见不鲜。我脑海中有一个特别的例子，但光是想想 Bob 这类原型，我就知道有四个人目前处于类似情况。这得益于我目前所在的公司在这种功能失调方面臭名昭著，但这种情况到处都会发生。当我曾在一家小公司工作时，我们经常从那些太无知以至于不知道自己拥有何种人才的大公司雇佣优秀的工程师。

"优秀"的开发者具有黏性的观点还存在另一个问题，那就是它假设公司有能力按需组建开发者愿意为之工作的团队。通常情况并非如此。举个例子，我曾经加入一个团队，技术负责人强烈反对使用版本控制或编写测试。由于这些（以及其他）实践，五个开发者花了一年时间才为一个简单的问题生产出约一万行勉强能用的代码。此外，那是一个高压锅环境，人们被期望每周工作80小时以上，项目经理会以羞辱的方式让大家加班。在一年内，我加入时团队中的七个人里有三个离开了；其中两个去了不同的公司。公司不想失去这两个人，但它没有能力创造一个能留住他们的环境。

在我加入那个团队前后，我的一个朋友加入了一个非常优秀的团队。他们做的工作对世界有实质性影响，他们有自由和创造的空间，工作的很大一部分涉及学习新奇有趣的东西，等等。每当我听说有人在找工作时，我都会把那个团队推荐给他们。那个团队在可预见的未来已经满了，因为任何认识那个团队的人都把人推荐进去了。但如果你看看那个一年内流失了七个成员中三个的团队，它正在大量招聘。这种动态的结果是，作为一名开发者，如果你加入一个随机团队，你极有可能加入一个人员流动率很高的团队。此外，如果你知道一个好团队，它很可能已经满了。

Joel 的模型隐含地假设，按比例来看，功能失调的开发者比功能失调的工作环境多得多。

在我参加的上一次会议上，我问了我遇到的大多数人两个问题：

你知道有没有不严重功能失调的公司？
你知道有没有特别优秀且正在招聘的团队？

没有一个人告诉我他们的公司符合标准（1）。一些人建议说，也许 Dropbox 还可以，或者也许 Jane Street 还可以，但答案的形式是"我认识那里的一些人，而且到目前为止我还没听到什么可怕的恐怖故事，另外我偶尔会听到好消息"，而不是"那家公司很棒，你绝对应该去那里工作"。大多数人说他们不知道有什么公司不是一团糟。

少数人对问题（2）有建议，但最常见的回答类似于"哈哈，没有，如果我知道的话我自己就去那里工作了"。第二常见的回答是类似"我认识 Google Brain 团队的一些人，听起来很棒"的形式。有几个团队以是优秀的工作场所而闻名，但事实上它们如此稀少，以至于基本上不可能在那些团队中找到工作。少数人确实知道一些他们强烈推荐且正在招聘的实际团队，但这很罕见。比找到一个我愿意与之共事且考虑换工作的开发者要罕见得多。如果我反过来问他们是否认识任何正在找工作的优秀开发者，答案通常是"有"²。

"优秀"的开发者不可能被找到的观念还有一个问题，那就是开发者（和公司）不是一成不变的。因为我很幸运能在允许人们真正发展的环境中工作，我见过很多人从默默无闻变得非常出色。因为大多数公司在帮助员工发展方面几乎不投入什么，所以在这里你不需要付出太多努力就能做得很好。

另一方面，我见过整个开发者团队因为环境变化而流入市场。举个例子，我曾经认识很多在公司 X 为Marc Yun 工作的人。那种地方人员流失率很低，因为人们真的很享受在那里工作。然后 Marc 离开了。在接下来的两年里，我认识的在那里工作的所有人，真的，都离开了。这一变化既在寻找团队的就业市场上制造了一个柠檬，又把一批优秀开发者推向了市场。这种事情一直都在发生，现在比过去更频繁，因为当今并购活动频繁的环境。

开发者招聘是一个柠檬市场吗？嗯，这取决于你的意思。开发者和招聘经理都拥有不完全的信息。一个方向的柠檬市场是否会使另一个方向更好或更差并不明显。加入新团队的不确定性使得开发者不太愿意离开现有团队，这使得招聘开发者更难。但开发者经常加入他们不喜欢的团队这一事实使得招聘开发者更容易。净效应是什么？我不知道。

从我的立场来看，找到一个好的经理/团队似乎非常困难，我不知道有什么可复制的策略能做到这一点；我非常同情那些找不到合适位置的人，因为我明白这有多难。但我见过可复制的招聘策略，所以我并不那么同情那些抱怨招聘"优秀"开发者不可能的招聘经理。

当一位招聘经理抱怨招聘时，在我迄今为止见过的每一个案例中，该招聘经理都有以下问题之一：

他们薪水太低。上次我找工作时，我发现同一家可能雇佣我的公司在同一个地理区域内的薪酬差异高达6倍。基本上所有公司都认为自己有竞争力，即使他们处于薪酬范围的底端。我不知道为什么，但公司似乎总是认为自己给的很好，即使他们甚至离正确的范围还很远。和我交谈过的几乎每个人都告诉我，他们支付给的薪水和任何合理的公司一样多。当然，有些公司给的稍微多一点，但他们是出价过高了！你实际上可以从 Joel 的文章中看到这一点——在他写我引用的那篇文章时，他谈到了 Fog Creek 的薪酬有多好。几年后，他抱怨 Google 为没有经验的大学毕业生出价过高，而最近他基本上表示你不想为薪水高的公司工作。
他们拒绝了优秀的甚至"优秀"的开发者³。早些时候，我声称我认识很多正在找工作的优秀开发者。你可能会问，如果有那么多优秀的开发者在找工作，为什么这么难找到他们呢？Joel 声称，从1000份简历中，大约有30人会是"扎实"的，970人会是"不称职"的。在我看来，更像是有400人是扎实的，20人是真正优秀的。只是几乎每个人都使用相同的过滤器，所以最终所有人都在争夺他们认为是扎实的30人。当人们对什么真正导致简历被过滤掉进行随机试验时，结果往往发现那些与工作表现间接相关或无关的特质会产生巨大影响。例如，这项对律师事务所招聘的研究发现，仅凭男性身份和简历上有"上流社会"的标志（帆船、马球和古典音乐，而不是田径、踢野球和乡村音乐），其他不变，就能使面试邀请增加4倍。

我工作的第一家公司，Centaur，其现场面试流程比 Google 和 Facebook 等公司的电话筛选还要宽松。如果你听信 Joel 这样的人，你会认为 Centaur 充满了傻瓜，但在行业超过十年（包括在 Google 工作）后，Centaur 在我工作过的所有地方中，开发者的平均和中位生产力水平都是最高的。

Matasano 以使用不同的过滤标准获得不同的人员而闻名，从而解决了他们的招聘问题。尽管他们的策略取得了巨大成功，但几乎每个人都坚持使用标准策略，选择有名牌背景的人，并运行基本上与其他人相同的面试流程，推高热门人群的价格，而忽略其他人。

如果我看看我认识的目前需求旺盛的开发者，很大一部分人经历过一段多年就业不足、几乎乞求有趣工作的时期。这些人很容易被雇佣，如果你能找到他们的话。
他们试图为某种稀有技能组合进行招聘。目前，如果你试图雇佣一个有深度学习经验的人，以及，嗯，任何其他东西，你的日子会不好过。
他们的功能失调程度远甚于他们自己的认识。我认识一位招聘经理，他抱怨招聘有多难。他没有意识到的是，他团队中的每个人都非常不开心，而且有相当一部分人会向朋友提供反向推荐，告诉他们远离。

这是一个极端的例子，但当VP或创始人对招聘为何如此困难感到困惑，而员工却认为这个地方平庸甚至糟糕时，这种情况相当常见。

在这些问题中，（1）薪水低是最常见也是最容易解决的。

在过去几年里，Oracle 和阿里巴巴在西雅图建立了新的云计算团队。这是一个竞争相对激烈的地区，这两家公司都有不利于招聘的声誉⁴。如果你相信那些关于招聘有多难的抱怨，你不会认为有一家公司，更不用说两家，能够在西雅图建立整个云团队。两家公司都通过为具有类似经验的人支付远高于竞争对手的报价解决了这个问题。阿里巴巴以提供如此慷慨的报价而闻名，以至于当我与微软谈判我的录用通知时，微软告诉我，他们会匹配除阿里巴巴之外任何公司的报价。我相信 Oracle 和阿里巴巴在过去几年里雇佣了数百名工程师。

大多数公司不需要雇佣接近数百人；他们可以在不雇佣那么多开发者导致整个市场薪酬上扬的情况下支付有竞争力的薪水，但他们仍然拒绝这样做，同时抱怨招聘有多难。

（2）过滤掉优秀的潜在员工，似乎是"从没因为雇佣IBM而被解雇"的现代版本。如果你雇佣一个有热门背景且擅长传统编码面试的人，结果不行，谁能怪你呢？而且没人会注意到你错过的所有其他人。和（1）一样，这几乎是每个人都认为自己做得很好的事情，他们会说"我们必须降低标准才能雇佣更多人，没人希望那样"。但我从未在一家不把很多最终在其他地方表现出色的人过滤掉的地方工作过。我曾试图让一些被低估的程序员⁵在我工作的地方被雇佣，但我实际上从未成功过。有一次，我没能成功推荐雇佣的人，在经历了大约四年后（就业不足）在 Google 找到了工作（并在那里成为了明星）。那个人然后把我雇佣到了 Google。没有雇佣那个人不仅失去了我那位才华横溢的朋友，最终也失去了我！

顺便说一句，这说明了 Joel 关于"优秀"开发者从不申请工作的观点存在问题。通常会有一段很长的时期，一个"优秀"的开发者极难被雇佣，即使通过知道他们优秀的人脉网络也不行，因为他们不符合人们想象中"优秀"开发者的样子。此外，Google 曾深入研究过哪些招聘渠道能产生好的结果，发现推荐和内部推荐实际上并没有产生太多信号。虽然人们会推荐"优秀"的开发者，但他们也会推荐糟糕的。大多数公司设立的推荐奖金计划会扭曲激励，使得推荐效果比你预期的要差。由于这个和其他问题，许多公司并不特别看重推荐，而"优秀"的开发者仍然像其他人一样经历正常的招聘流程。

（3）需要奇怪的技能组合，可以通过雇佣拥有所需一半或三分之一专业知识的人并通过培训来解决。在这个问题上似乎不需要太多说服，而且我经常看到这种情况发生。

（4）功能失调似乎很难解决。如果我知道怎么做，我就去当经理了。

作为一名开发者，在我看来，我所知道的那些环境良好且薪水优厚的团队在招聘上没有问题，而那些招聘困难的团队可以相当容易地解决这个问题。但我有偏见。我不是招聘经理。可能有某位招聘经理在想："每个向我抱怨找不到好团队的开发者都有这四个明显的问题之一；要是我的问题也这么容易解决就好了！"

感谢 Leah Hanson、David Turner、Tim Abbott、Vaibhav Sagar、Victor Felder、Ezekiel Smithburg、Juliano Bortolozzo Solanho、Stephen Tu、Pierre-Yves Baccou、Jorge Montero、Alkin Kaz、Ben Kuhn 和 Lindsey Kuper 的评论和更正。

如果你喜欢这篇文章，你可能也会喜欢这篇关于科技招聘中不可能存在歧视的虚假性声明的文章。

留下来的人描述的环境主要缺少他们想要一起工作的中层人员。有一些在那里待了很久、会一直待到退休的老员工，以及随机入职的应届毕业生。但是，与他们的竞争对手相比，拥有5-15年经验的人相对较少。我认识的坚持最久的人待到了第8年，但当他发现团队中另一位有能力的成员也在面试离职时，他也开始考虑离职；两人中谁都不想成为团队中唯一做事的人，于是他们都争先恐后地离开。 ^[返回]
这一节听起来有点像我在找工作。我没有在找工作，但如果我的伴侣在西雅图以外找到工作，我可能最终会被迫这样做。 ^[返回]
Moishe Lettvin 有一个我很喜欢的演讲，他谈到有一次他在一个招聘委员会中，他们拒绝了每一位候选人，结果发现那些"候选人"实际上是他们自己面试的匿名化版本！

关于他刚开始在微软面试的部分对微软员工来说应该很熟悉。和往常一样，他在毫无准备和预警的情况下被投入了面试。他完全不知道该做什么，结果写出了不太好的面试反馈。"经典的微软风格"，他的经理把面试反馈转发给了整个团队，并说"不要这样"。"经典的微软风格"是 Moishe 的原话，但我也观察到了同样的事情。我想谈谈我们倾向于进行极度指责性的复盘，以及这如何扭曲了激励，但这可能需要单独写一篇文章。

好吧，我就讲一个故事，以纪念最近离开我前团队去 Google 的一个人。在他加入后不久，他周末在办公室（在他团队中很常见）。另一团队的一位经理在聊天中 ping 他，请他批准一些来自另一团队的代码。新人，想提供帮助，就批准了代码。周一，新人与他的导师谈了谈，导师建议他不要那样帮助其他团队。后来，发生了与那段代码相关的中断。经典的微软风格，另一位团队的经理成功地将中断的责任从他的团队推给了新人。

注意，这个人不在我的3/7统计数据中，因为他是在我之后不久加入的，而且我并不是刻意选择一个离职率最高的时间窗口。
^[返回]
有一段时间，Oracle 声称西雅图办公室的文化与主线 Oracle 文化完全不同，但据我所知，他们忍不住要让西雅图团队 Oracle 化，而且那部分说辞不再令人信服。 ^[返回]
这个脚注是回应 Ben Kuhn 的问题，他问我，哪些类型的开发者被低估了，你会如何找到他们？我认为这个群体足够多样化，没有一种简单的方法可以找到所有人。有像"Bob"这样的人，他们做着关键工作但根本不被注意。还有那些面试很糟糕的人，比如Jeshua Smith。我相信他只得到过一次不是优秀的绩效评估（那个学期，他的经理说他只能给出一个最高评级，而且只给他的两个顶级员工中的一个也不公平，所以他给了他们俩平均评级）。在他工作过的每一个地方，他都被公认为一个你可以带着难题或问题去找他的人，而且更高职位的工程师也经常向他求助。我曾试图让他在我工作的两家公司被雇佣，他两次面试都失败了。他不擅长面试。据我所知，他的面试表现差点让他无法得到现在的工作，但他的推荐人如此众多且有力，以至于他现在的公司决定冒险一试。但他之所以有那些推荐人，是因为他原来的组织一直在瓦解。他的新公司从他原来的公司吸纳了很多人，所以新公司里有很多认识他的人。他几乎在其他任何地方都得不到面试机会。我试图推荐但失败的另一个人，我称之为 Ashley，她在 Google 的招聘筛选阶段因为技术不够强而被拒绝，尽管我内部推荐她是我认识的最强的程序员之一。但她来自一个不符合招聘人员认为程序员应有的样子的"非传统"背景。非传统是个有趣的词，因为似乎大多数程序员都有"非传统"背景，但你明白我的意思。

这里的多样性足够大，没有一种方法可以找到所有这些人。有一个更像 Matasano 而不是 Google、Microsoft、Facebook 或几乎任何你能说出的 YC 初创公司的过滤流程，可能是一个好的开始。
^[返回]

由 mimo-v2.5 模型翻译，花费 12244 tokens

我一个周末就能做出来！

Mon, 3 Oct 2016 08:14:27 +0000

[AI 摘要] 文章反驳了“大公司产品可以轻松快速构建”的观点，以搜索为例，说明性能优化、多语言支持、安全及组织协调等隐藏复杂性导致大型服务需要庞大团队。

我想不出有哪家大型软件公司没有经常遭遇这样的网络评论：“那些员工到底在干什么？他们那个产品我自己就能做出来。” 本杰明·波拉克和杰夫·阿特伍德曾指出Stack Overflow上就有这种人。但Stack Overflow相对明显地精简高效，所以普遍的回应是类似这样的：“哦，当然也许Stack Overflow是精简的，但FooCorp肯定臃肿不堪。”而由于大多数人对FooCorp内部运作知之甚少，对于任何具体的FooCorp来说，这听起来像是个合理的说法。毕竟，什么产品可能需要成百上千，甚至数千名工程师呢？

几年前，在rapgenius SEO争议之后，一些人呼吁有人能写出更好的搜索引擎。亚历克斯·克莱默回应说，也许打造一个比谷歌更好的搜索引擎并非易事。考虑到谷歌5000亿美元市值中有多少来自搜索业务，以及数十家（或数百家？）竞争对手为了分一杯羹投入了多少资金，我认为搜索并非一个简单的问题，这听起来合情合理。但在亚历克斯帖子的评论中，有多人回应说Lucene基本上和谷歌做的一样，而且Lucene几年内就将超越谷歌的能力。从那时起已经过去足够长的时间，我们可以回顾并说，Lucene的进步还没有大到让通过组装Lucene集群的初创公司能威胁到谷歌的地步。如果说有什么变化的话，那就是创建一个有竞争力的谷歌搜索替代方案的成本增加了。

对于打造一个可行的谷歌竞争对手，我相信排名比索引更难，但即使我们只看索引，也存在像Twitter这样包含大约一万亿页面的单一领域，我猜我们能找到大约一万亿个这样的域。如果你尝试配置任何现成的搜索索引来存储数万亿个条目的索引，以处理谷歌百分之一的负载，并设定，比如说，100毫秒的延迟预算（大部分延迟应来自排名，而非索引），我认为你会发现这并非易事。而且，如果你用谷歌搜索Twitter，你可以观察到，至少对于某些用户或推文而言，谷歌对Twitter的索引速度足够快，从用户角度看几乎是实时的。任何尝试在高负载下对大型语料库使用Lucene进行实时索引的人也会发现这并不简单。你可能会说这并不完全公平，因为确实能找到一些未被主流搜索引擎索引的推文，但如果你想决定索引什么或不索引什么，嗯，在一般情况下，这也是个非平凡的问题。而我们在这里只讨论了索引，索引是构建搜索引擎相对容易的部分之一。

真正关心盈利的企业会投入大量时间（因此，大量工程师）来优化系统，即使该系统的最小可行产品可以在一个周末内构建出来。还有大量研究发现，对于某些业务来说，在相当宽泛的延迟范围内，降低延迟对收入有显著影响。提升性能的另一个好处是降低成本。企业应该持续增加工程师进行优化，直到增加一名工程师的成本等于该工程师带来的边际收入增益加上节省的成本。这通常比人们意识到的需要多得多的工程师。

而这仅仅是性能问题。功能同样重要：当我与任何公司任何产品的工程师交谈时，他们通常会发现，一些看似微不足道的单一功能就能为收入增加整数个百分点。就像性能一样，人们低估了在工程师不再能为自己带来回报之前，可以向一个产品添加多少工程师。

此外，功能通常比外部人士意识到的复杂得多。如果以搜索为例，我们如何确保不同形式的日期和电话号码给出相同的结果？国际化怎么办？每种语言都有需要处理的独特怪癖。在法语中，“l'foo”应该经常匹配“un foo”，反之亦然，但90年代的美国搜索引擎实际上并未正确处理这一点。中文查询的分词怎么办？中文单词之间没有空格，句子也没有唯一的分词方式。日语怎么办？查询中很容易包含四种不同的字母系统。如何处理主要从右向左阅读，但部分从左向右阅读的阿拉伯语？而这甚至不是处理阿拉伯语最复杂的部分！在一个周末项目的MVP中忽略这些东西是可以的，但在真正的业务中忽略它们就意味着忽略大部分市场！其中一些问题通过开源项目得到了不错的解决，但许多问题涉及开放的研究问题。

还有安全性！如果你不通过雇佣安全人员来“臃肿化”你的公司，你最终会像hotmail或yahoo一样，你的产品因其被黑的频率而非其他任何功能而闻名。

到目前为止，我们看到的一切都是技术问题。与组织问题相比，技术问题相对直接。分布式系统被认为很难，因为实际系统可能会丢弃约0.1%的消息，损坏更小比例的消息，并出现从微秒到毫秒的延迟。当我与高层交谈，并将他们认为自己传达的信息与我的同事认为他们传达的信息进行比较时，我发现丢失消息的比率远高于50%，每条信息都被损坏，延迟可能长达数月或数年¹。当人们想象构建某样东西需要多长时间时，他们通常想象的是一个运作完美且100%时间用于编码的团队。但这不可能扩展。问题不在于是否会存在低效，而在于低效程度有多大。一家能够消除组织低效的公司将是比任何科技初创公司都更伟大的创新。但在计算一家公司“应该”有多少员工时，人们通常假设该公司是一个高效的组织。

本文恰好以搜索为例，因为我遇到了一些声称Lucene即将超越谷歌能力的人，但本文内容与搜索并无特殊关联。如果你与几乎任何领域的人交谈，你都会听到关于人们严重低估该领域问题复杂性的故事。这里的关键不是小型团队不可能构建出比谷歌搜索更好的东西。完全有可能有人会拥有像PageRank那样伟大的创新，并且一个小型团队可以将其转化为一家可行的公司。但是，一旦这家公司度过风投融资的超高速增长阶段并希望最大化其利润，除非公司想因为硬件和软件低效而每年损失数亿或数十亿美元，否则它最终将拥有一个数千人的平台组织，就像谷歌一样。而且公司会希望处理泰语、阿拉伯语、中文和日语，每一种都不简单。公司还希望有相对良好的安全性。还有数百个用户甚至意识不到的小功能，每个都带来显著的收入增长。很明显，公司应该外包其计费，但当你与自行处理计费的公司交谈时，他们会指出某些能将转化率提高个位数或两位数百分比的单一功能，这些是Stripe或Braintree无法提供的。超过一定规模后，那个五十人的计费团队完全物有所值。然后还有销售，大多数工程师甚至没有想到²；适用于优化的完全相同推理也适用于销售——只要增加一名销售人员的边际收益超过成本，你就应该预期公司会持续增加销售人员，这通常会导致销售团队比工程团队更大。还有研究，根据定义，这涉及大量未成功的尝试！

并不是说所有这些事情对于运行一项服务是绝对必要的；而是几乎每一个大型服务，如果不认真处理这些事情，都在把钱白白丢掉。这让我想到我们在不可靠系统中常见的一个谬误，人们构建“快乐路径”，认为快乐路径是“真正的工作”，错误处理可以以后再添加。对于可靠的系统，错误处理的工作量比快乐路径更大。对于大型服务也是如此——所有这些人们不认为是“真正工作”的东西，比核心服务本身的工作量更大³。

更正

我经常做小的调整并添加新信息而不作说明，但本文的原版本有一个错误，移除这个错误的变化足够大，我认为值得指出。我原本有一个使用Lucene索引整个网络的成本的粗略计算，但数字基于一些论文的结果和在一家商业搜索引擎工作的人士的评论。当我试图复现论文中的结果时，我发现轻而易举就能获得比某篇论文报告的性能好几个数量级的结果，而当我试图追踪那些商业搜索引擎人士评论的原始资料来源时，发现这些评论背后并无实验证据支持，因此我移除了这个例子。

我正在尝试以意识流的方式撰写博客文章，不做太多编辑。这篇文章以及我的上一篇文章都是这样写出来的。请告诉我，与我的“常规”文章相比，你对这些文章的看法如何！

感谢Leah Hanson、Joel Wilder、Kay Rhodes、Heath Borders、Kris Shamloo、Justin Blank和Ivar Refsdal提供的更正。

最近，我很好奇为什么一个因产出不可靠服务而臭名昭著的组织会生产如此多不可靠的服务。当我询问原因时，我发现高层管理害怕发出任何关于可靠性的积极信息，因为他们担心人们会以此为借口拖延进度。高层大约一年前改变了他们关于可靠性的信息，但如果你与个人贡献者交谈，他们仍然相信信息是功能是第一优先级，为了更可靠而放慢功能开发速度对你的职业发展不利（并且基于谁获得晋升，个人贡献者似乎是正确的）。也许再过一年，这个组织才会真正将信息传达给负责晋升的人，再过几年，足够多的考虑到可靠性的软件才会编写出来，他们才会真正拥有可靠的服务。也许。那只是直接影响。二阶影响是，他们的政策导致许多关心可靠性的人去了更关心可靠性而非展示炫酷新功能的公司。他们可能需要十年时间才能解决这个问题。也许。这变得更加困难，因为该组织所在公司以产品经理驱动功能至高无上而闻名。如果这个声誉有可能改变，可能需要数十年。 ^[返回]
对于许多产品，销售团队比工程团队更重要。如果我们打造一个媲美谷歌搜索的产品，我们可能最终也需要销售具有竞争力的云服务所需的基础设施。谷歌实际上尝试过在没有认真组建企业销售团队的情况下做这件事，结果AWS和Azure基本上分割了企业市场。 ^[返回]
这并不是说没有浪费，或者不同公司浪费程度不同。我到处都能看到浪费，但通常不是外部人士认为的浪费。每当我读到外部人士描述我工作过的公司哪里存在浪费时，他们几乎总是错的。在其他地方工作的我的朋友们也描述了相同的动态。 ^[返回]

由 mimo-v2.5 模型翻译，花费 5880 tokens

开发者薪酬是双峰分布的吗？

Tue, 27 Sep 2016 06:33:26 +0000

[AI 摘要] 文章探讨了开发者薪酬是否像法律行业一样呈现双峰分布，并分析了程序员高薪背后的可能原因和局限性。

自谷歌等公司的薪资压制性不雇佣协议终结以来，开发者的薪酬已急剧上涨，以至于与法律、咨询等传统高薪领域相匹敌，甚至可能更高。在软件行业，一家高薪科技公司的“资深”开发人员年薪可达35万美元，而“资深”可能指“毕业三年的人”，一名被认为表现优异的工程师获得七位数的收入也并不少见。这些领域的收入分布都呈现出明显的双峰特征。程序员是否会面临同样的命运？让我们看看能找到什么数据。首先，我们看看美国法律就业协会的数据，它展示了法律薪资何时变为双峰分布。

1991年的律师

中位数薪资为4万美元，数字缓慢下降，直至约9万美元。根据美国劳工统计局的数据，1991年的9万美元相当于2016年的16万美元。这是个相当不错的起薪。

2000年的律师

到2000年，分布已变为双峰。较低的峰值在名义（未通胀调整）数字上与之前大致相同，这意味着在实际（通胀调整后）数字上低得多，同时在12.5万美元左右出现了一个较高的峰值，几乎所有人都低于13万美元。2000年的13万美元相当于2016年的18万美元。左侧峰值从1991年的约3万美元移到了2000年的约4万美元；两者换算到2016年都大约是5.5万美元。处于右侧模式的人情况更好，而处于左侧模式的人则大致持平。

我不再用更多图表赘述观点，但如果你查看更新的数据，可以看到两个模式之间的中间区域已经变得空心化，加剧了该领域内部的不平等。作为一个职业，律师受到了自动化的严重冲击，在实际数字上，今天排名前5%的报价并不比2000年好多少。但由于双峰分布，排名第50%甚至75%的报价情况更糟。

2015年的程序员

关于律师说得够多了！程序员的情况呢？不幸的是，很难获得这方面的可靠数据。从轶事来看，我确实感觉我们正走上同样的道路。不幸的是，几乎所有公开的数据源，如H1B数据，都只有薪资数字，而非总薪酬数字。由于上端的薪酬很大一部分是奖金和股票，我找到的大多数数据集无法捕捉真实情况。

一个值得注意的例外是Dan Zhang和Jesse Collins记录的应届毕业生薪酬数据：

这里确实存在很大范围，虽然技术上是双峰分布，但不像在法律和商业领域那样中间存在巨大鸿沟。请注意，这些数据主要来自学士毕业生，少数硕士毕业生。有时薪资更高的博士毕业生数据未被包含。

你知道更好的（更大的）数据源吗？这是来自“黑客松黑客”Facebook小组的约100个数据点，时间是2015年。Dan和Jesse也有2014年的数据，但如果能获得更长时间范围和更多数据就好了。此外，这些数据明显偏向高端——如果你查看所有经验级别程序员的全国平均值，平均值比这个数据集中应届毕业生的平均值低得多。这里的数据与我在争夺人才时听到的数字相符，但“正在与微软谈判offer的人群”也不具代表性。

如果我们有更具代表性的数据，可能会看到在4万到6万美元区间有更多数据点，同时我们这里的数据也存在，这将使数据看起来呈双峰分布。也有可能我们在4万到6万美元区间看到很多点，在7万到8万美元区间有更多点，在9万美元以上区间也有一些点，等等，我们会看到平滑的下降而非两个明显的峰值。

抛开我们掌握的有限数据，从整体环境来看，程序员的薪酬“应该”是双峰分布的吗？大多数其他具有双峰薪酬结构的领域，其薪酬结构与我们在编程领域看到的大相径庭。例如，顶尖的律师事务所和咨询公司采用“不进则退”的结构，这实际上是一种锦标赛，它扭曲了薪酬并确实使得薪酬最终呈现双峰分布的可能性大增。此外，竞争性公司对所有第一年员工支付相同的费率，他们通过匹配看起来付得最多的公司来确定这个费率。例如，今年，Cravath宣布将为第一年律师支付18万美元，许多其他公司也纷纷跟进。像大多数高端公司一样，Cravath的薪资表完全基于经验：

0年经验：18万美元
1年经验：19万美元
2年经验：21万美元
3年经验：23.5万美元
4年经验：26万美元
5年经验：28万美元
6年经验：30万美元
7年经验：31.5万美元

在软件行业，薪酬往往是逐案处理的，这使得我们不太可能像在法律行业那样看到尖锐的峰值。如果我必须猜测，我会说虽然程序员薪酬的离散度在增加，但它不是双峰分布的，但我确实没有合适的数据集来下定论。如果你有更好的数据，请指给我看。

附录A：请不要发送我这些数据

H-1B：主要是薪资。
Stack Overflow调查：仅薪资。此外，数据因调查对Web领域的严重偏向而扭曲——我停止做调查是因为他们的工作描述没有一个与我整栋楼里的任何人匹配，我知道其他人也因同样原因停止。
Glassdoor：在是否包含股票薪酬方面令人困惑地不一致。某些公司的数字似乎包含，但其他公司的不包含。
O'Reilly调查：侧重薪资。
美国劳工统计局：不提供细分的分布数据。
美国国税局：他们肯定有数据，但不共享。
IDG：只有平均值。
公司内部数据：范围太窄。
薪酬调查公司如PayScale：当我与这些公司的人交谈时，他们承认对大公司的薪酬了解甚少，但这正是推动市场顶端的动力（金融除外）。
Twitter上的#talkpay：数字偏低¹。

附录B：为什么程序员薪酬高？

既然我们手头有程序员和律师的薪酬数据，我们来分析一下。编程的报酬如此之高，以至于显得有点荒谬。如果你观察其他薪酬相似的职业，会发现存在多种构成进入壁垒或进入抑制的因素。

看法律，你必须赢得声望彩票并进入顶尖学校，这将花费数十万美元（尽管有可能获得全额奖学金，但顶尖学校中只有相对一小部分学生获得全额奖学金）。然后你必须赢得成绩彩票，获得足够好的成绩进入顶级律所。然后你必须继续赢得锦标赛以避免被踢出局，这需要牺牲任何个人生活的表象。咨询、投资银行等领域也类似。薪酬似乎与牺牲程度成正比（例如，投资银行家薪酬更高，但工作时间比律师更长，私募股权的工时和薪酬介于投行和律所之间，等等）。

医学从牺牲角度来看似乎稍微好一些，因为存在一个限制进入该领域的卡特尔，但医学院和住院医师培训的结合仍然比大多数在Facebook和Google等地方的工作要残酷得多。

编程也没有限制程序员数量的许可机构，也没有同样的声望过滤器，即你必须上顶尖学校才能获得高薪工作。当然，有很多初创公司基本上只雇佣来自MIT、斯坦福、CMU等少数顶尖学校的人，每当我查看初创公司时，都会看到如下招聘信息（以下内容来自一家在Slate Star Codex上长期打广告的公司）：

我们14人的团队包括6名MIT校友、3名前谷歌员工、1名沃顿商学院MBA、1名MIT计算机科学硕士、1名CMU计算机科学校友和1名“20 under 20”蒂尔研究员。候选人常说我们是他们见过的最强大的团队。

我们不是适合所有人的。我们是一家你妈妈可能永远没听说过的B2B SaaS公司。我们每周工作6天非常努力，因为我们相信移动的未来，我们想要赢。

痴迷于声望的地方是存在的。但在编程领域，根据声望标记来衡量人似乎是硅谷初创公司的事，而不是顶级薪酬公司的事。大公司（其薪酬远高于初创公司）很少根据声望来筛选人。你不仅不需要正确的学位来自正确的学校，你也不需要正确的学位类型，甚至不需要任何学位。虽然没有学位变得越来越少见，但我仍然遇到没有经验且没有学位或学位不相关（如社会学或哲学）的新员工。

没有其他同样高薪领域所具有的进入壁垒，程序员怎么可能薪酬如此之高？一种可能是程序员短缺。如果是这种情况，你会期望更多程序员进入该领域，从而降低薪酬。最近计算机科学专业的招生人数创下了新高，所以这可能已经在发生。另一种可能是编程在某些方面独特地困难，但这在我看来似乎不太可能。编程似乎并不比电气工程或化学工程本质上更难，而且在过去十年里也肯定没有变得难得多，但在这段时间里，编程的薪酬从与其他大多数工程领域相似变成了高得多。我上次与一家电气工程公司谈判offer时，他们告诉我他们的副总裁挣得没我多，而我在一家相对于同行付薪较低的软件公司工作。没有理由相信我们不会看到人员从工程领域流向编程，直到薪酬达到平衡。

另一种可能性是，美国移民法充当了保护主义壁垒来支撑程序员的薪酬。似乎这不可能持久（为什么不会出现真正有价值的非美国公司？），但它目前看起来确实有点道理。当我在谷歌时，令我惊讶的一件事是，他们在华盛顿或科罗拉多付给你的钱与在硅谷差不多，但在伦敦却付得少得多。每当这类讨论出现时，人们总是提出“事实”，即SV的薪资实际上并不像听起来那么好，因为生活成本太高，但公司不仅在西雅图会匹配SV的报价，在匹兹堡这样的地方也会。对此我最好的猜测是，中西部的某个人可以可信地威胁要搬到SV并在那里的任何公司找到工作，而伦敦的人则不能²。虽然我们似乎不太可能放松当前的移民限制，但我们的移民限制已经并继续导致那些原本会在美国创办公司的人在别处创办公司。鉴于美国并没有垄断想创办初创公司的人，而且我们尽力阻止想在美国创办初创公司的人留下，最终必然会有在美国以外创立的Facebook和Google，像美国公司内部竞争一样去争夺程序员。

另一个我最近常听到的理论是，大型公司的程序员薪酬高是因为克雷默的O型环模型所描述的现象。该模型假设生产率是乘积性的。如果你的同事更好，你就更有生产力，能创造更多价值。如果是这种情况，你会期待一种同类匹配，即你最终会得到付薪更高的高技能公司和付薪更低的低技能公司。这个模型有一种直观的吸引力，但它无法解释为什么编程薪酬比（例如）电气工程薪酬具有更高的离散度。随着开源的普及，利用公司外高效人员的工作比在大多数领域要容易得多。这个模型应该比大多数工程领域更不适用于编程，但薪酬的离散度却更高。

一个相关的理论，出于类似原因也不可能是正确的，即高薪软件工程师是超级精英中的精英，仅仅因为他们生产力高而获得更高报酬。如果你看看美国劳工统计局说的存在多少程序员（几百万）以及高薪科技公司在美国雇佣了多少工程师（二三十万），高薪软件公司根本不可能只由前1%组成。即使他们的筛选是完美的（而它们被广泛认为是个笑话），他们也不可能优于第90百分位。现实地说，更可能的情况是，一家高薪科技公司的程序员中位数略高于第50百分位。

我最常听到的理论是“软件正在吞噬世界”。理论是：程序员薪酬高并且会继续高，因为软件重要且只会越来越重要。尽管这是最常听到的理论，但与其他领域相比，这似乎不合逻辑。你也可以在90年代末对微处理器设计或光纤光学说同样的话。这些领域今天都比90年代更重要，对处理能力和带宽的需求比以往任何时候都大，而对软件的需求实际上依赖于这些。然而，光学工程就业市场仍未从互联网泡沫中复苏，微处理器设计工程师市场在复苏后，付给经验丰富的博士的工资仍低于Facebook的计算机科学应届毕业生。

此外，任何依赖于市场条件的固有属性、整体经济、编程影响等来论证高程序员薪酬的论点，如果你看看是什么真正推高了程序员薪酬，似乎都不正确。FB拒绝参与谷歌/苹果基本上成为行业标准的薪资操纵协议，这意味着FB支付的薪酬高于其他主要科技公司。当薪资操纵协议被解除后，其他公司“不得不”接近匹配FB的薪酬，以避免人才流向FB以及彼此之间流失。当它们这样做时，FB不断提高薪酬标杆，薪酬持续改善。[2022年更新] 这在福利和薪酬结构的变化中表现得最为明显，FB做出改变，谷歌几乎立即跟进，其他公司则稍后采纳变化，就像FB取消了归属悬崖，谷歌在几周内也做了同样的改变，这一变化逐渐蔓延到整个行业。也有一些公司支付给程序员的薪酬与FB相当或更高，如Netflix和各种金融公司，但主要科技公司通常不会匹配这些地方的报价，因为它们规模太小，不足以吸引足够多的程序员引起担忧，但FB规模庞大，雇佣的人数足以引起谷歌的担忧，而谷歌匹配FB，两者加起来，其规模足以引起其他主要科技公司的担忧。

因为薪酬增长的机制是武断的（FB本可以不存在，或者完全掌控FB的人扎克伯格可能决定不同的薪酬政策），程序员的薪酬如此之好是相当武断的。

总之，高程序员薪酬对我来说似乎是个谜，并且很乐意听到一个令人信服的理论来解释为什么编程“应该”比其他类似领域薪酬更高，或者为什么它应该与进入壁垒高得多的领域薪酬持平。

更新

Eric Roberts观察到，计算机科学专业招生在低迷后需要很长时间才能恢复，导致计算机科学学位持有者与需求之间存在巨大缺口。

2001年泡沫破裂导致计算机科学专业招生严重下滑。计算机科学专业招生直到2014年才再次达到之前的峰值，如果你对图形进行拟合，并将峰值外推，招生人数达到历史趋势又花了一两年时间。如果我们没有数据，发现有五年的延迟也不会令人惊讶。对于那些在四年内毕业的人（而不是五年或更久），大多数人不会在大二中期或后期之后转专业，所以这已经导致了两到三年的延迟。而在低迷之后，需要一些时间恢复，所以我们预计至少还需要两到三年。Roberts认为，额外的延迟来自许多其他因素，包括尽管事情看起来还行，但工作很快会被外包出去的恐惧，以及大学反应缓慢。

Dan Wang指出，根据Stack Overflow调查，四分之三的开发者拥有学士学位（或更高）。如果从统计上看“很难”在没有计算机科学学位的情况下获得高薪工作，并且2001年低迷存在超过十年的余波，这可能解释了为什么程序员薪酬如此之高。当然，我们大多数人都认识行业内没有学位的人，但没有文凭似乎更难找到入门级职位。

目前尚不清楚这对未来意味着什么。即使缺乏适当文凭的候选人是程序员薪酬高的主要驱动力，也不清楚过去几年创纪录的计算机科学专业招生对未来薪酬意味着什么。可能创纪录的招生意味着我们应该预期薪酬会回落到需要类似技能的其他领域（如电气工程）所见的水平。也有可能招生持续落后需求十年，而创纪录的招生只是跟上了十年前的需求，在这种情况下，我们可能预期较高的薪酬会持续下去（只要其他因素，如从美国以外招聘，不过度影响）。由于存在如此多的延迟，另一种可能性是招生已经或将会超过需求，我们应该预期程序员薪酬会下降。甚至不清楚Roberts的论文是否可以作为当前高薪的合理解释，因为Roberts也发现在80年代存在巨大的能力瓶颈，虽然有些程序员薪酬非常高，但薪酬“非常高”的程序员比例似乎比今天小得多。仅谷歌就雇佣了3万名工程师。如果其中2万名是美国程序员，并且估计美国有300万名程序员，仅谷歌就雇佣了美国程序员的0.6%。如果你加上其他已知提供有竞争力薪酬的大公司（亚马逊、Facebook等），那将是美国所有程序员中的很大一部分，我相信这与80年代的情况大不相同。

我收到的对这篇文章最常见的回应是，我们应该预期程序员薪酬高，因为软件无处不在，未来至少会有同样多的软件。同样的推理也可以应用于比软件更基础的电气工程（因为软件需要硬件），然而电气工程的薪酬与程序员的薪酬不在同一水平。高薪程序员无法在没有微处理器的情况下完成工作，而且处理器的销量比以往任何时候都多，但像英特尔和高通这样的地方“资深”人士的薪酬包甚至不到谷歌或Facebook的一半。你也可以对那些从事供水和污水系统工作的人提出类似的论点，但那些人的薪酬似乎也不在程序员的范围内。任何“X的价格高是因为X重要”的论点都隐含地假设存在某种力量限制了X的供给。“X重要”或“我们需要很多X”的说法遗漏了故事的一半。像“X重要”或“X很难”这样的主张存在的另一个问题是，这些说法对于薪酬低得多的行业似乎并不见得更不真实。如果你对程序员薪酬高的解释同样适用于任何“传统”工程学科，那么你需要解释为什么其他领域不应该同样高薪。

我听到的第二常见的评论是，程序员当然薪酬高，软件公司如此有价值，这使得高薪成为必然。但公司盈利并不意味着员工必然获得高薪。有人用这个论点给我发了一个链接，指向这个每员工利润最高的公司列表。名单上有一些付薪相当高的软件公司，如Alphabet（谷歌）和Facebook，但我们也看到像高通、思科、台积电（现在收购了ARM，可以认为软银也算）这样的硬件公司，它们的薪酬甚至不如那些不盈利或勉强盈利、未来也没有大幅盈利路径的软件公司。此外，名单上软件公司的薪酬与每员工利润的相关性并不强。

举一个我熟悉的例子，因为我是在麦迪逊长大的，Epic Systems的高管建立了一家公司，创造了如此多的财富，其创始人估计净资产为36亿美元，这比科技领域最成功的创始人还要多。但Epic的一线工程师薪酬明显低于与硅谷争夺人才的科技公司，甚至低于那些从未赚过钱的科技公司。是什么阻止了一些赚取相似利润的软件公司将几乎所有的创造财富都送到高层？典型答案是生活成本，但正如我们所看到的，在这种情况下，这比平时更说不通，因为谷歌在与Epic同城的麦迪逊设有办公室，而谷歌支付给典型开发者的薪酬是Epic的两倍多。如果有一些简单的生活成本调整，你会预期谷歌在麦迪逊的付薪比在多伦多或伦敦低，但似乎正好相反。这并非麦迪逊独有——例如，你可以在奥斯汀找到一些成功的软件公司，它们支付的薪酬大约是亚马逊和Facebook在同一城市支付的一半，高层管理为自己赚取了很好的生活，而一线工程师生活也不错，但远不及他们如果搬到亚马逊或Facebook等公司所能获得的。

所有这些理论的共同之处在于，它们同样适用于其他领域，因此，如所述，它们不能成为程序员薪酬高于这些其他领域的原因。有人可能认为编程具有许多这些因素的独特组合，或者其中一个因素应该预期比任何其他领域都强烈得多，但我还没有看到有人提出这样的论据。相反，人们只是做出明显错误的陈述，比如“编程真的很难”（在这场讨论中，只有当它是现存最困难的领域并且比其他工程领域难得多时，这个理由才有效）。

人们常常担心薪酬调查会因人们想炫耀而偏高，但现实似乎是数字偏低，因为人们对于听起来像在炫耀感到尴尬。我有个理论，你可以从其他商品的价格中看到这一点。例如，如果你看房价，它们通常可以根据位置、平方英尺、设施等预测。但在街区拥有最大房子会受到显著惩罚，我怀疑原因与拥有最高薪酬的人不成比例地不参与#talkpay相同：人们不想承认他们拥有最高薪酬、最大的房子或开最豪华的车。嗯，有些人确实会，但平均来说，炫耀那些东西被认为是俗气的。 ^[返回]
有些公司会做一个有趣的举动，将新员工先在加拿大安置一年，然后再将他们引入美国，这使他们进入竞争较小的签证流程。但这足够麻烦，以至于大多数员工都对此望而却步。 ^[返回]

由 mimo-v2.5 模型翻译，花费 11922 tokens

我是如何学会编程的

Mon, 12 Sep 2016 08:41:26 +0000

[AI 摘要] 本文详述了作者从电气工程师转变为程序员的非典型、充满偶然的学习与职业历程。

塔维什·阿姆斯特朗（Tavish Armstrong）有一篇很棒的文档，他在其中描述了自己如何以及何时习得了他所掌握的编程技能。我喜欢这个想法，因为我发现人们进入编程领域的路径远比刻板印象所揭示的要多样化得多，并且我认为了解进入编程领域有多种可能路径是很有用的。

就个人而言，我在从事编程工作之前，当了十年的电气工程师。当我与人们谈论这段经历时，他们常常想从中提炼出一个连贯的叙事。也许是我的数学背景给了我能够应用于许多问题的工具，也许是我的硬件背景让我对性能和测试有了很好的理解，又或者两者的结合使我非常适合硬件/软件协同设计问题。人们喜欢一个好故事。一个人们似乎喜欢的叙事是：我是个善于解决问题的人，而且这种解决问题的能力是普遍适用的。但现实是混乱的。电气工程对我来说似乎再自然不过，我毫不费力就掌握了它。编程对我来说却很不自然，有好几年都完全搞不懂。如果你相信程序员要么“有天赋”要么“没有”这种常见叙事，那我显然属于“没有”的那一类。然而，我现在靠编程谋生，而且人们似乎对我所做的工作还挺满意的。

这是怎么发生的呢？嗯，如果追溯到最初，在成为硬件工程师之前，我花了不少时间做那些失败的孩童项目（比如写一个井字棋游戏和AI），并且完全没有“领悟”编程。我确实有时能从我的数学或硬件技能中获得很多价值，但我怀疑我可以在不到一年的时间内教会别人我实际可用的数学和硬件技能。花五年在学校和十年在工业界才掌握这些技能，对于达到我今天的位置来说，是一条迂回曲折的路。令人惊讶的是，我发现我的路径比大多数同事的都要直接，这揭穿了大多数程序员都是早慧的天才少年、很早就接触编程的叙事。

而且，尽管我每天只用到我所学技术技能的一小部分，但我发现我有一套一直在使用的元技能集。这套元技能集没什么深奥的，但因为我经常在新的（对我来说）问题领域工作，我发现我的元技能集比我的实际技能更有价值。我认为，通过写一篇博客文章来传达元技能（如沟通能力）的重要性，就像通过说“单子就像墨西哥卷饼”来解释单子是什么一样，是做不到的。话虽如此，我还是打算讲讲这个故事。

无效的摸索（1980年代 - 1996年）

我和我的许多朋友试了很多次，都没能学会编程。我们尝试了BASIC，能写一些简单的循环，使用条件判断，打印到屏幕上，但从未弄清楚如何做任何有趣或有用的事情。

我们在学校接触过某种和乐高相关的编程东西，但我们都只知道如何按照说明去做，无法举一反三。虽然这很有趣，但和电子游戏一样没什么教育意义，影响力也类似。

我们中的一位得到了一本游戏编程书。我们读了它，尝试做了几件事，但毫无进展。

高中时期（1996 - 2000年）

我们这种无效的摸索一直持续到高中。由于对游戏的兴趣，我开始对基准测试感兴趣，这最终引导我了解了CPU和CPU微架构。那是在谷歌的早期，在谷歌学术出现之前，也大多数CS/EE论文能在网上免费找到之前，所以这些资料主要来自爱好者网站。幸运的是，那时互联网还比较年轻，我常去的网站上的用户也是如此。许多硬件资料是面向（甚至由）像我这样的人撰写的，这使得它易于理解。不幸的是，很多编程资料是由专业程序员编写并面向他们的，比如Paul Hsieh的优化指南。当时也有一些面向初学者的编程指南，但我和我的朋友们没有碰巧发现它们。

我们在高中有编程课：一门涵盖Visual Basic的入门课和一门教授C++的AP课程。两门课都由不太懂编程或如何教编程的人教授。我的班级里有几个已经会编程的孩子，当TopCoder网站上线时，他们通过参加编程竞赛能赚到不少钱，但他们未能通过入门班的测试，因为测试包括VB6 IDE的截图，你需要正确识别每个按钮的作用才能得分。这门课的教学效果，从考前测试是识别IDE的UI元素这一点就能略知一二。

第二年的AP课效果也差不多。大约课程进行到一半时，几个学生组织了一个自学小组，使用一本替代教材，因为这门课显然没有为AP考试做准备。我通过了AP考试，因为那是那种即使不完全掌握内容也有可能通过的选择题考试。

尽管我没学到多少东西，但如果没有AP课程，我可能就无法从高中毕业了。我挂了足够多的单科，差点学分不够毕业。我拿到那些必要的学分有两个原因：首先，很多老师有个约定，如果你在AP考试中取得好成绩，他们就会让你在该门课上及格（通常是A，有时是B）。即使这样还不够，如果不是我的化学老师在发现我AP化学考得好之后也把我的分数改成了及格分¹。

除了没从高中退学，我不确定我的AP课还给了我什么。我的AP CS课实际上对我的编程学习产生了净负面影响，因为AP考试让我免修了大学的前两门入门CS课（一门编程导论和一门数据结构课程）。回想起来，我应该选修那些入门课的，但我没有，这导致我的知识存在巨大空白，几乎用了十年时间才真正弥补。

大学时期（2000 - 2003年）

因为我差点高中毕不了业，所以不可能进入一所“好”大学。幸运的是，我在威斯康星州长大，州内有一所“好”学校，它使用一个公式来决定谁能自动被录取：GPA的分数线取决于标准化考试成绩，任何标准化考试成绩高于某个标准的人，无论GPA如何，都会被录取。在迎新会上，我与一位负责招生的人交谈，得知我这一届是他们最后一次使用这个公式。

我主修了计算机工程和数学，原因现在回想起来相当糟糕。我完全不知道自己真正想学什么。我选择了计算机工程或工程力学，因为这两个听起来都“很难”。

我尝试了多种方法想出更好的专业选择标准。最认真的一次是我花了一周时间与教授交谈，试图了解不同领域日常生活的样子。这种方法有两个关键缺陷。首先，大多数教授并不知道在工业界工作是什么样子；现在我在工业界工作并与学术界的人交谈，我看到大多数没有在工业界工作过的学者对实际情况有很多误解。其次，即使我设法得到了不同领域的准确描述，事实证明有大量研究表明人类基本上无法预测自己会喜欢哪些活动。最终，我通过抛硬币做出了决定。

数学

我原本没打算主修数学，但我大一的微积分入门课太有趣了，最终我加上了数学专业。这能发生，是因为我的一位高中朋友把荣誉微积分课程的申请表递给了我，他认为我可能会感兴趣（他已经学完了整个微积分课程以及线性代数）。这门课的教授以异常快的进度讲授内容：他在学期中就完成了原本应该是一学年的微积分教材内容，然后在剩下的学期里讲授他的研究。这门课以定理证明为导向，不涉及我之前与数学相关联的那些讨厌的死记硬背。那是我人生中第一次觉得上学是件令人兴奋的事，让我真的很期待去上数学课。后来我才发现，非荣誉微积分课程包含大量死记硬背，因为工程学院要求我回去重修我因已在入门微积分课上学过内容而跳过的微积分II。

如果我没有朋友把荣誉微积分的申请表递到我手里，我可能就不会主修数学，也可能永远不会发现任何值得去上的课。即使就这样，我大学里最引人入胜的教授都是数学教授²，我基本上翘了其他课程的课。我不知道有多少是因为数学课规模小得多，因此更能根据班上学生的需求定制（当时计算机工程非常热门，课程人满为患），有多少是因为这些教授确实是优秀的老师。

尽管我偶尔会用到我学过的数学知识，但大部分价值在于让我有信心相信自己能够学习并掌握解决任何特定问题所需的数学知识。

工程

在我的工程课程中，我学会了如何调试以及计算机如何工作到晶体管级别。我花了很多时间翘课，在图书馆阅读感兴趣的主题，包括计算机算术和电路设计。我仍然对Koren的《计算机算术算法》、Chandrakasan等人的《高性能微处理器电路设计》有着美好的回忆。我也开始阅读论文；我在图书馆花了很多时间阅读物理和工程论文，这些论文大多对我来说都难以理解。一个显著的例外是系统论文，我发现它们读起来很容易。我清楚地记得读过Dynamo论文（这是惠普关于JIT的论文，不是同名的亚马逊近期工作），但我想不起当时读过的其他论文了。

实习

我做过两次实习，一次在美光（Micron），我“参与”了闪存工作；另一次在IBM，我参与了POWER6项目。美光的实习是糟糕实习的教科书式例子。当我报到时，我的经理很惊讶自己会有一个实习生，并且没有给我安排任何工作。过了一段时间（也许一天），他给我找了个任务：按手机上的按钮。他设法找到一部使用美光闪存芯片的手机；他把手机递给我，告诉我要测试它，然后就走开了。

在手机上戳了一两个小时，没有发现任何明显的问题后，我四处走动，找到那些有任务可以交给我做的人。大多数任务只是比“测试”手机（通过猛按按钮）稍微不那么手动一点，但我完成了一项并非完全无趣的任务，即验证闪存芯片的控制器是否行为正确。与其他任务不同，这个任务适合自动化，我能够编写一个Perl脚本来替我完成测试。

我选择Perl是因为有人桌上有一本Perl书可以借给我，当时我觉得这似乎是个足够好的理由。我打电话给我的一个朋友，告诉他这门伟大的“新”语言，我们一起实现了《文艺复兴时代》（Age of Renaissance），一款我们高中时玩过的桌游。我们没有完成，但Perl用起来足够简单，让我们觉得可以写出真正能做一些有趣事情的程序。

除了学习Perl，我还学会了我可以向人们要书来读，于是我实习的剩余时间大半都花在了一边留意一项手动任务，一边阅读人们放在那里的书上。大多数书籍都与模拟电路设计或闪存有关，所以我就学了那些。具体的知识对我的职业生涯没有真正用处，但我学到了两个有用的元认知点。

第一，在工作中花时间阅读或学习（在大多数团队中）不会有人阻止你。美光尽力阻止实习生学习，默认策略是禁止实习生访问互联网（经理可以推翻该策略，但我的经理没有），但当实习生的另一个任务是随机按手机按钮时，不会有人特意阻止他们阅读书籍。

第二，我了解到，有许多工程问题我们无需知道原因就能解决。我读的一本书是关于当时闪存研究的综述。那时，闪存依赖一些已被充分表征但并未真正理解的行为。关于底层物理机制如何运作存在理论，但确定哪种理论正确仍是一个悬而未决的问题。

第二年，我在IBM进行了一次更有教育意义的实习。我被分配到POWER6的一个逻辑设计团队，由于他们不知道如何安排我，就让我负责验证他们编写的逻辑。他们有一个相对较新的工具，叫做SixthSense，你可以把它看作是加强版的QuickCheck。我学到的明显技能是如何使用高级测试框架编写测试，但我学到的更有价值的元技能是：编写测试用例生成器和检查器，往往比大多数地方那种冒充自动化测试的手动测试用例编写更有效率。

我在IBM第一次接触的另一件事是版本控制（不幸的是，用的CVS）。回想起来，我有点惊讶，不仅在我的所有课程中从未使用过版本控制，而且我从未遇到过任何其他使用版本控制的学生。我在IBM的实习是在本科和研究生之间，因此我在获得理学学士学位时从未使用过或见过任何人使用版本控制。

计算机科学

我上了几门CS课程。第一门是算法，这门课教得很糟，因此分数被大幅调整，结果我尽管什么都没学到，却得了A。这门课不涉及任何编程，虽然我本可以在课余时间做一些实现，但我当时对工程更感兴趣，没有尝试应用任何课程内容。

第二门课是数据库。有几个编程项目，但都是那种给你一些框架，你只需实现几个关键方法就能让程序跑起来的项目，因此即使完全不懂编程也能做得不错。我参与了一场“看谁上课次数最少”的比赛，什么都没学，勉强得了个B。

研究生时期（2003 - 2005年）

本科毕业后，我决定去读研究生，原因有几个有点傻。一个是“为什么不呢？”的组合，加上大多数教授给出的论点：如果你本科毕业后不立即去读研究生，以后就很难再回去读书了。但人们不回去读书的原因是他们获得了更多信息（他们既知道上学是什么样，也知道工作是什么样），而他们几乎总是选择工作！另一个主要原因是我觉得有硕士学位能找到更有趣的工作。这显然不一定是错的，但对于从事电气工程和编程的人来说，似乎普遍不成立。

我不知道我今天是否用到了任何在研究生阶段学到的东西，无论是直接意义上还是元认知意义上。我遇到了一些很棒的教授³，也交了一些好朋友，但我觉得这不是对时间的良好利用，原因在于我在19或20岁时做出的两个糟糕决定。我没有选择一所有很多人在我感兴趣领域工作的学校，而是选择了一所给我奖学金但只有一个我真正感兴趣的领域在工作的学校。而那个人在我开始前就离开了。

我最终研究了光学，虽然学习一个新领域很有趣，但这段经历对我来说没有特别的价值，我本可以学习我更感兴趣的领域同样获得乐趣。

虽然我名义上在研究光学，但我仍花了很多时间学习不相关的东西。有一次，我决定应该学习Lisp或Haskell，可能是因为保罗·格雷厄姆（Paul Graham）写的东西。我在图书馆找不到Lisp教材，但找到了一本Haskell教材。在我完成了练习之后，我仍然不知道如何完成任何实际的事情。但我确实学会了列表推导式，并养成了使用高阶函数的习惯。

根据网络评论和建议，我形成了学习更多语言会教会我如何成为优秀程序员的想法，因此我学习了Python和Ruby的入门书籍。就我所能判断的，这基本上没有教我任何有用的东西，我本来应该去学习某个特定领域（比如算法或网络）而不是学习多种语言。

第一份正式工作（2005 - 2013年）

在研究生快结束时，我主要寻找并找到了电气/计算机工程的工作。一个显著的例外是谷歌，他们打电话给我，要飞我去山景城面试。我告诉他们可能找错人了，因为他们甚至没有进行电话筛选，于是他们提出进行电话面试。我参加电话面试时以为自己会失败，因为我没有任何CS背景，结果如我所料失败了。回想起来，我应该要求面试硬件职位，但当时我不知道他们有硬件职位，尽管多年来他们一直在组装自己的服务器并设计一些自己的硬件。

总之，我最终进入了一家名为Centaur的小芯片公司。我当时很犹豫是否接受这份工作，因为面试是我所有公司面试中最简单的⁴，这让我怀疑他们的招聘标准是否较低，因此工程师相对较弱。结果证明，平均而言，那是我共事过的最好的一群人。我当时没有意识到，但后来这让我明白，那些声称因为面试超级难就有天才工程师的公司完全是在胡扯，很多公司推动的面试难度攀比更多是一种声望游戏，而非其他。

但我有点扯远了——我的第一个职位是他们称为“回归调试”的工作，包括调试新生成的测试和回归测试的失败。这份工作的主要目标是让新员工深入了解x86架构的细节。当时，Centaur的测试非常依赖于通过在总线上注入真实指令、中断等进行芯片级测试，因此调试测试失败能教会新员工关于x86的一切。

英特尔的x86手册有几千页长，仅靠它不足以实现一个兼容的x86芯片。当Centaur制造第一款x86芯片时，他们严格遵循英特尔手册，并将所有未定义行为留给具体的实现者。当他们拿到第一款芯片并尝试时，他们发现一些编译器生成的代码依赖于那些在x86上技术上未定义、但在英特尔芯片上恰好总是相同的行为。虽然这技术上是编译器的bug，但你不能发布一个与现有软件不兼容的芯片，因此从那时起，Centaur在实现x86芯片时，都确保芯片与英特尔芯片的精确行为匹配，包括匹配那些官方未定义的行为⁵。

之后的几年里，我对x86有了百科全书般的知识，能够凭记忆设置控制寄存器和MSR的位。我在未来任何工作中都没有用到这些知识，但不惧怕底层硬件的元技能经常派上用场，尤其是在我遇到编译器或芯片bug时。如果你说你发现了硬件bug，人们会像看疯子一样看你，但由于我们对英特尔芯片的精确行为特征如此仔细，我们经常发现bug，然后讨论我们应该匹配bug还是匹配规范（英特尔手册）。

从回归调试经历中我学到的另一件事是对自动化终身的热爱。调试通常涉及大量的机械步骤。在我对x86了解足够多，调试变得无聊后，我开始自动化调试。那时，我知道如何编写简单脚本，但并不真正懂编程，因此无法完全自动化这个过程。然而，我能够自动化到足够程度，使得99%的失败，我只需扫一眼快速摘要就能找出bug是什么，而不是花费可能数小时去调试。这把我之前一份全职的工作变成了每天大约30-60分钟就能完成的事（不包括那些涉及我尚不熟悉的x86冷僻角落，或者我的脚本无法给出有用摘要的bug的日子）。

那时，我做了两件之前在实习中学到的事。第一，我开始在工作中阅读。我从关于编程的在线评论开始，但这类内容不多，所以我问是否可以报销书籍费用并在工作中阅读。这看起来完全正常，因为很多其他人也这样做，而且至少有两个人平均每周阅读一本以上技术书籍，包括一个人平均每2-3天阅读一本技术书籍。

我保持在每周一本到每月一本之间的阅读节奏。我读了很多工程书籍，传递了一些我现在不再使用的知识（因为我大部分时间在写软件）；一些“大理念”的软件工程书籍，如《设计模式》和《重构》，我当时并没有真正领会，因为我只是在写脚本；以及大量关于不同编程语言的书籍，这些似乎对我没有什么影响。

那时我读过的唯一一本以对我而言明显的方式改变了我编写软件方式的书是《设计心理学》（The Design of Everyday Things）。这本书的核心思想是，虽然人们会因为无法使用难以理解的界面而自责，但我们应该指责设计师设计了糟糕的界面，而不是指责用户不会使用。

如果你遇到一扇门，错误地尝试拉而不是推（或反过来），并且有空闲时间，试试观察其他人是如何使用这扇门的。每当我这样做时，我都会看到大约一半尝试开门的人用错了。那就是设计缺陷！

《设计心理学》让我对API和用户体验反馈更加敏感，也更加无法容忍那些说“没问题——大家都知道foo和bar的参数必须以相反顺序给出”或者“拜托！大家都知道你只需要点击菜单X，选择Y，导航到选项卡Z，打开AA，转到选项卡AB，然后将设置滑到AC”的程序员。

我不认为所有这些阅读完全是浪费时间，但我本来应该选择计算机科学或电气工程的几个子领域去深入学习，而不是阅读奥莱利（O'Reilly）或曼宁（Manning）出版的那种类型的书。

并不是说这些书没用，而是几乎所有这些书都是为了让任何随机程序员无需特定背景就能理解而写的，你读第50本针对随机程序员的书所能获得的东西是有限的。在我看来，大多数非学术会议也有同样的问题。作为一个演讲者，你想做一个对听众中每个人都有效的演讲，但这样做的一个副作用是，许多演讲对于参加过几次会议的有经验的程序员来说教育价值相对较小。

我认为从所有这些阅读中我也收获了积极的东西，但我还不知道如何找出那些是什么。

作为我阅读的结果，我还做了两件回顾起来相当有害的事情。

一是我真正迷上了函数式编程，并尽可能到处使用函数式风格。不可变性、高阶X（X可以是任何可能的值）等等。结果是我能快速编写和修改代码，但除了少数几个同样喜欢函数式编程的同事外，其他人根本看不懂。

第二个大的负面影响是我确信Perl给我们带来了很多问题。我们有很难理解和修改的Perl脚本。它们经常是几千行代码，只有一两个函数，没有测试，使用了你能想到的所有晦涩Perl特性。静态类型！魔法符号！隐式一切！你能想到的，我们都用上了。对我来说，压垮骆驼的最后一根稻草是：我在两个没有显式传递参数和返回值的函数之间插入了一个新函数——结果破坏了脚本，因为其中一个函数将一个值返回到一个隐式变量中，而下一个函数读取了这个变量。在两个紧密耦合的函数之间插入另一个函数，我破坏了脚本。

之后，我说服了一群人使用Ruby，并自己也开始使用。问题是我说服了团队的一半人这么做。另一半人继续使用Perl，导致了语言碎片化。更糟糕的是，在另一个小组，他们也受够了Perl，但开始使用Python，导致公司同时拥有Perl、Python和Ruby代码。

Centaur有一项明确政策，即不告诉人们如何做任何事，这排除了制定团队或公司范围标准的可能性。在这种环境下，使用一种“更好”的语言似乎是自然的事，但我没有意识到碎片化的代价，直到后来在职业生涯中看到一家公司利用标准化取得了良好效果。

总之，当我导致可怕的碎片化时，我也自动化了我大部分的回归调试工作。我厌倦了花80%的工作时间阅读，开始寻找其他事情做，在Centaur的整个工作期间我都一直在这样做。我喜欢学习新东西，所以我做了几乎所有与芯片设计相关的事情。我唯一没做的是电路设计（电路设计的技术主管不想让非专业人士干涉他的领域）以及几个角色，有人告诉我“Dan，如果你真的想做那个也可以，但我们付你那么多钱不是让你全职做那个的。”

如果不是我经常参加面试（大约每年一次，即使我对工作很满意），我可能会怀疑做这么多不同的事情是否在阻碍我的职业发展，因为大型芯片公司几乎只培养专家。但在面试中，我发现我的经验受到重视，因为他们无法在内部获得这些经验。讽刺的是，我收到的每一个职位邀请都会把我变成专家。大型芯片公司声称希望员工流动并尝试不同事物，但深入探究其含义时，会发现他们喜欢让一个人在一个非常狭窄的岗位上工作两三年，然后转到下一个非常狭窄的岗位。

有那么一段时间，我怀疑自己是否注定要么最终去一家大公司担任高度专业化的职位，要么在Centaur待一辈子（这并非坏归宿——Centaur的工作流失率远低于我工作过的任何地方，因为人们非常喜欢它）。但我后来发现，构建硬件加速器的软件公司实际上为硬件工程师提供了通才职位，而软件公司也有程序员的通才职位，不过这可能已经无关紧要了，因为大多数软件人可能会认为我是一个极其细分领域的专家。

无论在许多硬件相关岗位上花费大量时间让你认为我是个通才还是专家，我都掌握了许多技能，这些技能在我从事硬件加速器工作时派上了用场，但它们并不真正适用于我今天从事的纯软件项目。不过，我学到的许多元技能迁移得相当好。

如果我必须选择我在那时学到的最有用的三个元技能，我会说是调试、错误跟踪和学会如何处理难题。

调试是一项有趣的技能，因为每个人都认为自己会调试。对我来说，我甚至不会说我在Centaur学会了调试，而是学会了坚持。非确定性的硬件bug比非确定性的软件bug糟糕得多，以至于我总是相信自己能追踪到软件bug。在最坏的情况下，当一个bug在日志中没有被捕获，在调试器中也无法捕获时，我总是可以添加跟踪信息，直到bug变得明显。同样的事情在硬件中也成立，但“重新编译”以添加跟踪信息每次“重新编译”需要3个月；与那种经历相比，追踪一个需要三个月才能弄清楚的软件bug感觉简直太愉快了。

错误跟踪是另一项每个人都认为自己拥有的元技能，但当我审视大多数项目时，发现他们真的不知道自己有什么bug，而且由于未能有效分类bug，经常丢失bug。直到离开Centaur，看到那些不懂如何跟踪bug的团队，我才意识到自己培养了这项技能。在Centaur，根据项目阶段，我们会从零个到一千个未解决的bug。与我密切合作的人会保持一个关于哪些bug是开放的心智模型；当时这看起来完全正常，而且有很多人这样做，这让人们对项目状态、哪些领域提前完成、哪些领域落后了保持一致的看法变得容易。

在Centaur之外，我发现能找到一个跟踪主要未解决bug的人就已经很幸运了。在团队待上一段时间之前，人们通常对将一个重大问题放入bug跟踪而不是立即修复感到不安，因为他们太习惯于bug被遗忘，以至于不信任bug跟踪系统。但这正是错误跟踪的意义所在！我将此视为类似于那些测试覆盖率极低、预发布系统非常不可靠的团队，他们不相信自己能进行修改，因为他们没有信心在问题到达生产环境之前被捕获。这对生产力是巨大的拖累，但在看到替代方案之前，人们并没有真正意识到这一点。

也许我学到的最重要的元技能是学会如何解决大问题。当我加入Centaur时，我看到人们在解决我甚至不知道如何着手的问题。有些像Glenn Henry这样的人，一位曾在IBM处于计算前沿时期的IBM同事，还有Terry Parks，Glenn称他是他在IBM认识的最好的工程师。并不是说他们是10倍工程师；他们不是工作得更快。事实上，Glenn是个二指禅打字员，我的打字速度可能是他的10倍，并且能比他更快解决那些受限于打字速度的琐碎问题。但Glenn、Terry和其他一些高手知道如何处理那些我甚至无法开始着手的问题。

我无法引用某个特别的顿悟时刻。这只是八年的工作积累。当我寻找问题要解决时，Glenn经常会递给我一个比我自认为可能解决的问题稍难一点的问题。我会告诉他我觉得自己解决不了，他会告诉我试试看，大约80%的时候我都能解决。我们这样重复了大约五六年，直到我不再告诉Glenn我觉得自己解决不了。即使我不知道它何时发生，我知道我最终开始认为自己是一个能够解决我们遇到的任何开放问题的人。

再次研究生时期（2008 - 2010年）

在Centaur工作期间的某个时候，我转为兼职，在当地的大学上了一段时间课并做了一些研究。出于我记不清的原因，我把时间分配在软件工程和计算机科学理论之间。

我读了很多软件工程论文，得出的结论是，我们对于什么能使团队（甚至个人）富有成效知之甚少，并且该领域在近期不太可能有可操作的答案。我还署名了几篇论文，我认为这些论文对人类知识状态没有做出有意义的贡献。

在计算机科学理论方面，我修了一些研究生级别的理论课程。那确实是教育性的，我第一次真正“领悟”了算法以及复杂性理论等。我本可以在一篇我不认为对人类知识状态有实质性贡献的论文上署名，但我的潜在合著者也有同感，所以我们没有写出来。

我最初再次尝试读研是因为我考虑攻读博士学位，但我发现我所做的工作并不比在Centaur的工作更“有趣”，并且在看到该项目人员的工作结果后，我决定获得博士学位为我提供真正价值的可能性不到1%，于是我全职回到了Centaur。

RC（2013年春季）

在Centaur工作八年后，我想做一些除微处理器之外的事情。我在其他硬件公司有足够的朋友，知道如果我换到另一家硬件公司，除了知名度之外，基本上在各个方面都会降级，所以我开始申请软件工作。

在申请工作的过程中，我听说了RC。它听起来很棒，甚至可能好得难以置信：当我给朋友们看人们对此的评论时，他们认为这些评论是假的。这是一次很棒的经历，我能理解为什么那么多人对它赞不绝口，以至于真实的评论听起来好得不真实。它对很多人来说是变革性的；我听到很多诸如“我在这里三个月学到的比在学校N年学到的还多”或“我完全精疲力竭了，这是我一年来第一次变得高效”之类的感叹。它对我不是变革性的，但那是我度过的最愉快的三个月之一，我甚至还学到了一两件事。

从学习的角度来看，我从RC获得的主要收获是来自Marek的反馈，我和他一起工作了大约两个月。虽然Centaur的自由和缺乏监督对于培养我独立工作的能力很棒，但我基本上没有得到任何关于我工作的反馈⁶，因为他们在我在那里时不做代码审查，而且我在绩效评估中也从未真正得到过任何可操作的反馈。

Marek在结对编程时非常擅长给予反馈，与他共事改掉了一些我的坏习惯，并教会了我一些解决问题的新方法。在元层面，RC比大多数地方更注重结对编程，这让我第一次进行了结对编程。我之前没有意识到与某人结对编程在了解他们的工作方式以及是什么使他们高效方面有多么有效。从那以后，我邀请了许多超级高效的程序员结对编程，每次都有所收获。

第二份正式工作（2013 - 2014年）

我恰逢其时，正好赶上一个项目从Andy Phelps的个人20%时间项目转变为后来被称为Google TPU的过渡期。

据我所知，纯粹是运气，我成为了这个项目的第二个工程师，而不是第五个或第十个。我得以见证一个项目从概念阶段发展成现实的样子。在Centaur，我某种程度上也经历过这种感觉，但我参与的每个项目要么是CPU的一部分，要么是旨在改善CPU开发的工具。这是我第一次从一个非平凡项目的初始阶段就参与其中，而不仅仅是参与项目的一部分，而是整个项目。

无论使用什么方法论，这本来就是教育性的，但由于设计方式的独特，这是一个特别棒的学习经历。我们从对核心算法的长时间讨论开始。在找到了一个能提供可接受性能的算法后，我们在开始认真实现之前，为每个主要模块编写了设计文档。

现在许多人认为编写设计文档是浪费时间，但经历这个耗时数月的过程有几个大优势。第一个是，协作设计过程教会了团队中每个人彼此的技巧。这有点像结对编程带来的技能转移，但应用于设计。这对我来说很棒，因为作为一个只有十年经验的人，我是房间里经验最少的人之一。

第二个优势是，在设计阶段迭代速度要快得多，放弃一个设计只意味着擦掉白板。一旦你开始编码，迭代设计可能意味着丢弃代码；对于基础设施项目，这很容易损失人年，甚至数十人年的工作。自从参与TPU项目以来，我见过几个类似规模的项目团队坚持尽快获得“可运行”的代码。在每一种情况下，这都导致了大规模的延迟，因为大量代码必须重写，在少数情况下，项目存在根本性缺陷，导致团队不得不从头开始。

我理解在产品类项目中，因为你无法预知某样东西会有多受欢迎，你可能希望尽快发布一个MVP并进行迭代，但对于纯基础设施项目，在设计阶段通常就可以预测其有用程度。

我从这份工作中获得的另一个重要收获是，当一家公司真正努力让工程师高效时，能够达到什么程度。我在Centaur反复看到的情况是，有人进来，环顾四周，发现工具是生产力的巨大消耗，然后进行大量改进。他们随后会对自己已经大幅改进了情况感到满意，然后转向其他问题。然后下一个新员工进来，有同样的反应，做同样的事情。结果是，工具在那段时间改进了很多，但还没有达到让新人满意的程度。谷歌是我工作过的地方中，唯一一个许多工具相比之下看起来像魔法的地方⁷。当然，人们抱怨许多工具不稳定，文档不足，很多已经过时。都是事实。但这种情况比我工作过的任何其他公司都要好。这似乎并没有真正成为谷歌业务的竞争优势，但它让开发体验变得非常愉快。

第三份正式工作（2015 - 2017年）

这是一次令人惊讶的经历。我觉得我离它太近了，无法真正知道我从这次经历中获得了什么，所以完整填写这一节是个待办事项。

一个真正有趣的事情是，有很多我曾认为是“完成任务的基本要求”的东西，现在看来是可以没有的。一个例子是版本控制。我一直强烈支持使用版本控制，但我与一位强烈反对版本控制的技术主管共事的项目仍然基本上成功了。在我们开始使用版本控制之前，有很多争论，但处理没有版本控制的后果以及人们没有真正同步更改，每周只花我一两天时间手动合并更改到我的私人仓库以确保构建稳定工作。这显然远非理想，但在整个团队范围内，其代价不足以导致成败之别。

RC（2017年至今）

上一份工作后我想要一个有趣的休息，所以我回到了RC去做有趣的编程相关事情并充电。我没有写下我大部分工作内容（例如，对《Terra Mystica》8万局游戏的分析、MTA（纽约市）地铁数据分析等）。我写了一些东西，比如计算机、终端、键盘和网站的延迟分析。

我在RC期间让我思考的一件事是，为什么靠写作获得高薪这么难。似乎对“好”写作有很多需求，但公司似乎不太愿意为那些会编程但想写作的人创造职位。Steve Klabnik通过他的写作对Rust产生了巨大影响，可能比大多数项目中中位数程序员的影响更大，但我的印象是，为了做这件真正有用且重要的事，他的收入可能比他作为程序员能赚到的要少。

我尝试过在几个地方推销这种角色，到目前为止的回应大多是以下两者的结合：

我们重视写作！我觉得全职甚至兼职写作没有意义，但你可以加入我的团队，我们支持写作，你可以作为20%时间项目或在业余时间写作！
呃，我们可以想办法，但为什么一个会编程的人会想写作呢？

这两种回应都没有让我觉得写作在这些团队中会被视为和编程同等重要，即使这些团队的写作重视程度相对大多数团队更高。有一些“开发者布道师”角色涉及写作，但当我阅读拥有这个头衔的人写的工程博客时，大多数文章似乎都是伪装得很好的新闻稿（显然也有例外，但即使博客有有趣的工程输出，有趣的内容也常常与伪新闻稿交织在一起）。除了无聊，这种事情似乎也很无效。在我工作过的一家公司，我统计了他们的开发者布道师博客与我个人博客的流量，有很多月份我的博客流量超过了他们所有托管的布道师博客流量总和。我觉得程序员更愿意读解释/分析/历史而不是公关材料并不奇怪，但似乎很难说服正确的人相信这一点，所以我可能会在之后回去做编程工作。走着瞧。

顺便说一句，这并不是说我不喜欢编程或不认为编程重要。只是写作似乎被低估了，以至于通过写作产生超大影响力相对容易。但同样的力量，在让人容易产生超大影响力的同时，也让人很难获得高薪！

那些不好的事呢？

当我回想我的职业生涯时，感觉它是一连串幸运事件的延续。我倒霉过几次，但我不太清楚从那些倒霉经历中能吸取什么教训。

例如，我认为我的成长环境有轻微的虐待倾向。我记得有些晚上睡不着，因为每次一闭眼就会梦见父亲。白天醒着的感觉也不好。这显然不好，回顾起来似乎与我搬出去之前的学业问题有相当直接的关系，但我不知道我能给年轻时的自己什么有用的建议。不要出生在虐待家庭？如果人们能控制这件事，他们本来就会做的。

或者选一个更近的例子，我曾加入过一个在Joel测试中得分只有1分的团队。Joel测试现在被认为过时了，因为它为“你有测试人员吗？”和“你在写新代码前修复bug吗？”这类问题评分，这些问题在今天大多数开发者看来并非最佳实践。那些没有争议的项目中，许多似乎如此显而易见，根本不值得问，比如：

你使用源代码控制吗？
你能一步完成构建吗？
你至少每天进行构建吗？
你有一个错误数据库吗？

对于任何关心这类事情的人来说，加入一个最多只完成Joel清单上一项（而且这一项还不是上述任何一项）的团队显然不是个好主意。在一个得分1分的团队中获得第一手经验，并没有给我任何新信息来重新考虑我的观点。

你可能会说我应该问这些问题。确实如此！我应该问，我将来可能也会问。然而，当我被雇佣时，那位反对版本控制和其他形式自动化的技术主管还没有被雇佣，所以即使我问了也不会发现这一点。此外，即使他已经被雇佣了，我仍然不确定我是否会发现这一点——这是我加入一个团队后，发现招聘过程中大多数事实陈述都是不真实的唯一一次。我确保提出了具体、实际的问题，询问项目状态、流程、已进行的实验等，但结果发现答案完全是谎言。在那个团队时，每天队员之间都会拿招聘宣传有多假开玩笑！

我可以尝试在未来通过要求事实主张的具体证据来预防类似问题（例如，如果有人声称流失率是X，我可以要求访问人力资源数据库进行核实），但考虑到我的时间有限，以及被直接告知谎言的概率相对较低，我认为在考虑一份工作时，我将继续优先了解其他信息，并接受未来仍有微小概率会陷入类似情况。

当我回顾经历过的与职业相关的不好的事情时，几乎都归结为两类：明显不好且基本无法避免的事情，或者明显不好但在有限资源下我不知道如何合理避免的事情。我看不出这有什么可学的。这并不是说我没有犯过错误并从中学习。我犯了很多错误，也确实因此改变了很多做事方式！但我最糟糕的经历都来自那些我不知道如何合理预防的事情。

这似乎也适用于我认识的大多数人。例如，我经常看到的一种情况是，我的一个朋友最终遇到一位认为经理就是分配奖励和惩罚的人的经理（与相信经理应该使团队尽可能高效的人，或相信经理应该帮助人们成长的人相对）。当你有这样的经理时，常见的失败模式是你被分配到不适合的工作，然后你可能因为工作不合适而做得不好。如果你要求一份更适合的工作，会被拒绝（为什么在你做得不好时，应该奖励你做你想做的事？你应该通过做更多你不喜欢的事来受罚），这会导致一个螺旋式下降，最终以这个人离职或被解雇告终。在我最近看到的案例中，被解雇对当事人和其最亲密的同事来说都很意外：我的朋友设法找到了一个适合自己的角色，尽管管理层百般阻挠；当管理层决定解雇我的朋友时，他们甚至没有咨询新项目的同事，而同事们认为我的朋友做得很好，而且已经好几个月了！

我听到很多这样的故事，我很乐意倾听，因为我喜欢故事，但我不知道这里有什么可操作的建议。避开那些喜欢惩罚员工而不是帮助员工的经理？显而易见，但无法操作。

结论

我看到的最常见的职业建议是“你应该做我所做的，因为我成功了”。它通常表达方式不同，但核心就是这个意思。这基本上从来不起作用。当我和朋友、熟人交流时，很明显我的职业生涯在许多方面都不寻常，但不清楚为什么。

举个例子，我几乎总是有一个支持我的经理，他不仅愿意让我自学任何我想学的东西，还愿意花大量时间和精力帮助我作为工程师成长。我交谈过的大多数人从未遇到过这种情况。为什么有这种差异？我毫无头绪。

一个故事可能是：有两次我遇到了不支持我的经理，我很快就找到了其他职位，而我的很多朋友会在不适合的角色上待很多年。也许我可以把它包装成这样的寓意：你应该比你想象的更快地离开角色，但我陷入的两个糟糕情况，都是因为我离开一个角色太快，所以建议不能是“倾向于比你认为的更快离开角色”。也许故事的寓意应该是“更快地离开糟糕的角色，更久地留在好的角色里”，但这太显而易见，甚至不值得一提。这可能被认为不显而易见，因为人们确实会留在让他们痛苦的角色里，但当我想起这样的人时，他们属于两类：要么因为外在原因卡住了（例如需要等待签证到期），要么知道应该离开但无法让自己去做。对于前者没有太多可做的，对于后者，知道应该离开不是问题。我能想到的任何策略要么在一般情况下是不正确的，要么显而易见到没有讨论的必要。

另一个故事可能是：我学到了很多有价值的元技能，所以你也应该学习这些技能。但你可能不应该学。我掌握的特定元技能对我来说很有用，因为它们是我能轻松在工作场所学到的技能（通常是因为我有很好的导师），并且是因为我真正坚信这样做。你的情况和核心信念可能与我不同，你必须自己弄清楚学习什么是合理的。

又一个故事可能是：虽然很多机会来自偶然，但我有很多机会是因为我花了很多时间创造可能的机会。当我把这篇文章的草稿传给一些朋友时，基本上每个人都告诉我，我在叙述中过分强调了运气，我所有的幸运突破都来自于努力工作和尝试创造机会的结合。虽然从某种意义上说这是真的，但我的许多机会也来自做出完全错误的决定。

例如，我最终进入Centaur是因为我以一个糟糕的理由拒绝了在IBM工作的机会！实习结束时，我的经理试图说服我留下成为全职员工，但我拒绝了，因为我要去读研究生。但我之所以读研究生，是因为我想获得微处理器逻辑设计的职位，我以为仅凭学士学位无法获得这个职位。但如果我没有拒绝我的经理，我本可以获得那个职位！我只是忘记了当初决定读研究生的原因，并错误地使用了缓存的决定作为拒绝这份工作的理由。纯粹是运气，结果这恰好奏效了，我得到了比我在实习期决定接受IBM工作的任何同事都更好的机会。我“主要”是运气好还是准备充分？很难说；也许甚至不可能知道。

职业生涯没有你需要的日志基础设施来确定单个决策的影响。至少在编程领域如此。现在许多运动追踪逐次比赛数据的方式，使得尝试确定在任何特定比赛或赛季的成功中有多少是运气，多少是技能成为可能。

以棒球为例，这是一项被较好理解的运动。如果我们看看我们今天对表现的统计理解，很明显，20年前几乎没有人真正知道是什么因素让球员成功。我特别感兴趣的一件事是，我们现在对哪些因素是根本性的，哪些因素归结为运气有了更好的理解，而这与几乎任何人20年前的想法都大相径庭。我们现在看一个投手，可以这样说：“他本赛季运气不好，但他的foo、bar和baz数据都很好，所以看起来是比赛击球方面的坏运气，而不是技能下降”，我们也可以这样说：“他本赛季表现不错，但他的基本数据没有变化，所以他未来的表现可能不会比本赛季之前更好”。20年前我们无法做出这样的论断。而这是一项逐次比赛视频似乎从很久以前就可用，逐次比赛数据记录了一个世纪的运动。

在这项一切都被测量的运动中，直到相对较近的时候，我们才能区分由于运气导致的波动和由于技能变化导致的波动。然后是编程，通常认为测量人们的表现是不可能的，而评估人们表现的现状是你询问五个人关于某人的评论，然后汇总这些评论。如果我们仅在现在才能对一项运动员工作的每个细节都可获得的运动中，对运气和其他因素所造成的差异发表看法，我们怎么可能接近于对编程职业这样模糊的事情做出类似区分？

总之，生活是混乱的，我没有任何建议。

附录 A：我想学习的元技能

文档编写

我曾与Jared Davis，一位文档高手共事，他的文档如此之好，以至于在询问模块所有者之前，我会先去找他了解模块是如何工作的。据我所知，他是为了让自己更容易理解他正在尝试理解的东西而撰写文档的，但他的文档如此优秀，以至于对整个公司来说都是一股力量倍增器。

后来在谷歌，我注意到初始设计文档的质量与项目的成功率之间存在着奇妙的强相关性。从那以后，我努力为我的项目撰写扎实的设计文档和文档，但我还有很长的路要走。

修复完全崩溃的情况

到目前为止，我只遇到过情况远好于平均水平的团队，以及情况远差于平均水平的团队。你可能认为，由于远差于平均水平的团队有太多唾手可得的改进机会，在糟糕的团队中改进情况应该更容易，但事实恰恰相反。问题很多的地方之所以有问题，是因为某些东西使解决问题变得困难。

当我加入那个在Joel测试中得1分的团队时，花了数月时间游说才让每个人都使用版本控制。

我从未见过一个环境从“坏”变成“好”，我很想知道那是什么样子以及如何发生的。约西·克雷宁（Yossi Kreinen）的论文认为，只有管理层才能修复崩溃的情况。这可能是真的，但在我没有任何相反证据的情况下，我还不太愿意相信它。

附录 B：其他“我是如何成为程序员”的故事

Kragen。描述了27年学习编程的过程。重点强调发展的概念阶段（例如，理解如何使用提供的函数 vs. 理解你可以编写任意函数）。

Julia Evans。2004年开始在TI-83上编程。断断续续编程直到大学（2006-2011年），此后一直担任职业程序员。强调“旅程”以及提高需要多长时间。

Philip Guo。一个非传统的学习编程故事，如果你知道Philip的职业道路是MIT -> Stanford -> Google，这可能会让你感到惊讶。

Tavish Armstrong。从四年级到大学。强调特定技术（如LaTeX或Python）。

Caitie McCaffrey。在AP计算机科学课上开始编程。强调兴趣如何引领到编程职业。

Matt DeBoard。在导师的帮助下花了12周学习Django。强调没有编程背景也可能成为程序员的事实。

Kristina Chodorow。在大学开始。强调替代路径（数学、研究生院）。

Michael Bernstein。多年学习Haskell的故事。强调达到最低熟练程度花了多长时间。

感谢Leah Hanson, Lindsey Kuper, Kelley Eskridge, Jeshua Smith, Tejas Sapre, Joe Wilder, Adrien Lamarque, Maggie Zhou, Lisa Neigut, Steve McCarthy, Darius Bacon, Kaylyn Gibilterra, Sarah Ransohoff, @HamsterRaging, Alex Allain 和 "biktian" 的评论/批评/讨论。

如果你碰巧有Swanson先生的联系方式，我很想发一封感谢信。 ^[返回]
Wayne Dickey, Richard Brualdi, Andreas Seeger, 和一位我记不起名字的客座教授。 ^[返回]
我强烈推荐Andy Weiner教的任何课程，以及我旁听数学物理时的那位老师，但我不记得他是谁，也不确定课程的准确名称。 ^[返回]
除了一个政府实验室，他们仅凭一次非技术的校园面试就给了我录用通知。我相信那实际上是我找工作时做的第一次面试，但他们在面试季结束且我已经接受另一份录用后很久才回复我。我不确定这是因为他们是按候选人名单顺序联系，只在N个人拒绝后才联系到我，还是他们的录用通知有六个月的延迟。 ^[返回]
因为英特尔没有理由让竞争对手了解它正在做什么，这导致在匹配新功能时存在相当大的延迟。他们通常会公布足够的信息让你实现基本功能，但边缘情况下的行为可能有所不同。我们曾经有一个bug（在发布前就发现并修复了，但仍然是个问题），我们从eBay上买了一个工程样品，并根据这个工程样品实现了一些新功能。这导致了一个MWAIT的bug，使得Windows挂起；英特尔在发布工程样品和发布最终版本之间改变了MWAIT的行为。

我最近看到一篇帖子声称通过从eBay购买一些工程样品可以获得很好的性价比。别这么做。工程样品经常有bug。有时那些bug是真正的bug，有时只是英特尔改变了主意。无论哪种情况，你都不想在生产系统上运行工程样品。 ^[返回]
我偶尔通过把解决的问题拿给别人看并询问他们是否有更好的想法来获得反馈，但这远不如我在这里谈论的那种反馈深入。 ^[返回]
举一个具体的例子，看看微软的版本控制，来自一位曾在Windows Vista工作的人：

在小的编程项目中，有一个中央代码仓库。构建通常每天从这个中央仓库生成。程序员随时将他们的更改添加到这个中央仓库，因此每日构建是产品当前状态的一个相当好的快照。

在Windows中，这种模型失效了，因为开发人员太多了，无法访问一个中央仓库。因此Windows有一个仓库树：开发人员签入节点，并定期将节点中的更改向上集成一级。以不同的周期性，更改从根节点向下集成到树中的节点。在我工作的节点中，它距离根节点有4层之隔。集成的周期性随着接近根节点而呈指数级衰减且不可预测，最终导致我的代码需要1到3个月才能到达根节点，而到达其他节点则需要更长时间。还必须注意的是，我的团队、Shell团队和内核团队之间唯一的共同祖先是根节点。

谷歌和微软都维护着他们自己分叉的Perforce，因为那是当时最可扩展的源代码控制系统。谷歌后来构建了Piper，一个分布式版本控制系统（在分布式系统的意义上，而不是在git的意义上），解决了扩展问题，尽管开发体验远不如微软痛苦。但那个选项在微软并不真正可行。在上面引用的文章的评论中，一位当时的微软经理评论说，可能的选项是：
1. 联合源代码树，支付正向和反向集成税（主要是延迟发现构建中断），或者……
2. 消除Windows各部分之间大量不必要的依赖，特别是循环依赖。
3. 1和2都做。#1成为胜利方案，很大程度上是因为它可以由一个小组在明确的时间内执行。#2将需要驱赶所有Windows开发人员（以及PM、经理、UI设计师……），并且可能是一个无界的问题。
另一个人评论说，他在一个分支团队上，将单向延迟从几个月降到了几周。这当然是个改进，但为什么没有人构建像Piper这样的系统呢？我向当时在微软的人问过这个问题，我得到的答案类似于“当我们开始使用Perforce时，它比我们之前用的快得多，以至于人们没想到我们还能做得更好得多”，以及“Perforce比xcopy快得多，看起来像魔法一样”。

这种普遍现象，即人们因为当前系统已经比前一个系统有了巨大改进，而不尝试做出重大改进，是我以前见过甚至自己做过的事情。这个例子恰好使用了微软和谷歌，但请不要过度解读。有些系统情况正好相反，谷歌的某个系统相比微软的同一个系统显得异常笨拙。 ^[返回]

由 mimo-v2.5 模型翻译，花费 31083 tokens

并发缺陷笔记

Fri, 5 Aug 2016 03:32:26 +0000

[AI 摘要] 本文综述了并发缺陷的研究文献，包括单机和分布式系统中的发现，以及相关检测工具。

并发缺陷重要吗？从文献中我们知道，分布式系统中报告的大多数缺陷都有非常简单的原因，并且可以通过简单的测试捕获，即使我们只关注导致严重故障的缺陷，如集群丢失或数据损坏。文件系统文献也反映了这一结果——一个简单的检查器，查找完全未实现的错误处理，可以发现数百个严重的数据损坏缺陷。大多数缺陷都是简单的，至少如果按缺陷数量衡量的话。但如果按调试时间衡量，情况就有点不同了。

仅从个人经验来看，我花在调试复杂非确定性故障上的时间比所有其他类型缺陷加起来还要多。事实上，我花在调试某些单个非确定性缺陷（数周或数月）上的时间比所有其他类型缺陷加起来还要多。非确定性缺陷很罕见，但它们可能极难调试，并且是生产力杀手。严重的非确定性缺陷调试时间太长，以至于在工具和预防方面进行相对较大的投入可能是值得的¹。

让我们看看学术文献对非确定性缺陷的说法。文献众多，因此我们通过关注一个相对研究充分的领域来缩小范围：并发缺陷。我们将从单机并发缺陷的文献开始，然后探讨分布式并发缺陷。

Fonseca 等，DSN '10

他们研究了 2003 年至 2009 年间的 MySQL 并发缺陷，并发现以下情况：

非死锁缺陷（63%）多于死锁缺陷（40%）

注意这些数字总和超过 100%，因为一些缺陷被标记了多个原因。这大致与 Lu 等 ASPLOS '08 论文（我们稍后会看）一致，该论文发现他们检查的缺陷中有 30% 是死锁缺陷。

15% 的检查故障是语义性的

论文将语义故障定义为“应用程序向用户提供的结果违反了应用程序的预期语义”。作者还发现“绝大多数语义缺陷（92%）产生了应用程序语义的微妙违规”。根据其性质，这些故障很可能被低估——死锁很容易被发现，但微妙的数据损坏却容易被忽视。

15% 的检查故障是潜伏的

论文将潜伏定义为“不会立即向用户显现的缺陷”。不出所料，论文发现潜伏故障与语义故障密切相关；92% 的潜伏故障是语义性的，反之亦然。92% 这个数字使这个发现听起来比实际情况更精确——它只是指 12 个语义故障中有 11 个是潜伏的，反之亦然。这本来很容易就是 11/11（100%）或 10/12（83%）。

这很有趣，但很难从中看出结果是否适用于非数据库项目，甚至非 MySQL 项目。

Lu 等，ASPLOS '08

他们研究了 MySQL、Firefox、OpenOffice 和 Apache 中的并发缺陷。一些发现如下：

97% 的检查的非死锁缺陷是原子性违规或顺序违规缺陷

在研究的 74 个非死锁缺陷中，51 个是原子性缺陷，24 个是顺序缺陷，2 个被归类为“其他”。

原子性违规的一个例子是 MySQL 中的这个缺陷：

线程 1：

if (thd->proc_info)
  fputs(thd->proc_info, ...)

线程 2：

thd->proc_info = NULL;

对于不熟悉 C 或 C++ 的人来说，thd 是一个指针，-> 是通过指针访问字段的运算符。线程 1 的第一行检查字段是否为空。第二行调用 fputs，该函数写入字段。意图是仅当 proc_info 不是 NULL 时才调用 fputs，但没有任何东西阻止另一个线程在线程 1 的第一行和第二行之间将 proc_info 设置为 NULL。

像大多数缺陷一样，这个缺陷事后看来很明显，但如果我们查看原始缺陷报告，可以看到当时并不明显：

描述：我刚刚注意到，在最新的 bk 树中，MySQL 在 InnoDB 代码中经常崩溃…… 如何重现：我仍然不知道这个崩溃为什么发生。

对于大型代码库来说很常见，一旦诊断出缺陷，修复它比最初看起来更复杂。这个缺陷在 2004 年部分修复，在 2008 年重新出现并再次修复。另一个缺陷的修复在 2009 年导致了回归，也在 2009 年修复。该修复引入了一个在 2011 年发现的死锁。

一个顺序缺陷的例子是 Firefox 中的以下缺陷：

线程 1：

mThread=PR_CreateThread(mMain, ...);

线程 2：

void mMain(...) {
  mState = mThread->State;
  }

Thread 1 使用 PR_CreateThread 启动 Thread 2。Thread 2 假定，因为启动它的行赋给了 mThread，所以 mThread 是有效的。但 Thread 2 可能在线程 1 赋给 mThread 之前开始执行！作者指出，他们称其为顺序缺陷而不是原子性缺陷，即使如果线程 1 中的行是原子的，这个缺陷本可以被防止，因为他们的“缺陷模式分类基于根本原因，而不考虑可能的修复策略”。

“其他”缺陷的一个例子（仅有的两个研究之一）是 MySQL 中的这个缺陷：

线程 1...n：

rw_lock(&lock);

看门狗线程：

if (lock_wait_time[i] > fatal_timeout)
  assert(0);

当工作量超过预期时，这可能导致虚假崩溃。注意，研究没有查看性能缺陷，因此如果锁争用导致事情变慢但看门狗没有杀死程序，这不会被认为是缺陷。

一个可能值得另文讨论的题外话是，硬件通常内置死锁或活锁检测，当检测到锁条件时，硬件通常会尝试将事情推入可以继续正常执行的状态。在检测并打破死锁/活锁之后，错误通常会以一种在实验室中被捕获时会被注意到的方式记录，但外部客户不会看到。出于某种原因，这种策略在软件世界中似乎很少见，尽管在软件中应该比在硬件中更容易实现。

死锁当且仅当以下四个条件都为真时发生：

互斥：至少一个资源必须以不可共享的方式被持有。在任何给定时刻，只有一个进程可以使用该资源。
持有并等待或资源持有：一个进程当前持有一个或多个资源，并请求其他进程持有的附加资源。
非抢占：资源只能由持有它的进程自愿释放。
循环等待：一个进程必须等待另一个进程持有的资源，而后者又在等待第一个进程释放资源。

这些条件没有任何东西是硬件或软件所特有的，在软件中构建可以退避和重放以放松（2）的机制比在硬件中更容易。无论如何，回到研究结果。

96% 的检查并发缺陷可以通过固定两个特定线程的相对顺序来重现

这对测试来说听起来是个好消息。仅测试线程对之间的顺序比测试所有线程之间的所有顺序更易于处理。类似地，92% 的检查缺陷可以通过固定四个（或更少）内存访问的顺序来重现。然而，这里存在一种抽样偏差——只有能够重现的缺陷才能被分析根本原因，而只需要两个线程之间顺序或仅几个内存访问的缺陷更容易重现。

97% 的检查死锁缺陷是由两个线程等待最多两个资源引起的

此外，22% 的检查死锁缺陷是由一个线程获取另一个线程持有的资源引起的。作者指出，对获取和释放序列的成对测试应该能够捕获大多数死锁缺陷，对线程顺序的成对测试应该能够捕获大多数非死锁缺陷。该说法作为书面语似乎合理；其暗示几乎是所有缺陷都可以通过某种成对测试来捕获，但由于研究缺陷的样本偏差，我对此持怀疑态度。

我见过具有多个活动部件的缺陷花费数月时间追踪。我见过的最糟糕的缺陷消耗了近一人年的时间。这类缺陷大多不会进入此类研究，因为很少有工作允许有人花时间追踪如此难以捉摸的缺陷。有多少这样的缺陷仍然存在是一个开放性问题。

注意事项

请注意，所有研究的程序都是用 C 或 C++ 编写的，而且这项研究早于 C++11。转向 C++11 并使用原子操作和作用域锁可能会显著改变这些数字，更不用说转向完全不同的并发模型了。有一些关于不同并发模型如何影响缺陷率的学术工作，但不清楚这项工作如何概括为像所研究的那样大型和成熟的代码库，而且大型和成熟的代码库本质上很难进行涉及更改基本原语的随机试验。作者指出，39% 的检查缺陷可以通过使用事务内存来防止，但如果使用事务内存，不清楚可能会引入多少其他缺陷。

工具

还有其他关于单机并发缺陷特征的论文，但为了节省空间，我将跳过它们。也有关于分布式并发缺陷的论文，但在我们开始之前，让我们看看文献中用于发现单机并发缺陷的一些工具。我发现这些论文相当有趣，尤其是模型检查工作，但现实地说，如果有什么可用的，我可能不会从头开始构建一个工具，所以让我们看看有什么可用的。

HapSet

使用运行时覆盖率来生成尚未覆盖的交错。这来自 NEC 实验室；在谷歌上搜索 NEC labs HapSet 会返回论文，一些专利列表，但没有明显的工具下载。

CHESS

为每次运行生成线程的唯一交错。他们声称，通过不跟踪状态，检查器比其他情况下简单得多，并且他们能够避免跟踪状态的许多缺点，但无法在这个小段落中正确描述；如果您感兴趣，请阅读论文！支持 C# 和 C++。该页面声称它需要 Visual Studio 2010，并且仅测试过 32 位代码。我还没尝试过在现代 *nix 编译器上运行，但根据我的经验，需要 Visual Studio 2010 意味着要在现代版本的 Visual Studio 上运行需要适度的努力，而在现代版本的 gcc 或 clang 上运行则需要大量努力。快速谷歌搜索表明这可能有专利限制²。

Maple

使用覆盖率来生成尚未覆盖的交错。对 pthreads 进行插桩。源代码在 GitHub 上。这个工具可能仍然可用，我可能会在某个时候试用一下，但它至少依赖一个旧的、显然没有维护的工具（PIN，来自英特尔的二进制插桩工具）。谷歌（Bing？）搜索 Maple 或 PIN 会返回许多人无法编译工具的结果，更不用说使用该工具了。

PACER

使用 FastTrack 算法进行采样，以保持开销足够低“以便在生产软件中考虑”。讽刺的是，这是在 Jikes RVM 之上实现的，这不太可能在实际生产软件中使用。我唯一能找到的实际可下载工具的参考是一个完全不同的 pacer。

ConLock / MagicLock / MagicFuzzer

有一系列工具来自一个小组，声称使用各种技术获得良好结果，但据我所知，这些工具的源代码都不可用。有一个页面声称有 MagicFuzzer 的可用版本，但链接到一个未指定平台的二进制文件，并且链接 404 了。

OMEN / WOLF

我找不到这些工具的页面（除了它们的论文），更不用说下载链接了。

SherLock / AtomChase / Racageddon

另一个系列工具，显然不可用。

您可以实际轻松使用的工具

Valgrind / DRD / Helgrind

插桩 pthreads 并且易于使用——只需用适当的选项（-drd 或 -helgrind）在二进制文件上运行 valgrind。如果使用 C++11 线程，可能需要一些调整。

clang thread sanitizer (TSan)

可以找到数据竞争。当发生前被违反时会标记。适用于 pthreads 和 C++11 线程。易于使用（只需将 -fsanitize=thread 传递给 clang）。

由于易于使用且实际可用，一个副作用是TSan 在现实世界中产生了非常大的影响：

一个有趣的事件发生在开源 Chrome 浏览器中。已知崩溃的高达 15% 归因于同一个缺陷 [5]，这被证明很难理解——Chrome 工程师花了超过 6 个月时间追踪这个缺陷而没有成功。另一方面，TSAN V1 团队在 30 分钟的运行中找到了这个缺陷的原因，甚至不知道这些崩溃。崩溃是由几个引用计数器上的数据竞争引起的。一旦找到原因，就迅速进行了相对简单的修复并修补，随后该缺陷被关闭。

clang `-Wthread-safety`

静态分析，使用共享状态上的注解来确定状态是否未被正确保护。

FindBugs

用于 Java 的通用静态分析，具有许多功能。有 @GuardedBy 注解，类似于 -Wthread-safety。

CheckerFramework

用于编写检查器的 Java 框架。有许多不同的检查器。特别对于并发，使用 @GuardedBy，如 FindBugs。

rr

用于调试的确定性重放。易于获取和使用，并且似乎得到积极维护。在 gdb 中添加了时间旅行调试支持。

DrDebug/PinPlay

通用工具包，可以为您提供用于调试的确定性重放。还提供“动态切片”，类似于监视点：它可以告诉您哪些语句影响了一个变量，以及哪些语句受变量影响。目前仅限于 Linux；声称即将支持 Windows 和 Android。

其他工具

这不是一个详尽的列表——有大量关于此的文献，而且在这个领域，坦率地说，我可能没有时间自己实现一个工具，因此阅读更多论文以发现我必须自己实现的技术没有多大价值³。然而，我有兴趣听到其他可用工具。

我发现这一点很有趣的是，几乎所有学术工具的论文都声称做一些新颖的事情，使它们能够发现其他工具没有发现的缺陷。然后他们在某个代码库上运行他们的工具，并证明该工具能够发现新的缺陷。但由于几乎没有人去在任何代码库上运行旧工具，您永远不知道较新的工具是否只发现了较旧工具能够捕获的缺陷的一个子集。

此外，您会看到论文声称新颖的循环（活锁？）。论文 I 将声称它做 X。论文 II 将声称它因为不做 X 而新颖，不像论文 I。然后论文 III 将声称它因为做 X 而新颖，不像论文 II。

分布式系统

现在我们已经看了一些关于单机并发缺陷的文献，那么分布式并发缺陷呢？

Leesatapornwongsa 等，ASPLOS 2016

他们研究了 Cassandra、MapReduce、HBase 和 Zookeeper 中的 104 个缺陷。让我们看一些缺陷示例，这将澄清研究中使用的术语，并更容易理解主要发现。

消息-消息竞争

此图表仅供参考，以便我们对 MapReduce 中不同部分如何组合有高层想法：

在 MapReduce 缺陷 #3274 中，资源管理器向节点管理器发送任务启动消息。不久之后，应用程序主节点向同一节点管理器发送任务终止抢占。意图是任务终止消息杀死用任务启动消息启动的任务，但任务终止可能赢得竞争并在任务启动之前到达。这个例子恰好是一个来自不同节点的两个消息竞争到达单个节点的情况。

例如，在MapReduce 缺陷 #5358 中，应用程序主节点向运行推测任务的节点管理器发送终止消息，因为另一个任务副本已完成。但在节点管理器收到消息之前，节点管理器的任务完成，导致发送完成消息给应用程序主节点，由于在任务完成后收到完成消息而引起异常。

消息-计算竞争

一个例子是MapReduce 缺陷 #4157，其中应用程序主节点从资源管理器注销。然后应用程序主节点进行清理，但该清理与资源管理器通过节点管理器向应用程序的容器发送终止消息竞争，导致应用程序主节点被终止。注意，这被归类为竞争而不是原子性缺陷，我们很快会谈到。

计算-计算竞争可能发生，但它们超出了本研究的范围，因为本研究只查看分布式并发缺陷。

原子性违规

根据本研究的定义，原子性缺陷被定义为“每当消息在需要原子性的一组事件（本地计算或全局通信）中间到达时，而不是消息在事件之前或之后到达时”。根据此定义，我们上面查看的消息-计算竞争不是原子性缺陷，因为即使消息在“计算”开始之前到达，它仍然是缺陷。此定义还意味着发生在必须是原子的块内部的硬件故障不被视为原子性缺陷。

我理解您为什么要将这些缺陷定义为单独类型的缺陷，但这有点违反直觉，因为我认为所有这些都是不同种类的原子性缺陷，因为它们是因破坏需要原子性的东西而引起的不同缺陷。

无论如何，根据本研究的定义，MapReduce 缺陷 #5009 是原子性缺陷。节点管理器正在向 HDFS 提交数据的过程中。资源管理器终止任务，这不会改变提交状态。任何时候节点尝试重新运行提交任务，该任务都会被应用程序管理器终止，因为认为提交已经在进行中。

故障时序

故障被定义为“组件故障”，如崩溃、超时或意外延迟。论文中一度提到“硬件故障如机器崩溃”，这似乎表明一些可能被认为是软件故障的故障在本研究中被定义为硬件故障。

总之，根据本研究的定义，MapReduce 缺陷 #3858 是故障时序问题的一个例子。节点管理器在提交结果时崩溃。当任务重新运行时，后续的提交尝试都失败。

重启时序

在本研究中，重启与其他故障分开分类。MapReduce 缺陷 #3186 说明了一个重启缺陷。

资源管理器向应用程序主节点发送作业。如果资源管理器在应用程序主节点发送提交消息回资源管理器之前重启，资源管理器会丢失其状态并抛出异常，因为它收到了意外的完成消息。

一些主要发现如下：

47% 的检查缺陷导致了潜伏故障

与 DSN '10 论文发现 15% 的检查多线程缺陷是潜伏故障相比，这是一个相当大的差异。这可能是真实的差异，而不仅仅是由于混淆变量，但从数据中很难判断。

这与研究“本地”并发缺陷的结果有很大不同。我想知道其中有多少只是因为人们在非分布式软件中很少甚至不关心为硬件故障提交和修复缺陷。

64% 的检查缺陷由单个消息的时序触发

44% 是顺序违规，20% 是原子性违规。此外，超过 90% 的缺陷涉及三条消息（或更少）。

32% 的检查缺陷是由于故障或重启时序。注意，根据研究的定义，破坏需要原子性的块的硬件故障或重启不被视为原子性缺陷——在这里，原子性缺陷是消息在需要原子性的计算中间到达的缺陷。

70% 的缺陷有简单的修复

30% 通过忽略时序不当的消息修复，40% 通过延迟或忽略消息修复。

缺陷原因？

在回顾缺陷后，作者提出了导致缺陷的常见谬误：

一跳比两跳快
零跳比一跳快
原子块不能被打破

关于 (3)，作者指出不仅仅是硬件故障或重启会打破原子块——系统可以发送终止或抢占消息来打破原子块。我在事后分析中常见的一个谬误没有列出，类似于“坏节点显然是坏的”。一个经典的例子是当系统开始通过快速丢弃查询来“处理”查询时，导致负载均衡器将流量转移到坏节点，因为它处理流量如此之快。

我最喜欢这类缺陷的一个实际系统缺陷来自一个基于环的存储系统，其中节点可以对邻居进行健康检查，并在健康检查失败时声明其邻居应被丢弃。一个节点变坏，丢弃其所有存储，并开始报告其邻居为坏节点。其邻居注意到坏节点很坏，但由于坏节点丢弃了其所有存储，它速度超快，并能在好邻居报告坏节点之前报告好邻居。在驱逐其直接邻居后，坏节点获得了新邻居，并与之竞争，出于同样的原因再次获胜。这重复进行，直到整个集群死亡。

工具

Mace

一组语言扩展（基于 C++），帮助您构建分布式系统。Mace 有一个模型检查器，可以检查消息的所有可能事件顺序，与崩溃、重启和超时交错。Mace 模型检查器实际上是可用的，但据我所知，它需要使用 Mace 框架，而大多数分布式系统不是用 Mace 编写的。

Modist

另一个检查不同顺序的模型检查器。仅运行独立操作的一个交错（部分顺序约简）以避免检查冗余状态。也与超时交错。与 Mace 不同，不注入重启。似乎不可用。

Demeter

与 Modist 类似，它是一个注入相同类型故障的模型检查器。使用不同的技术来减少状态空间，我不知道如何简洁地总结。有关详细信息，请参阅论文。似乎不可用。在谷歌上搜索 Demeter 会返回一些用于建模 X 射线吸收的软件？

SAMC

另一个模型检查器。可以注入多个崩溃和重启。使用对系统的某些理解来避免冗余的重新排序（例如，如果一系列消息对何时注入重启不变，系统会尝试避免在每条消息之间注入重启）。似乎不可用。

Jepsen

与非分布式并发缺陷的情况一样，有大量关于学术工具的文献，其中大部分似乎是研究生代码，尚未发布。

当然还有 Jepsen，它没有任何附带的学术论文，但可能比任何其他工具在现实世界中产生更大的影响，因为它实际上可用并得到维护。还有混沌猴子，但如果我理解正确的话，与其他列出的工具不同，它不试图创建可重现的故障。

结论

这是您应该有结论的地方吗？我没有结论。我们看了一些文献，发现了一些关于缺陷的有趣信息，但不一定可操作。我们读到了一些有趣的工具，但实际不可用。然后有一些基于旧技术的可用且有用的工具。

例如，clang TSan 内部的想法，使用“发生前”来发现数据竞争，可以追溯到很久以前。有一篇 2003 年的论文，讨论了“结合两种先前已知的竞争检测技术——基于锁集的检测和基于发生前的检测——以获得比单独基于锁集的检测更少的误报”。这实际上是 TSan v1 所做的，但对于 TSan v2，他们意识到该工具如果只使用发生前会更有影响力，因为这避免了误报，这意味着人们实际上会使用该工具。然而，这不太可能成为一篇被大量引用的论文。对于任何看过AFL 工作方式的人来说，这个故事应该很熟悉。AFL 非常实用，并在现实世界中产生了非常大的影响，主要是通过摒弃近期文献中的花哨技术。

如果您必须有一个结论，也许结论是像 Kyle Kingsbury 或 Michal Zalewski 这样的个人对行业产生了巨大的影响，您也可以选择一个在测试中服务不足的领域，并对整个行业产生令人好奇的巨大影响。

无关杂项

Rose Ames 要求我多讲一些“大公司”故事，所以这里有一系列故事解释了为什么我有一段时间没有发布博客文章。直接原因是我的副总裁对我的写作有负面评论。但原因有点长。一部分是通常的情况，我个人收到的评论非常正面，但我的经理收到的评论相反，因为因为喜欢某人的写作而给他们的经理发邮件很奇怪，但如果他们的写作确实触动了神经，您可能会发邮件。

这解释了为什么我的管理层中有人收到关于我写作的邮件，但它没有解释为什么邮件会发到我的副总裁那里。那是因为几个月前我换了一个团队，我要加入的组织超员了，没有空缺。我听说了关于他们超员多少的矛盾数字，从 10 或 20 人到 10% 或 20%（该组织相当大，10% 会比 20 多得多），以及关于原因的矛盾故事（诚实的错误与某些团体意识到招聘紧缩即将到来并尽可能多地招聘以从该组织的其余部分获取所有要求）。无论如何，出于某种原因，我将工作的组织至少多雇了一个人，并实施了招聘冻结。由于我的新经理无法将我雇用到该组织，他转入了一个有空缺的组织并将我雇用到新组织。新组织恰好是一个销售组织，这意味着我技术上现在在销售部门工作；这对我的日常生活有一些影响，因为一些资源和技术讲座只有产品组的人才能访问，但这是另一个故事。总之，由于我不完全理解的原因，我在我的新经理之前被雇用到该组织，并且在组织结构图更新的几个月里，我被显示为在我的副总裁之下，这意味着任何想给我经理发邮件的人都会在目录中查找我，并意外地给我的副总裁发邮件。

似乎没有单独一封邮件是件大事，但由于我与副总裁互动不多，并且不想仅仅因为那个写东西在公司内部引起反对而为人所知，我暂停了一段时间的博客。我也不想让我的经理只知道我，但我与我的经理频繁互动，至少我不会只因那件事而被知道。

我也想知道这些给我经理/副总裁的邮件是否在我当前的雇主比在以前的雇主更有可能发生。我在其他雇主那里从未发生过（据我所知），但这里发生的总次数很低，可能只是巧合。

话又说回来，我刚刚阅读了一个非常有洞察力的内部博客的档案，并看到一条说明，提到该系列博客文章正在内部发布，因为作者因为Sinofsky 对发布与官方路线矛盾的帖子而受到批评，最终导致作者同意就 Sinofsky 权限范围内的任何事情向 Sinofsky 发送电子邮件评论，而不是公开发布评论。但现在 Sinofsky 已经离职，作者想分享那些本来会成为内部帖子的电子邮件。

这种事在这里似乎不是罕见事件。在我看到关于 Sinofsky 的事情的同时，我遇到了一个讨论，关于产品经理是否有权要求某人从应用商店删除负面评论。显然，产品经理发现有人在某个应用商店对产品经理的产品写了负面评价，并给评分者发了邮件，告诉他们必须删除评论。不清楚产品经理如何知道评分者为我们工作（他们是否为找到的每个负面评分搜索内部目录？），但他们不知怎么发现了并提出了要求。大多数人认为产品经理越界了，但有一部分人（除了产品经理）认为员工在公共场合不应该说任何可能被解释为负面的话。

我觉得现在我看到的这种事情比在其他公司多，但公司太大了，无法知道任何人的个人经历是否具有普遍性。总之，在组织结构图显示我直接向我的实际经理报告后，我可能会开始写博客，也许我的经理会收到一些邮件。或者可能不会。

感谢 Leah Hanson、David Turner、Justin Mason、Joe Wilder、Matt Dziubinski、Alex Blewitt、Bruno Kim Medeiros Cesar、Luke Gilliam、Ben Karas、Julia Evans、Michael Ernst 和 Stephen Tu 的评论/更正。

如果您要调试缺陷。我知道一些在初创公司工作的人，如果缺陷看起来需要超过几个小时来调试，他们会放弃，因为他们的待办事项列表太长，他们负担不起时间。考虑到他们的权衡，这可能是正确的决定，但并非对每个人都正确。 ^[返回]
关于美国专利法的有趣之处：您因故意侵犯专利而承担三倍赔偿。一个直接影响是，我三个全职雇主中有两个强烈建议我不要阅读专利，因此我避免阅读明显无意义的专利。而“无意义”，我指的是像如何在秋千上荡秋千这样的专利。 ^[返回]
我理解导致这种情况的激励措施，我不怨恨研究人员通过响应这些激励措施来追求职业成功，但作为一个低级的从业者，如果激励措施不同，那肯定会很好。 ^[返回]

由 mimo-v2.5 模型翻译，花费 19627 tokens

一些值得关注的编程博客

Mon, 18 Apr 2016 07:06:34 +0000

[AI 摘要] 这篇文章提供了一份值得阅读的编程博客列表，涵盖了多样化的技术主题和写作风格。

这是一份“每个程序员必读的N个技术博客”列表，只不过“程序员”这个词太宽泛了，而且人们对有用写作风格的需求差异太大，任何此类列表（如果想要它对所有人都有帮助）都无法包含非零数量的条目。因此，这里列出了一些你可能想读的内容，以及你可能想读（或不想读）它们的原因。

Aleksey Shipilev

如果你想真正理解JVM是如何工作的，这是互联网上最好的资源之一。

Bruce Dawson

一位Windows程序员对性能的探索。通常隐含地展示了Linux上没有同等公开可用工具的出色工具演示。

Chip Huyen

内容混合了机器学习会议总结、数据分析（例如，基于glassdoor上的面试数据或levels.fyi上的薪酬数据的分析），以及对行业的普遍评论。

是罕见的拥有数据驱动行业观点文章的博客之一。

Chris Fenton

计算机相关项目，我指的是像重建Cray-1A和制造机械计算机这样的东西。更新不频繁，大概是由于创作需要大量工作，但几乎总是很有趣。

博文往往是高层次的，更像是演示文稿而不是设计文档，但如果你想要更多细节，通常可以找到源代码。

Cindy Sridharan

在Twitter上比在博客上更活跃，但有审阅论文的博文，也有一些关于“大”话题的文章，比如分布式追踪和在生产环境中测试。

Dan McKinley

有很多关于工程公司应如何运营的优秀材料。他有很多听起来像常识的想法，例如选择无聊的技术，直到你意识到，找到如此合理意见的博客实际上并不常见。

主要是提炼出的智慧（而不是，例如，代码的详细解释）。

Eli Bendersky

我认为这是“C++博客”，但它的范围比那要广泛得多。范围太广，我无法总结，但如果非要我描述的话，可能会说它是一系列对各种主题（通常是，但不总是，相对底层）的深入探讨，以及对书籍（通常是，但不总是，技术类）的短评。

书评通常易于阅读，但编程博文通常是代码和阐述的混合，确实需要你集中注意力；通常不是轻松的读物。

Erik Sink

我认为Erik是过去20年来对技术文化最具持续洞察力的作家。如果你看看他开始写博客时也在写博客的人，Steve Yegge的很多作品和Erik的一样经得起时间考验，但Steve没有持续写作。

如果你看看那个时代的流行作家，我认为他们往往没有真正经受住时间的考验。

Fabian Giesen

涵盖各种技术主题。侧重于计算机架构、压缩、图形和信号处理，但你也会发现许多其他主题。

文章往往技术性强，不是轻松读物，它们通常解释概念或思想（而不是选边站队写观点文章）。

Fabien Sanglard

对游戏相关主题的深入技术探讨，例如对《毁灭战士》源代码的解读，Nvidia GPU架构的历史，或对名片大小的光线追踪器的解读。

Fabrice Bellard

不完全是博客，但每次有新项目出现在首页时，都非常惊人。例如QEMU、FFMPEG、一个能在PC上运行的4G LTE基站、一个可以启动Linux的JavaScript PC模拟器等等。

Fred Akalin

对计算机科学相关数学主题的解释（有一些与计算机科学没有直接关系）。

Gary Bernhardt

又一个“不完全是博客”，但它比大多数博客更具信息量，更不用说更有趣了。这是我所知道的关于现代软件普遍存在的问题的最佳“博客”。

Jaana Dogan

rakyll.org上有关于Go的博文，其中一些相当深入，例如关于Go泛型提案的一系列笔记，而Jaana的Medium博客上有一些关于Go的文章，以及关于分布式系统中各种主题的文章。

此外，Jaana的Twitter上有我称之为“对行业智力上诚实的批评”的内容，我认为这在Twitter上对行业的批评中是不常见的。更典型的是人们为了得分而牺牲细微差别，甚至远离正确性，这就是我认为有必要指出这些诚实批评的原因。

Jamie Brandon

我很高兴我设法说服了Jamie，鉴于他的偏好，尝试全职写博客来养活自己是有意义的。自从Jamie开始接受捐款以来，直到今天，这个博客一直是绝对的 powerhouse，发表了像这一系列关于SQL问题的文章，这一系列关于流式系统问题的文章，在技术项目如dida和imp上的出色工作等等。

Jamie能否说服我尝试把写博客作为全职工作还有待观察。

Janet Davis

这是一个关于一位教授从格林内尔搬到惠特曼并从零开始建立计算机科学项目的故事。如果你对组织如何形成或计算机科学教育感兴趣，这些存档文章是很好的读物。

Jeff Preshing

主要是与C++和Python相关的技术内容，但也包括对程序员通常有用的主题，例如读-改-写操作、定点数学和内存模型。

Jessica Kerr

Jessica可能更以她的演讲而非她的博客闻名？她的演讲很棒！我最喜欢的可能是这个以易于理解的方式解释不同并发模型的演讲，但博客上也有很多我喜欢的内容。

和她的演讲一样，图表通常能阐明一个概念，让事后看来显而易见的事情变得明显。

John Regehr

我认为这是“C语言比你想象的更难，即使你认为C已经很难的博客”，尽管博客实际上涵盖的内容远不止于此。一些常见主题包括模糊测试、编译器优化和一般的测试。

文章往往概念性强。有代码示例时，通常很容易阅读，但也有一些奇怪行为的例子，除非你是那种能熟记C标准的人，否则很难快速浏览。

Juho Snellman

有很多关于网络的文章，通常写得即使在网络背景知识很少的情况下也能理解。我希望更多拥有这种知识（对系统的深入了解，而不仅仅是网络知识）的人能为普通读者写下解释。还有一些有趣的非网络内容，比如这篇关于芬兰选举的文章。

Julia Evans

据我所知，主题是“朱莉娅最近学到的东西”，可以是任何内容，从霍夫曼编码到如何在远程工作中保持快乐。当文章的主题是我不熟悉的时候，我会学到新东西。当文章的主题是我熟悉的时候，它们会提醒我这个主题是令人兴奋的，包含很多惊奇和奥秘。

许多文章问题多于答案，更像是对主题的实时博客探索，而不是对主题的解释。

Karla Burnett

内容混合了安全相关主题和实用编程知识的解释。例如，这篇关于网络钓鱼的文章，包含了一系列有趣的案例研究，展示了即使在人们接受过反网络钓鱼培训后，网络钓鱼仍然有效的例子，这是安全类文章的例子。例如，这篇关于通过tracert打印文本的文章。这篇关于编写SSH客户端的文章和这篇文章是实用编程解释的例子。

尽管博客以安全为导向，但文章是为普通读者写的，不假设具备特定的安全专业知识。

Kate Murphy

主要是小而独立的探索，比如这个Python整数行为是怎么回事，如何用一个简单的仓库让Git爆炸，或者如何在Lua中生成哈希冲突？

Kavya Joshi

我通常更喜欢文本形式的技术解释，而不是视频，但她的阐述如此清晰，以至于我把这些演讲列入了这个博客列表。例如，对Go竞态检测器的解释，对性能建模有用的简单数学，和时间。

Kyle Kingsbury

Kyle 90%的博文都是对分布式系统测试的解释，这些测试暴露了真实系统（我们大多数人依赖的系统）中的bug。另外10%是对编程的思考，其严谨性与Kyle关于分布式系统的文章一样。可能是有史以来最具教育意义的编程博客。

对于我们这些没有分布式系统背景的人来说，理解文章通常需要一点谷歌搜索，尽管文章中有详尽的解释。大多数新文章现在都在jepsen.io上。

Laura Lindzey

更新非常不频繁（大约每年一次），内容是Laura一直在研究的东西，从折纸PCB到冰层穿透雷达。

Laurie Tratt

这个博客自2004年以来一直在运营，这些年有所变化。最近，它发表了一些关于基准测试的最佳文章：

VM性能，第1部分
- 彻底反驳了这样一种观点：你可以运行一个语言VM一段时间进行预热，然后在它们变得稳定后取一些数值
VM性能，第2部分
为什么基准测试中不使用最小时间
- “每个人”认真对待性能的人都知道这一点，通常被认为太显然而不值得写，但这在基准测试中仍然是一种广泛使用的技术，尽管它只适用于有限的情况

这个博客并非纯技术性，这篇关于建议的博文也很出色。如果这些文章听起来不吸引你，值得查看存档，看看劳伦斯过去更频繁地写的主题是否合你口味。

Marc Brooker

混合了理论和来自亚马逊EBS分布式系统工程师的智慧。理论文章通常相对简短且易于理解；一点也不令人生畏，不像有时候理论文章那样。

Marek Majkowski

这曾经是一个关于Marek正在做的随机实验的博客，比如这篇关于位切片SipHash的文章。自从Marek加入Cloudflare后，这已经变成了Marek在Cloudflare网络堆栈工作中学到的东西的列表，比如这个关于调试慢速下载的故事。

文章往往相对较短，但包含足够的技术细节，不是轻松读物。

Nicole Express

对旧系统的探索，通常与游戏相关。例如这篇关于世嘉Master System上Alf的碰撞检测的文章，这篇关于从复合视频获得优质输出的文章，和这篇关于Neo Geo CDZ的文章。

Nikita Prokopov

Nikita有两个博客，主题相关。主博客上有长篇文章，通常是关于现代软件如何糟糕。然后是grumpy.website，它给出了软件糟糕的例子。

Nitsan Wakart

关于为JVM编写快速代码，你想知道的比你想象的更多，从GC如何影响数据结构到volatile读取的微妙之处。

文章通常包含大量Java代码，但要点通常是语言无关的。

Oona Raisanen

信号处理的冒险。从模糊条形码的修复到弄清楚直升机的那些信号意味着什么。如果我早知道信号和系统可以如此有趣，我就会在课堂上更认真听讲了。

Paul Khuong

一些关于Lisp的内容，一些关于底层优化的内容，并且趋势是走向底层优化。

文章通常是相对较长、自成一体的技术思想解释，几乎没有废话。

Rachel Kroll

来自一位长期SRE的多年调试故事，以及关于大公司荒唐事的故事。许多故事来自Lyft、Facebook和Google。它们被匿名化了，但如果你了解这些公司，你能分辨出是哪一个。

匿名化的程度通常意味着，除非你熟悉与故事中类似的系统的操作，否则这些故事真的没有意义。

Sophie Haskins

一个关于修复旧“披萨盒”电脑的博客，文章通常描述让这些机器重新工作所付出的努力。

一个例子是HP 712（1994年时价格大约在5000到15000美元的“低成本”PA-RISC工作站，最终由于1995年以Pentium Pro开始的Intel工作站冲击而命运注定），修复过程在这里第1部分描述，然后在第2部分描述。

Vyacheslav Egorov

由V8团队编译器开发者深入解释V8如何工作以及各种构造如何被编译器优化。如果我早知道编译器如此有趣，我在大学时就会选修编译器课程了。

经常把被认为困难的主题用让它们看起来容易的方式解释。在适当的时候有很多图表，对所有棘手的部分都有详细的阐述。

whitequark

她的主站有很多她制作或参与的各种有趣的工具，许多与FPGA或开源硬件相关，但也有一些完全不同。Whitequark的实验室笔记本有非常广泛的各种结果，从未记录的硬件特性，到相当严肃的家庭化学实验，再到关于编程和硬件开发的各种片段（通常是底层的，但并非总是如此）。

她也在Twitter上相当活跃，有一些关于硬件/固件/底层编程的评论，以及一组主题范围太广以至于不易总结的多样化话题。

Yossi Kreinin

自作者开始做艺术以来，大部分时间处于休眠状态，但存档中有很多关于硬件、底层软件和一般编程相关主题（并非严格编程）的优秀内容。

90%的时间，当我想要写一篇关于软件人员对硬件常见误解的文章时，Yossi已经写过这篇文章了，并且因此受到了很多抨击，所以我不必写了:-)。

我也很喜欢Yossi的职业建议，比如对Patrick McKenzie的回应和这篇关于经理如何得到他们想要的而不是他们要求的博文。

他在Twitter上很活跃，经常发表对管理和行业的极其愤世嫉俗和尖刻的看法。

这个博客？

常见主题包括：

结束

这个列表也不包括那些主要不是关于编程的博客，所以例如不包括Ben Kuhn出色的博客。

总之，这就是目前的全部内容，但这个列表基本上是我一时想到的，所以我会在想到更多博客时添加更多。我也会在找到新博客时用我正在读的内容更新这个列表。请、请、请推荐其他我可能喜欢的博客，不要因为我可能已经知道而假设我知道某个博客。举个例子，直到几年前我还不知道Jeff Atwood或Zed Shaw是谁，他们可能是当时最著名的编程博主。即使有了像HN和reddit这样的集中式链接聚合器，随着博客列表和博客作为对话（而不是当前博客作为独白的实践）的衰落，博客发现已经变得偶然和随机。另外，请不要因为我通常读的博客类型不同，就假设我不想读某个东西。我很想读更多来自UX或前端人员的内容；我只是不知道去哪里找这类东西！

最后更新：2021年7月

存档

以下是我放入存档部分的博客，因为它们很少或从不更新。

Alex Clemmer

这篇关于为什么制作一个谷歌搜索竞争对手是经典Alex Clemmer风格的文章。文章审视了一个普遍相信的立场（网络搜索并不那么难，应该有人想出一个更好的谷歌），并解释了为什么这不是一个显然正确的立场。这也是他在其他地方评论的共同主题，比如在MS的栈排名、在Windows上实现POSIX、Windows代码库的规模、Bond和Bing上的评论。

他有点像现代的迷你MSFT，因为他对MS及相关事业的评论一针见血。

Allison Kaptur

对各种领域的探索，通常与Python相关，比如这一系列关于Python解释器的文章和这一系列关于CPython窥孔优化器的文章。此外，关于更广泛主题的思考，如调试和学习。

通常很详细，带有需要阅读和理解的内联代码（在通常相当清晰的阐述帮助下）。

David Dalrymple

混合了从在学习汇编后不久从零开始编写一个64位内核到计算机系统高层概述的各种内容。很少更新，文章很少，但每篇文章都值得深思。

EPITA系统实验室

底层。这个博客中一个相对高层文章的好例子是这篇关于Windows低碎片堆的文章。像如何入侵弹球机和如何设计一个386兼容开发板这样的文章是典型的。

文章通常非常详细，带有原理图/电路图。这是相对较重的阅读，我阅读这个博客时会尽量手边放好纸笔。

Greg Wilson

总结了一些（应该）影响人们编写软件方式的论文，比如这篇关于分布式系统中失败原因的论文或这篇关于是什么让人感觉高效的论文。不经常更新，但Greg仍然在他的个人网站上写博客。

文章往往是扩展摘要，引诱你去读论文，而不是对方法和结果的详细解释。

Gustavo Duarte

对Linux如何工作以及其他底层主题的解释。这个博客似乎处于暂停状态，但“0xAX”似乎用linux-insides项目接替了工作。

如果你读过Love关于Linux的书，Duarte的解释类似，但更侧重于思想而非实现。它们也更侧重于提供图表和上下文。“0xAX”比Love或Duarte更专注于逐行讲解代码。

Huon Wilson

在Huon还在开发Rust时，对各种Rust相关事情的解释。不经常更新了，但内容对于对Rust技术细节感兴趣的人来说仍然很棒。

Kamal Marhubi

对各种主题的技术探索，带有系统化的倾向。例如Kubernetes。Git push。Rust中的系统调用。此外，一些关于编程的思考。

技术探索通常涉及足够多的细节，以至于你需要坐下来阅读，而不是在手机上浏览。

Mary Rose Cook

对技术主题的冗长而非常详细的解释，混合在其中有各种其他文章。

主题选择兼收并释，解释的详细程度让你能很好地理解该主题。解释通常足够详细，即使你是初学者程序员，也不会错过要点。

Rebecca Frankel

据我所知，Rebecca没有编程博客，但如果你把她看似随意地在其他人文章下的评论当作博客，那是最好的编程博客之一。她过去经常在Piaw的 Buzz上发表大量评论（可能还有其他地方，虽然我不知道在哪里），偶尔在其他地方也能看到评论，比如在Steve Yegge关于杰出工程师的这篇博文¹上。我希望我能写得像那样。

Russell Smith

自制的电子项目，从机械打字机上的vim到制造电子天平来测试烈酒。

文章往往有相当多的细节，甚至到解释电路部分的图表，但文章不像规格书那么详细。但通常会有链接到能教你足够知识来复制项目的资源，如果你想的话。

RWT

我发现存档是有趣的读物，可以了解过去二十年人们对微处理器和计算机架构的思考。看到我们15年前的基准测试争议今天还在重复，有时是同样的参与者，这可能有点令人沮丧。如果有的话，我想说今天流传的平均基准测试比15年前你看到的要差，尽管整个行业从那以后学到了很多关于基准测试的知识。

walpurgusriot

walpurgusriot的作者似乎已经放弃了这个github账户，转而使用另一个用户名（而且一个占坑者似乎已经拿走了她旧的账户名），但这曾经是一个半经常更新的博客，结合了对编程的短篇探索和对行业的思考。就散文的纯粹质量而言，这是我读过的最好的科技博客之一；技术内容和对行业的思考也很棒。

这篇文章的灵感来自于朱莉娅·埃文斯关于她阅读的博客的两篇文章，以及芝加哥本科数学参考书目，我认为这是我遇到过的最有用的一套书评。

感谢Bartłomiej Filipek和Sean Barrett, Michel Schniz, Neil Henning, 和Lindsey Kuper的评论/讨论/修正。

引文如下，因为我从分析数据中看到，相对较少的人会点击任何单个链接，人们似乎特别不可能点击链接去阅读博客上的评论，即使评论很棒：

关键在于“主要”，我描述的是动机，而不是自我评估。问题是，是什么在驱动你？是什么让你工作？如果只是为了表明你很好，那么你就不会好。还必须有别的东西，否则它无法让你通过达到那个水平所需的集中十年训练。

看看我们都认为Steve Yegge在谈论的那个人的历史。他于1990年（以优异成绩）毕业，1999年加入谷歌。所以他在达到谷歌明星水平之前工作了很长时间。当我在谷歌时，我周日下午和一位类似的超级明星一起闲逛。没有其他人会在周日可靠地出现；但他总是出现，所以我可以指望有人说话。在某些周日，即使他明显有合理的理由感觉不舒服，他仍然来上班。为什么他不像任何正常人那样回家？并不是他试图证明自己；他早就证明了。是什么在驱动他？

我唯一能描述的方式是一个词：愤怒。他在每个周日做什么？他在审查各种被初级程序员提议为标准的API，他总能发现它们的问题。他会谈论，或者说，愤怒地谈论这些周日下午的某个愚蠢的事情，某人试图将其标准化，以及它有什么问题，如何需要修复等等。他总是对此非常愤怒。

是什么让他在感觉不舒服、头晕目眩，而且没有人，即使是Larry和Sergey，他们以传奇的不耐烦著称，即使是他们，我的意思是没有人，如果他就回家睡觉，没有人会认为他不行的时候来上班？他似乎不是被野心驱动，而是被恐惧驱动：如果他停止关注，一些他认为愚蠢错误的东西可能会通过他，成为标准，而这是无法忍受的，想到这一点就让他对错误感到如此愤怒，以至于他必须保持清醒并阻止它发生，无论他当时感觉多么糟糕。

它让我想起保罗·格雷厄姆的评论：“我所说的好人是什么意思？我们在创业期间学到的一个最好的技巧是决定雇佣谁的规则。你能把这个人描述成一种动物吗？……我的意思是有人对自己的工作有点过于认真；有人做他们做的事做得如此之好，以至于他们直接超越专业，跨越到痴迷。

具体含义取决于工作：一个拒绝接受“不”的销售员；一个宁愿熬夜到凌晨4点也不愿带着有bug的代码去睡觉的黑客；一个会直接打电话给《纽约时报》记者手机的公关人员；一个当东西偏移两毫米就感到身体疼痛的平面设计师。”

我认为这种描述的一个必然结果是，如果你真的想成为“一种动物”，你需要在自己身上培养的，部分是野心，但也部分是自我认知。正如保罗·格雷厄姆所说，有不同种类的动物。痴迷的平面设计师可能不太关心一个本可以更好但未能达标的API，而编程超级明星可能路过或创造一个糟糕的平面设计却丝毫没有不安。

因此，关键问题是：你正在做你最关心的事情吗？如果是错误的，对你来说是无法忍受的吗？只有深植于心的愤怒才能推动你达到超级明星的水平。到达那里太痛苦了；仅仅想变得优秀的欲望是不够的。如果不在你身上，就不在你身上。你必须被原始的愤怒所驱动。不如此则不行。

或者它在你身上，但只是不在这个领域。你必须找到你关心的东西，不仅仅是你关心的东西，而是你非常关心的东西：你无法伪造它。

(另外，如果你真的有它，你仍然必须仔细选择你的老板。无论你有多优秀，找到可以共事的人可能并非易事。这里还有更多要说的话；但我必须留到另一个评论。)

另一个澄清我的断言“如果你在怀疑自己是否优秀，那么你就不是”或许应该说“如果你需要别人向你保证你是优秀的，那么你就不是”。这些“动物”的一个特征是，他们是如此痴迷的完美主义者，以至于他们自己的内部标准远远超出任何人能强加给他们的标准，以至于任何普通人（即普通老板）都无法评估他们。正如Steve Yegge所说，他们不去参加面试。他们确实互相评估——据报道，在谷歌，超级明星们都会极其严苛地审查彼此的代码——但我不认为他们关心任何不在他们圈子或与他们同等水平的人的判断。

我同意Steve Yegge的断言，即存在一小部分非常重要的（小）群体，他们就是另一个层次，而普通聪明勤奋的人就是不一样。这里是另一种解释为什么应该存在量子跳跃的方式——也许我一直在用这个讨论来建立这个想法：这就是还在试图在别人管理的考试中取得好成绩的人，和那些找到了为自己打分的能力的人之间的区别，比别人可能强加给他们的更仔细，更痴迷于完美主义。

学校，尽管它教了很多东西，可能对人有一个不好的持久影响：它让人们认为好人会在考试中得到A，更好的人会得到A+，最好的人会得到A++。然后你进入现实世界，你的老板有点像超级教授，接管了考试的评分工作，告诉你他们是好是坏。

但问题是，在现实世界中，最有价值、最有效的人并不是那些试图在你给他们的考试中取得A+++的人。最好的人是那些能够自己出考题的人，题目比你想象的要难，而你必须和他们一样学习十年才能知道如何给他们的答案评分。

顺便说一句，这是精英管理理念的一个问题。学校给了你一个可以达到顶点的功绩阶梯。但它无法一直到达顶端，因为必须有人测量横档。在顶端，你不仅根据你在阶梯上的高度被评判。你还根据你“为自己打分”的能力被评判；也就是说，你的可信度。人们开始问你是否会执行自己的标准，即使没有人强加它们。他们必须！因为在顶端，人们被赋予的工作责任之重，一旦你搞砸了，没有人能纠正你。我给你描绘了一个正在工作到生病的人的形象，实际上，试图给每个人的工作打分。最终，他只能做这么多，他确实想回家睡觉。这意味着他想要他手下的人不仅优秀，而且值得信任，不需要被评分。最终，看守者必须看守自己。

^[return]

由 mimo-v2.5 模型翻译，花费 24337 tokens

Google SRE 书

Mon, 11 Apr 2016 08:00:58 +0000

[AI 摘要] 一位工程师对《Google SRE》一书的详细阅读笔记和个人思考。

这本书开篇讲述了一个故事：在阿波罗计划时代，玛格丽特·汉密尔顿曾带着她年幼的女儿来到 NASA。在一次模拟任务中，她的女儿按错了一些键，导致一个发射前程序在模拟任务期间意外运行，从而引起了任务崩溃。汉密尔顿提交了一份变更请求，希望添加错误检查代码以防止类似错误再次发生，但该请求被拒绝，因为这类错误情况理论上不应该发生。

然而，在接下来的阿波罗 8 号任务中，那个确切的错误状况发生了。这个本可以通过一个简单检查就能避免的潜在致命问题，让 NASA 的工程师们花费了 9 个小时才解决。

这听起来很熟悉——我已经记不清有多少开发者的事后分析报告有着同样的基本结构了。

这对我是一种笔记实验，体现在两个方面。首先，我通常用纸笔做笔记，然后扫描保存。其次，我通常不把笔记发布在网上，但 Jamie Brandon 的读书笔记启发了我尝试这样做。我的手写笔记是一系列要点，可能无法很好地转换成 Markdown。一个问题在于我的 Markdown 渲染器不支持超过一级的嵌套，因此结构会被人为扁平化。可能还有其他问题，让我们来看看是什么！如果还不明显，我的旁注都以斜体表示。

第 1 章：简介

本章的所有内容都在后面有更详细的阐述。

雇佣人员来管理系统稳定性的两种方法：

传统方法：系统管理员

组合现有组件并部署以产生服务
响应事件和更新
随着服务增长而扩大团队以吸收增加的工作量
优点
- 易于实施，因为它是标准做法
- 有大量人才可供招聘
- 有大量可用的软件
缺点
- 变更管理和事件处理需要人工干预，导致团队规模随系统负载增长而增长
- 运维从根本上与开发对立，这可能导致对变更的病态抵制，从而引发开发者同样病态的回应，比如将“发布”重新归类为“增量更新”、“标志切换”等。

Google 的方法：SRE

由软件工程师负责运维
候选人应能通过或接近通过正常的开发招聘标准，并可能具备开发者中罕见的额外技能（例如，L1-L3 网络或 UNIX 系统内部原理）。
职业发展与开发职业路径相当
结果
- SRE 会觉得手动执行任务很无聊
- 具备自动化任务所需的技能
- 做与运维团队相同的工作，但用自动化代替人工劳动
为避免因人工劳动陷阱导致团队规模随服务负载增长，Google 限制 SRE 的“运维”工作量不超过 50%

这是上限。实际运维工作量预计要低得多

优点

扩展成本更低
规避了开发/运维的分裂

缺点

招聘困难
可能非常规，需要管理层支持（例如，产品团队可能反对因错误预算耗尽而停止当季度发布的决定）

我真的不明白这如何成为规避开发/运维分裂的例子。我能看到在某种程度上确实如此，但因错误预算用完而停止所有发布的例子，与“系统管理员”例子中团队抵制发布的情况似乎并无根本不同。看起来 SRE 拥有更多的政治资本，而且在给定的具体例子中，SRE 可能更合理，但没有理由认为系统管理员不能同样合理。

SRE 的信条

SRE 团队负责延迟、性能、效率、变更管理、监控、应急响应和容量规划

确保持久的工程关注

50% 运维上限意味着额外的运维工作会被转给产品团队
这为产品团队提供了反馈机制，同时也降低了负载
目标每次 8-12 小时的值班轮次最多 2 个事件
所有严重事故都要进行事后分析，即使它们没有触发警报
无指责的事后分析

每次轮班最多 2 个事件，但平均是多少？每周从 SRE 团队发送给开发团队的值班事件预期有多少？

如何从有指责的事后分析文化转变为无指责的文化？现在每个人都应该进行无指责的事后分析，每个人都会声称他们这样做。有点像拥有良好的测试和部署实践。我很幸运曾在值班轮换中从未收到过警报，但当我与最近加入并正在值班的人交谈时，他们讲述的故事并不那么美好，充满了指责、互相推诿和责任转嫁。每个人都应该保持无指责这一事实，似乎让指出指责行为变得更难，而不是更容易。

在不破坏 SLO 的前提下快速行动

错误预算。对于几乎所有事情来说，100% 都是错误的目标
从 5 个 9 到 100% 的可靠性，对大多数用户来说差别不大，但需要巨大的努力
设定一个承认权衡并留有错误预算的目标
错误预算可以用于任何事情：启动功能等
错误预算允许讨论如何通过渐进式发布和 1% 的实验来保持可容忍的错误水平
SRE 团队的目标不是“零停机”——SRE 和产品开发者在激励上是一致的，即花掉错误预算以获得最大的功能迭代速度

虽然没有明确说明，但对于需要“快速行动”的团队来说，持续远低于错误预算可能被解读为团队在可靠性上投入了过多精力的迹象。

我非常喜欢这个想法，但当我与 Jessica Kerr 讨论时，她对此表示反对，因为也许你只是因为运气好才低于错误预算，一个严重的事件就可能耗尽你未来十年的错误预算。后续问题是：你如何能对风险模型有足够的信心，以至于可以有意消耗错误预算以更快行动，而不用担心一个下游（时间上）的坏事件会使你超支？Nat Welch（前 Google SRE）对此回应说，你可以通过模拟灾难和其他测试来建立信心。

监控

监控永远不应需要人类去解读警报域的任何部分
三种有效的监控输出
- 警报：人类需要立即采取行动
- 工单：人类最终需要采取行动
- 日志：无需操作
- 注意，例如，图表是一种日志

应急响应

可靠性是 MTTF（平均故障间隔时间）和 MTTR（平均恢复时间）的函数
对于评估响应，我们关心的是 MTTR
人类会增加延迟
不需要人类响应的系统将具有更高的可用性，因为 MTTR 更低
拥有“剧本”可将 MTTR 降低 3 倍
- 拥有能够响应所有事情的英雄通才行得通，但拥有剧本效果更好

我个人同意，但我们真的很喜欢我们的值班英雄。我想知道我们如何能培养文档化的文化。

变更管理

70% 的停机是由线上系统变更引起的。缓解措施：
- 实施渐进式发布
- 监控
- 回滚
将人类从循环中移除，避免在重复性任务中出现标准人为问题

需求预测与容量规划

直接明了，但令人惊讶的是，有大量团队/服务没有这样做

配置

增加容量比负载转移风险更大，因为它通常涉及启动新实例/位置，对现有系统进行重大更改（配置文件、负载均衡器等）
成本高昂，应仅在必要时执行；且必须快速完成
- 如果你不清楚实际需求而过度配置，那会浪费金钱

效率与性能

负载会减慢系统速度
SRE 配置以满足具有特定响应时间目标的容量目标
效率 == 金钱

第 2 章：从 SRE 视角看 Google 的生产环境

本章没有笔记，因为我已经很熟悉了。待办事项：也许可以回去更仔细地阅读本章。

第 3 章：拥抱风险

例如：如果一个用户在智能手机上有 99% 的可靠性，他无法分辨 99.99% 和 99.999% 的可靠性

管理风险

可靠性与成本非线性。多获得一个可靠性增量可能要付出 100 倍的代价
- 与冗余设备相关的成本
- 构建可靠性功能而非“普通”功能的成本
- 目标：使系统足够可靠，但又不要太可靠！

衡量服务风险

标准实践：识别指标以代表要优化的系统属性
可能的指标 = 正常运行时间 / (正常运行时间 + 停机时间)
- 对于全球分布式服务来说有问题。正常运行时间到底是什么意思？
总可用性 = 成功请求数 / 总请求数
- 显然，并非所有请求都相等，但总可用性是一阶近似的可接受指标
通常设定季度目标

服务的风险承受能力

通常并非客观明显
SRE 与产品负责人合作，将业务目标转化为明确的目标

识别消费者服务的风险承受能力

待办事项：也许可以在第二遍时详细阅读

识别基础设施服务的风险承受能力

目标可用性

运行中的示例：Bigtable
- 一些消费者服务直接从 Bigtable 提供数据——需要低延迟和高可靠性
- 一些团队将 Bigtable 用作离线分析的后端存储——更关心吞吐量而非可靠性
通用性地满足所有需求成本过高
- 例如：Bigtable 实例
- 低延迟的 Bigtable 用户希望队列深度低
- 面向吞吐量的 Bigtable 用户希望队列深度中到高
- 在这两种情况下，成功和失败是截然相反的！

成本

划分基础设施并提供不同级别的服务
除了明显的好处外，它还允许服务将提供不同级别服务的成本外部化（例如，预期延迟导向的服务比吞吐量导向的服务更昂贵）

错误预算的动机

本节没有笔记，因为我已经认同所有观点。如果参与相关辩论，也许可以回去重读。

第 4 章：服务级别目标

注意：跳过术语部分的笔记。

示例：Chubby 计划内停机
- Google 发现 Chubby 的性能一直超出其 SLO，而且全局 Chubby 停机会导致 Google 出现异常严重的停机
- Chubby 太可靠了，以至于团队错误地假设它永远不会宕机，从而没有设计能处理 Chubby 故障的系统
- 解决方案：当 Chubby 在一个季度内远超其 SLO 时，就全局性地将其停机，以“告诉”团队 Chubby 可能宕机

你和你的用户关心什么？

指标太多：难以关注
指标太少：可能忽略重要行为
不同类型的服务应有不同的指标
- 面向用户的服务：可用性、延迟、吞吐量
- 存储服务：延迟、可用性、持久性
- 大数据服务：吞吐量、端到端延迟
所有系统都关心正确性

收集指标

通常可以从服务器自然收集，但有时需要客户端指标。

聚合

使用分布而非平均值
用户研究表明，人们通常更喜欢较慢的平均速度但更好的尾部延迟
标准化常用定义，例如，1 分钟平均、集群任务平均等
- 可以有例外，但合理的默认值使事情更容易

选择目标

不要基于当前性能选择目标
- 当前性能可能需要英雄般的努力
保持简单
避免绝对化
- 谈论“无限”规模或“永远”可用是不合理的
最小化 SLO 数量
完美可以等待
- 总可以随时间重新定义 SLO
SLO 设定预期
- 保留安全边际（内部 SLO 可以比外部 SLO 定义得更宽松）
不要过度达成目标
- 参见上面的 Chubby 例子
- 另一个例子是确保系统在负载较低时不会过快

第 5 章：消除苦差事

Carla Geisser 说：“如果一个人类操作员在系统正常运行期间需要接触你的系统，那你就有 bug。正常运行的定义会随着系统的增长而变化。”

定义：苦差事
- 不仅仅是“我不想做的工作”
- 手动的
- 重复的
- 可自动化的
- 战术性的
- 没有持久价值
- 与服务增长成 O(n) 关系
调查发现平均 33% 是苦差事
- 数字低至 0% 高达 80%
- 苦差事 > 50% 是管理者应更均衡地分配苦差事负荷的信号
苦差事总是坏的吗？
- 可预测和重复的任务可以令人平静
- 可以产生成就感，可以是低风险/低压力的活动

关于苦差事为何有害的部分。跳过该部分的笔记。

第 6 章：监控分布式系统

为什么要监控？
- 分析长期趋势
- 随时间比较或进行实验
- 警报
- 构建仪表板
- 调试

正如 Alex Clemmer 常说的，我们的问题不在于移动太慢，而在于构建了错误的东西。我想知道我们如何能从今天的状况发展到拥有足够的工具，以便在构建新系统时做出明智的决策。

设定合理的预期

监控并非易事
一个 10-12 人的 SRE 团队通常有 1-2 人负责构建和维护监控
随着工具/库/集中监控基础设施的改进，这个数字随时间下降
总体趋势是更简单/更快的监控系统，以及更好的事后分析工具
避免“神奇”系统
复杂的依赖层级（例如，“如果数据库慢，就报警数据库，否则报警网站”）效果有限。
- 主要（或仅）用于系统中非常稳定的部分
为人类生成警报的规则应易于理解并代表明确的故障

避免神奇系统是否也包括避免机器学习？

大量白盒监控
一些关键部分的黑盒监控
四个黄金信号
- 延迟
- 流量
- 错误
- 饱和度

来自 Bigtable 和 Gmail 的有趣示例未被转录。关于保持警报简单的许多重要信息也未被转录。

长期考量

长期和短期可用性之间经常存在张力
有时可以通过英雄般的努力修复不可靠的系统，但这是倦怠风险，也是故障风险
在短期可靠性上承受可控的影响通常是更好的权衡

第 7 章：Google 自动化的发展

“自动化是力量倍增器，不是万能药”
自动化的价值
- 一致性
- 可扩展性
- MTTR
- 更快的非修复操作
- 节省时间

笔记中跳过了多个有趣的案例研究和解释。

第 8 章：发布工程

这是 Google 的一个特定工作职能

发布工程师角色

发布工程师与 SWE 和 SRE 合作，定义软件的发布方式
- 让开发团队专注于开发工作
定义最佳实践
- 编译器标志、构建 ID 标签格式等
发布自动化
团队间的模型各异
- 可能是“绿灯即推送”并部署每个构建
- 可能是每小时构建和部署
- 等等
整体构建
- 构建相同的修订号应始终产生相同的结果
- 自包含——这包括对使用的所有内容进行版本控制，直到编译器
- 可以针对旧修订版进行选择性修复以修复生产软件
几乎所有的变更都需要代码审查
分支
- 所有代码都在主分支中
- 发布版从主分支分出
- 修复可以从主分支到分支
- 分支永远不合并回主分支
测试
- CI
- 发布过程创建审计跟踪，运行测试并显示测试通过
配置管理
- 看似简单，可能导致不稳定
许多可能的方案（都涉及将配置存储在源代码控制中并进行严格的配置审查）
使用主干进行配置——配置在头部维护并立即应用
- 最初用于 Borg（及 Borg 之前的系统）
- 二进制发布和配置变更解耦！
将配置文件和二进制文件包含在同一包中
- 简单
- 紧密耦合二进制和配置——对于配置文件少或配置很少更改的项目来说可以
将配置打包为“配置包”
- 与代码相同的整体构建原则
发布工程不应是事后才考虑的！
应在开发周期开始时就预算资源

第 9 章：简洁

稳定性 vs. 敏捷性
- 可以通过冻结使事情稳定——需要平衡两者
- 可靠的系统可以提高敏捷性
- 可靠的发布使更容易将变更与错误联系起来
“无聊”的美德！
本质性 vs. 偶然性复杂性
- SRE 应在引入偶然性复杂性时提出反对
代码是负担
- 删除死代码或其他膨胀代码
最小化 API
- 较小的 API 更易于测试、更可靠
模块化
- API 版本控制
- 与代码相同，应避免像 misc/util 这样的类
发布
- 小规模发布更容易度量
- 如果我们将 100 个变更一起发布，就无法判断发生了什么

第 10 章：从时间序列数据进行警报

Borgmon

类似于 Prometheus
用于日志的通用数据格式
数据用于仪表板和警报
规范了一种遗留数据格式“varz”，允许通过 HTTP 查看指标
- 要手动查看指标，请访问 http://foo:80/varz
添加指标只需在代码中进行一次声明
- 添加新指标的用户成本低
Borgmon 定期从每个目标获取 /varz
- 还包括合成数据，如健康检查、名称是否解析等
时间序列存储区
- 数据存储在内存中，并定期检查点写入磁盘
- 固定大小分配
- GC 在空间满时驱逐最旧条目
- 概念上是一个二维数组，一个轴是时间，另一个轴是项目
- 每个数据点 24 字节 -> 1M 个唯一时间序列，以 1 分钟间隔持续 12 小时 = 17 GB
Borgmon 规则
- 代数表达式
- 从其他时间序列计算时间序列
- 规则在线程池上并行求值
计数器 vs. 仪表
- 定义：计数器是非递减的
- 定义：可以取任何值
- 计数器优于仪表，因为仪表根据采样间隔可能丢失信息
警报
- Borgmon 规则可以触发警报
- 有最小持续时间以防止“抖动”
- 通常设置为两个持续时间周期，这样错过的收集不会触发警报
扩展
- Borgmon 可以从其他 Borgmon 接收时间序列数据（使用二进制流协议而非基于文本的 varz 协议）
- 可以有多个层级的过滤器
探测器
- 监控用户所见的黑盒监控
- 可以通过 varz 查询，或直接向 Alertmanager 发送警报
配置
- 规则定义和被监控目标之间分离

第 11 章：值班

典型响应时间
- 面向用户或其他时间关键型任务：5 分钟
- 不太时间敏感的任务：30 分钟
响应时间与 SLO 相关
- 例如：一个季度 99.99% 相当于 13 分钟停机；显然响应时间不能超过 13 分钟
- SLO 较宽松的服务可以有 10 多分钟（或更长？）的响应时间
主值班 vs. 副值班
- 工作分配因团队而异
- 在某些团队，副值班是主值班的后备
- 在其他团队，副值班处理非紧急/非分页事件，主值班处理分页
平衡值班
- 定义：数量：值班时间占总时间的百分比
- 定义：质量：值班期间发生的事件数量

这很棒。我们应该这样做。人们有时会连续几次遇到非常糟糕的值班轮换，考虑到值班轮换的低频性，没有理由期望它在一两年内随机平衡。

数量平衡
- >= 50% 的 SRE 时间用于工程
- 在其余时间中，最多 25% 用于值班
偏好多站点团队
- 夜班对健康有害，多站点团队可以消除夜班
质量平衡
- 平均而言，处理一次事件（包括根本原因分析、补救、撰写事后分析、修复错误等）需要 6 小时。
- => 在 12 小时的值班轮次中不应有超过 2 个事件
- 为保持在上限之内，希望分页分布非常平，中位数为 0
补偿——值班的额外报酬（休假或现金）

第 12 章：有效的故障排除

本章没有笔记。

第 13 章：应急响应

测试引发的紧急情况
- SRE 打破系统以观察会发生什么
示例：希望找出对分布式 MySQL 数据库的隐藏依赖
- 计划：阻止访问 1/100 的数据库
- 响应：依赖服务报告无法访问关键系统
- SRE 响应：SRE 中止演练，尝试回滚权限更改
- 回滚尝试失败
- 尝试恢复对副本的访问成功
- 在 1 小时内恢复正常运行
- 做得好的地方：依赖团队立即上报问题，能够恢复访问
- 我们学到的：对系统及其与其他系统的交互理解不足，未遵循事故响应流程通知客户停机，未在测试环境中测试回滚程序
变更引发的紧急情况
- 变更可能导致故障！
示例：周五推送的滥用预防基础设施配置更改触发了崩溃循环 bug
- 几乎所有面向外部的系统都依赖于此，变得不可用
- 许多内部系统也有依赖关系，变得不可用
- 警报在几秒钟内开始响起
- 配置推送后 5 分钟内，推送变更的工程师回滚了变更，服务开始恢复
- 做得好的地方：监控立即触发，事件管理运作良好，即使许多系统宕机，带外通信系统也让人们了解情况，运气好（推送变更的工程师正在关注实时通信渠道，而这不属于发布流程）
- 我们学到的：推送到金丝雀环境没有触发相同问题，因为它没有遇到特定的配置关键字组合；推送被认为是低风险的，经历了不太严格的金丝雀流程；停机期间警报过于嘈杂
流程引发的紧急情况

流程引发的例子没有笔记。

第 14 章：管理事故

这个领域我们似乎做得确实不错。本章没有笔记。

第 15 章：事后分析文化：从失败中学习

我强烈认同本章的大部分内容。没有笔记。

第 16 章：跟踪停机

Escalator：集中系统，跟踪对警报的确认（ACK），必要时通知其他人等。
Outalator：提供多个队列的通知时间交错视图
- 还保存相关邮件，并允许将一些消息标记为“重要”，可以折叠非重要消息等

我们版本的 Escalator 看起来不错。不过，我们确实可以使用类似 Outalator 的东西。

第 17 章：为可靠性而测试

老生常谈。本节没有笔记。不过，我们确实可以做得更好。

第 18 章：SRE 中的软件工程

示例：Auxon，容量规划自动化工具
背景：传统容量规划周期
- 1) 收集需求预测（提前数个季度到数年）
- 2) 规划分配
- 3) 审查计划
- 4) 部署和配置资源
传统方法缺点
- 许多事情可能影响计划：效率提高、采用率提高、集群交付日期推迟等
- 即使是小的更改也需要重新检查分配计划
- 大的更改可能需要完全重写计划
- 劳动密集且容易出错
Google 解决方案：基于意图的容量规划
- 指定需求，而非实现
- 将需求编码并自动生成容量计划
- 除了节省人力，求解器可以做出优于人类生成的解决方案 => 节省成本
示例阶梯，展示越来越多基于意图的规划
- 1) 希望在集群 X、Y 和 Z 中有 50 个核心——为什么是那些资源在那些集群中？
- 2) 希望在区域中的任何 3 个集群中拥有 50 核的规模——为什么需要那么多资源，为什么是 3 个？
- 3) 希望以 N+2 冗余满足需求——为什么是 N+2？
- 4) 希望达到 5 个 9 的可靠性。可能会发现 N+2 不够
发现最大的收益来自转向 (3)
- 一些复杂的服务可能追求 (4)
将约束放入工具允许跨集群一致地进行权衡
- 而不是做出单独的临时决策
Auxon 输入
- 需求（例如，“服务必须在每个大陆 N+2 冗余”，“前端服务器距后端服务器不超过 50ms”）
- 依赖关系
- 预算优先级
- 性能数据（服务如何扩展）
- 需求预测数据（注意，像 Colossus 这样的服务从依赖服务派生出预测）
- 资源供应和定价
输入进入求解器（混合整数或线性规划求解器）

关于为什么是 SRE 软件、如何启动团队等没有笔记。待办事项：如果将来直接相关，重读本章后半部分并做笔记。

第 19 章：前端负载均衡

本节没有笔记。在高层目标上似乎与我们的相似，本章也没有深入细节。值得注意的是，他们在[已编辑]方面与我们不同。有关低级细节的更多信息，请参见 Maglev 论文。

第 20 章：数据中心内的负载均衡

流量控制
需要避免不健康的任务
不健康任务的简单流量控制
- 跟踪到后端的请求数量
- 当达到阈值时将后端视为不健康
- 缺点：通常很糟糕
基于健康的流量控制
- 后端任务可以处于三种状态之一：{健康、拒绝连接、跛鸭}
- 跛鸭状态仍可接收连接，但会向所有客户端发送背压请求
- 跛鸭状态简化了干净关闭
定义：子集划分：限制客户端任务可以与之交互的后端任务池
客户端在 RPC 系统中维护到后端的连接池
- 使用池可以减少延迟，无需在需要时进行建立/拆除
- 非活动连接相对便宜，但并非免费，即使在“非活动”模式下（减少健康检查、用 UDP 代替 TCP 等）
选择正确的子集
- 通常：20-100，根据工作负载选择
子集选择：随机
- 利用率差
子集选择：轮询
- 顺序被打乱；每轮有自己的排列
负载均衡
- 子集选择用于连接均衡，但我们仍然需要均衡负载
负载均衡：轮询
- 实践中，观察到最负载和最轻负载之间存在 2 倍差异
- 实践中，最昂贵的请求可能比最便宜的请求贵 1000 倍
- 此外，请求存在随机不可预测的变化
负载均衡：最小负载轮询
- 顾名思义：在最小负载的后端中轮询
- 负载似乎是按连接数衡量的；可能不总是最佳指标
- 这是每个客户端的，而非全局的，因此可能将请求发送给来自其他客户端的许多请求的后端
- 实践中，对于大型服务，发现最负载的任务使用的 CPU 是最轻负载任务的两倍；类似于普通轮询
负载均衡：加权轮询
- 与上述相同，但用其他因素加权
- 实践中，比最小负载轮询的负载分布好得多

我想知道 Heroku 在回复 Rap Genius 时所说的“经过广泛的研究和实验，我们尚未找到任何理论模型或实际实现，能在支持多个并发连接的 Web 后端上超越简单路由到随机路由的简单性和鲁棒性”是什么意思。

第 21 章：处理过载

即使有“好的”负载均衡，系统也会过载
典型策略是提供降级响应，但在极高负载下可能不可行
将容量建模为 QPS 或请求函数（例如，请求读取的键数）容易出错
- 这些通常变化缓慢，但可能因单次签入而快速变化
更好的解决方案：直接测量可用资源
CPU 利用率通常是配置的好信号
- 使用 GC 时，内存压力会转化为 CPU 利用率
- 对于其他系统，可以配置其他资源，使 CPU 成为可能的限制因素
- 在 CPU 过度配置过于昂贵的情况下，需考虑其他资源

像那样普遍过度配置 CPU 有多少成本？

客户端节流
- 当客户达到配额时，后端开始拒绝请求
- 即使被拒绝，请求仍然消耗资源——如果没有节流，后端的大部分资源可能花在拒绝请求上
关键性
- 似乎是优先级但名字不同？
- RPC 系统中的一等概念
- 客户端节流为每个关键性级别保持单独的统计信息
- 默认情况下，关键性会通过后续 RPC 传播
处理过载错误
- 如果 DC 过载，将负载卸载到其他 DC
- 如果 DC 正常但某些后端过载，将负载卸载到其他后端
客户端在收到过载响应时重试
- 每个请求的重试预算 (3)
- 每个客户端的重试预算 (10%)
- 客户端重试失败会导致“过载；勿重试”响应返回给上游

拥有“勿重试”响应是“显而易见”的，但在实践中相对罕见。许多真实系统存在失败重试导致更多重试在堆栈中向上传播的问题。这在跨越硬件/软件边界时尤其明显（例如，文件系统读取导致 DVD/SSD/机械硬盘上的许多重试，失败，然后在文件系统级别重试），但在纯软件中似乎也普遍存在。

第 22 章：应对级联故障

典型的故障场景？
- 服务器过载
示例：有两个服务器
- 一个过载，故障
- 另一个现在接收所有流量，也故障了
资源耗尽
- CPU/内存/线程/文件描述符等
示例：资源间的依赖
- 1) Java 前端有调优不佳的 GC 参数
- 2) 前端因 GC 用尽 CPU
- 3) CPU 耗尽减慢请求
- 4) 增加的队列深度使用更多 RAM
- 5) 整个前端的固定内存分配意味着可用于缓存的内存减少
- 6) 命中率降低
- 7) 更多请求进入后端
- 8) 后端耗尽 CPU 或线程
- 9) 健康检查失败，开始级联故障
- 在停机期间难以确定原因
注意：避免服务错误服务器的策略可能使情况恶化
- 可用后端减少，它们接收过多请求，然后变得不可用
防止服务器过载
- 负载测试！必须有真实的环境
- 提供降级结果
- 过载时廉价且提前失败
- 让更高级别的系统拒绝请求（在反向代理、负载均衡器和任务级别）
- 执行容量规划
队列管理
- 队列在稳定状态下无用
- 排队的请求消耗内存并增加延迟
- 如果流量大致稳定，最好保持较小的队列大小（例如，线程池大小的 50% 或更少）
- 例如：Gmail 使用无队列服务器，在线程满时故障转移
- 对于突发性工作负载，队列大小应是线程数、每个请求时间、突发大小/频率的函数
- 另见，自适应 LIFO 和 CoDel
优雅降级
- 注意测试优雅降级路径很重要，也许可以通过定期让一组小服务器接近过载来测试，因为这条路径在正常情况下很少被触发
- 最好保持简单且易于理解
重试
- 始终使用随机指数退避
- 参见上一章，仅在单一级别重试
- 考虑设置服务器范围的重试预算
截止时间
- 不要在截止时间已过时执行工作（级联故障的常见主题）
- 在每个阶段，检查截止时间是否已过
- 截止时间应被传播（例如，即使通过 RPC）
双模延迟
- 示例：长截止时间的问题
- 假设前端有 10 个服务器，每个有 100 个线程（总共 1k 线程）
- 正常操作：1k QPS，请求耗时 100ms => 100 个工作线程被占用 (1k QPS * .1s)
- 假设 5% 的操作未完成，且有 100s 的截止时间
- 这消耗了 5k 线程 (50 QPS * 100s)
- 前端超订阅 5 倍。成功率 = 1k / (5k + 95) = 19.6% => 80.4% 错误率

使用截止时间而非超时很棒。我们真的应该对此更系统化。

通过设置合理的截止时间来防止系统充满无用的僵尸请求是“显而易见”的，但许多真实系统似乎具有任意超时值（30s、60s、100s 等），而不是根据负载/级联故障分配的截止时间。

尽量避免层间通信
- 更简单，避免了可能的级联故障路径
测试级联故障
- 对组件进行负载测试！
- 负载测试不仅揭示故障点，还能找出在负载下会完全崩溃的组件
- 确保单独测试每个组件
- 测试非关键后端（例如，确保搜索的拼写建议不妨碍关键路径）
应对级联故障的即时步骤
- 增加资源
- 暂时停止健康检查失败/宕机
- 重启服务器（仅在会有所帮助时——例如，GC 死亡螺旋或死锁）
- 丢弃流量——极端措施，最后手段
- 进入降级模式——需要事先在服务中构建此功能
- 消除批处理负载
- 消除不良流量

第 23 章：用于可靠性的分布式共识

我们如何就以下问题达成一致…
- 哪个进程是一组进程的领导者？
- 一组中的进程集合是什么？
- 一条消息是否已成功提交到分布式队列？
- 一个进程是否持有特定的租约？
- 数据存储中特定键的值是什么？
示例 1：脑裂
- 服务在不同机架中有复制的文件服务器
- 必须避免同时写入一组中的两个文件服务器以避免数据损坏
- 每对文件服务器有一个领导者和一个跟随者
- 服务器通过心跳相互监控
- 如果一个服务器无法联系另一个，它会发送 STONITH（将另一个节点一枪爆头）
- 但如果网络慢或数据包丢失会怎样？
- 如果两个服务器都发出 STONITH 会怎样？

这让我想起我最喜欢的分布式数据库事后分析报告之一。数据库配置为一个环，其中每个节点与其“邻域”中的 5 台服务器通信并复制数据。如果邻域中的一些机器宕机，其他服务器会加入邻域，数据会相应复制。

听起来不错，但在服务器出现故障并认为不存在数据且其所有邻居都坏了的情况下，它返回结果的速度比任何邻居都快，同时告诉邻居它们都坏了。由于坏服务器没有数据，它非常快，并且可以比邻居更快地报告邻居坏了。哎呀！

示例 2：需要人工干预的故障转移
- 一个高度分片的数据库有一个每个分片的主库，复制到另一个数据中心的备用库
- 外部健康检查决定主库是否应该故障转移到备用库
- 如果主库看不到备用库，它会使自己不可用以避免“示例 1”中的问题
- 这增加了运维负担
- 问题相关联，并且在人们忙于其他问题时相对可能遇到问题
- 如果有网络问题，没有理由认为人类会比系统中的机器对世界状态有更好的看法
示例 3：错误的组成员算法
- 顾名思义。本节没有笔记
不可能性结果
- CAP：P 在真实网络中不可能，因此选择 C 或 A
- FLP：异步分布式共识无法在不可靠网络中保证进展

Paxos

提议序列，可能被多数进程接受也可能不被接受
- 不被接受 => 失败
- 每个提议的序列号，在整个系统中必须唯一
提议
- 提议者向接受者发送序列号
- 如果接受者尚未看到更高的序列号，则同意
- 提议者可以使用更高的序列号再次尝试
- 如果提议者收到多数同意，它通过发送带有值的提交消息进行提交
- 接受者在同意时必须将数据记录到持久存储

模式

分布式共识算法是低级原语
可靠的复制状态机
- 数据配置/存储、锁、领导者选举等的基本构建块
- 参见这些论文：Schnieder, Aguilera, Amir & Kirsch
可靠的复制数据和配置存储
- 非基于分布式共识的系统通常使用时间戳：有问题，因为无法保证时钟同步
- 参见 Spanner 论文了解使用分布式共识的示例
领导者选举
- 等同于分布式共识
- 领导者的工作可以由一个进程执行或分片，领导者选举模式允许像编写简单程序一样编写分布式系统
- 例如，GFS 和 Colussus 使用此模式
分布式协调和锁服务
- 屏障用于 MapReduce 中，以确保 Map 完成后 Reduce 才继续
分布式队列和消息传递
- 队列：可以容忍工作节点故障，但系统需要确保已领取的任务被处理
- 可以使用租约而非从队列中移除
- 使用 RSM 意味着即使队列宕机，系统也可以继续处理
性能
- 传统观点认为共识算法不能用于高吞吐量低延迟系统是错误的
- 分布式共识是 Google 许多系统的核心
- 规模使这对 Google 比大多数其他公司更糟，但它仍然有效
Multi-Paxos
- 强领导者进程：除非尚未选出领导者或发生故障，否则只需一轮往返即可达成共识
- 注意，组中的另一个进程可以随时提议
- 可能会来回振荡并产生伪活锁
- 不仅限于 Multi-Paxos
- 标准解决方案是选举一个提议者进程或使用轮换提议者
扩展读密集型工作负载
- 示例：Photon 允许从任何副本读取
- 从陈旧副本读取需要额外工作，但不会产生错误的不正确结果
- 为保证读取是最新的，执行以下操作之一：
- 1) 执行只读共识操作
- 2) 从保证最新的副本读取数据（稳定领导者可以提供此保证）
- 3) 使用仲裁租约
仲裁租约
- 副本可以被授予对系统中某些（或全部）数据的租约
Fast Paxos
- 旨在广域网上更快
- 每个客户端可以直接向一组接受者成员发送 Propose，而不是通过领导者
- 不一定比经典 Paxos 更快——如果到接受者的 RTT 较长，我们就是将一条通过慢速链路的消息加上 N 条通过快速链路的并行消息，替换为 N 条通过慢速链路的消息
稳定领导者
- “几乎所有设计时考虑性能的分布式共识系统都使用单个稳定领导者模式或轮换领导系统”

待办事项：完成本章？

第 24 章：分布式 cron

待办事项：回去更详细地阅读，做笔记。

第 25 章：数据处理管道

示例：MapReduce 或 Flume
方便且易于理解正常情况，但很脆弱
- 初始安装通常没问题，因为工作大小、分块、参数都经过仔细调整
- 随着时间的推移，负载发生变化，导致问题

第 26 章：数据完整性

定义未必明显
- 如果接口 bug 导致 Gmail 无法显示邮件，从用户的角度来看，这与数据丢失是一样的
- 99.99% 的正常运行时间意味着每年 1 小时停机。对大多数应用来说可能没问题
- 2GB 文件中 99.99% 的字节正确意味着 200K 字节损坏。对大多数应用来说可能不行
备份并非易事
- 可能混合了事务性和非事务性备份和恢复
- 业务逻辑的不同版本可能同时在线运行
- 如果服务是独立版本控制的，可能有很多版本组合
- 副本是不够的——副本可能同步损坏
对 Google 19 次数据恢复工作的研究
- 最常见的用户可见数据丢失是由软件错误导致的删除或引用完整性丢失引起
- 最困难的情况是几周甚至几个月后才发现的低级损坏

纵深防御

第一层：软删除
- 用户应该能够删除他们的数据
- 但这也意味着用户将能够意外删除他们的数据
- 还有，账户被入侵等
- 错误也可能由 bug 导致意外删除
- 软删除会延迟实际删除一段时间
第二层：备份
- 需要弄清楚在恢复期间可以丢失多少数据、恢复需要多长时间以及备份需要回溯多远
- 希望备份永远回溯，因为损坏可能数月（甚至更长）未被发现
- 但代码和模式的更改可能使旧备份的恢复成本高昂
- Google 通常有 30 到 90 天的窗口，具体取决于服务
第三层：早期检测
- 带外完整性检查
- 很难正确做到这一点！
- 正确的更改可能导致检查器失败
- 但放宽检查可能导致故障被遗漏

两个有趣的案例研究没有笔记。

第 27 章：大规模可靠产品发布

本章没有特别的笔记。许多材料已被其他章节涵盖或至少暗示。但在考虑发布策略之前，至少值得看看示例检查表项目和行动项。另见附录 E，发布协调检查表。

第 28-32 章：各种管理章节

没有这些章节的笔记。

笔记的笔记

我非常喜欢这本书。如果你关心构建可靠系统，通读这本书并看看你周围的团队没有做什么，似乎是一个很好的练习。话虽如此，这本书并不完美。对我来说，两个主要的缺点源于同一个问题：这是一本由不同作者撰写的章节合集。有些编辑比其他编辑更好，这意味着有些章节更清晰，而且由于这些章节似乎设计为可以作为独立章节阅读，如果你从头到尾通读，书中有相当多的重复。根据你计划如何使用这本书，这可能是积极的，但对我来说是消极的。但即使考虑到缺点，我也要说这是过去一年中我读过的最有价值的技术书，我只在这些笔记中涵盖了大约 20% 的内容。如果你真的喜欢这些笔记，你可能想阅读完整的书。

如果你觉得这些笔记太枯燥，也许可以试试这组关于一本完全不同书籍的、更有趣的笔记。如果你觉得这些笔记只是略微枯燥，也许可以试试这组关于事后分析中常见错误类型的笔记。无论如何，我欢迎对这些笔记的反馈。对我来说，整理笔记是一种尝试。如果人们觉得这些有用，我会尝试更频繁地整理我阅读的书籍的笔记。如果没有，我可能会尝试不同的笔记方法或其他类型的帖子。

由 mimo-v2.5 模型翻译，花费 29090 tokens