体育运动员应该先打新冠疫苗么?

这两天正好是有报道的新冠疫情一周年,ModernaPfizer 的疫苗已经进入冲刺阶段,基本达到 90% 以上的有效性,在英美已经开始申请加急许可了。

我一直在听 Dithering,这个付费播客的两个主播 John GrubberBen Thompson 都是科技界的大佬。上一期他们讨论到一个话题,就是体育运动员(比如橄榄球队成员)能不能优先打疫苗。Ben 说这是一个 no brainer:肯定是的。

结果两天一更的节目,这一期他们就来解释澄清了,因为招致了很多反对的声音。

Ben 重申了一下他的理由:按照现在疫苗预计的生产规模和速度,和几个大型赛事参赛队伍的规模,生产后者所需要的疫苗也就是几分钟的事情,不会耽误太多医务工作者的时间;医务工作者的确是很重要的,没有说他们不应该优先,但是假想体育运动员接种了疫苗之后有什么好处:第一,大型体育赛事至少可以不带观众的恢复,很多人因此可以在家看比赛有事做,起到居家隔离的效果;第二,很多运动员带头打疫苗,对于那些对疫苗持怀疑态度的人也有一个鼓励的作用。John 笑了笑说你其实可以不用解释这么多,因为我对我们的听众有信心。

大家对这个有没有判断力我不知道,至少愿意付费听他们播客的人肯定是筛选过的,应该是愿意听完 Ben 这么一番说道。但是如果是别的情况,我猜可能就没有那么简单了:这个小小的话题背后,其实是一个很深刻的话题:我们应该追求公平,还是效率?

小到火车票买票(比如互联网买票),大到一个国家或者政党的宪法或者施政纲领,都体现了这个深刻的矛盾。很多时候这两者是没办法得兼的,而且甚至不同的人对于怎么做是公平的、怎么做有效率都会有争议——你觉得公平的做法,我不一定觉得公平,而且可能真正有效率的方案,我们都看不到。

如果有一个有效率、最终可以让大家都获益的方案,只是需要短时间牺牲一部分人的利益,短时间内不那么公平,「让一部分人先富起来」,你愿意么?如果有一个主事的人或者团体出来说自己来实施这个方案,你能信任他们吗?如果中途变卦了怎么办?如果结果发现他们认为更有效率的方案其实失败了,或者预先就知道有风险,大家还愿意去冒险么?这个问题听上去抽象的话,想想气候变化和修建核电站的矛盾,就不难理解了。

我这里也不想展开谈自己的见解,因为这块阅读和思考的都还不够深刻,我想思考的是这个问题为什么这么难。

最近在学习强化学习(资料有 Sutton & Barto 的书Coursera 的课,以及 DeepMind 的课),其中一个很重要的概念是 discount factor γ,它指的大概是我们是如何在现在的 reward 和未来的预期 reward 之间获得取舍。(reward 这里的意思是对行为的回报,类似收益或者得分)。

别小看了这个 γ,比如很多强化学习处理的问题是 episodic game,比如围棋、走迷宫等等,有一个明确的起点和终点,结束了可以重来;但是很多现实的问题是没有终点的,我们需要在一个很长甚至无限的时间线上最大化收益(想起了有限与无限的游戏没有?)。处理这种无限时间的收益,必须有一个小于 1 的 discount factor,否则问题是不收敛的(当然另外一方面在 episodic game 里面可以把 γ 设成 1 就可以了)。如果 γ 越小,我们就越只顾眼前利益,我们的规划问题的算法就越「近视 myopic」;反之则看的越长远,但是相对来说收敛速度还有对计算资源的要求可能就会越高(因为要回顾的东西很多)。

但是这个 γ 很多时候是没有一个预设的值的,更多是一个「超参数」,也就是说需要经过多次实验,不断调整,才能找到一个合理高效的值。

一个简单的例子,机器人需要在左边和右边的路上做决策,γ 小就会走左边(活在当下),反之就会走右边(延迟满足),你甚至可以计算出 γ 的临界点。

所以别说国家、社会和人了,就是一个这么小小的机器人,面对一个规则固定的假想游戏,在「现在」和「未来」的取舍上,都需要多次尝试。人的价值观可不那么容易改变,而且不同的人,同一个人现在的他和未来的他,都不一样;人生不能重来,很多重大决策没有回头路,我们该怎么更好怎么面对呢?