【浮世汇690】技术爆炸并不属于科幻，今天的你我早已置身其中

chuntian @ 2023年02月11日浮世汇

解释一些关于大语言模型的常见误解。
误解一：「ChatGPT 中文表现不如英文，因为简中网络封闭/贫乏/语料太烂了。」
我知道很多人喜欢这个论述是因为可以借机吐槽简中网络的内容质量。但不管这个前提对不对，大语言模型的中枢并不是中文一套英文一套波兰文一套韩文一套孟加拉文一套分别独立的（它目前支持95种语言，要训练95个独立的大脑要花多少钱？）它都用英文学过一遍相对论了，再用中文的相对论教材重新理解一遍相对论毫无意义。——当然，如果你想「只」用简体中文语料训练出一个又红又专的洁版 GPT，那语料质量就会是一个真实的限制。
但这个误解其实是基于下面这个更常见也更本质的误解：
误解二：「ChatGPT 是统计模型，所以它的一切认知都是来自于它的语料。」
大多数人对大神经网络的理解可能还停留在它只能抓住语料数据中的统计相关性的这个层面。但过去两年来大语言模型之所以突飞猛进，正是因为它突破了这个障碍。它确实仍然不能很好地进行逻辑推演，但人们发现统计推断/逻辑符号推断并不是非黑即白的分野，而今天的大语言模型正好落在中间的某个神秘地带上。
事实上，如果你对 ChatGPT 的使用稍微深入一点，你一定自己也能意识到「它的认知都是通过语料里反复读过才习得的」这件事不可能是真的。比如说你可以要求跟它玩游戏，游戏规则是你告诉它的，然后它就能跟你玩得有来有回。这显然不能用传统的「一切都从语料的统计里学习」的老观念来理解。一个更极端的例子是两个月前有人通过语言指示在 ChatGPT 界面下实现了一个虚拟机网页链接。这种临场学习的能力叫 in-context learning，是过去一年最热门的学术话题，而且学界本身对这个现象也还没有充分理解（就是目前处于它做到了但我们并不确切知道它为什么能做到的状态）。如果你感兴趣，这两篇最新的文献值得一读，一篇来自 Google 一篇来自微软：网页链接网页链接
误解三：「ChatGPT 解决不了来源准确性和新闻即时性的问题，这是大语言模型的硬伤。」
大语言模型本身如何保证「正确」是一个复杂的问题。但在普通人的应用角度，这件事可以非常轻易地从工程上绕过去。今天 Bing 的试用已经逐步铺开了（见附图），附图里是关于2023年的时事的提问（而众所周知 ChatGPT 的训练语料完全来自2021年之前），你会看到它的回答非常准确，而且每句话都附上了来源链接。这是因为 ChatGPT 或类似的大语言模型并不应该被理解为一个从零开始的静态知识库，而是一个可以动态附着在其他信息源上的 layer（「作为一种服务的自然语言界面」）。因此，哪怕用最笨的方式，搜索引擎至少可以当场把传统的搜索结果喂给它，它再以一种对话的方式把它呈现出来，而这就间接解决了准确性和即时性的问题（至少不差于传统搜索引擎）。
关于这一点我推荐一下 Verge 对微软董事长 Nadella 的采访网页链接，信息量很大，而关于搜索结果这部分他说得也非常直白：所谓结合了 AI 的搜索引擎，其实就是把传统搜索结果让 AI 以更对用户友好的方式表达出来而已。
（这很重要，并不只是一个 UI 的问题，这牵涉到新的搜索时代商业框架怎么建立，利益怎么分配，流量怎么引导。关键在于： Nadella 等于是承诺了虽然回答是 AI 给的，但源头的链接还是保留，源头网页的广告主不要慌。
很多这类误解归根结底是因为把 ChatGPT 这个过于成功的 demo 误当成了一个成熟产品，然后又把对它的印象推广到了大语言模型整体。但 ChatGPT 的推出有很大意外成分，它不是一个被精心产品化的产物，它的很多缺失只不过是因为 OpenAI 没人也没时间去做，实现这些功能也不是 OpenAI 的长处，是微软该做的事。我的猜测是，等新的 Bing 和正在疯狂测试的 Bard 全面上线，目前这个版本的 ChatGPT 很快就会被大众遗忘了。归根结底，ChatGPT 在计划中只是前菜，今年的主菜是GPT 4。

【2】@破破的桥

说一下ChatGPT的语料训练。因为这段时间提到中文语料本身质量的文章比较多。ChatGPT训练用的语料库是混合的，我猜测并没有专门针对某个语言做一套方案，虽然可能在预处理的时候有一些不同。ChatGPT的很多中文内容我感觉是从英文翻译过来的。尤其是在出现一些莫名其妙的答案的时候。如图1，2。
当然这也可以看出语言模型里面目前尚未解决的一个短板，它在理解短句逻辑上还是可以的，如图3。但如果要它理清整个一本书里的逻辑关系，那它就会给出一个完全胡说八道的答案。

【3】河森堡

最近，大家在讨论各种科技创新，特别是AI的进展之快，就连Google都要仓促应战，仿佛一念之差没跟上就要被甩开一样，这迅猛的发展让我不由得想起"技术爆炸"的话题。

人类幻想未来时，技术爆炸被经常提起，比如《三体》中，技术爆炸就是黑暗森林法则的前提，而另外一些幻想认为，在不远的将来，人类会迎来"奇点"时刻，届时AI将突破临界点而觉醒，在极短时间内将智能和技术爆发到人类根本无法理解的高度，并彻底主导世界，所谓的人类文明不过是硅基文明的胎盘而已，后者诞生了，前者就没意义了。

无论对未来悲观还是乐观，至少上述幻想都认识到，人类技术进步的速度并不均匀，总体来说呈现出一种越来越快的趋势。

然而，很少有人意识到我们技术进步的速度到底有多不均匀。

图1是人类最早使用的一类石器，发现在东非奥杜威峡谷，因而被命名为奥杜威模式石器，一种被称为"能人"的早期古人类是其主要制作者，研究发现，能人身材矮小，认知低下，有时他们随便捡起块石头一磕，弄出个棱角就用上了，食腐时可以敲骨吸髓，由于其石器制作工艺过于简陋，产品没有稳定结构可言，以至于一些考古学家都需要仔细辨别才能把奥杜威石器和普通石头区分开。

图2是晚近一些的石器，被称为阿舍利模式，是奥杜威之后出现的第二种石器工艺，其进步性体现在石器终于出现了相对稳定的结构，石器大体呈现水滴形，一头尖利一头圆钝，两侧有对称的棱边，能人的"后辈"直立人偏好这类工艺，观察阿舍利石器的结构，你至少能感觉到其加工者心里大概有个规划，而非不过脑子地随手乱砸。

制作石器时，从乱砸一气到稍微加工出个对称结构，这是人类历史中第一次技术进步，然而，这一不起眼的进步用了近乎一百万年才实现。

奥杜威石器作为人类第一种工艺，出现在约260万年前，若以此为起点纵观整个人类历史，我们的生产力水平其实在约99.6%的时间里，都是一条紧贴着X轴的横线，而在最后不到0.4%的时间里，生产力曲线一飞冲天，我们创造了从吉萨金字塔到粒子对撞机的一切。

一个更直观的对比可以体现出技术进步速度的不均匀，从第一架飞机试飞成功到阿波罗登月，人类用了66年，而从把石头砸的乱七八糟到稍微加工出一个大体对称的结构，人类用了近100万年。

百万年前的石器提醒我们，技术爆炸并不属于科幻，今天的你我早已置身其中。

【4】@王盐Charles

关于大厂下班的情景无比真实，哈哈哈哈。当年我经常最晚离开办公区，为了证明我还在，不得不在电脑屏幕上设置了一个非常醒目的屏保，无限循环，告诉大家我只是吃晚饭去了，有事随时联系。 [允悲]

【5】@Ridiculeisnormalcy

我这两天都在西雅图办公室密集培训，回来加班到晚上十点多。儿子说UW计算机系一个中国女生自杀了。据说学习还很好。听了很难过。真的，这两年的学生太惨了。即使是热门专业都很惨。留学生如果是家境优越的也罢，如果本身背负了太多的压力和希望的，我很难想象这样的经济就业环境对孩子有多么残酷。再说一遍，真的，这不是你能控制的。这不能怪你，请一定要想开一点，皮厚一点，硬着头皮也要熬过去。有什么大不了呢？人要先活下去才有希望。我反正大学时也不是学霸，也就无所谓，我一直都是这样想的，我如果失业家庭需要收入，我会去端盘子开Uber做保姆做厨师，我相信自己即使是做保姆也能一路做到大户人家的管家。做服务员也要拿很多小费。但首先必须健康地活下去 [心]

【6】张洲

ChatGPT很多人都在问怎么用，如果你是一个小白，那你暂时没法用，有点基础的必须会翻，大概的流程是，谷家搜索"ChatGPT"，排名第一的点进去注册，然而，内地手机没戏，要再搜个"虚拟电话号码"，用人家的虚拟号通常需要2美分的费用，于是你得打开淘家充值2美分，完了你就可以收验证码注册了，搞定帐号后即可以使用。这个过程比较复杂，我玩了几下就不玩了，现在是初级阶段，由于我伟岸英俊知之甚多，所以它说它教不了我，而我花钱教它会感觉特别孙子，我图什么？事就是这么个事，情况就是这么个情况。

【7】@时光网Mtime

#陈冲谈英格力士选角# 陈冲的随笔《将美丽带回人间》近日发表在《上海文学》2月刊，她在文中回忆了《英格力士》的选角故事：与王传君一见如故、在袁泉一棵树上吊死、霍思燕帮杜江争取角色…
"王传君在一天里读完了小说，然后自己买了机票就来了北京。他不修边幅，中分的长发遮盖了半个脸颊，唇上和下颚留着短而浓密的胡子，完全跟同辈的"小鲜肉"们分道扬镳。
我们用上海话聊天，一见如故。我们聊了各自的生活和阅读，记得那时我正在看冯骥才的《一百个人的十年》，重温特殊年代发生在这片土地上的悲剧。王传君随身带了野夫写的《江上的母亲》，写了作者的母亲为了孩子，决绝地消失在了江水里。当时王传君的母亲患癌症去世不久，好友乔任梁也患抑郁症自杀了，他陷在悲痛和沉思中，已经很久没有接戏。虽然谈话很少提到《英格力士》，但我们触及到的爱与失去，正是我永远的也是唯一的主题——我的一切创作仿佛都是在企图留住爱，企图承受失去。其实所有的艺术都是欲望的升华，来自对生命的爱、对另一个人的爱、对人类的爱。哪怕最愤怒、最黑暗、最悲痛的艺术也来自于爱——如果没有失去你的所爱，你怎么会如此痛苦、如此绝望？"
"刘爱妈妈的角色——从读小说和写剧本的时候开始——在我脑子里就是袁泉。春节我回上海探望父母期间，与正在拍摄电视剧《我的前半生》的袁泉见了面。她给我的感觉安静严肃、柔中蕴刚，气质和外形自带某种浓郁的色彩。虽然工作了一天面容有些疲劳，但是目光散发出一股顽强的生命力。我确信了这个角色非她莫属。
春节后回到北京，袁泉穿着牛仔裤大毛衣，素面朝天地来到工作室。她跟我说，读小说的时候眼前出现的刘爱妈妈是我，而不是她自己。我说，这个人物让我想起我母亲年轻时的样子，内心隐藏了那么深厚的忧伤、温柔和渴望。袁泉说，她在《没有别的爱》中演了一个心理变态的杀人魔，长期陷在阴郁中不能自拔，现在希望演些轻松的人物，而《英格力士》又是一个沉重的题材。我说，我要拍的是一个关于爱的故事，时代虽然沉重，但它因为爱得到救赎。艺术的救赎价值在于，它有可能——哪怕在最黑暗的时刻——将美丽带回人间。她问，剧本出来了吗？我说再过几天就可以给你了。其实当时我已经完成了剧本，但是突然失去了给她的自信和勇气。当晚，我又把刘爱妈妈的戏仔细修改了一稿。
袁泉一直没有明确答复。那两个月有不少明星毛遂自荐，想来扮演刘爱妈妈的角色。但是除了袁泉我无法想象别人，只好在一棵树上吊死。有时候找演员简直像在谈恋爱，一旦陷入爱情，渴望的对象很难被另一个人替代。"
"听到霍思燕有兴趣来扮演黄旭升妈妈的时候，我马上安排了与她见面。正好我们刚定了演黄旭升的项玥雯（雯雯），她俩长得很像母女。小霍说话的模样生动妩媚，举手投足都散发出性感的魅力，令工作室里所有的小伙子喜欢。聊天时，她多次把话题引到老公杜江的身上：他刚拍完《红海行动》从摩洛哥回来，他在拍片时受了伤，他为了角色每天健身……慢慢地，我意识到她原来是在用自己当诱饵，推荐老公来演王亚军。
第二天，我见了杜江。他有健美的体魄、无辜的大眼睛、干净的板刷头、阳光的笑容。这个英俊的暖男很有魅力，但不是我想象中的英语老师王亚军。
我约了霍思燕在我下榻的酒店见面，她开门见山地说，经纪人劝她不要接黄旭升母亲的角色，演一个十几岁孩子的妈，还是个配角，往后的戏路就变窄了。但她回经纪人说，我去看看能不能给你杜哥争取个角色。我跟她分享五十年代上海风尘女参加兵团的故事，解释了我将如何呈现这个人物，并答应把黄母的角色改得更加丰满。聊到凌晨，她终于被说服了，唯一的要求是这角色得有个名字，不能叫黄母。我当场就给她起名"张永红"。我说，永红听上去既像名妓，也有当年革命名字的感觉，也是祝你永远走红的好意头。小霍听了直笑，然后叹口气说，唉，我就知道今天来会被你搞定的。
事后我们谈论起霍思燕为了老公牺牲自己的事，何毓文说，我好像又相信爱情了。"

【8】@芸仔驾到

「请大家务必意识到：和父母、和伴侣、甚至和孩子，说白了，其实都是一种人际关系。而所有的人际关系，都不能丢失清晰的界线。自动放弃这条线，让对方全面侵占你的人生，你并不会因为自我牺牲而得到双倍的爱和收获，反而会招致最可能的两种结果：被习以为常地轻视，或者成为难以回报的包袱。」

【9】@押沙龙

《狂飙》看了七集，几点感想：1，吴刚的角色脸谱化严重，感觉就是为了其他目的贴片贴上去的。2，安欣有关的很多剧情都不可信，尤其是卧底的那部分，感觉太假了。3，安欣女友的戏份完全没法看。4，高启强的剧情相对是最好的，有点港片的感觉，但是跟徐江对峙的部分也不太可信。5，整个看下来，在国产剧里还算精良，跟美剧差距还是很大。感觉有小一半的可以正常倍速观看，剩下的应该2倍速或者3倍速。6，火起来感觉就是题材讨巧，只要有一点官场的负面内容，大家就会另眼看待，如果真是当剧情片看，我觉得不如《隐秘的角落》。

【10】@_恶魔奶爸_

我看狂飙这个电视剧的角度，和绝大部分人不一样。
一般人看这个电视剧基本都是因为精彩，爽文感，以及zhengzhi大尺度。
但我认为狂飙的敏感点不在这里，而在于它对社会生态的揭露过于赤裸裸，过于真实，容易引起一些不太好的社会反响。
具体是什么意思呢？
如果你想发家致富成为一个有钱人，那么你应该怎么做，参考哪些方法？
一般人首先想到的都会是《富爸爸穷爸爸》，《小狗钱钱》，《百万富翁快车道》，《活法》之类老外写的东西，并且奉为圭臬。
但是在现实生活中，绝大部分真实存在的富豪，好像和这些看上去逻辑很通顺方法很可行的教程，完全两码事。
举个看上去很不起眼的小生意吧。
县城到乡镇的中途公交车。
一个镇的线路，每天的人流至少是200人，车票20，那么就是4000块钱。
5个镇，就是20000块钱。
运营成本砍掉一半（实际上不可能这么高），到手就是1万块钱。
每天一万块钱，一年至少300万起步。
而且是非常安全稳定的好生意。
前提就是两个：
1，通往一个镇的线路，全都被你包了，
2，通往5个镇的线路，也全都被你包了。
如果你不能全包了，只是承包了其中一班，那根本赚不到钱，顶多养家糊口。
所以如何才能做到「全包」。
很简单，想办法让其他人不敢来包，哪怕包了，也畏畏缩缩的，低价转让给你。
这个想办法的办法，是什么办法？
可能违法犯罪，也可能不违法犯罪，总之，有的是办法。
你作为乘客，当然不可能知道这些事。
但如果有一天你也想跑公交小巴做生意，很快你就会发现有人亲切友好的找你来谈心了。
而这仅仅是非常非常小的一个生意，油水低到很多人压根不屑考虑。
像采砂，土方之类的生意，利润更是惊人。
但如果你觉得这个生意真不错，你也想做，也申请各种批条都下来了。
当你打算做的时候，你很快就会发现有人找你亲切友好的谈心了。
所以说致富指南这方面。
虚假的致富指南，就是富爸爸穷爸爸这种。
而真正的致富指南，则是「亲切友好的谈心」。
吴彦祖有句名言：
出来混，要有势力，要有背景。
势力，就是你对下的小弟，团伙，哦不，是团队。
背景，就是你对上的，等等等等。
这个，才是真正的致富指南。
有部小说叫《黑锅》，讲的是主角搞外卖简餐生意。
他做菜特别好吃，食物搭配也很丰富，深受广大学生和白领的喜爱。
很快市内两家大的餐饮公司就来找他亲切友好的谈心了，他一打听发现这两家公司老板都是同一个人。
他是怎么处理这件事的？他找了个出狱的大哥结拜，让渡了一个股份合伙，大哥纠集了几百个小弟，用各种合法的手段来不断骚扰这两家公司的生意，不打人就是恶心你。最后逼的这个老板不得不出面谈判，同意三分天下。
所以你看。
在很早很早以前，有关这种社会的潜规则，内在的真实面，而不是岁月静好平静稳定的表面，我就百思不得其解。
仿佛观察到了什么，又仿佛什么都没抓住。
直到狂飙的出现，仿佛灯塔一样彻底拨清了我思想上的迷雾。
原来关键的症结就在这里。
有钱人可以成功，不是靠思考致富，不是靠技能知识致富，
而是靠势力和背景致富。
如果你光是有技能知识，没有势力和背景，那么你就只能打工，没有办法成为有钱人。
毕竟北上广深杭只有5座城市，人口全加起来也不超过1亿人。
剩下的10几亿人口中出现的富豪才是多数。
这些富豪是怎么起家的。
不仅仅是亿万富豪，哪怕只是几十万，一百万出头的小生意，都有类似的路径方法。
你想摆个水果摊，都有可能有人找你「亲切友好的谈话」。
这个问题不是说家里没关系的才去北上广深打拼，
家里有关系的都安排好的国企事业单位了。
比这种文明挤占，要危险多了。
狂飙电视剧中的蒋天，也跑去京海市开了家地产公司，他的结局是什么？
所以你看。
知道了这个社会的侧面后，我又拿起来吴思老师的《潜规则》和《血酬定律》。
一般人认为血酬离自己很远，所谓的血酬就是以暴力来获得酬劳，比如宋江就是标准的血酬，靠暴力获得招安，虽然他下场一般，但是水浒里的十节度也是同样的经历，他们也都善终了。
但是狂飙电视剧则敏锐的揭示出了这点：血酬定律从未远离过我们，甚至就在我们身边。

这个是我认为它被大幅删改的最主要原因，太过真实赤裸，对社会的影响不太好。

【11】霜叶

ChatGPT这条赛道，中国企业会咋做呢……
屏蔽词库太大了。
不屏蔽，用户们肯定能把AI训练成"由于违法相关法律法规，该应用已被关闭"。
屏蔽吧，AI会被语言污染训练成"这份财报显示小米在上个季度营业收入935个小目标，调整后营业利润为1286个达不溜，赚了不少米"、"要回答yxh如何赚米的问题，主要得分析xhs上面能不能搞sq擦边球"之类的效果。
咋做呢……#老年人的低语#

来源：新浪微博喷嚏网

上一篇：【浮世汇691】必须明白，东北是先行指标，引领发展
下一篇：【浮世汇689】外婆，我认为你只是忘记了

【浮世汇690】技术爆炸并不属于科幻，今天的你我早已置身其中

打赏一下

微信扫一扫打赏

支付宝扫一扫打赏