【浮世汇690】技术爆炸并不属于科幻,今天的你我早已置身其中
【1】@木遥 解释一些关于大语言模型的常见误解。 误解一:「ChatGPT 中文表现不如英文,因为简中网络封闭/贫乏/语料太烂了。」 我知道很多人喜欢这个论述是因为可以借机吐槽简中网络的内容质量。但不管这个前提对不对,大语言模型的中枢并不是中文一套英文一套波兰文一套韩文一套孟加拉文一套分别独立的(它目前支持95种语言,要训练95个独立的大脑要花多少钱?)它都用英文学过一遍相对论了,再用中文的相对论教材重新理解一遍相对论毫无意义。——当然,如果你想「只」用简体中文语料训练出一个又红又专的洁版 GPT,那语料质量就会是一个真实的限制。 但这个误解其实是基于下面这个更常见也更本质的误解: 误解二:「ChatGPT 是统计模型,所以它的一切认知都是来自于它的语料。」 大多数人对大神经网络的理解可能还停留在它只能抓住语料数据中的统计相关性的这个层面。但过去两年来大语言模型之所以突飞猛进,正是因为它突破了这个障碍。它确实仍然不能很好地进行逻辑推演,但人们发现统计推断/逻辑符号推断并不是非黑即白的分野,而今天的大语言模型正好落在中间的某个神秘地带上。 事实上,如果你对 ChatGPT 的使用稍微深入一点,你一定自己也能意识到「它的认知都是通过语料里反复读过才习得的」这件事不可能是真的。比如说你可以要求跟它玩游戏,游戏规则是你告诉它的,然后它就能跟你玩得有来有回。这显然不能用传统的「一切都从语料的统计里学习」的老观念来理解。一个更极端的例子是两个月前有人通过语言指示在 ChatGPT 界面下实现了一个虚拟机 ![]() ![]() ![]() 误解三:「ChatGPT 解决不了来源准确性和新闻即时性的问题,这是大语言模型的硬伤。」 大语言模型本身如何保证「正确」是一个复杂的问题。但在普通人的应用角度,这件事可以非常轻易地从工程上绕过去。今天 Bing 的试用已经逐步铺开了(见附图),附图里是关于2023年的时事的提问(而众所周知 ChatGPT 的训练语料完全来自2021年之前),你会看到它的回答非常准确,而且每句话都附上了来源链接。这是因为 ChatGPT 或类似的大语言模型并不应该被理解为一个从零开始的静态知识库,而是一个可以动态附着在其他信息源上的 layer(「作为一种服务的自然语言界面」)。因此,哪怕用最笨的方式,搜索引擎至少可以当场把传统的搜索结果喂给它,它再以一种对话的方式把它呈现出来,而这就间接解决了准确性和即时性的问题(至少不差于传统搜索引擎)。 关于这一点我推荐一下 Verge 对微软董事长 Nadella 的采访 ![]() (这很重要,并不只是一个 UI 的问题,这牵涉到新的搜索时代商业框架怎么建立,利益怎么分配,流量怎么引导。关键在于: Nadella 等于是承诺了虽然回答是 AI 给的,但源头的链接还是保留,源头网页的广告主不要慌。 很多这类误解归根结底是因为把 ChatGPT 这个过于成功的 demo 误当成了一个成熟产品,然后又把对它的印象推广到了大语言模型整体。但 ChatGPT 的推出有很大意外成分,它不是一个被精心产品化的产物,它的很多缺失只不过是因为 OpenAI 没人也没时间去做,实现这些功能也不是 OpenAI 的长处,是微软该做的事。我的猜测是,等新的 Bing 和正在疯狂测试的 Bard 全面上线,目前这个版本的 ChatGPT 很快就会被大众遗忘了。 归根结底,ChatGPT 在计划中只是前菜,今年的主菜是GPT 4。 【2】@破破的桥 说一下ChatGPT的语料训练。因为这段时间提到中文语料本身质量的文章比较多。ChatGPT训练用的语料库是混合的,我猜测并没有专门针对某个语言做一套方案,虽然可能在预处理的时候有一些不同。ChatGPT的很多中文内容我感觉是从英文翻译过来的。尤其是在出现一些莫名其妙的答案的时候。如图1,2。 当然这也可以看出语言模型里面目前尚未解决的一个短板,它在理解短句逻辑上还是可以的,如图3。但如果要它理清整个一本书里的逻辑关系,那它就会给出一个完全胡说八道的答案。 【3】河森堡 最近,大家在讨论各种科技创新,特别是AI的进展之快,就连Google都要仓促应战,仿佛一念之差没跟上就要被甩开一样,这迅猛的发展让我不由得想起"技术爆炸"的话题。
【4】@王盐Charles 关于大厂下班的情景无比真实,哈哈哈哈。当年我经常最晚离开办公区,为了证明我还在,不得不在电脑屏幕上设置了一个非常醒目的屏保,无限循环,告诉大家我只是吃晚饭去了,有事随时联系。 ![]() 我这两天都在西雅图办公室密集培训,回来加班到晚上十点多。儿子说UW计算机系一个中国女生自杀了。据说学习还很好。听了很难过。真的,这两年的学生太惨了。即使是热门专业都很惨。留学生如果是家境优越的也罢,如果本身背负了太多的压力和希望的,我很难想象这样的经济就业环境对孩子有多么残酷。再说一遍,真的,这不是你能控制的。这不能怪你,请一定要想开一点,皮厚一点,硬着头皮也要熬过去。有什么大不了呢?人要先活下去才有希望。我反正大学时也不是学霸,也就无所谓,我一直都是这样想的,我如果失业家庭需要收入,我会去端盘子开Uber做保姆做厨师,我相信自己即使是做保姆也能一路做到大户人家的管家。做服务员也要拿很多小费。 但首先必须健康地活下去 ![]() ![]() 【6】张洲 ChatGPT很多人都在问怎么用,如果你是一个小白,那你暂时没法用,有点基础的必须会翻,大概的流程是,谷家搜索"ChatGPT",排名第一的点进去注册,然而,内地手机没戏,要再搜个"虚拟电话号码",用人家的虚拟号通常需要2美分的费用,于是你得打开淘家充值2美分,完了你就可以收验证码注册了,搞定帐号后即可以使用。这个过程比较复杂,我玩了几下就不玩了,现在是初级阶段,由于我伟岸英俊知之甚多,所以它说它教不了我,而我花钱教它会感觉特别孙子,我图什么?事就是这么个事,情况就是这么个情况。 【7】@时光网Mtime #陈冲谈英格力士选角# 陈冲的随笔《将美丽带回人间》近日发表在《上海文学》2月刊,她在文中回忆了《英格力士》的选角故事:与王传君一见如故、在袁泉一棵树上吊死、霍思燕帮杜江争取角色… "王传君在一天里读完了小说,然后自己买了机票就来了北京。他不修边幅,中分的长发遮盖了半个脸颊,唇上和下颚留着短而浓密的胡子,完全跟同辈的"小鲜肉"们分道扬镳。 我们用上海话聊天,一见如故。我们聊了各自的生活和阅读,记得那时我正在看冯骥才的《一百个人的十年》,重温特殊年代发生在这片土地上的悲剧。王传君随身带了野夫写的《江上的母亲》,写了作者的母亲为了孩子,决绝地消失在了江水里。当时王传君的母亲患癌症去世不久,好友乔任梁也患抑郁症自杀了,他陷在悲痛和沉思中,已经很久没有接戏。虽然谈话很少提到《英格力士》,但我们触及到的爱与失去,正是我永远的也是唯一的主题——我的一切创作仿佛都是在企图留住爱,企图承受失去。其实所有的艺术都是欲望的升华,来自对生命的爱、对另一个人的爱、对人类的爱。哪怕最愤怒、最黑暗、最悲痛的艺术也来自于爱——如果没有失去你的所爱,你怎么会如此痛苦、如此绝望?" "刘爱妈妈的角色——从读小说和写剧本的时候开始——在我脑子里就是袁泉。春节我回上海探望父母期间,与正在拍摄电视剧《我的前半生》的袁泉见了面。她给我的感觉安静严肃、柔中蕴刚,气质和外形自带某种浓郁的色彩。虽然工作了一天面容有些疲劳,但是目光散发出一股顽强的生命力。我确信了这个角色非她莫属。 春节后回到北京,袁泉穿着牛仔裤大毛衣,素面朝天地来到工作室。她跟我说,读小说的时候眼前出现的刘爱妈妈是我,而不是她自己。我说,这个人物让我想起我母亲年轻时的样子,内心隐藏了那么深厚的忧伤、温柔和渴望。袁泉说,她在《没有别的爱》中演了一个心理变态的杀人魔,长期陷在阴郁中不能自拔,现在希望演些轻松的人物,而《英格力士》又是一个沉重的题材。我说,我要拍的是一个关于爱的故事,时代虽然沉重,但它因为爱得到救赎。艺术的救赎价值在于,它有可能——哪怕在最黑暗的时刻——将美丽带回人间。她问,剧本出来了吗?我说再过几天就可以给你了。其实当时我已经完成了剧本,但是突然失去了给她的自信和勇气。当晚,我又把刘爱妈妈的戏仔细修改了一稿。 袁泉一直没有明确答复。那两个月有不少明星毛遂自荐,想来扮演刘爱妈妈的角色。但是除了袁泉我无法想象别人,只好在一棵树上吊死。有时候找演员简直像在谈恋爱,一旦陷入爱情,渴望的对象很难被另一个人替代。" "听到霍思燕有兴趣来扮演黄旭升妈妈的时候,我马上安排了与她见面。正好我们刚定了演黄旭升的项玥雯(雯雯),她俩长得很像母女。小霍说话的模样生动妩媚,举手投足都散发出性感的魅力,令工作室里所有的小伙子喜欢。聊天时,她多次把话题引到老公杜江的身上:他刚拍完《红海行动》从摩洛哥回来,他在拍片时受了伤,他为了角色每天健身……慢慢地,我意识到她原来是在用自己当诱饵,推荐老公来演王亚军。 第二天,我见了杜江。他有健美的体魄、无辜的大眼睛、干净的板刷头、阳光的笑容。这个英俊的暖男很有魅力,但不是我想象中的英语老师王亚军。 我约了霍思燕在我下榻的酒店见面,她开门见山地说,经纪人劝她不要接黄旭升母亲的角色,演一个十几岁孩子的妈,还是个配角,往后的戏路就变窄了。但她回经纪人说,我去看看能不能给你杜哥争取个角色。我跟她分享五十年代上海风尘女参加兵团的故事,解释了我将如何呈现这个人物,并答应把黄母的角色改得更加丰满。聊到凌晨,她终于被说服了,唯一的要求是这角色得有个名字,不能叫黄母。我当场就给她起名"张永红"。我说,永红听上去既像名妓,也有当年革命名字的感觉,也是祝你永远走红的好意头。小霍听了直笑,然后叹口气说,唉,我就知道今天来会被你搞定的。 事后我们谈论起霍思燕为了老公牺牲自己的事,何毓文说,我好像又相信爱情了。" 【8】@芸仔驾到 「请大家务必意识到:和父母、和伴侣、甚至和孩子,说白了,其实都是一种人际关系。而所有的人际关系,都不能丢失清晰的界线。自动放弃这条线,让对方全面侵占你的人生,你并不会因为自我牺牲而得到双倍的爱和收获,反而会招致最可能的两种结果:被习以为常地轻视,或者成为难以回报的包袱。」 【9】@押沙龙 《狂飙》看了七集,几点感想:1,吴刚的角色脸谱化严重,感觉就是为了其他目的贴片贴上去的。2,安欣有关的很多剧情都不可信,尤其是卧底的那部分,感觉太假了。3,安欣女友的戏份完全没法看。4,高启强的剧情相对是最好的,有点港片的感觉,但是跟徐江对峙的部分也不太可信。5,整个看下来,在国产剧里还算精良,跟美剧差距还是很大。感觉有小一半的可以正常倍速观看,剩下的应该2倍速或者3倍速。6,火起来感觉就是题材讨巧,只要有一点官场的负面内容,大家就会另眼看待,如果真是当剧情片看,我觉得不如《隐秘的角落》。 【10】@_恶魔奶爸_ 我看狂飙这个电视剧的角度,和绝大部分人不一样。 这个是我认为它被大幅删改的最主要原因,太过真实赤裸,对社会的影响不太好。 【11】霜叶 ChatGPT这条赛道,中国企业会咋做呢…… 来源:新浪微博 喷嚏网 |
- 【浮世汇911】人类从来没有真正追求幸福..
- 【浮世汇910】审讯他的人要他记住,永远不要第一..
- 【浮世汇909】互联网当初第一句是hello world..
- 【浮世汇908】水果含糖量和热量排行榜..
- 【浮世汇907】究竟是谁杀死了恐龙?..
- 【浮世汇906】原研药一览
- 【浮世汇905】未老先登
- 【浮世汇904】老登电影
- 【浮世汇903】没有它们,终有一天我们将在醒来之..
- 【浮世汇902】韩江是一位“能把细节用到尽头”的..
- 【浮世汇901】“普信男”说的并不是一个群体,而..
- 【浮世汇900】天天黑眼圈灰头土脸,还没人家扭屁..
- 【浮世汇899】在每一个让人觉得耻辱的轻判面前反..
- 【浮世汇898】希望为这场盛宴买单的不是你..
- 【浮世汇897】10年8个月又7天,这样的数字只有父..
- 【浮世汇911】人类从来没有真正追求幸福..
- 【浮世汇221】现实主义巨著
- 【浮世汇780】为什么要反对举国体制的体育体系?..
- 【浮世汇242】抻敨
- 【浮世汇238】手挽手的背后没人心连着心..
- 【浮世汇253】信息茧房
- 【浮世汇428】现在是乱纪元,非必要不要离开自己..
- 【浮世汇772】在过去一年多时间AI生产了超过150亿..
- 【浮世汇741】把很多事情放在一个更长的时间尺度..
- 【浮世汇774】埃隆·马斯克的影子法则..
- 【浮世汇767】放水还会继续,不停的继续..
- 【浮世汇811】这是很小很小的问题
- 【浮世汇909】互联网当初第一句是hello world..
- 【浮世汇910】审讯他的人要他记住,永远不要第一..
- 【浮世汇266】下水救人我拥护,岸边围观我支持..