学霸的模拟器系统第186节

　　视频接通，沈知夏的脸出现在屏幕上，画面有点卡顿，100万像素的摄像头，画质很差，全是噪点。

　　她那边是UIC的宿舍，背景里挂着那件还没干的运动背心。

　　“怎么了？一脸苦大仇深的。”

　　沈知夏正戴着耳机，手里转着一支笔，面前摊着一本翻得卷边的书，看起来比林允宁还痛苦。

　　“项目不太顺，卡住了。”

　　林允宁揉了揉眉心，“你呢？圣诞节还在学校看书？”

　　“别提了，我要转专业去学护理，下学期要修《医学术语学》，全是拉丁文，简直是天书。”

　　沈知夏把书举到摄像头前晃了晃，上面密密麻麻全是记号笔画的重点。

　　自从孟筱兰确诊阿尔茨海默症后，沈知夏虽然没明说，但默默地把原本的体育管理辅修课换成了护理预科。

　　“你看这个，”

　　她指着书上一个长得吓人的单词，“Cardiomyopathy（心肌病），要是死记硬背，我脑子都要炸了。”

　　她一边抱怨，一边用笔在纸上熟练地把单词拆开。

　　“后来老师教了个法子。Cardio是心脏，Myo是肌肉，Pathy是病变。只要记住了这几百个词根词缀，随便它们怎么组合，哪怕是个二十个字母的长单词，我也能猜出个大概意思。”

　　林允宁笑着点了点头：

　　“挺聪明的办法。”

　　“那当然，本姑娘……”

　　沈知夏还在那边得意地吹嘘着自己的学习方法，但林允宁已经听不见了。

　　他的笑容，忽然僵在了脸上。

　　一个念头，如同闪电般，毫无征兆地劈进了他的脑海。

　　词根……积木……拆解……

　　他猛地转过头，看向自己电脑屏幕上那些复杂的化学分子式。

　　那个只有13.7%准确率的AI，这半个月来在做什么？

　　它在试图通过那三千个分子样本，直接去“理解”药物和蛋白质的结合能。

　　这就好比，把一个从来没学过英语的人关进房间，扔给他三千篇莎士比亚的十四行诗，然后让他直接去写一篇满分的文学评论！

　　这根本不是在学习，这是在瞎蒙！

　　AI根本不懂化学分子的“语言”。

　　它不知道苯环（Benzene Ring）是什么，不知道羟基（-OH）代表着亲水，不知道甲基（-CH3）意味着疏水。

　　在它眼里，这些分子只是一堆毫无意义的三维坐标点。

　　它没有学会“词根”，就被迫去写“文章”。

　　“林柠檬？允宁哥？你怎么卡住了？信号不好吗？”

　　屏幕那头，沈知夏还在挥着手。

　　“夏天，”

　　林允宁猛地回过神，眼神亮得吓人，“你真是个天才。”

　　“哈？”沈知夏一脸莫名其妙，“我背个单词就是天才了？你逗我呢吧？”

　　“我有急事，先挂了！”

　　林允宁甚至没来得及解释，直接切断了视频通话。

　　他抓起外套，冲出了公寓大门。

　　……

　　十分钟后，林允宁气喘吁吁地回到了戈登综合科学中心。

　　他没有去管那个失败的“Aether_StruMatch”项目，而是打开浏览器，输入了一个新的网址。

　　ZINC数据库。

　　这是加州大学旧金山分校维护的一个免费数据库，里面包含了超过七亿种可以商业购买的小分子化合物结构。

　　对于之前的他来说，这是一个无用的仓库。

　　因为这些数据都没有“标签”——没人知道这些分子能不能治病，也没人知道它们能结合什么蛋白。

　　对于传统的监督学习算法来说，没有标签的数据，就是垃圾。

　　但现在，在林允宁眼里，这是一座金矿。

　　这是一本包含了七亿个词汇的“化学字典”。

　　他不需要知道这些分子能不能治病。

　　他只需要让AI看着这些分子，去学习化学的“语法”。

　　哪怕它不知道这个分子有什么用，但只要它看多了，它就会知道：

　　苯环通常是平的，碳原子通常连着四个键，氮原子旁边经常会有氢键受体……

　　这叫“自监督学习”。

　　在2006年，这还是一个只存在于顶级计算机科学家脑子里的模糊概念，连谷歌都还没开始大规模应用。

　　但林允宁在学习机器学习时，在一些文献中读到过。

　　他决定赌一把。

　　他打开终端，敲下了一行下载命令。

　　（命令违规，此处省略……）

　　很快，硬盘指示灯开始疯狂闪烁，进度条像蜗牛一样缓慢爬行。

　　为了让AI学会“识字”，他需要设计一个特殊的训练任务。

　　林允宁新建了一个代码文件，手指在键盘上飞快地敲击。

　　他设计了一个类似“完形填空”的游戏。

　　他编写了一个预处理程序，随机地把ZINC数据库里那些分子结构的一部分“遮住”（Masking）。

　　比如，把一个苯环上的碳原子挖掉，或者把侧链上的氨基抹去。

　　然后，他要求AI根据剩下的部分，去“猜”被遮住的是什么。

　　如果猜对了，说明AI理解了分子的结构规律；如果猜错了，就通过反向传播算法调整参数，直到猜对为止。

　　这是一个不需要人工标注、不需要昂贵实验数据的过程。

　　只要有足够多的分子，AI就可以在这个无人监管的“图书馆”里，通过无数次的自我博弈，从一个对化学一无所知的“文盲”，变成一个精通分子语言的“大师”。

　　等到它读完了这一亿本书，学会了所有的“词根”和“语法”。

　　再把它拉回到那三千个真实的药物数据面前。

　　那就是降维打击。

　　屏幕上，ZINC数据库的压缩包正在一个接一个地下载完成。

　　100MB……500MB……1GB……

　　数亿条沉睡的分子数据，如同一条条看不见的河流，顺着网线涌入服务器的硬盘。

　　半个小时后，数据下载成功。

　　林允宁的训练程序也编写完成。

　　他敲下了最后一行代码，按下回车。

　　【Pre-training Task: Masked Molecular Modeling (MMM)】

　　【Status: Initializing...】

　　屏幕上的光标闪烁了一下，然后变成了一个旋转的进度条。

　　这是一场漫长的、寂静的蜕变。

　　在这个寒冷的冬夜，在没有人注意的角落里，一个刚刚面世的AI，如同初生的婴儿。

　　它连话都不会说，却正抱着一本厚厚的字典，开始像那晚的沈知夏一样，一个字、一个字地啃读起来。

　　……

第168章撕裂与重组（求订阅求月票）

　　服务器的风扇在深夜里发出一阵阵低沉的咆哮，像是一头不知疲倦的钢铁巨兽。

　　屏幕上，那个没有任何标注的预训练模型正在疯狂地进行着“完形填空”。

　　它不知疲倦地将ZINC数据库里那些数以亿计的分子结构拆散，挖掉其中的碳原子、氮原子、氧原子或者某个苯环，然后再根据剩下的残缺部分，试图把被挖掉的东西填回去。

　　这是一个枯燥的自我学习过程。

　　没有老师，没有答案，它只能在数亿次的试错中，一点点摸索出化学键连接的概率，学习原子之间那种看不见的引力。

　　……

　　漫长的圣诞节假期，一直延续到2007年的新年。

　　芝加哥大学校园空荡荡的，盖了厚厚一层雪，连松鼠都懒得出来觅食。

　　戈登综合科学中心的会议室里，气氛却有些焦灼。

　　埃米特·卡特对着白板上那个为了兼容熵增原理而变得臃肿不堪的“弗兰肯斯坦方程”，眉头皱得能夹死一只苍蝇。

　　“恕我直言，这太丑陋了，宁。”

　　埃米特用手指关节敲着白板，发出笃笃的脆响，“你看这个耗散项，它就像是给一辆法拉利装上了拖拉机的轮子。我们在数学上做了太多妥协，这会让数值模拟的精度大打折扣。”

　　“但只有这样，才有做实验的意义。”

　　玛利亚在一旁小声辩解，“如果不加耗散，黑洞视界附近的能量密度会无限发散。”

　　“发散是因为我们的截断做得不够好！”埃米特坚持己见。

首节上一节 186/509下一节尾节目录 txt下载

上一篇：影视：开局从同过窗开始进步！

下一篇：返回列表

学霸的模拟器系统 第186节

推荐阅读

学霸的模拟器系统第186节