首页 > 都市情感 > 学霸的模拟器系统

学霸的模拟器系统 第186节

  视频接通,沈知夏的脸出现在屏幕上,画面有点卡顿,100万像素的摄像头,画质很差,全是噪点。

  她那边是UIC的宿舍,背景里挂着那件还没干的运动背心。

  “怎么了?一脸苦大仇深的。”

  沈知夏正戴着耳机,手里转着一支笔,面前摊着一本翻得卷边的书,看起来比林允宁还痛苦。

  “项目不太顺,卡住了。”

  林允宁揉了揉眉心,“你呢?圣诞节还在学校看书?”

  “别提了,我要转专业去学护理,下学期要修《医学术语学》,全是拉丁文,简直是天书。”

  沈知夏把书举到摄像头前晃了晃,上面密密麻麻全是记号笔画的重点。

  自从孟筱兰确诊阿尔茨海默症后,沈知夏虽然没明说,但默默地把原本的体育管理辅修课换成了护理预科。

  “你看这个,”

  她指着书上一个长得吓人的单词,“Cardiomyopathy(心肌病),要是死记硬背,我脑子都要炸了。”

  她一边抱怨,一边用笔在纸上熟练地把单词拆开。

  “后来老师教了个法子。Cardio是心脏,Myo是肌肉,Pathy是病变。只要记住了这几百个词根词缀,随便它们怎么组合,哪怕是个二十个字母的长单词,我也能猜出个大概意思。”

  林允宁笑着点了点头:

  “挺聪明的办法。”

  “那当然,本姑娘……”

  沈知夏还在那边得意地吹嘘着自己的学习方法,但林允宁已经听不见了。

  他的笑容,忽然僵在了脸上。

  一个念头,如同闪电般,毫无征兆地劈进了他的脑海。

  词根……积木……拆解……

  他猛地转过头,看向自己电脑屏幕上那些复杂的化学分子式。

  那个只有13.7%准确率的AI,这半个月来在做什么?

  它在试图通过那三千个分子样本,直接去“理解”药物和蛋白质的结合能。

  这就好比,把一个从来没学过英语的人关进房间,扔给他三千篇莎士比亚的十四行诗,然后让他直接去写一篇满分的文学评论!

  这根本不是在学习,这是在瞎蒙!

  AI根本不懂化学分子的“语言”。

  它不知道苯环(Benzene Ring)是什么,不知道羟基(-OH)代表着亲水,不知道甲基(-CH3)意味着疏水。

  在它眼里,这些分子只是一堆毫无意义的三维坐标点。

  它没有学会“词根”,就被迫去写“文章”。

  “林柠檬?允宁哥?你怎么卡住了?信号不好吗?”

  屏幕那头,沈知夏还在挥着手。

  “夏天,”

  林允宁猛地回过神,眼神亮得吓人,“你真是个天才。”

  “哈?”沈知夏一脸莫名其妙,“我背个单词就是天才了?你逗我呢吧?”

  “我有急事,先挂了!”

  林允宁甚至没来得及解释,直接切断了视频通话。

  他抓起外套,冲出了公寓大门。

  ……

  十分钟后,林允宁气喘吁吁地回到了戈登综合科学中心。

  他没有去管那个失败的“Aether_StruMatch”项目,而是打开浏览器,输入了一个新的网址。

  ZINC数据库。

  这是加州大学旧金山分校维护的一个免费数据库,里面包含了超过七亿种可以商业购买的小分子化合物结构。

  对于之前的他来说,这是一个无用的仓库。

  因为这些数据都没有“标签”——没人知道这些分子能不能治病,也没人知道它们能结合什么蛋白。

  对于传统的监督学习算法来说,没有标签的数据,就是垃圾。

  但现在,在林允宁眼里,这是一座金矿。

  这是一本包含了七亿个词汇的“化学字典”。

  他不需要知道这些分子能不能治病。

  他只需要让AI看着这些分子,去学习化学的“语法”。

  哪怕它不知道这个分子有什么用,但只要它看多了,它就会知道:

  苯环通常是平的,碳原子通常连着四个键,氮原子旁边经常会有氢键受体……

  这叫“自监督学习”。

  在2006年,这还是一个只存在于顶级计算机科学家脑子里的模糊概念,连谷歌都还没开始大规模应用。

  但林允宁在学习机器学习时,在一些文献中读到过。

  他决定赌一把。

  他打开终端,敲下了一行下载命令。

  (命令违规,此处省略……)

  很快,硬盘指示灯开始疯狂闪烁,进度条像蜗牛一样缓慢爬行。

  为了让AI学会“识字”,他需要设计一个特殊的训练任务。

  林允宁新建了一个代码文件,手指在键盘上飞快地敲击。

  他设计了一个类似“完形填空”的游戏。

  他编写了一个预处理程序,随机地把ZINC数据库里那些分子结构的一部分“遮住”(Masking)。

  比如,把一个苯环上的碳原子挖掉,或者把侧链上的氨基抹去。

  然后,他要求AI根据剩下的部分,去“猜”被遮住的是什么。

  如果猜对了,说明AI理解了分子的结构规律;如果猜错了,就通过反向传播算法调整参数,直到猜对为止。

  这是一个不需要人工标注、不需要昂贵实验数据的过程。

  只要有足够多的分子,AI就可以在这个无人监管的“图书馆”里,通过无数次的自我博弈,从一个对化学一无所知的“文盲”,变成一个精通分子语言的“大师”。

  等到它读完了这一亿本书,学会了所有的“词根”和“语法”。

  再把它拉回到那三千个真实的药物数据面前。

  那就是降维打击。

  屏幕上,ZINC数据库的压缩包正在一个接一个地下载完成。

  100MB……500MB……1GB……

  数亿条沉睡的分子数据,如同一条条看不见的河流,顺着网线涌入服务器的硬盘。

  半个小时后,数据下载成功。

  林允宁的训练程序也编写完成。

  他敲下了最后一行代码,按下回车。

  【Pre-training Task: Masked Molecular Modeling (MMM)】

  【Status: Initializing...】

  屏幕上的光标闪烁了一下,然后变成了一个旋转的进度条。

  这是一场漫长的、寂静的蜕变。

  在这个寒冷的冬夜,在没有人注意的角落里,一个刚刚面世的AI,如同初生的婴儿。

  它连话都不会说,却正抱着一本厚厚的字典,开始像那晚的沈知夏一样,一个字、一个字地啃读起来。

  ……

第168章 撕裂与重组(求订阅求月票)

  服务器的风扇在深夜里发出一阵阵低沉的咆哮,像是一头不知疲倦的钢铁巨兽。

  屏幕上,那个没有任何标注的预训练模型正在疯狂地进行着“完形填空”。

  它不知疲倦地将ZINC数据库里那些数以亿计的分子结构拆散,挖掉其中的碳原子、氮原子、氧原子或者某个苯环,然后再根据剩下的残缺部分,试图把被挖掉的东西填回去。

  这是一个枯燥的自我学习过程。

  没有老师,没有答案,它只能在数亿次的试错中,一点点摸索出化学键连接的概率,学习原子之间那种看不见的引力。

  ……

  漫长的圣诞节假期,一直延续到2007年的新年。

  芝加哥大学校园空荡荡的,盖了厚厚一层雪,连松鼠都懒得出来觅食。

  戈登综合科学中心的会议室里,气氛却有些焦灼。

  埃米特·卡特对着白板上那个为了兼容熵增原理而变得臃肿不堪的“弗兰肯斯坦方程”,眉头皱得能夹死一只苍蝇。

  “恕我直言,这太丑陋了,宁。”

  埃米特用手指关节敲着白板,发出笃笃的脆响,“你看这个耗散项,它就像是给一辆法拉利装上了拖拉机的轮子。我们在数学上做了太多妥协,这会让数值模拟的精度大打折扣。”

  “但只有这样,才有做实验的意义。”

  玛利亚在一旁小声辩解,“如果不加耗散,黑洞视界附近的能量密度会无限发散。”

  “发散是因为我们的截断做得不够好!”埃米特坚持己见。

首节 上一节 186/509下一节 尾节 目录txt下载

上一篇:影视:开局从同过窗开始进步!

下一篇:返回列表

推荐阅读