学霸的模拟器系统 第186节
视频接通,沈知夏的脸出现在屏幕上,画面有点卡顿,100万像素的摄像头,画质很差,全是噪点。
她那边是UIC的宿舍,背景里挂着那件还没干的运动背心。
“怎么了?一脸苦大仇深的。”
沈知夏正戴着耳机,手里转着一支笔,面前摊着一本翻得卷边的书,看起来比林允宁还痛苦。
“项目不太顺,卡住了。”
林允宁揉了揉眉心,“你呢?圣诞节还在学校看书?”
“别提了,我要转专业去学护理,下学期要修《医学术语学》,全是拉丁文,简直是天书。”
沈知夏把书举到摄像头前晃了晃,上面密密麻麻全是记号笔画的重点。
自从孟筱兰确诊阿尔茨海默症后,沈知夏虽然没明说,但默默地把原本的体育管理辅修课换成了护理预科。
“你看这个,”
她指着书上一个长得吓人的单词,“Cardiomyopathy(心肌病),要是死记硬背,我脑子都要炸了。”
她一边抱怨,一边用笔在纸上熟练地把单词拆开。
“后来老师教了个法子。Cardio是心脏,Myo是肌肉,Pathy是病变。只要记住了这几百个词根词缀,随便它们怎么组合,哪怕是个二十个字母的长单词,我也能猜出个大概意思。”
林允宁笑着点了点头:
“挺聪明的办法。”
“那当然,本姑娘……”
沈知夏还在那边得意地吹嘘着自己的学习方法,但林允宁已经听不见了。
他的笑容,忽然僵在了脸上。
一个念头,如同闪电般,毫无征兆地劈进了他的脑海。
词根……积木……拆解……
他猛地转过头,看向自己电脑屏幕上那些复杂的化学分子式。
那个只有13.7%准确率的AI,这半个月来在做什么?
它在试图通过那三千个分子样本,直接去“理解”药物和蛋白质的结合能。
这就好比,把一个从来没学过英语的人关进房间,扔给他三千篇莎士比亚的十四行诗,然后让他直接去写一篇满分的文学评论!
这根本不是在学习,这是在瞎蒙!
AI根本不懂化学分子的“语言”。
它不知道苯环(Benzene Ring)是什么,不知道羟基(-OH)代表着亲水,不知道甲基(-CH3)意味着疏水。
在它眼里,这些分子只是一堆毫无意义的三维坐标点。
它没有学会“词根”,就被迫去写“文章”。
“林柠檬?允宁哥?你怎么卡住了?信号不好吗?”
屏幕那头,沈知夏还在挥着手。
“夏天,”
林允宁猛地回过神,眼神亮得吓人,“你真是个天才。”
“哈?”沈知夏一脸莫名其妙,“我背个单词就是天才了?你逗我呢吧?”
“我有急事,先挂了!”
林允宁甚至没来得及解释,直接切断了视频通话。
他抓起外套,冲出了公寓大门。
……
十分钟后,林允宁气喘吁吁地回到了戈登综合科学中心。
他没有去管那个失败的“Aether_StruMatch”项目,而是打开浏览器,输入了一个新的网址。
ZINC数据库。
这是加州大学旧金山分校维护的一个免费数据库,里面包含了超过七亿种可以商业购买的小分子化合物结构。
对于之前的他来说,这是一个无用的仓库。
因为这些数据都没有“标签”——没人知道这些分子能不能治病,也没人知道它们能结合什么蛋白。
对于传统的监督学习算法来说,没有标签的数据,就是垃圾。
但现在,在林允宁眼里,这是一座金矿。
这是一本包含了七亿个词汇的“化学字典”。
他不需要知道这些分子能不能治病。
他只需要让AI看着这些分子,去学习化学的“语法”。
哪怕它不知道这个分子有什么用,但只要它看多了,它就会知道:
苯环通常是平的,碳原子通常连着四个键,氮原子旁边经常会有氢键受体……
这叫“自监督学习”。
在2006年,这还是一个只存在于顶级计算机科学家脑子里的模糊概念,连谷歌都还没开始大规模应用。
但林允宁在学习机器学习时,在一些文献中读到过。
他决定赌一把。
他打开终端,敲下了一行下载命令。
(命令违规,此处省略……)
很快,硬盘指示灯开始疯狂闪烁,进度条像蜗牛一样缓慢爬行。
为了让AI学会“识字”,他需要设计一个特殊的训练任务。
林允宁新建了一个代码文件,手指在键盘上飞快地敲击。
他设计了一个类似“完形填空”的游戏。
他编写了一个预处理程序,随机地把ZINC数据库里那些分子结构的一部分“遮住”(Masking)。
比如,把一个苯环上的碳原子挖掉,或者把侧链上的氨基抹去。
然后,他要求AI根据剩下的部分,去“猜”被遮住的是什么。
如果猜对了,说明AI理解了分子的结构规律;如果猜错了,就通过反向传播算法调整参数,直到猜对为止。
这是一个不需要人工标注、不需要昂贵实验数据的过程。
只要有足够多的分子,AI就可以在这个无人监管的“图书馆”里,通过无数次的自我博弈,从一个对化学一无所知的“文盲”,变成一个精通分子语言的“大师”。
等到它读完了这一亿本书,学会了所有的“词根”和“语法”。
再把它拉回到那三千个真实的药物数据面前。
那就是降维打击。
屏幕上,ZINC数据库的压缩包正在一个接一个地下载完成。
100MB……500MB……1GB……
数亿条沉睡的分子数据,如同一条条看不见的河流,顺着网线涌入服务器的硬盘。
半个小时后,数据下载成功。
林允宁的训练程序也编写完成。
他敲下了最后一行代码,按下回车。
【Pre-training Task: Masked Molecular Modeling (MMM)】
【Status: Initializing...】
屏幕上的光标闪烁了一下,然后变成了一个旋转的进度条。
这是一场漫长的、寂静的蜕变。
在这个寒冷的冬夜,在没有人注意的角落里,一个刚刚面世的AI,如同初生的婴儿。
它连话都不会说,却正抱着一本厚厚的字典,开始像那晚的沈知夏一样,一个字、一个字地啃读起来。
……
第168章 撕裂与重组(求订阅求月票)
服务器的风扇在深夜里发出一阵阵低沉的咆哮,像是一头不知疲倦的钢铁巨兽。
屏幕上,那个没有任何标注的预训练模型正在疯狂地进行着“完形填空”。
它不知疲倦地将ZINC数据库里那些数以亿计的分子结构拆散,挖掉其中的碳原子、氮原子、氧原子或者某个苯环,然后再根据剩下的残缺部分,试图把被挖掉的东西填回去。
这是一个枯燥的自我学习过程。
没有老师,没有答案,它只能在数亿次的试错中,一点点摸索出化学键连接的概率,学习原子之间那种看不见的引力。
……
漫长的圣诞节假期,一直延续到2007年的新年。
芝加哥大学校园空荡荡的,盖了厚厚一层雪,连松鼠都懒得出来觅食。
戈登综合科学中心的会议室里,气氛却有些焦灼。
埃米特·卡特对着白板上那个为了兼容熵增原理而变得臃肿不堪的“弗兰肯斯坦方程”,眉头皱得能夹死一只苍蝇。
“恕我直言,这太丑陋了,宁。”
埃米特用手指关节敲着白板,发出笃笃的脆响,“你看这个耗散项,它就像是给一辆法拉利装上了拖拉机的轮子。我们在数学上做了太多妥协,这会让数值模拟的精度大打折扣。”
“但只有这样,才有做实验的意义。”
玛利亚在一旁小声辩解,“如果不加耗散,黑洞视界附近的能量密度会无限发散。”
“发散是因为我们的截断做得不够好!”埃米特坚持己见。
上一篇:影视:开局从同过窗开始进步!
下一篇:返回列表
