学霸的模拟器系统 第338节
林允宁看着这一屋子的渔网袜和亮片,无奈地揉了揉太阳穴,尽量让自己的视线避开那些尴尬的位置,专注于工作:
“造型很有创意。但是克莱尔,恐怕你的团建得推迟一下了。”
“What?”
克莱尔发出一声惨叫,“今天是周五!是神圣的Party Night!”
“我知道,我也很不想当那个扫兴的人。”
林允宁叹了口气,扬了扬手里的日志,“但是稀疏注意力的模型训练出问题了。
“代码是跑通了,显存也没爆。但是Loss(损失函数)曲线……它不但没下降,反而在做布朗运动。
“模型好像并没有学会读论文,它好像……疯了。
“咱们折腾了一周的AI,现在是个只会输出乱码的智障。”
克莱尔的脸瞬间垮了下来。
她哀怨地看了一眼还没化完妆的两个小迷妹。
“你们……先自己练练化妆技术……我去去就回。”
程新竹顶着那张阴阳脸,可怜巴巴地点了点头。
……
机房里,冷气森森。
克莱尔裹了一件林允宁备用的卫衣,遮住了那身火辣的吊带裙,但这丝毫掩盖不住她身上的怨气。
“Boss,咱们打个赌。”
她盯着屏幕,“我要是解决了,你得跟我们一起去夜店,并且买单。”
“成交。”
林允宁想也没想,随口答应下来,指了指屏幕。
屏幕上,两人最新搞出的自然语言处理(NLP)模型——Aether Reader 0.1版本的输出窗口正在滚动。
这是个类似问答助手的初代模型,类似后世的ChatGPT,但限于算力和训练参数,功能差了何止十万八千里。
林允宁输入了一个简单的问题:
Query: What is the Heisenberg Uncertainty Principle?(海森堡不确定性原理是什么?)
模型思考了三秒,吐出了一段文字:
Answer: The Heisenberg Uncertainty Principle is [Image 3] available at Acknowledgements: We thank Prof. Smith for coffee. Fig 2 shows the cat is dead.
(答案:海森堡不确定性原理是[图片3]可访问链接...致谢:感谢史密斯教授的咖啡。图2显示猫死了。)
林允宁指着这段胡言乱语,一脸无奈:
“看见了吗?它根本没在读内容。它把图表索引、网页链接、页眉页脚的致谢词,甚至还有这不知道哪来的‘猫死了’全都混在一起了。
“稀疏注意力虽然解决了显存问题,让它能‘吞’下长文章,但它好像消化不良了。”
克莱尔笑了笑,扭过头看着林允宁:
“老板,你从哪里搞来的数据?”
“临时没有合适的分类数据源,我从网上用爬虫批量下载作为测试用的。”
克莱尔拍了拍林允宁的肩膀:
“好了,你输了,今晚准备好跟我们去夜店买单吧。
“这是因为数据太脏了。你用爬虫抓下来的PDF,需要大量的清洗。
“Garbage in,Garbage out,你喂给它的是混着沙子的生米,它能给你煮出饭来才怪。”
林允宁想了想,点了点头,看着克莱尔:
“那按照这个情况,我们需要写正则表达式去过滤页眉页脚?还是人工标注?这至少需要一周的时间。
“今晚先别出去玩了,等搞好了我给你放假……”
“停停停!”
克莱尔猛地抬手,打断了林允宁关于“加班”的可怕设想。
她盯着屏幕上那些乱码,不仅没有沮丧,反而像是松了一口气。
“就这?”
她挑了挑眉,那双画着烟熏妆的眼睛里闪过一丝狡黠,“Boss,你数学是天才,但在这种脏活累活上……你是个弟弟。
“想用正则表达式去洗几万篇排版各异的PDF?那你洗到明年也洗不完。
“有的论文是双栏,有的是单栏,有的公式是图片,有的公式是Latex……正则规则会写死你的。那是上个世纪的做法”
她一边说着,一边从那个镶满水钻的晚宴包里,掏出了一个看起来普普通通的黑色U盘。
“还好,本小姐早有准备。”
克莱尔把U盘插进服务器接口,得意地笑着,那是一种即将要把老板按在地上摩擦的自信:
“为了今晚的Party,我必须拿出我的大杀器了。
“Boss,让开点。让你见识一下,什么是普林斯顿‘懒人’的最高智慧——
“Project Washer(洗衣机计划)。”
她修长的手指悬在回车键上,转头冲林允宁眨了眨眼:
“准备好见证奇迹了吗?”
……
第270章 崩塌的度规(求订阅求月票)
随着克莱尔那根贴满水钻的长指甲狠狠敲在回车键上,黑色的终端窗口瞬间变成了代码的瀑布。
“看好了,Boss。”
克莱尔单手撑在桌子上,另一只手还在摆弄她那夸张的水钻指甲,语气里透着股轻松,“这种PDF文档,如果用正则表达式去洗,那是自寻死路。
“结构太乱了,正则写不完的。
“只有笨蛋才试图教计算机去‘读’排版乱得像垃圾堆一样的PDF。
“聪明人,直接让计算机去‘看’。”
屏幕上弹出了一个可视化的处理界面。
原本那篇版面支离破碎的论文,瞬间被无数个绿色的矩形框覆盖。
“这叫——视觉布局分析(Visual Layout Analysis)。”
克莱尔指着屏幕,语气像是在炫耀自己新买的滑板,“我用SVM(支持向量机)训练了一个简单的二分类器。
“对于计算机视觉来说,正文段落是高维空间里的一团紧密簇,而页眉、页脚、侧边栏广告、致谢词……它们在几何特征上全是异类。”
“只要找到那个超平面(Hyperplane)。”
她打了个响指,“一刀切下去,垃圾全在界外。”
屏幕上,红色的“删除”指令如雨点般落下。
几万篇PDF文档像是在经历一场精密的外科手术,所有的赘肉被精准剔除。
只剩下最核心、最干净的文本流,源源不断地喂入那个原本消化不良的模型。
几分钟之后。
一直像心电图一样乱跳的Loss(损失)曲线,像是被一只看不见的大手狠狠按了一下,瞬间调头向下,画出了一条令人极度舒适的收敛弧线。
Loss: 2.4 -> 1.8 -> 0.9...
林允宁盯着那条曲线,端着咖啡的手停在半空。
避开语义泥潭,直接用计算机视觉(CV)的方法解决自然语言处理(NLP)的数据清洗问题。
典型的跨界打击。
“视觉特征分类……直接从排版几何规律入手。”
他放下杯子,转头看向克莱尔,满意地点了点头,“这就是你们普林斯顿所谓的‘懒人智慧’?确实比我想象的高效。”
“那当然,在普林斯顿,想偷懒也是门技术活。”
克莱尔一把合上笔记本电脑,冲着林允宁摊开手掌,笑得像只偷腥的猫:
“Loss降下去了,数据洗干净了。林老板,愿赌服输?”
“服什么输?我打什么赌了?”
林允宁还在思考SVM的核函数选择问题,下意识反问。
克莱尔眼一瞪:
“你刚才答应的!我要是解决了数据清洗的问题,今晚全场的消费由林公子买单!”
林允宁揉了揉太阳穴。好像是有这么回事。
“行,买单就买单。”
他揉了揉太阳穴,无奈地叹了口气,拿出车钥匙,“不过先说好,我只负责买单,不负责跳舞。
“还有,你拍照的时候,不许把我在夜店这事儿发到脸书上面!我可不想被赵老他们看见了,骂我在美国不务正业。”
“Deal!(成交!)”
克莱尔阴谋得逞,得意地打了个响指,然后迅速从技术大拿切换回了派对女王的模式。
她拉着林允宁跑回茶水间,看了一眼还没化完妆的程新竹,一把抄起化妆包,将手中的车钥匙扔给方佩妮:
“Penny,去把车开到楼下!新竹,坐好,给我三分钟,本小姐这就把你那半张脸补全!今晚咱们不醉不归!”
“啊?真的要去啊?”
程新竹顶着那张阴阳脸,弱弱地问。
“必须去!Boss买单,这种薅资本主义羊毛的机会怎么能错过?”
上一篇:影视:开局从同过窗开始进步!
下一篇:返回列表
