我的金融科技帝国 第384节
其实不止是眼红这么简单,而且是着急脱手退出。
公司被量化资本买下,未来会如何还两说,不确定性太大了,这会儿量化资本大气粗,把股权卖了撤离是最明智的选择。
陈总淡淡地笑道:“呵呵,想得到挺美的,把我量化资本当大冤种?他们想卖给我,可以,就按整体估值10亿美元作价,愿意卖,我们就买了。”
之前开那么高的价格是要闪电式拿下叟狗的控制权,不给滕迅或其它人反应的机会,但如今叟狐已经把持有叟狗的全部股权打包出售给了量化资本,已经对这家公司拥有绝对控制权。
陈宇不会傻到白送钱,若是想集中股权,以后有的是办法。
最关键的是,陈宇判断那些中小股东肯定会卖。
因为量化资本没有做过搜索引擎的经验,买下叟狗之后也没有打算把这家公司保留不变,而是会分拆重组。
在这种情况之下,风控太难做了,投资人一般是不太敢陪着陈宇玩儿。
陈宇本身就是做投资交易起家的,知道资本趋利避害,跑路是大概率,那肯定是拿捏了。
……
第656章 【神经网络深度学习】
一小时后,方鸿再次来到了量化资本总部。
陈宇的助理前来接待他,领着他向着招待室走去,并说道:“方先生,陈总正在技术部开会,您稍等,我去知会他一声。”
方鸿如是说道:“不用,直接带我去他的会议室,我去旁听一下。”
闻言,陈宇的助理拿出手机给他发了个信息,很快陈宇就回消息,这位助理转而看向方鸿微笑道:“方先生,您这边请。”
不一会儿,方鸿便来到了陈宇所在的会议室,在场有三十多号人,看到走进来一个陌生的青年,大家都颇为好奇的打量了一下。
他们发现方鸿跟自己老板陈宇的年龄差不多,但不同的是,他们从方鸿身上感受到了一种在这个年龄阶段所没有的上位者气场,这让大家意识到这个陌生青年不是一般人。
此刻,陈宇看到方鸿与之相视点头致意,后者微微一笑便在会议室里默默地找了个位置坐下旁听。
陈宇收回目光,转而环视一众与会者继续说道:“……对于人工智能的基本实现思路,机器学习的过程,简单的说就是电脑到底是如何自我学习的。”
“因为计算机的一切运算,其基础都是数学运算,所以任何机器学习的思路,归根结底就是把一个实际问题转化为数学问题。为了让计算机能够预测或者识别什么东西,就需要先构造一个数学函数,这个数学函数就叫预测函数。”
一般人可能很难想象,量化资本作为一家多元金融公司,在大多数股民眼里甚至就是一家非银金融投资公司,掌门人也是做投资交易的,却在公司里谈论这些内容。
不过方鸿是很淡定,这其实很正常,华尔街就是汇集了一群顶尖的数学家、物理学家。
此刻,陈宇转而看向会议屏幕道:“比如预测一个吃饱饭的函数,就可以描述成[吃饱=N碗饭],这个预测计算到底准不准?一个人吃几碗饭和吃饱之间的关系有是什么?是吃一碗还是三碗才能吃的饱?”
“这就需要实际去试一下,如果预测是两碗饭吃饱,但实际要吃三碗饭才饱,其中一碗的误差就是损失,描述这个损失的函数即[3-N=1],这就是损失函数。”
“机器学习就是通过不断尝试让这个误差达到最小的过程,寻找损失最小值的方法通常是梯度下降,一旦我们找到了最小误差,就会发现当[N=3]的时候误差最小,也就是机器学习找到了真实的规律,就成功解决问题了。”
陈宇再度看向众人道:“所以,机器学习就是在寻找数据的规律,大部分时候,它的本质就是把数据投射到坐标系里,然后用计算机通过数学方法画一条线区分或者模拟这些数据的过程。”
“不同的机器学习方法,就是在使用不同的数学模型来投射数据和画线,从上世纪到现在,不同的流派找到了不同的方法,擅长于解决不同的问题,影响比较巨大的有这么几种:线性回归和逻辑回归、K近邻、决策树、支持向量机、贝叶斯分类以及感知机等。”
方鸿坐在一边旁听默默不言,他也算是计算机科学领域的半个业内人士,更有前世记忆先知先觉的优势,此刻旁听也是毫无压力。
陈宇他们走的显然就是神经网络这个流派,不过也向前推进了一步,进入到了强化深度学习,而神经网络的前身就是感知机。
这三个名词本质上都是在玩同一个东西。
却说此刻,陈宇缓缓地说道:“深度学习最基本的思想就是模拟大脑神经元的活动方式来构造预测函数和损失函数,既然叫神经网络,必然和人的大脑神经元有一定的关系,单个感知机的算法机制其实就是在模拟大脑神经元的运行机制。”
屏幕上呈现一张大脑神经元的结构图。
“这是一个神经元,大家都知道它的结构,这是树突,这是轴突,其它神经元发过来的信号通过树突进入神经元,再通过轴突发射出去,这就是一个神经元的运行机制。”
“现在我们把神经元的树突变成输入值,把轴突变成一个输出值,于是这个神经元就变成了这样的一张图。把它转化为一个数学公式就更简单了,[X1+X2+X3=Y],就是这个公式。”
“没错,就这么简单。最复杂的事物往往是有最简单的事物创造的,简单的0和1就塑造了庞大的计算机世界,四种核苷酸就空置了纷繁复杂的生命现象,一个简单的神经元反射就塑造了我们的大脑。”
陈宇停顿了一会儿,再度环视众人:“问题的关键不是基本结构有多简单,而是我们如何使用这个基本结构来构建庞大的世界,神经元之所以神奇是因为它有一个激活机制,即所谓的阈值。”
“神经元的每一个树突不断的接受输入信号,但并不是每一个输入信号都能让轴突输出信号,每一个树突在输入时所占的权重也不一样。”
“比如你追求一个妹子,你孜孜不倦地采取各种行动,今天送了她一束花,明天请她吃大餐,但你发现这些行动都打动不了她。直到有一天你陪她逛了一天街,她忽然间就被打动了,答应做你女朋友,这说明什么?”
“说明并不是所有的输入权重都是一样的,在妹子那里可能逛街的权重最大,其次是效果的积累并非是一个线性渐进的过程,而是量变引起质变。”
“所有的输入在某一个点之前完全没效果,可一旦达到某个值就突然被激发了,所以,模仿神经元的这种激活特性,那么对刚才的公式做一下改造。”
“每个输入需要一定的权重,在前面加一个调节权重的系数[W],后面加一个常数方便更好地调整阈值,于是这个函数就变成了这个样子。”
方鸿也看向了会议大屏幕,是一个新的数学公式。
【W1X1+W2X2+W3X3+b=Y】
陈宇看着屏幕里的公式说:“为了实现激活的过程,对输出值再作进一步的处理,增加一个激活函数,比如当X>1时,输出1;当X<1时,输出0,于是就成了这个样子。”
“不过这个函数看起来不够圆润,不是处处可导,因此不好处理,换成Sigmoid函数,这样一个简单的函数就可以处理分类问题了。”
“单个的感知机,其实就是画了一条线,把两种不同的东西分开,单个感知机可以解决线性问题,但是对于线性不可分的问题却无能为力了,那意味着连最简单的异或问题都无法处理。”
异或问题对于在场的所有人包括方鸿都明白,这是计算机的基本运算之一。
这时,陈宇自我反问道:“异或问题处理不了,那岂不是判死刑的节奏?”
陈宇旋即自答:“很简单,直接用核函数升维。感知机之所以能变成现在的深度学习,就是因为它从一层变成了多层,深度学习的深度就是指感知机的层数很多,我们通常把隐藏层超过三层的神经网络就叫深度神经网络,感知机是如何通过加层搞定异或问题的?”
陈宇回头看向屏幕调取下一张幻灯图并说:“计算机有四大基本运算逻辑,与、或、非、异或,这个不用多讲了。如果我们把异或放在一个坐标系来表示就是这样的。”
“原点位置X是0,Y是0,于是取0;X=1时,Y=0,两者不同取1,通力,这儿也是1,而这个位置X、Y都等于1,所以取0,在这张图上如果我们需要吧0和1分开,一条直线是做不到的。”
“怎么办?这就要看异或运算的本质了,数学上来说,异或运算其实一种复合运算,它其实可以通过其它的运算来得到,证明过程太复杂这里就不展开了。”
“如果我们能用感知机先完成括号里的运算,然后再把得出的结果输入到另一个感知机里边进行外面的这层运算,就可以完成疑惑运算了,然后异或问题就这么神奇的解决了,解决问题的同时顺带还解决了线性不可分的问题。”
“这说明什么?说明不管多么复杂的数据,通过加层的方式都可以拟合出合适的曲线将他们分开,而加层就是函数的嵌套,理论上来讲不管多么复杂的问题,我们都可以通过简单的线性函数组合出来,因此,理论上讲,多层的感知机能够成为通用的方法,可以跨领域地解决各类机器学习问题。”
……
第657章 【更简洁、更精准、更舒适】
(Ps:切掉的新书已更新过章节内容不可能放这本,没那么丧心病狂,只是搜索引擎名字引用了“灵境搜索”,因为想了几个名字都觉得没这个合适,现在人工智能和GPT那么热,正好2013年是生物识别技术和神经网络开始爆发的年头,本来AI的剧情就是从本书大纲挪过去,不在本书展开,新书嘎了,那边也还没展开,所以调整回来,但已经更新了的章节内容是绝对不会发第二次。)
——
陈宇说到这里顺手关掉了会议大屏幕的PPT,转而看向众人说:“AI语言大模型的建构,后面的一大工作重点就是数据投喂,底层算法架构虽然不是基于自然语言处理NLP,但毫无疑问也受其影响,接下来的数据投喂首先是把互联网上已有的公开数据截止2012年之前产生的存量数据信息都给我爬一遍,国内国外的都要爬。”
这等于是白嫖全人类千百年来所积累的绝大部分知识。
一位与会的工程师询问道:“每天大约要爬取多少数据量?”
陈宇言简意赅:“5个PB左右。”
5个PB?
众人都是一阵惊愕,5个PB的数据量换算一下就是500多万GB的数据量,互联网巨头谷歌在2008年每天处理的数据量大约是20个PB左右,相当于是其四分之一的数据处理量。
这是一项大工程,而且超级消耗算力资源,换句话说就是烧钱啊,光是网费就要一大笔开支。
陈宇转而说道:“此外,叟狗搜索开发新版本大更新,新版本推出之后更名为灵境搜索,等到用户完全适应习惯了,叟狗搜索这个名字就弃掉。”
新版本上线初期,叟狗搜索的名字还是会保留的,用户若是输入叟狗搜索引擎的时候会跳转显示为灵境搜索,并且要有标记这是改名后的叟狗搜索。
告诉老用户,叟狗还是那个叟狗,名字改了而已。
现在肯定不能直接用灵境搜索这个名字,那会丢掉好多老用户,叟狗这个名字还是需要保持一段时间的,等灵境搜索的知名度和影响力覆盖了叟狗就可以彻底放弃这个名字。
此时此刻,旁听的方鸿翘着个二郎腿一言不发的听着。
陈宇继续道:“对于新版本灵境搜索,简而言之就是,更简洁、更精准、更舒适。灵境GPT成熟的那天便会接入灵境搜索,这是颠覆当代搜索引擎的一大重要倚仗。”
“也许颠覆百渡乃至谷歌的可能不是灵境搜索,但毫无疑问的是,AI技术的进步必然会改变人们访问信息的方式。”
“而我所想象的方式是,浏览器的搜索栏被人AI取代,在我输入时,AI会自动完成我的想法或问题,同时给我提供最佳答案,这个答案可能是一个网站或产品的链接,AI用旧的搜索引擎后端来收集相关信息和连接,然后为我汇总。”
“这种颠覆方式就在于像是让一个专业的研究人员来做这项工作,只不过AI会立刻完成,而人类需要花费数分钟乃至更久才能完成。”
用户自己去搜索内容的时候,还得去筛选、寻找,有时候非常耗时,而如果有AI的帮助就不一样了,直接问AI即可,它马上秒秒钟就给用户提供最佳答案。
想要达到这种效果,那就需要超级庞大的算力资源,以及AI足够“聪明”或者说能够更加精准的理解人类的“语言”才能提供精准的答案。
显而易见,首先就需要让AI把人类千百年来积累的知识都掌握了。
先去把那些数据爬一遍再说,这是能够针对任何用户提出的任何问题并快速给出精准答案的前置条件之一。
此刻,陈宇看着众人说道:“众所周知,搜索广告通过关键词引流,非常精准,转化效果高。但作为搜索广告本身,更依赖于用户自发的搜索行为,导致其覆盖面存在一定的局限性。每月的搜索量虽然有增有减,但一般都是有限的。”
“搜索页面的访问量占总访问量的多少?”陈宇说着便看向其中一位与会的负责人,他是前叟狗的员工,现在已经来到公司总部,听到陈宇询问他立马回答:“占比大约在8~11%左右。”
闻言,陈宇点了下头便接着道:“这就意味着,当你是经营一个冷门产品的时候,或者想要获得更多的广告覆盖的时候,搜索广告可能无法给予太多的帮助,所以我们需要个性化的展示广告。”
“如果说搜索广告是通过用户的搜索行为决定什么广告会出现,那么个性化的展示广告则是‘猜’用户对什么感兴趣就推荐什么广告。”
“个性化推荐需要新技术的支持,除此之外用户画像也很重要,这就需要积累丰富的用户数据,比如用户经常搜索什么、偏好等因子。”
“关于个性化推荐的技术支持后头在说,这里先说说个性化广告展示的位置显示问题。”
“新版本灵境搜索分左右两个部分的词条,左边的词条显示搜索关键词内容,右边显示‘猜’用户喜欢的个性化展示广告,每页最多含有5个广告位,不足5个的则广告将会在每页都展示,超过5个的则按序循环出现。”
现在的那些搜索引擎,体验是真的一言难尽,用户想搜索到自己想找的内容要花费很多时间。
因为强行“猜”你喜欢把展示广告甩你一脸,而且国内的搜索引擎还不标注这是广告,点进去一看才发现是广告。
至于被用户诟病吐槽的竞价排名就不用说了。
新版本的灵境搜索,按照陈宇的要求,搜索广告和展示广告必须分开,左边都是用户自己搜索生产的词条,右边上半部分是“猜”用户喜欢的展示广告内容。
至于右边下半部分留白,暂时没有任何内容,以后在这里新增一个热搜榜。
毫无疑问,减少用户搜索内容的时间成本就是用户体验的提升,同时能够更精准的显示用户要找的内容也是如此,当然这就是核心技术问题了。
除此之外,为了提高用户体验,陈宇也要求对灵境搜索的广告主的广告内容提高限制,摒弃诸多劣质广告,支持优质的广告内容。
这样肯定会少赚很多钱,好多金主就直接没了。
改版后的灵境搜索的盈利能力可能会比原叟狗搜索要大幅下滑。
此刻,与会旁听不语的方鸿不禁自顾自地点头,他猜的没有错,陈宇果然不是一时兴起要做搜索引擎。
陈宇的目光长远,不在乎这点蝇头小利,这一点与方鸿不谋而合,这点小小利润他就更不在乎了。
一个更牛、体验更好的产品赚钱能力绝对不会差,只不过前期需要忍受不赚钱乃至亏钱的局面,这一点量化资本没有问题,陈宇本身就能在资本市场赚到钱。
要是还不够,这不是还有母公司群星资本,坐在旁边一言不发的大BOSS会出手。