315中文网 通过搜索各大小说站为您自动抓取各类小说的最快更新供您阅读!

就像诺奖级成果不一定真的能获得诺奖一样。

就算林灰在生成式文本摘要方面鼓捣出的东西对于这个时空能称得上是博士级甚至更高级别的成果。

但想藉此一步到位获得博士毕业论文也是很有难度的。

毕竟此前林灰搞得学术内容其主要呈现形式都是围绕着生成式文本摘要这样一个算法专利的。

这个时空西方对于专利形式的学术成果更倾向于将之视作偏向于实践的东西,亦即工程上的成果。

而仅仅依靠工程方面的成果想要一步到位弄到博士方面的成果是很麻烦的。

虽然涉及到生成式文本摘要在学术上的收益这个稍微低于林灰的预期,不过问题不大。

林灰觉得学术上步子太大也不完全是好事情。)

既然短时间不搬运生成式对抗网路。

那刚才关于生成式对抗网路的思考岂不是等同于白白浪费脑细胞?

当然不是。

很多时候思维大概就是在一些漫不经心的思考中获得新的启发的。

关于生成式对抗网路这方面的思考,林灰突然意识到他还有一笔巨额的隐形财富。

那就是前世的人工标注数据。

虽然没太认真翻看前世一同携带来的信息。

但人工标注的数据林灰不可能是没有的。

尤其是前世那些企业级硬盘里面绝对不可能没有人工标注数据。

就算没啥图像的人工标注,涉及到一些文本的人工标注,绝对是不可能少了的。

毕竟这种东西相当实用,而且文本标注其实也不是很占地方。

要知道涉及到神经网路学习训练或者说深度学习训练在模型构建的时候可是需要大量的人工标注数据的。

尤其是监督学习和半监督学习更是需要大量的人工标注数据。

通常一个模型在架构的时候需要很多的人工标注的数据。

在调整的时候也需要很多的人工标注数据。

举这样一个例子:

在图象识别里面,经常我们可能需要上百万的人工标注的数据,

在语音识别里面,我们可能需要成千上万小时的人工标注的数据。

涉及到机器翻译更是需要数千万语句标注数据。

说实话作为一个来自前世往后几年的技术人员。

此前涉及到人工标注数据的价值林灰还真没太当回事。

但现在看来,这玩意的价值此前明显被林灰忽视了。

林灰记得在前世2017年看到的一组数据说得是涉及到人工翻译的话。

一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词。

如果需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

可以看到数据标注的费用是非常非常高的。

而这仅仅是2017年的数据标注成本。

在现在的话标注成本岂不是意味着更高的数据标注费用?

要知道现在几乎不怎么注重无监督学习。

在无监督学习方面更是几乎没啥可堪一用的模型。

在主流的机器学习依旧是靠监督学习和半监督学习。

而举凡是监督学习和半监督学习基本就离不开人工标注的数据。

以这个角度来衡量的话林灰所拥有的一大批现成的人工标注数据岂不是一笔巨额的隐形财富?

如果说在前世2017年,1000万条双语数据标注就要耗资两千多万美元。

那么在机器学习整体比较滞后的这个时空的2014年。

同样的1000万条双语数据标注需要多少钱呢?

林灰觉得1000万条双语标注数据怎么着也得要个两三亿美元啊。

“两三亿美元”这个数据似乎有点吓人。

但其实也不夸张。

之所以说不夸张有两方面的原因:

一、即便是在前世,数据标注也是在对偶学习之类的特殊学习技巧问世后成本才大幅下降。

而在此之前,涉及到数据标注从来就跟“便宜”两个字不沾边。

同样拿此前林灰所列出的例子作为援引:

在前世2017年1000万条双语互译标注的成本约为2200万美元;

注意这仅仅是双语互译的标注。

“双语互译”只是某两种语言之间的互译标注。

只是两种语言之间的互译标注就需要两千多万美元?

那涉及到上百种语言的互译需要多少钱呢?

这个问题并不复杂,简单的排列组合问题:

c(100,2)== 4950; 4950*0.22亿美元==1089亿美元;

不难看出若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。

而这仅仅是理想情况下的估算,如果真要按部就班进行这样的标注实际成本远不止于此。

毕竟很多小语种之间的互译成本显然相比于主流语言之间的互译价格还要更高。

虽然实际操作中不会真的有大怨种按部就班进行上百种语言互译的数据标注。

但这个估算也充分说明了数据标注在相当长的一段时间内都很昂贵。

同样的道理,在现在这个时空数据标注方面的成本也依然是昂贵的。

而且因为这个时空机器学习方面研究进展的滞后,现在涉及到数据标注这方面的成本甚至还要高于前世同一时期的。

二、时代是在飞速发展的,要知道现在随便一个文体店就能很方便买到的科学计算器其实际效率、可靠程度、易用性甚至可以全方位吊打上个世纪五六十年代花费上千万美元搞出来的占地几百甚至是上千平方米的计算机。

这种情况下后世很便宜的计算器拿到几十年前纵然是要价上百万美元同样是有市场的,而且可能还会相当有竞争力。

举这个例子并不是说林灰要再往前几十年去卖计算器。

林灰只是想藉此说明时代的车轮是向前的,科技也是在飞快发展的。

尤其是在中后互联网时代,科技的发展说是日新月异也丝毫不为过。

在这种情况下,往后几年一些不怎么被人过分重视的技术在几年前能够换取大额的财富是很正常的。

更何况还是利用数据标注这个相当长一段历史时期内都只能是土豪公司才玩得转的东西去换取财富?

315中文网推荐阅读:我老姐实在太有钱了一不小心嫁冤家重生学神有系统娇妻凶猛重生之我真没想当大佬啊特级诡兵焚烟散古代的温馨小日子镇国战神我被男神克死后赘婿出山豪门大少的私宠妻穿越之喜当红娘老婆你说实话,孩子到底是谁的?后海有家酒吧悍夫难驯之相公管的有点宽重生八零:战神老公,生娃吧!妙贞不可言四合院:离谱!我竟然有无限肉吃花开春暖我的26岁总裁妻子柯南之我真不是东京怪谈蚀骨赔心,首席深爱如归暖婚蜜恋在八零假少爷被赶回农村,开启逆袭人生!传奇垂钓:开局钓起十斤大鱼开局获得剪纸术情痒女施主请留步带着仙葫开农场人在海贼,召唤美漫天神诀金玉良缘之肖少霸爱无极异界游相宝2:秘物侯爷淡定点顶级强者都市之神帝驾到田园小当家重生异界觉醒灌江口二郎真君杨戬死人经来自亿万光年的男人都市最强神龙扮乖天庭典狱长巨星夫妻都市之至尊狂少窥春情影帝总是贪恋我的美貌重生九零全能学霸
315中文网搜藏榜:都市之归去修仙稼穑人生最强小村医重生八零之军少小萌妻同路人,平凡十年御灵:天使女仆总想把我养成废人被暴君强宠的金丝雀翅膀硬了四合院:我何雨柱,送贾张氏坐牢穿到八零后我成了锦鲤末日?宅舞冒险出道即是巅峰1979全民:开局觉醒sss级召唤天赋我为猎手重生八零:肥妞翻身记逆习大老婆不负荣光,不负你盛婚甜宠:先生,早上好变身:武道女帝惯着他治愈他娇妻得宠:盛少别乱来柳条兄弟之兄弟故事会王妃又又又去除妖了恋爱后,学霸她成了撒娇精随机职业体验,满级人类震惊网友重生之我是神君万亿打赏金,我在抖音称王!豪门权少密爱成瘾绝色总裁的贴身高手返穿你与流年皆不在重回1998当富翁奉旨抢亲,纨绔太子喜当娘多子多福,我打造三千校花女团!团宠大佬你马甲掉了超品战兵红颜三千特种兵王在都市极品透视妖孽狱神归来对首席大人的攻略争夺战浅浅系统:至高无上话语权重回八零小辣妻法庭索赔1400万,你疯了?长路漫漫只为你刚穿越的我被直播开棺写日记也能无敌四合院:重生火红年代四番队的三席都市之逆天大反派
315中文网最新小说:重回八零:谁说女儿都是赔钱货?神医归来:十个女囚为我杀疯了!年代:重生1958神级选择:我的奖励不对劲!被分手后,我反手契约白虎校花!全喵界都在等我破产我!系统!懂?!娱乐:心动爆词条,姐你太主动了高武:替兄从军后,功劳全归他?改命来财医宝双修之我是大魔王锈色的时光乱世,在尘埃中崛起列克星敦号舰队指挥官孤鹰惊世契约老婆竟是冰山神医重生悍匪之快意恩仇前女友母亲怀上双胞胎,她急哭了枕中二十一克夏风微微,一个让人改变的夏天亮剑:背靠未来,打造最强中械师进部的人混娱乐圈是选手也是裁判剑逆乾坤重回2010,从拒绝白月光开始重生七零,我要帮父亲鸣冤昭雪让你出狱娶妻,你跑去沾花惹草?F1:开局车王教我开赛车活在民国当顺民特种兵王:我的核弹级保镖日常都市异能之凌霄传奇权力巅峰:从中医开始问鼎青云重生97:还当舔狗?世界首富不香吗!矿泉水换黄金:红五星助我暴富!校花绯闻不断,直到我也成了渣男全家被灭门,八年后王者归来重生1988:逆袭人生从宠妻开始星域巨变,全民开荒,先容我发育修真大佬的都市生活F级天赋弱?我一级一个神级技能!开局女神拉我领证,激活奖励系统文娱:霸榜多年无人知,我出道即顶流你个笨蛋!我等了你十九年啊亿亿身家,从复制海鲜开始人在工地,开局发明常温超导体!全球高武,我一个F级异能杀疯了高武:替弟从军,归来问我要军职?天才邪医都市全能霸主死党变身后,我练刀的手抖了三千年情缘