第七百三十二章 薛明的粗暴方案-《咸鱼的自救攻略》


    第(2/3)页

    天朝武侠是掉到崖下得到高人传授神功,漫威里是被蜘蛛咬了一口发生变异,训练出来的东西很有可能没法往现有的游戏架构里边套。

    楚垣夕一想也是,欧美小说无论通俗还是正统,就很少有类似的,人家那么多年了就不流行这种意淫式的展开。

    很多ai语意训练项目直接拉网页就能训练,因为输出的成果是不需要特定使用环境的,但游戏不一样,游戏得有感觉,随便训练出来的东西没感觉。《乱世出山》手游的立项就是建立在这种网文感觉上的,所以才能让ai剧情和游戏内容无缝衔接,换一套训练素材的效果,和瞎捷豹翻译的效果到底哪个更糟糕还真不一定。

    所以搞定实时翻译的ai才是最直接的办法,于是问题又回到薛明那。

    然后薛明给了一个针对西方市场的粗暴的解决方案,那就是,不要什么ai实时翻译,把他用来训练ai的几十万本网络小说,统统都翻成英文,然后用英文版本训练。

    这相当于把一个问题拆成两个。其中后一个问题不需要什么新的工作量,而前一个问题,因为是定向解决到英语区国家推广的问题,不用考虑翻译成多国语言,也不用考虑普适性,只需要解决针对《乱世出山》的单一问题,于是变得非常直接。

    这就变成了最简单的机翻小说的问题了,一本几百万字,几十万本,无非就是一万亿字的体量,只要有优秀的翻译算法和配套算力用于翻小说,不是问题!

    问题是没有合适的算法和算力。

    理解自然语意比较常用的模型里,百度的ernie适合汉语任务,而谷歌的bert20虽然汉语英文都可以,但是主要创新点都在预训练上。对于长句语意的理解还行,但对翻译既不友好也不那么准确,特别是完形填空能力比较一般,连百度都不如。

    而薛明要的是翻译小说,比翻译普通文本的要求高很多。bert20的翻译实力翻个普通的文本都勉强,翻小说根本没法用。

    所以还是openai的gpt-2最合适,哪怕是阉割过的gpt-2。
    第(2/3)页