金先生 偷拍 用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源
2016 年,米哈游掏空家底,all in 游戏项目《原神》金先生 偷拍,追寻转型之路。2020 年全开放式冒险游戏《原神》问世激励游戏圈风景级热议,细腻的制作,3A 级的画质,更是让游戏在 2021 年一度登顶 56 国名次榜。
作为一款变装养成类游戏,原神游戏自己照旧照旧比拟肝的,再加上中枢玩法较为简便,游戏后期版块更新缓缓,游戏时辰真切之后部分玩家不免产生败兴,却又“食之无味,弃之可惜”的嗅觉。
秉公王法,语音玩原神在闲着败兴的时候,总有一些大佬的脑回路不同凡响,念念着整点活。这不,b 站硬核整活区 up 主“薛定谔の彩虹猫”就通过 AI 算法完了语音纵容原神,顺利将玩家酿成了神奇宝贝查考家,提倡游戏更名为“精灵宝可梦:原神”。
正太 男同具体斗争后果,让我们一王人瞅瞅底下的动图。
跟着系统教导“在 360 秒内打败 8 只怪物”,4 只火史莱姆来势汹汹。
原神查考家气定神闲喊出了一句“用政策三袭击中间的火史莱姆”,画面内出现像斗争机一样的绿色追踪框。
神里绫华向史莱姆跑去,随后切换钟离发入手段“元素战技・地心”打出 aoe 伤害同期套盾,随后凌华再一次登场,一招“神里流・霰步”,打出成吨元素伤害,在火史莱姆的爆炸中,终端斗争。
作家还预设了不同的政策决策。在搪塞火系幽谷法师的时候。先是一句“袭击中间的火幽谷法师”,变装动手自动寻怪。
来到怪物身前时,执行政策一。迪奥娜以迅雷之速使出“猫爪冰冰”手段打出伤害的同期向后标的移调遣位置及套盾,再之后神里绫华登场,一招霰步欺身向前,打出 combo 伤害。
不外,在演示过程中,我们也发现,政策启动后的变装,其操作洋洋纚纚,相等的丝滑。然则,政策还没启动之前,却有点呆呆的,来自 AI 的仁慈。
那么,这种用嘴打游戏,完了秉公王法,赞助玩家练成三寸之舌的 AI 是如何制作出来的?
三大 AI 器用,打造智能指示系统视频作家“薛定谔の彩虹猫”共享了他的法子。完了 AI 语音玩原神,主要触及到时卑劣行的“XVLM+WeNet+STARK”等三大 AI 主流限制。
看到这里,有的小伙伴可能会示意“说得好,这些字母终止来我都认得,拼在一王人即是我不料志的花样了。”
小伙伴们别懆急额,接下来让我们一王人了解下这三个器用的用处。
在以往,我们要操作游戏变装进行近战的操作逻辑是:1、看到敌方方针。2、锁定方针,向方针变装出动。3、发动袭击。
通过语音完了游戏操作,雷同亦然需要完成上头 3 个要领。让我们一王人拆解一下作家在游戏中的指示,默契这套 AI 的使命流。
如上图所示,看成家说出“用政策三袭击中间的火幽谷法师之后”。让电脑执行了“语音指示识别 —— 图像识别方针 —— 变装行动”这三约莫领,通盘过程有点近似于面向游戏定制了一个语音助手,就像“嘿,Siri,洞开原神”。
第一步:语音指示识别要让竖立听懂我们的指示,我们就需要一个翻译官,将我们说的话转酿成机器大要听得懂的谋略机语言,WeNet 即是我们和机器对话的翻译官。
WeNet 是一个面向坐褥的端到端语音识别器用包,在单个模子中,它引入了结伴的两次 two-pass (U2) 框架和内置运行时来处罚流式和非流式解码模式。其语音识别正确率、实时率和延时性都有着相等出色发达,取得了京东、网易、英伟达、喜马拉雅等公司语音识别项方针弃取。
用 WeNet 识别我们玩原神的语音指示,需要经过“准备查考数据”“索要可选 cmvn 特征”“生成标签令牌字典”“准备 WeNet 数据步地”“神经网格查考”“用查考后的模子识别 wav 文献”“导出模子”等 6 约莫领。
上头的东西用大口语讲即是,准备一些音频文献,同期标注我这些音频文献讲了啥,然后让机器去学习识别这些音频文献并生成标签。上述查考完成以后,以后我们对机器话语,WeNet 就能把我们的话翻译成机器听得懂的话。
第二步:默契语音指示特征有了 WeNet 的助攻之后,我们完了了说出的话让机器听得懂我们说的是啥之后,我们还要让机器将听到的东西跟画面中的东西对应上,这就轮到第二个器用“X-VLM”登场了。
X-VLM 是一种基于视觉语言模子(VLM)的多粒度模子,由图像编码器、文本编码器和跨模态编码器构成,跨模态编码器在视觉特征和语言特征之间进行跨模态堤防,以学习视觉语言对王人。那具体这个器用是咋完了识别对象的呢?
上图展示了 X-VLM 的使命历程。图片左侧为器用视觉成见的编码过程。器用包的图像编码器基于 Vision Transformer 完了,输入的图片会被分红 patch 编码。然后,给出自便一个规模框,天真地通过取框中统共 patch 示意的平均值取得区域的全局示意。接着该全局示意和原来框中统共的 patch 示意按照原来端正整理成序列,作为该规模框所对应的视觉成见的示意。
(字我都意志,连在一王人如何即是我不料志的花样了?)
如何著述看着看着酿成作念阅读显露了,让我们再多看亿眼。
极品熟女代码教程已开源" data-original="https://img.ithome.com/newsuploadfiles/2022/8/068b745f-a772-40c4-bcf3-c42581254f08.jpg" width="740" height="493">
上头这段话的真谛,普遍点讲即是将图片切割成方块,况兼预组合这些方块。比如组合成“一个男东谈主背着背包”的图片,或者组合成“男东谈主背着背包过马路”的图片。
你要作念的即是告诉机器这些组合和笔墨的对应关连,接着让竖立进行机器学习。
通过这么的方式取得图片自己和图片中视觉成见(V1,V2,V3)的编码。与视觉成见对应的文本,则通过文本编码器逐个编码取得,举例图片标题、区域描画、或物体标签。
这一顿操作下来,小编也被绕晕了。这玩意的作用有点像我们的眼睛,当我看到一个“书包”,固然我没见过这个技俩的,但凭证特征索要,我知谈这个东西即是书包,X-VLM 即是这么一个器用。
X-VLM 不错在摄取 WeNet 输出的文本信息后,将图像中关联联的物件索要出来,完了语言与视觉关联联。到这里,我们不错完了让电脑知谈我们说的话指的是图片内部的啥玩意了。
第三步:追踪图像在使用了 X-VLM 和 WeNet 之后,我们班师让竖立听得懂我们说的是啥玩意了,接下来要作念的即是完了“追踪方针”,听起来是不是很酷炫,有种开斗争机辐射追踪导弹的嗅觉~
肯定不年少伙伴们都猜到了,这剩下的终末一个“STARK”即是用于完了图像追踪功能的 AI 器用。
Stark 是最新的 SOTA 追踪模子,模子使用了 transformer 来集结空间信息以实时域信息。
模子包括一个 encoder,decoder 以及 prediction head。其中 encoder 摄取三个输入:现时帧图像,运转方针以及一个动态变化的模板图片。由于模板图片在追踪过程中是动态变化,不断更新的,因此 encoder 不错同期拿获到方针的时域和空间信息。
获取方针信息以后,器用和会过臆测左上与右下角热力求的方式,在每帧图像中得到一个最优的规模框,况兼不错顺利在 GPU 端运行。
简便说即是,在我们通过 X-VLM 细则要追踪的方针以后,Stark 就像钢铁侠 Tony Stark 的追踪系结伴样,会记载对象在静止景色和动描摹态下的花样,处罚分析之后完了追踪动态对象。
那么,讲到这里,我们仍是基本显著这语音玩原神三大技能的旨趣。那变装是如何动起来执行政策的呢?
其实完了变装自动袭击、开释手段这一块,反而是 AI 语音玩原神中最容易完了的一个枢纽。这个功能不错通过宏指示或者代码编程来完了。小编专诚到作家共享的代码文献中瞄了一眼,底下是部分代码的展示。
这一段操作代码使用 python 写的,逻辑也非凡的简便,即是执行一串预设好的按键指示。上头图片展示的应该是对应政策一的操作。其中 key 跟 mouse 背面的数字或者字母对应了切换变装和开释手段。
代码也讲明了为啥变装执行完政策之后就杵在原地怔住,因为莫得了后续的指示和输入。
总的来说,若是有小伙伴念念简便尝鲜一下这个 AI 语音玩原神,不错顺利下载作家共享的代码,运行圭臬即可。你只需将英杰威望及端正遐想成和作家一样,就不错达到作家视频展示的的后果了。
天然,若是小伙伴们念念要玩出我方的项目,也不错顺利改这段操作代码,完了不同的威望及手段开释组合,然跋文着我方改的是哪一套政策就行了。
天然,若是你念念把游戏完成比拟中二的,像底下这么的:
就决定是你了,神里绫华。(切换变装)
围聚敌东谈主之后使用霰步。(开释手段)
勤快你了,绫华,追思吧。(切换变装)
小编也帮你念念好了要改哪些代码,你把对应切换变装的快捷键以及手段键替换到操作代码内部就像了,但同期你还要录一段语音到 WeNet,让它进行学习,知谈你在说啥。(PS:尽可能用一句话作念多点事,因为 AI 执行比拟忙,这亦然为啥作家要用政策一二三的原因)
天然还有至人大佬在视频里给出了其他的提倡。比如加入 SLAM 器用,完了 360° 标的检测,让变装大要在游戏里追踪不同标的的敌东谈主,自走舆图炮了属于是。
眼睛、手势都能玩,AI 玩游戏姿势还有这些除了 ai 语音玩游戏外,b 站还有许多大佬折腾出了别的玩游戏姿势。
【 图片着手:哔哩哔哩 统共者:Jack-Cui 】
Jack-Cui 大佬顺利公正 ai,用一个普通录像头加一台电脑完了体感玩街头霸王。
【 图片着手:哔哩哔哩 统共者:同济子豪兄 】
b 站 up 主同济子豪兄展示的,用 WebGazer.js,完了“目光操控鼠标”,通过目光来玩游戏,顺利即是目光杀东谈主术。
通过 Mediapipe,用手势隔空玩游戏。很有钢铁侠操控面板的嗅觉了!
AI 技能,在不同的场面有着不同的运用。而像语音操控、目光操控这一类技能,顺利的受益东谈主即是一些在糊口中存在肉体颓势的东谈主。
【 图片着手:哔哩哔哩 统共者:情绪推敲师朱铭骏 】
此前便有一位高位截肢的退役消防员小哥在网上共享了他用嘴巴操作手机玩原神的视频,等 AI 语音玩游戏锻练了,他就不错通过语音愈加平缓的在原神的寰宇游玩。
作家在后期也推敲加入“全自动刷本、传送、打怪,领奖励一条龙”的 AI 操作,到时候我们也将看到一个愈加真谛的场景,让我们一王人静瞻念其变。
不懂这些算法的小伙伴们也不必挂念,作家现在仍是将源码共享到了 github 上,小伙伴们前去下载装配之后,凭证我们上头说的,改改操作代码,体验一把语音玩原神。
源代码贯穿:https://github.com/ 7eu7d7 / genshin_voice_play
告白声明:文内含有的对外跳转贯穿(包括不限于超贯穿、二维码、口令等体式),用于传递更多信息,从简甄选时辰金先生 偷拍,拆伙仅供参考,IT之家统共著述均包含本声明。