风君子博客

  • 首页
  • 业界
  • 前端
  • 运维
  • 建站
  • 软件
  • 生活
  • 后端
  • 创投
  • 运营
  • 程序人生
    • 影视
    • 游戏
    • 句子
    • bootstrap4教程
    • 资源
    • 日期计算器
  • 其他
    • 说说
    • 关于本站
  1. 首页
  2. 业界
  3. 正文

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源

2022年8月5日 30点热度 0人点赞 0条评论

2016 年,米哈游掏空家底,all in 游戏项目《原神》,追寻转型之路。2020 年全开放式冒险游戏《原神》问世引发游戏圈现象级热议,精美的制作,3A 级的画质,更是让游戏在 2021 年一度登顶 56 国排行榜。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

作为一款角色养成类游戏,原神游戏本身还是还是比较肝的,再加上核心玩法较为简单,游戏后期版本更新缓慢,游戏时间久了之后部分玩家难免产生无聊,却又“食之无味,弃之可惜”的感觉。

言出法随,语音玩原神

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

在闲着无聊的时候,总有一些大佬的脑回路与众不同,想着整点活。这不,b 站硬核整活区 up 主“薛定谔の彩虹猫”就通过 AI 算法实现语音控制原神,直接将玩家变成了神奇宝贝训练家,建议游戏改名为“精灵宝可梦:原神”。

具体战斗效果,让我们一起瞅瞅下面的动图。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

随着系统提示“在 360 秒内击败 8 只怪物”,4 只火史莱姆来势汹汹。

原神训练家气定神闲喊出了一句“用战术三攻击中间的火史莱姆”,画面内出现像战斗机一样的绿色追踪框。

神里绫华向史莱姆跑去,随后切换钟离发动技能“元素战技・地心”打出 aoe 伤害同时套盾,随后凌华再一次登场,一招“神里流・霰步”,打出成吨元素伤害,在火史莱姆的爆炸中,结束战斗。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

作者还预设了不同的战术方案。在应对火系深渊法师的时候。先是一句“攻击中间的火深渊法师”,角色开始自动寻怪。

来到怪物身前时,执行战术一。迪奥娜以迅雷之速使出“猫爪冰冰”技能打出伤害的同时向后方位移调整位置及套盾,再之后神里绫华登场,一招霰步欺身上前,打出 combo 伤害。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

不过,在演示过程中,我们也发现,战术启动后的角色,其操作行云流水,非常的丝滑。但是,战术还没启动之前,却有点呆呆的,来自 AI 的仁慈。

那么,这种用嘴打游戏,实现言出法随,辅助玩家练就三寸不烂之舌的 AI 是怎样制作出来的?

三大 AI 工具,打造智能指令系统

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

视频作者“薛定谔の彩虹猫”分享了他的方法。实现 AI 语音玩原神,主要涉及到时下流行的“XVLM+WeNet+STARK”等三大 AI 主流领域。

看到这里,有的小伙伴可能会表示“说得好,这些字母拆开来我都认得,拼在一起就是我不认识的样子了。”

小伙伴们别着急额,接下来让我们一起了解下这三个工具的用处。

在以往,我们要操作游戏角色进行近战的操作逻辑是:1、看到敌方目标。2、锁定目标,向目标角色移动。3、发动攻击。

通过语音实现游戏操作,同样也是需要完成上面 3 个步骤。让我们一起拆解一下作者在游戏中的指令,解析这套 AI 的工作流。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

如上图所示,当作者说出“用战术三攻击中间的火深渊法师之后”。让电脑执行了“语音指令识别 —— 图像识别目标 —— 角色行动”这三大步骤,整个过程有点类似于面向游戏定制了一个语音助手,就像“嘿,Siri,打开原神”。

第一步:语音指令识别

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

要让设备听懂我们的指令,我们就需要一个翻译官,将我们说的话转变成机器能够听得懂的计算机语言,WeNet 就是我们和机器对话的翻译官。

WeNet 是一个面向生产的端到端语音识别工具包,在单个模型中,它引入了统一的两次 two-pass (U2) 框架和内置运行时来处理流式和非流式解码模式。其语音识别正确率、实时率和延时性都有着非常出色表现,获得了京东、网易、英伟达、喜马拉雅等公司语音识别项目的采用。

用 WeNet 识别咱们玩原神的语音指令,需要经过“准备训练数据”“提取可选 cmvn 特征”“生成标签令牌字典”“准备 WeNet 数据格式”“神经网格训练”“用训练后的模型识别 wav 文件”“导出模型”等 6 大步骤。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

上面的东西用大白话讲就是,准备一些音频文件,同时标注我这些音频文件讲了啥,然后让机器去学习识别这些音频文件并生成标签。上述训练完成以后,以后我们对机器说话,WeNet 就能把我们的话翻译成机器听得懂的话。

第二步:解析语音指令特征

有了 WeNet 的助攻之后,我们实现了说出的话让机器听得懂我们说的是啥之后,我们还要让机器将听到的东西跟画面中的东西对应上,这就轮到第二个工具“X-VLM”登场了。

X-VLM 是一种基于视觉语言模型(VLM)的多粒度模型,由图像编码器、文本编码器和跨模态编码器组成,跨模态编码器在视觉特征和语言特征之间进行跨模态注意,以学习视觉语言对齐。那具体这个工具是咋实现识别对象的呢?

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

上图展示了 X-VLM 的工作流程。图片左侧为工具视觉概念的编码过程。工具包的图像编码器基于 Vision Transformer 实现,输入的图片会被分成 patch 编码。然后,给出任意一个边界框,灵活地通过取框中所有 patch 表示的平均值获得区域的全局表示。接着该全局表示和原本框中所有的 patch 表示按照原本顺序整理成序列,作为该边界框所对应的视觉概念的表示。

(字我都认识,连在一起怎么就是我不认识的样子了?)

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

怎么文章看着看着变成做阅读理解了,让我们再多看亿眼。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

上面这段话的意思,通俗点讲就是将图片切割成方块,并且预组合这些方块。比如组合成“一个男人背着背包”的图片,或者组合成“男人背着背包过马路”的图片。

你要做的就是告诉机器这些组合和文字的对应关系,接着让设备进行机器学习。

通过这样的方式获得图片本身和图片中视觉概念(V1,V2,V3)的编码。与视觉概念对应的文本,则通过文本编码器一一编码获得,例如图片标题、区域描述、或物体标签。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

这一顿操作下来,小编也被绕晕了。这玩意的作用有点像我们的眼睛,当我看到一个“书包”,虽然我没见过这个款式的,但根据特征提取,我知道这个东西就是书包,X-VLM 就是这样一个工具。

X-VLM 可以在接收 WeNet 输出的文本信息后,将图像中相关联的物件提取出来,实现语言与视觉相关联。到这里,我们可以实现让电脑知道我们说的话指的是图片里面的啥玩意了。

第三步:追踪图像

在使用了 X-VLM 和 WeNet 之后,我们成功让设备听得懂咱们说的是啥玩意了,接下来要做的就是实现“追踪目标”,听起来是不是很酷炫,有种开战斗机发射追踪导弹的感觉~

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

相信不少小伙伴们都猜到了,这剩下的最后一个“STARK”就是用于实现图像追踪功能的 AI 工具。

Stark 是最新的 SOTA 跟踪模型,模型使用了 transformer 来结合空间信息以及时域信息。

模型包括一个 encoder,decoder 以及 prediction head。其中 encoder 接收三个输入:当前帧图像,初始目标以及一个动态变化的模板图片。由于模板图片在追踪过程中是动态变化,不断更新的,因此 encoder 可以同时捕获到目标的时域和空间信息。

获取目标信息以后,工具会通过预测左上与右下角热力图的方式,在每帧图像中得到一个最优的边界框,并且可以直接在 GPU 端运行。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

简单说就是,在我们通过 X-VLM 确定要追踪的目标以后,Stark 就像钢铁侠 Tony Stark 的追踪系统一样,会记录对象在静止状态和动态状态下的样子,处理分析之后实现追踪动态对象。

那么,讲到这里,我们已经基本明白这语音玩原神三大技术的原理。那角色是怎么动起来执行战术的呢?

其实实现角色自动攻击、释放技能这一块,反而是 AI 语音玩原神中最容易实现的一个环节。这个功能可以通过宏指令或者代码编程来实现。小编特意到作者分享的代码文件中瞄了一眼,下面是部分代码的展示。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

这一段操作代码使用 python 写的,逻辑也相当的简单,就是执行一串预设好的按键指令。上面图片展示的应该是对应战术一的操作。其中 key 跟 mouse 后面的数字或者字母对应了切换角色和释放技能。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

代码也解释了为啥角色执行完战术之后就杵在原地发呆,因为没有了后续的指令和输入。

总的来说,如果有小伙伴想简单尝鲜一下这个 AI 语音玩原神,可以直接下载作者分享的代码,运行程序即可。你只需将英雄阵容及顺序设计成和作者一样,就可以达到作者视频展示的的效果了。

当然,如果小伙伴们想要玩出自己的花样,也可以直接改这段操作代码,实现不同的阵容及技能释放组合,然后记住自己改的是哪一套战术就行了。

当然,如果你想把游戏完成比较中二的,像下面这样的:

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

就决定是你了,神里绫华。(切换角色)

靠近敌人之后使用霰步。(释放技能)

辛苦你了,绫华,回来吧。(切换角色)

小编也帮你想好了要改哪些代码,你把对应切换角色的快捷键以及技能键替换到操作代码里面就像了,但同时你还要录一段语音到 WeNet,让它进行学习,知道你在说啥。(PS:尽可能用一句话做多点事,因为 AI 执行比较忙,这也是为啥作者要用战术一二三的原因)

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

当然还有神仙大佬在视频里给出了其他的建议。比如加入 SLAM 工具,实现 360° 方位检测,让角色能够在游戏里追踪不同方位的敌人,自走地图炮了属于是。

眼睛、手势都能玩,AI 玩游戏姿势还有这些

除了 ai 语音玩游戏外,b 站还有很多大佬折腾出了别的玩游戏姿势。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

【 图片来源:哔哩哔哩  所有者:Jack-Cui 】

Jack-Cui 大佬直接自制 ai,用一个普通摄像头加一台电脑实现体感玩街头霸王。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

【 图片来源:哔哩哔哩  所有者:同济子豪兄 】

b 站 up 主同济子豪兄展示的,用 WebGazer.js,实现“眼神操控鼠标”,通过眼神来玩游戏,直接就是眼神杀人术。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

通过 Mediapipe,用手势隔空玩游戏。很有钢铁侠操控面板的感觉了!

AI 技术,在不同的场合有着不同的应用。而像语音操控、眼神操控这一类技术,直接的受益人就是一些在生活中存在身体缺陷的人。

用 AI 声控玩原神,动动嘴皮即可打怪,代码教程已开源-风君子博客

【 图片来源:哔哩哔哩  所有者:心理咨询师朱铭骏 】

此前便有一位高位截肢的退役消防员小哥在网上分享了他用嘴巴操作手机玩原神的视频,等 AI 语音玩游戏成熟了,他就可以通过语音更加轻松的在原神的世界游玩。

作者在后期也打算加入“全自动刷本、传送、打怪,领奖励一条龙”的 AI 操作,到时候我们也将看到一个更加有趣的场景,让我们一起拭目以待。

不懂这些算法的小伙伴们也不用担心,作者目前已经将源码分享到了 github 上,小伙伴们前往下载安装之后,根据咱们上面说的,改改操作代码,体验一把语音玩原神。

源代码链接:https://github.com/ 7eu7d7 / genshin_voice_play

标签: AI 人工智能 原神
最后更新:2022年8月5日

风君子

独自遨游何稽首 揭天掀地慰生平

点赞
< 上一篇
下一篇 >

猜你喜欢

  • 须弥地区即将到来,《原神》3.0 版本 8 月 24 日正式上线

  • AI 或能拯救消防员,研究团队开发出可提前 30 秒预测闪燃的预测神经模型

  • 东北地区首个接入中国算力网络节点,沈阳人工智能计算中心正式上线

  • 米哈游投资或达 5 亿美元,《原神》将成有史以来成本最高游戏

  • 美国法院裁定:人工智能系统的创造不能获得发明专利,因为它们不是人类

  • GPT-3 组合 DALL・E,60 秒内搞定游戏设定和原型动画!网友看后:这游戏想玩

  • 南京江北、南农大与华为签约昇腾AI智慧育种科研合作项目

  • 三星实验室推出 MegaPortraits AI 换脸工具,可让蒙娜丽莎“动”起来

  • 迈塔星启动万名虚拟人星计划 四大赋能助力商业化

  • 《原神》宣传图遭侵权,米哈游诉三七互娱旗下公司侵权获赔 3 万元

  • 报告:想学 AI 的学生数量已涨 200%,老师都不够用了

  • AI 篮球裁判火了,走步算得特别准,就问哈登慌不慌

文章评论

取消回复

风君子

独自遨游何稽首 揭天掀地慰生平

最新 热点 随机
最新 热点 随机
加加食品:收回部分本金和投资收益1513.79万元 免单造成西单交通拥堵 滴滴取消周日免单活动 PC销售热潮已退 英伟达、英特尔、AMD等芯片巨头集体萎靡 广发DIY卡怎么激活?五种方式快速激活 代办工行万事达黑白菜白金信用卡可靠吗? 信用卡对比:广发one卡和真情卡哪个好? 2018花呗提额任务在哪?花呗怎么提额? 广发DIY信用卡积分有效期多久?如何查询积分? 浦发东航联名白金卡申请条件:商旅达人办卡必备条件 农行信用币怎么提现?有什么方法?
谷歌 Chrome OS 正式更名为 ChromeOS 品牌信用卡审核久是不是代表通过不了 这可不一定工行孩子王baby年费可以免吗?得看你消费能力够不够信用卡透支额度是什么 要怎么计算工行星级评定标准 这些知识你必须掌握统信 UOS 宣布成为国内首个 50 万 + 操作系统生态适配组合索尼宣布《如龙》系列 8 款游戏将于今年年内加入 PS+ 会员游戏库建行龙卡喜马拉雅fm信用卡制卡要多久?阿里云盘 iOS 版 3.9.0 更新:新增共享相簿,新版传图识字,iPad 支持扫码登录联想晒拯救者 Y70 手机背面照:7.99mm 轻薄机身,CNC 金属中框
国内首条!江苏建成支持无人驾驶未来高速 苹果 Apple TV + 将蓝光发行原创影片《On The Rocks》 消息称华为将于 11 月 17 日举行新品发布会,有望推出新 PC、智能手表、口红耳机等产品 一加 9 系列 OxygenOS 12 系统推送暂停,修复好 Bug 之后再上线 缺货涨价致安防设备商 Q3 业绩集体下滑,芯片企业却受益翻倍增长 字节跳动与关联的上市公司 百度推 “高考放心搜计划”:识别 “野鸡大学”,高考直播,智能估分 南大光电:公司 ArF 光刻胶产品已通过存储芯片 / 逻辑芯片制造企业验证 与你有关,除了养老金上涨,今年下半年我国社保还会有4大变化 研究人员培育出转基因生菜,或在火星之旅中保护宇航员骨骼
标签聚合
美国 利息 马斯克 借款人 股票 芯片 投资理财 支付宝 腾讯 IT资讯 iphone 银行卡 信用卡 华为 京东 特斯拉 苹果 汽车 理财知识 小米 科技 手机 银行 快科技 微软 额度 三星 贷款 秘籍 电动汽车
注意事项 病虫 办法 品种 常见 水培 新买 家庭 处理 怎么 作文 什么时候 家里 回事 阳台 大全 原因 作用 什么 冬天 叶子发黄 防治 区别 适合 发黄 盆景 吊兰 虫害 有哪些 开花 栀子花 养花 植物 老舍 时间 君子兰 治方 图片 功效 绿萝 叶子 兰花 肥料 室内 怎么办 盆栽 烂根 方法 多久 花语
Tags
酒 胡萝卜 食物 私房菜 有什么好处 水果 能吃 鸡蛋 身体 会胖吗 副作用 吃什么 相克 好处 饮食 作用 土豆食谱 方法 牛肉 豆腐 糖 热量 茄子 好吃 营养 皮肤过敏 区别 菜谱 牛肉食谱 功效 怎么做 营养价值 豆腐食谱 维生素 土豆 热菜 食用方法 常吃 健康 排骨 汤类 高血压 牛奶 糖尿病人 做法 吃法 下饭菜 海鲜 一起吃 排骨食谱
最近评论
youyou 发布于 2 周前(07月30日) 站长,文章底部相关文章使用的是哪款插件,方便提供下吗,可发邮箱,谢谢!
youyou 发布于 2 周前(07月30日) 你好,咨询下你的文章后面的相关文章采用的是哪个插件,谢谢!
www 发布于 4 周前(07月19日) 听!我知道你们不会相信这一点,但我得到了这个 Minecraft 升级代码并且它被赎回了!你也可以从...
鲜盖 发布于 2 个月前(06月24日) 感谢你的博客页!完美解决了困扰我的滚动条问题!
仍搜 发布于 2 个月前(06月07日) 你好换个友情链接吧
九九 发布于 3 个月前(05月06日) 也可能是 IP2LOCATION 数据
风君子 发布于 8 个月前(12月20日) 直播这么赚钱的吗?
wanif 发布于 8 个月前(12月18日) 采用你提供的pe制作u盘后无法识别mac硬盘,如何解决?
robotunl 发布于 8 个月前(12月18日) 可以用了,感谢
robotunl 发布于 8 个月前(12月17日) DISM++链接下不了了啊,能再发一个么。 还有怎么制作和博主一样的PE u盘。

COPYRIGHT © 2022 风君子博客 ALL RIGHTS RESERVED.

豫ICP备14018241号