我想制作一个只能理解“上”、“下”、“左”、“右”4个单词的AI机器人。
我的朋友制作了一个 python 脚本,它通过声音执行一些任务,比如打开 youtube,只需说“Youtube”,Chrome 浏览器就会打开 youtube.com URL。但系统很慢,因为他们使用谷歌助手/人工智能来处理语音,这让我感到不耐烦。
然后我想到了如果一个人工智能系统离线,只需要理解几个单词,我们就能得到一些想要的结果,而且速度会超级快。
例如:-我有一辆遥控车,我想进行声控,当我说“向上”时,汽车应该向前移动,类似地“向下”->向后,“向左”->向左和“向右”- > 右&“{任何其他声音}”-> 闪烁 LED 表明系统不理解
所以,请有人帮助我。
我应该如何开始?
我应该如何训练人工智能机器人?
我的要求是什么?
以及其他我应该知道的事情。
谢谢你。
你应该如何开始:阅读;-) 或者我建议学习 coursera 的深度神经网络课程。你的问题非常笼统。
一种临时方法(应该可以解决您的问题)可以是从样本中提取音频频谱,这些样本的长度足以包含您的单词,但不能太长。有了这些信息,你就可以训练卷积神经网络——我会首先尝试一维卷积。
如果你想自己部署它,并希望开发一个 RAG 助手,我建议你看看这篇文章 https://ttml.in/how-to-make-your-own-ai -assistant-with-rag/ 和这个 https://ttml.in/how-to-make-an-ai-chatbot-in-python/