在扫地机器人风靡寻常百姓千万家之后,一款名叫TidyBot的机器人走入了人们的视野,开启了家政服务全新的人工智能时代。TidyBot是由普林斯顿大学、斯坦福大学和谷歌的一组研究人员,共同研发的一款能听懂英语指令并执行家务的机器人。基于OpenAI 的 GPT-3 Davinci 模型,TidyBot可以根据用户的喜好,自动完成如分类洗衣服、收拾玩具和垃圾等家政服务任务。
OpenAI 的GPT-3 Davinci模型是一种深度学习模型,属于GPT 模型系列的一部分,可以理解和生成自然语言。所谓深度学习模型,是指一类机器学习模型,其基本原理是通过多层神经网络进行特征提取和学习。深度学习模型的特点是可以从大量数据中自动学习表示,并通过反向传播算法进行端到端的训练。
而作为大型语言模型,GPT具有强大的总结能力。该能力与个性化机器人的泛化需求恰好匹配;同时通过大量的文本数据学习复杂的对象属性和关系。
大型语言模型的优势
经过不断的研究训练和改进,大型语言模型已经展现出了巨大的应用潜力。在自然语言处理领域,大型语言模型可以用于机器翻译、文本摘要、情感分析等任务,大大提高了自然语言处理的效果。在智能助手和虚拟人物领域,大型语言模型可以模拟人类对话,与用户进行交互,并提供智能化的服务。在教育、医疗、金融等行业,大型语言模型也有广泛的应用,可以辅助教学、辅助医疗决策、智能客服等。
大型语言模型不仅在语言理解和生成方面取得了显著进展,还具备了强大的迁移学习能力。与需要昂贵的数据收集和模型训练的传统方法不同,大型语言模型利用它们从海量文本数据中学习到的强大的总结能力,可以直接“开箱即用”地实现机器人领域的泛化。
TidyBot的训练测试
在大型语言模型的加持下,机器人具备了更强的问题解决能力。在测试训练中,研究人员在一个基于文本的基准数据集中,输入用户偏好,并要求模型创建个性化规则来确定物品归属。模型将示例总结为一般规则,并使用总结来确定新物品的放置位置。结果显示,测试在未见物品上的准确率达到了91.2%。
将该测试应用于机器人TidyBot时,它能够成功地收拾85%的物品。据介绍,TidyBot在操作过程中,除了应用大型语言模型之外,还使用了图像分类器CLIP和物体检测器OWL-ViT。
“以前的任务规划系统大多依赖于一些形式的搜索或优化算法,这些算法不太灵活,也很难构建。大型语言模型和多模态大型语言模型使这些系统能够从互联网规模的数据中受益,并轻松地用于解决新问题。” 佐治亚理工学院交互计算学院的助理教授徐丹飞说。