OpenAI 机器人迸裂上台！ChatGPT总算有身体了能说会看还能做家务

发布时间：2024-03-18文章来源：杏彩体育官网登录入口网址

以 GPT-4 为代表的大模型现已制作了大脑，下一步则是需求能承载这一大脑的机器人躯体。

昨日深夜，人形机器人明星公司 Figure AI 震慑发布了一段视频，展现了他们的机器人 Figure 01 在 OpenAI 强壮模型的支撑下，进行的一系列对话交互。

视频中的机器人展现出了灵敏的操作反响，其与人类交流的流通度简直能与真人相媲美。

这间隔 Figure AI 取得 OpenAI、微软、英伟达等公司出资，只是过去了不到半个月。也让我看到，OpenAI 最强的多模态大模型有了身体后会是什么姿态。

得益于 OpenAI 多模态大模型的强壮支撑，Figure 01 现在但是个桌上物品辨认的小能手。苹果、沥水架、水杯和盘子，对它来说都是小菜一碟！

而且，它乃至能在捡起你丢掉的废物，边还能跟你解说为啥方才给了你苹果。在大模型的辅佐下，Figure 01 可以了解桌面上仅有的食物——苹果。

在人类的一声令下，Figure 01 还能做家务，拾掇餐具，这机器人，简直是家庭日子的最佳同伴。

网友现已刻不容缓地给 Figure 01 组织使命了，使命清单里怎样还混进了机器人长辈的电影。

竞争对手怕是要看在眼里，急在心里，预备暗地里跃跃欲试，来一场技能大比拼？

视频展现了端到端神经网络的使用（end-to-end neural networks）。在此进程中没用遥控器（teleop）。视频是以实践速度（1.0倍速）拍照的，而且是接二连三的。

如您在视频中看到的，机器人的速度有了明显的提高，咱们正在慢慢地到达与人类类似的速度。

具体来说，视频中展现的一切行为都是经过学习取得的（非遥控操作），而且以实践速度（1.0 倍速）履行。

Figure AI 将机器人摄像头拍照的图画和经过板载麦克风记载的语音转录文本输入到一个由 OpenAI 练习的多模态模型中，这个模型可以一起了解图画和文本信息。

该模型会处理整个对话的历史记载，包含以往的图画，以生成言语呼应，并经过文本到语音的方法向人类回话。同一个模型还担任决议履行哪种已学习的闭环行为来呼应给定的指令，它将特定的神经网络权重加载到 GPU 上，并履行相应的战略。

而将 Figure 01 连接到一个大型预练习的多模态模型，为其带来了许多风趣的新功用。

在决议计划时运用常识推理。例如，「桌子上的餐具，像那个盘子和杯子，很或许接下来会被放到烘干架上」。

将迷糊的高档指令，如「我饿了」，转化为契合情境的恰当行为，比方「递给那个人一个苹果』。

用简略的英语解说为什么它履行了某个特定的动作。例如，「这是我可以从桌子上供给的仅有可食用物品」。

当谈到 Figure 01 经过学习把握的精密双手操作技能时，其实这背面也蕴含着一系列杂乱而精妙的原理。

一切行为都由神经网络的视觉-运动转换器战略驱动，这种战略能直接将图画像素映射到动作。这些网络以每秒 10 帧的速率接纳机器人内置图画，并生成每秒 200 次的 24 自由度动作（包含腕部姿态和手指关节视点）。

这些动作作为高速「设定点」，供更高速率的全身操控器盯梢，保证动作的准确履行。

就在几年前，我还以为与一个能自主规划和履行学习行为的人形机器人进行完好对话，将是未来数十年后的工作。明显，许多工作已发生了巨大变化。

本年 1 月，Figure 01 就把握了制作咖啡的技能，这一效果得益于端到端神经网络的引进，使得机器人可以自主学习和纠正过错，仅需10小时的练习。

一个月后，Figure 01 现已学会了转移箱子并运送至传送带的新技能，虽然其速度仅为人类的 16.7%。

在这个进程，Figure AI 商业化的脚步也未曾停歇，与宝马制作公司签订了商业协议，将 AI 和机器人技能融入轿车生产线，并落户于宝马的工厂。

紧接着，就在两周前，Figure 宣告完成了 6.75 亿美元的 B 轮融资，公司估值飙升至 26 亿美元。

其时，OpenAI 与 Figure 还宣告将共同开发下一代人形机器人 AI 模型，OpenAI 的多模态模型将扩展到机器人感知、推理和交互环节。

事实上，在大模型之前，机器人归于专用设备，现在有了大模型的通用才能，通用机器人开端曙光乍现，现在的咱们不止需求 ChatGPT，还需求 WorkGPT。

这些进化直接印证了一条清晰可见的路途：当 AI 大模型生根发芽之后，总之是要走进实际国际，而具身智能则是最佳的途径。

一向活泼在 AI 前哨的英伟达创始人黄仁勋曾洞悉道：「具身智能将引领下一波人工智能浪潮。」

老练的 AI 大模型充任人工大脑，模拟了人脑杂乱的神经网络，完成了言语了解、视觉辨认、情形推理等认知功用，处理了机器人更高层次的认知和决议计划问题。

与此一起，各种传感器、履行器、核算单元被集成到机器人躯体中，完成了对环境的感知和交互。比方视觉体系能捕捉图画和视频，触觉传感器能感触物体的形状和质地等。

Figure AI 创始人 Brett Adcock 此前在承受媒体采访时表明，未来 1-2 年，Figure AI 将专心于开发具有里程碑含义的产品，希望在未来一两年内向大众展现人形机器人的研制效果，包括 AI 体系、初级操控等，终究出现能在日常日子中大展身手的机器人。

他还泄漏，在本钱方面，一个人形机器人约有1000个零件，重约150磅（68公斤），而电动轿车或许有约1万个零件，重达4000-5000磅（1800-2250公斤）。因而，持久来看，人形机器人的本钱有望低于廉价电动轿车，这取决于履行器、电机组件、传感器的本钱及核算本钱。

机器人专家 Eric Jang 曾提出他的洞见：「虽然许多 AI 研究者以为通用机器人的遍及还需数十年，但别忘了，ChatGPT 的诞生仿简直就在一夜之间。」

一年前的今日，OpenAI 震慑发布了 GPT-4，向国际证明了大模型的强壮威力。

一年后的今日，咱们没等来 GPT-5，但也迎来 Figure 01，而这会是人形机器人的 GPT-4 时间吗？

上一篇：有道翻译官新增至28语种语音翻译下一篇：新能源的未来发展的新趋势和方向全球能源供应的大多数来自是什么？

欢迎光临~杏彩体育官网登录入口网址/app下载/客户端

首页

关于我们

企业文化

新闻动态/杏彩体育官网app下载

杏彩客户端app

常见问题

产品展示

太阳能电站系统

太阳能用户系统

太阳能路灯系统

混合能源系统

联系我们

网站地图

OpenAI 机器人迸裂上台！ChatGPT总算有身体了能说会看还能做家务