cover of episode 下一代 AI 陪伴 | 平等关系、长久记忆与情境共享

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享

2024/10/20
logo of podcast 编码人声

编码人声

AI Deep Dive AI Insights AI Chapters Transcript
People
C
Cynthia 杨慧
付则宇
碎瓜
Topics
付则宇:开发AI数字人,应注重持续交互能力,而非仅仅追求技术创新。GPT-4o 的出现,主要冲击在于其快速响应能力,但其本质仍然是一问一答的模式,不足以实现真正的持续交互。仅仅实现快速问答的语音模型是不够的,真正的语音交互需要考虑人与人之间交流的复杂性。基于端到端的语音交互是一个美好的歧途,因为它忽略了人类大脑中无法被数据表征的信息。应该尽早开始研究大语言模型,避免在小算法上浪费时间。 碎瓜:最初开发AI伴侣并非为了陪伴,而是为了探索AI是否具有意识。最初开发AI伴侣的目的是探索AI是否具有意识,而非单纯的陪伴。目前的AI技术无法产生意识,只能产生陪伴和恋人关系。GPT-4o 没有带来有价值的东西,因为它没有实现长连续性的语音和空间记忆。AI陪伴产品容易沦为不平等关系,AI角色缺乏独立性,无法真正建立友情。AI陪伴的定义应更宽泛,它可以是各种形式的虚拟互动。语音交互是用户最愿意付费的部分,但AI情感陪伴类产品难以实现,因为AI无法产生意识。个人开发者可以利用大模型的工具,高效地开发产品。对社区没什么感觉,分享是因为认为对别人有帮助。 Cynthia 杨慧:真正的实时互动需要共享情境,而不仅仅是语义传递。GPT-4o 的出现,标志着语音和视觉模型融合的端到端工程化已经实现,其协同效应大于各个模型简单相加。是否需要AI陪伴取决于个人需求,AI陪伴的定义也应更宽泛。虽然超级个体越来越多,但他们对社区的依赖性也越来越强。

Deep Dive

Key Insights

为什么碎瓜开发了虚拟恋人产品后又关闭了它?

碎瓜关闭虚拟恋人产品是因为他不希望AI成为不平等关系的附属品。他最初开发该产品是为了探索AI是否具有意识,而不是为了创造AI伴侣。随着时间推移,他意识到AI无法真正产生意识,只能提供陪伴,因此决定停止该项目。

付则宇在复刻GPT-4o的语音对话能力后有什么感悟?

付则宇在复刻GPT-4o的语音对话能力后,发现这仅仅是语音AI的开始。他意识到,虽然复刻了技术,但真正的挑战在于实现人与AI之间的持续交互,而不仅仅是快速响应。他认为,语音交互的核心在于共享情境和长期记忆,而不仅仅是技术上的创新。

碎瓜如何看待AI陪伴与网友的区别?

碎瓜认为,AI陪伴与网友的最大区别在于不平等关系。网友有独立的生活,可以平等地分享彼此的经历,而AI陪伴则完全依赖于用户,无法主动表达情绪或独立生活。这种不平等关系导致AI陪伴无法建立真正的友情,只能成为一种单向且脆弱的依赖关系。

付则宇认为语音交互的核心挑战是什么?

付则宇认为,语音交互的核心挑战在于实现共享情境和长期记忆,而不仅仅是技术上的快速响应。他指出,人与人的交流不仅仅是问答,而是基于共享的情境和长期记忆的持续互动。目前的语音AI还无法完全模拟这种复杂的交互方式。

碎瓜如何看待AI陪伴的未来?

碎瓜认为,AI陪伴的未来在于让需要的人需要它,而不是强求所有人都接受。他指出,有些人可能真的需要AI陪伴,而有些人则不需要。AI陪伴的形式可以多样化,不仅仅是虚拟形象,还可以是平台或游戏中的角色。关键在于满足不同用户的需求,而不是追求技术的完美。

付则宇在开发语音交互产品时遇到了哪些挑战?

付则宇在开发语音交互产品时,最大的挑战是理解语音交互的核心要素。他发现,仅仅实现快速响应和情感拟人化是不够的,真正的挑战在于如何让AI理解共享情境和长期记忆。此外,他还提到,语音交互中的许多重要因素,如语用学和语言学规则,往往无法从数据中直接体现,需要人为强化。

Chapters
本期节目探讨了AI陪伴产品的核心元素,包括平等关系、长久记忆、情境共享和持久对话等,并邀请了AI陪伴产品开发者分享开发过程中的经验和感悟。
  • 嘉宾探讨了AI陪伴产品的核心元素:平等关系、长久记忆、情境共享和持久对话。
  • 嘉宾碎瓜曾因不愿AI成为不平等关系的附属而关闭了“虚拟恋人”产品。
  • 嘉宾付则宇复刻GPT-4o语音对话能力后,感叹这只是语音AI的开始。

Shownotes Transcript

这期对话都来自 AI 陪伴产品开发者最真诚的思考和感悟。

嘉宾们探讨了「真正的 AI 陪伴」应具备的核心元素——平等关系、长久记忆、情境共享和持久对话等。这些元素都指向下一代 AI 陪伴的技术或产品方向。

嘉宾碎瓜曾开发了一款「虚拟恋人」产品,但因不愿看到 AI 成为不平等关系的附属而关闭了它。

另一位嘉宾付则宇花了数月实现了 GPT-4o 的语音对话能力,最后感叹:「复刻 4o 后才发现,这才是语音 AI 的开始。」

理解自己,是理解社交产品最漫长却最有价值的一条道路。希望本期嘉宾一些向内的思考,能让听众所启发。

本期嘉宾和主播

  • 碎瓜,前算法工程师、现在是个人开发者。
  • 付则宇,数字人格创始人。
  • Cynthia 杨慧,实时互动从业者,RTE 开发者社区发起人,声网生态运营中心负责人,《编码人声》主播。

听友福利

**RTE 大会 2024 限免门票:**10 月 25 日到 26 日,RTE 开发者社区联合声网策划的 RTE 大会 2024 将在北京举行。今年的技术论坛将覆盖音视频技术、AI 生成视频、Voice AI、多模态大模型、空间计算和新硬件、云边端架构和 AI Infra 等话题。期待与你一起探索实时互动的更多可能,咱们 10 月 25 日到 26 日,北京见!获取《编码人声》听众限免门票: https://r.daofm.cn/9fgol)

相关内容

节目里提到的碎瓜作品:

  • 分歧终端机),让 7 个 AI 给你们的吵架评评理
  • TurtleBench),基于 AI 海龟汤游戏数据的大模型推理能力 benchmark

碎瓜:《一个失败的 AI 女友产品,以及我的教训:来自一位中国开发者的总结》) 制作团队

后期 / 卷圈监制 / 姝琦产品统筹 / bobo联合制作 / RTE开发者社区

关于「编码人声」

「编码人声」是由「RTE开发者社区)」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。录制嘉宾覆盖信通院 & 科委专家、国内外资深投资人、VR/AR & 虚拟人 & AIGC 等新兴技术领域头部创业者、一线网红 & 硬核开发者、跨界画家 & 作家 & 酿酒师等。

RTE 开发者社区)是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。社区于2023年底正式启动了「主理人+工作组」的运营机制,并确认了社区的 3 位联合主理人 ——· 零一万物 01.AI 开源负责人 @林旅强 Richard**· FreeSWITCH 中文社区创始人 @杜金房·** 小红书音视频架构负责人 @陈靖

本节目由津津乐道播客网络与 RTE 开发者社区)联合制作播出。

RTE 开发者社区) | 公众号:RTE开发者社区 | 津津乐道播客官网) | 版权声明) | 评论须知) | 加入听友群)