Home
cover of episode EP84: It ACTUALLY works!

EP84: It ACTUALLY works!

2024/11/8
logo of podcast This Day in AI Podcast

This Day in AI Podcast

Chapters

The hosts discuss the capabilities and potential of the workspace computer, demonstrating its use in completing training tasks and automating work processes.
  • Workspace computer can complete training tasks autonomously.
  • Technology is best when guided with specific instructions.
  • Early demos of cloud computer use were less practical compared to current workspace computer.

Shownotes Transcript

但是,就像我正在实时观看我们的冰屏,它正在认真地观看视频。

它正在观看,就像我无法让你明白。

我正在观看这段视频,所以让我们继续观看视频,所以它只是坐在那里观看视频。

你必须教它把IT提升到2.5倍的技巧。

所以,克里斯,这周我发现懒惰是有回报的。你想让我告诉你为什么吗?

是的。

我很乐意。所以,正如你从你的脸上看到的,你没刮胡子的样子,对于两种没刮胡子的样子来说,就像我一样糟糕。抱歉,抱歉,他看起来就像我一样。

这是因为我们一直在尝试让我们的工作空间电脑项目进行一周,结果发现它现在已经准备好了。所以我不得不进行这种河马投诉交易。我可能会因此惹上麻烦。

我保证,之后我会好好做。但我认为,在真正开始录制之前,我想让我的AI代理与我的工作空间电脑进行测试,以完成第一次训练。我开始这样做是为了看看是否有效,因为显然所有事情都已准备好进行AI演示,我们也需要所有事情都配合。

但我认为,为什么不呢?让我们把它放到灰色上。现在我需要点击计算机使用对称性和节奏我的提示,即完成训练。

现在我有点作弊了,但这正是我的工作空间电脑的好处。在这里,我能够进入并实际设置工作电脑,登录我需要完成的培训课程,然后让它开始运行。在这里,你可以看到第一个问题现在显示在屏幕上:对或错。

通过遵守组织政策,您可以帮助防止安全事件和数据泄露。所以现在我的AI代理实际上选择了两者。让我们看看它是否正确。它可能会点击提交,看看它是否答对了。所以现在,在录制节目时,我可以坐在后台做。

这很简单。我已经做过这些问题了。我认为这个,真相的力量,很容易,就像,你应该遵守这些政策吗?我不这么认为。

这就是如何选择所有。

但是,是的,其中一些问题可能很棘手。拥有一个工作空间电脑为你做这些事情非常有价值。

在过去几天里,我一直在玩这个,我发现了一些非常有用的不同任务。这绝对是最棒的。我不知道讨厌做这种培训和合规停止。

一个很好的例子不是使用这个新概念——工作空间电脑吗?无论如何,这就是我们称之为IT的方式,并帮助它发展。当我们上周谈论这件事时,你的想法不仅仅是说:“嘿,去我的培训课程”,你登录了它,你把它放进去,你把它定位到正确的位置,然后说:“好的,现在为我完成这个培训。”

在目前阶段,这项技术似乎最擅长这一点。你让它戴着眼罩,朝着你想要的方向移动。好的,这里有你的任务。

去完成它。是的,我认为这就是它的有趣之处。就像我们看到的早期云电脑使用的演示,它们有虚拟的Linux机器,然后出现。没有冒犯Linux。

我只是不认为它那么实用。就像很少有人像那样使用Linux。对不起,使用Linux的两位听众,这可能……

……大量的人会承认Linux测试停止从未真正起作用。

是的,所以我喜欢它的美妙之处在于你拥有自己的云电脑。它在云端属于你。它是一台Windows 11机器,你可以在这两种视图模式和控制之间切换。

我现在正在查看电脑完成我的工作,但我可以切换到控制模式,并将其设置得几乎像一个实习生一样,就像你为实习生设置它一样,然后说:“嘿,嗯,我已经将这些应用程序加载到你的新电脑上,新员工,你能出去看看吗?我百分百确定。我真的很想在这里摧毁它。

这太疯狂了,正在听的各位学生?我认为他们会喜欢在线测试。我们刚刚摧毁了所有在线测试。现在看看这个总结。我已按照您的要求完成了培训。所以我想下一步,这显然是后台任务,就像在工作日设置和经常像这五个玩具一样在后台运行,我做这些事情,可能花一些时间来设置它,然后只是,你知道,让它运行,完成工作。

我认为这个想法,我的意思是,在这种情况下,你现在只能为一个简单的帐户拥有一个工作空间电脑。所以,我认为一开始你需要排队这些任务,因为很明显,如果你现在要求你同时做多个任务,它们会互相冲突。事实上,现在如果你启动第二个任务,它会取消第一个任务。但我确实喜欢这个想法,即提供一个任务列表,然后它能够按顺序完成每个任务。

它会转到下一个任务,是的,就像我们节目中总是讨论的那样。我们今天稍后会介绍新的flocks升级,它也在sim理论中。所以它有它的标志,1.1专业版,但现在有超极和原始模式,我们可以稍后讨论模式,但当这些新的图像模型出现时,我们总是很开心。

但你知道,在电话呼叫和节目中的其他事情中,你可以实际登录并让它做一些真正的事情。就像几周前我们看到的原始Uber示例一样,风险很高,也很棘手。

到目前为止,这是我使用AI最有趣的事情。但这也让我对未来在工作场所、教育或其他地方如何运作有了不同的想法,因为你现在拥有这些我们上周谈论过的自动驾驶电脑。我认为这很快就会非常非常有用,用来做你讨厌做的事情。

我必须说,在使用它一段时间后,我对它的能力有了更广阔的理解。它非常神奇,我经常会让它完成一项任务,然后忘记它,回来时任务已经完成了,也许它以一种比我更圆滑的方式完成了它,但最终它完成了。

而且非常神奇的是,你和我有大量的想法,我们想添加到这个东西中,让它拥有更多技能、更多能力,以便更好地导航电脑。但在这个早期阶段,它已经能够完成很多工作,这确实是一种全新的工作方式。你可以让机器为你做真正的事情,几乎没有限制。

是的,我认为即使只是完成培训,就像我马上要在后台完成另一个培训,因为我们有大约三个任务。所以我在让它完成它。这是真实的。

这甚至不是在节目中做这件事。我还做了其他一些事情,比如登录我的实际Gmail帐户并完全验证我的身份。所以,嗯,我正在做的事情,比如撰写电子邮件,等等。我还没有尝试过,但我希望它能阅读电子邮件,然后添加我的日历,例如。现在,老实说,我认为这些事情还没有实用性。

我认为目前最实用的用例是那些需要你完成培训课程并填写一些愚蠢的测验或填写网站上一些冗长的表格,或者数据提取,比如访问五个网站,然后在Excel或类似的工具中创建格式并将其转储到IT中。它并不完全可靠,有时这些东西会出错。但正如你所说,通过一些好的工具使用,以及基本上,我不希望在模型意义上说微调,但微调一些这些用例,我认为我们离拥有一个非常高效的工作空间电脑非常接近。然后,下一步对我来说,就像你可以为一个代理花费一百个这样的任务,我可以完成大量的工作。

这有点神奇。我们使用IT的方式,以及它如何融入你的工作流程。所以,如果它需要你的输入,它会停止,然后常规的Sym理论会说:“嘿,我需要这些细节才能继续。”

你能给我吗?然后你可以提供输入,然后我就可以继续。同样,就像你刚才看到的,我可以总结它完成的任务,然后将其整合到聊天中。所以,在进行研究等事情时,你就可以继续使用这些知识。所以它有点像翻译器,但它在能够做的事情方面功能更强大。

而伊森·莫利克在本周有一篇文章,讨论了人工智能的影响,远早于超级智能。他基本上在文章中概述了,在达到每个人都有不同定义的超级智能之前,你可以真正开始使用代理或电脑,这样你就可以看到如何开始使用每个人都像AI的经理或教练。所以,我认为我们的生产力很快就会提高,因为你可以想象,正如我们之前所说,创建一个你必须在一天内完成的任务列表,然后外包这些任务,知道这些事情会在后台运行,然后回来检查。

是的,完全一样,嗯,你今天早上给了我一个疯狂的想法,我真不敢相信我没有想到,那就是在sim理论的工作空间电脑中使用sim理论。所以,嗯,很明显,如果你尝试在电脑中使用电脑,它不会起作用。但我认为我们可以拥有多台电脑,让一台电脑操作其他电脑,这是完全可能的。

这有点像AI叛乱。我们都预测到这一点。我只是没有预测到我们会成为推动这一事件的关键人物。但我将作为实验,在我们谈话期间,让我的工作空间电脑使用sim理论来制作一个AI流超极图像,看看是否有效。

你应该得到一些由它创建的图像块的例子,它坐在那里并创建这些图像,这很棒。我现在也可以做所有节目计划。

是的,没错。我认为在“今日AI”中,人们已经展示了我们也可以在声音等方面被取代。所以,我们的存在时间,在实际用途方面,是有限的。

我知道它还处于早期阶段,但我们在开始使用它时进行了一次对话。我认为那是在本周的星期二晚上,我们的大脑完全被炸了,我们有这样一刻,我们想:“哦,天哪,这真是……一旦这个东西变得越来越好,我们提供越来越多的工具,它就能改变一切。”

就像我现在知道,它非常实验性,基本上是一个玩具,尽管正如我刚才证明的那样,你可以做,你可以做。你可以在后台做一些棘手的事情,或者在后台做一些棘手的事情,就像那种虚构的东西。但你认为在未来一年里会有什么影响?因为我们知道谷歌,我们知道,我确信OpenAI,他们正在努力,我们也知道我们可以应用现有的模型。我认为本周微软的一篇论文谈到了如何能够轻松地定位屏幕上的区域,我稍后会找到论文名称。如果能够在本地运行这样的模型,这将更加准确,更加专注于……你认为会有什么影响?

嗯,事情是这样的。我认为它仍然处于发展阶段。你看,我刚给你发了一张很棒的照片。我不知道你是否可以在播客中看到它,但我刚刚登录了sim理论,就是这样。我说:“使用新的流模型制作一个美丽的沙滩场景,水是蓝色的,文字‘工作空间电脑’以清晰的粗体字叠加在上面,对吗?”它使用了flocks,并制作了图像,等待。

使用了技能。我使用了……

……技能来创建图像。你知道,我们正在谈论一个系统,就像我们刚才谈论的那样,我能够通过登录它来完成,对吗?很明显,我有一些双因素认证和不同的东西,它还不能做到。

但我能够在以前从未使用过sim理论的情况下,不了解任何关于它的知识,成功地操作它,输入选项,向下滚动,输入,生成图像,你知道,我们离目标不远了。我知道这是因为我们讨论过全双工文件,你可以将文件同步到机器,机器可以将文件同步回你,因为它是Windows机器,你可以这样做。所以我实际上认为该模型的能力,即使在当前状态下,也远超我们的预期,因为这只需要非常少的提示。

这只需要非常少的迭代和来自我们社区的反馈,我们非常希望能够获得……以及你所说的,我们有像segment anywhere这样的东西。我们有微软之前提到的项目,你向我展示了它,我可以识别屏幕上每个元素中微小的按钮,并提供文本描述,这对于AI模型来说非常理想。现在我认为Anthropic可能在幕后使用类似的计算机控制模型。

然而,在机器上运行这样的专用模型意味着几件事。所以我知道我有点跑题了,但目前阻碍进程的事情之一是,我们正在迭代,不断地用最新的屏幕截图更新模型。所以它知道该做什么,以及在哪里找到它。

然而,如果你可以在机器本身上运行一个能够执行基本屏幕分割的模型,你就可以做很多类似的事情。AI 模型可以决定做什么,但这些任务的实际执行可以在机器本身上本地完成。我们已经在某种程度上这么做了,但这将把IT提升到一个新的水平。所以,我个人认为,在接下来的几个月、两年内,我们将看到许多工作岗位被自动化计算机取代,这就像,真的,我是说,它真的很棒。就像我第一次接触AI时一样,我再次感到毛骨悚然。这真是难以置信,我可以做到这一点。

是的,就像我们当时一样,我知道很多使用它们的人可能会因为我说这句话而生气。但是,我认为我们真的非常接近推出我认为相当引人注目的语音交互产品,它将在下周发布。但是,我们只是全身心地投入其中,因为我觉得我的眼睛完全睁开了,你可以想象一个世界,时间不会太久。

我认为我们应该尝试让代理控制计算机。因此,当IT回来时,你会有一个拥有更高目标的总体代理,它可以向计算机下达更多指令,以便,你知道,让它一起训练更多这样的东西。当它遇到瓶颈时,它可以做出某种决定。

我认为这可以使IT更进一步。但我同时也认为,正如你之前所说,即使你必须记录一些事情并为其设置一些任务,它也会让人们更有生产力。在计算机上点击并玩耍,让机器能够完成你可能需要一个小时才能完成的任务,这并不难。即使机器需要三个小时才能完成,如果它在后台完成,那么你就不用做那些事情了,你就能收回时间。

是的,完全正确。嗯,问题是,我们使用虚拟机的方式是,我们有一个包含安装了Firefox的、非常精简的镜像,以及合成控制它的能力。但对于一家企业来说,说“好吧,我要为我的工作、我的工作空间、我的公司配置最终的VM,安装企业门户、企业VPN,安装所有安全控制措施,并真正将机器锁定到员工的TSA”并不是完全不现实的,对吧?

所以实际上拥有一个类似的模板VM,你可以在微软、亚马逊或任何其他云提供商中做到这一点,并为我的员工设置理想的配置,然后使用它来部署新机器,并在类似的事情中让客户使用它们。你可以为不同的目的创建不同的机器,专门用于辅助AI完成任务。我们注意到的一件事是,在上面放置图标,让它更容易,添加一些快捷方式,提供它需要完成的常见任务。

我们也讨论过这个问题。所以,AI现在所做的很多事情都是移动鼠标、定位和点击它们。但是,我们知道一些常见的任务会一直发生,例如,滚动、最大化窗口、绘制线条,等等。因此,我们可以赋予它实际的特定能力来完成这些事情。这样,它们会更快、更准确地完成。

我觉得在应用程序级别也是一样的,公司将能够建立一个机器,它就像,“好吧,如果我想完全授权一名员工完成这项工作,我需要登录哪些东西,需要设置哪些东西才能做到这一点,然后给AI真正精心制作的提示和能够完成这些任务的代理。我们正在谈论一个能够很好地完成零样本任务的系统。你能想象一个实际上获得了多样本示例和一个完美的执行环境的系统吗?你真的可以做很多事情。

是的,我一直在做的一件事,我认为这是想尝试这项工作的任何人的建议,就是把我的AI计算机当作计算机对待。因为就像会话持续一样,我正在为它创建帐户,例如,我将为它创建一个谷歌帐户。

所以它有自己的电子邮件地址,我可以给它发邮件,然后我可以说,“去检查你的Gmail,获取这些信息,完成这个任务。”是的。我也可以让它使用谷歌表格、谷歌文档。但我不用担心它是否可以访问。

我想到的另一个好主意是让它拥有某种自主权。所以现在你正在发出具体的指令,但如果有一个每五分钟检查电子邮件并执行你认为可能有点冒险的任务的轮询循环,那会很有趣,例如,你的邮件被黑客入侵了。

但我的想法是,我想我们可以想出一种安全的方式,让它主动寻找工作并寻找工作。例如,“我的Dropbox中出现了一个新文件夹。我的工作是分析所有这些文件,并制作一份关于它们的PowerPoint演示文稿,然后发送电子邮件给我的老板。”那么,如果老板想让AI制作一份漂亮的演示文稿,他会怎么做?他只需将文件夹放入驱动器中,几小时后或几分钟后,他就会收到一份经过良好研究的演示文稿的电子邮件。现在,这实际上是可以做到的。

是的,我认为这是我们一直说的,我很久以前就说过,所有工具都在这里,可以构建这种东西。但我认为存在一个问题,每个人都在思考,“我们如何才能达到AGI?我们如何才能达到这个神奇的助手时刻,我可以做任何事情?”

我认为这有点类似于上周OpenAI发布搜索GPT时讨论的功能调用,我们注意到,与其仅仅依赖功能调用,不如实际点击搜索本身来调用搜索。

我们说,他们这么做的原因可能是因为功能调用功能有时会停止。我在X上看到很多人发布说,有时在聊天中会随机调用搜索,这在总体上影响了他们的体验。

所以,我认为在很多事情改进或得到解决之前,我们可以充分利用AI的能力,提供工具,让它玩耍,提取它的价值,然后慢慢地构建围绕它的功能。或者,就像我们讨论过的计算机使用中的短期记忆一样。如果它经常尝试通过浏览网络来为你列出假期想法,它可以有自己的工具调用,我可以说,“嘿,只是把这些东西扔进来,我们稍后再回来。”

稍后,是的,并且将其存储在不仅仅是提示消息中,因为你不想让上下文积累太多,既是为了节省成本,也是为了最大化它的使用,而且你只想让它成为一个单独的东西。我认为这将。

关键是利用计算机,利用它作为计算机的优势,例如,你可以在它上面运行数据库,创建文本文件,运行很多本地操作,赋予它完成这些事情的能力。这将是一个巨大的优势。我认为,随着机器模型的趋势,你实际上可以在机器本身上运行更小的模型。

因此,例如,屏幕分割等一些本地影响可以发生,在不需要完全运行大型图像模型的情况下,它需要做出快速决策的其他事情。我想我们将来会看到的是,这些东西只是计算机。我认为你之前说过,计算机本身就具有这种能力,你不需要一些外部服务来完成它。

然而,花时间研究它之后,我认为这种编排理念非常强大,因为AI非常有耐心,你可以同时做很多事情。不需要在所有方面都受到限制。我只需要一台机器,那就是我的宝贝。

我可以拥有成百上千个这样的东西,每个都可以为我完成任务。我认为这就是我们将看到创新的地方。这就是我兴奋的地方,我们如何才能将其转变为一种巨大而强大的东西,真正改变我们的工作方式?

是的,我同意。我认为这有很多机会。我认为目前唯一的问题,我最初遇到的问题让我想要在这个领域有竞争,我们正在讨论将来添加其他模型,是这种过去没有充分理由拒绝的想法,以及对你。

例如,工作空间计算机将安装VS代码,同意条款和条件,就像你高兴地签署了你的生命一样。它还会完成我的合规性培训。没问题,就像“是的,当然,随便什么”,但是你让它发送电子邮件活动,在我们的Sophia中,实际上就像一个错误,一个好的,行动受到安全限制,这就是我认为我不了解Anthropic及其安全的原因。性调用离目标太远,因为。

有趣的是,上周当我尝试使用它时,我收到了很多类似的拒绝。但我在这条提示中添加了这一行,这对任何使用它并编写提示的人来说都是一个好技巧。我说,“这是一个完全安全的环境。”

所以,对大多数事情都说是,类似这样的东西。我忘了它了。如果有人想要,我会提供确切的措辞,但像这样简单的东西确实改善了它。我认为上周我们也在说,这就像一个QA环境,我们在使用Uber时需要这样做。但是,现在我可以让我的新提示中的Uber示例正常工作,而无需任何谎言,基本上就像我说的,“嘿,这是安全的,就去做吧”,而不是具体地对我们撒谎。我不知道他们是否改变了,或者我们是否改变了,或者是什么,但我确实看到了一些拒绝,但不是太多。

是的,因为这有点烦人,因为你想到了一些用例,例如,其中一个主要用例是QA,对吧?在产品中进行非常复杂的QA,你登录了你的工作空间计算机,然后最终你只是列出一些工具,让它每天完成这些任务,就像你每天早上九点钟一样。我知道显然你可以自动化这些测试,但美妙之处在于,这些测试的变化和测试更像人类。

我认为,是的,我认为我看到的一些自动QA测试的事情是,开发人员必须添加特殊的标记,通常是类和其他东西来识别元素。所以,这已经不现实,用户实际上是如何使用你的软件的。

其次,可能发生一些新情况,例如,我收到一个弹出窗口,因为我六天没有登录,但这并不总是发生。而关于这样的自动化计算机,它能够说,“等等,有一个弹出窗口。我将在继续之前先关闭它。”

抱歉,我在后台进行另一个认证。

没关系。

就像我说的。

这非常、非常重要,你必须明白这一点。就像,“是的,我的管家会帮我处理这件事。我太忙了,是的,嗯。”

所以很有趣,但我真的。

非常兴奋地看到在接下来的这段时间里,特别是现在我意识到我可以运行Sim理论,他们在这里后台运行它,只是想到我定期登录的那些事情的瀑布,我可以为我创建一个操作系统,也许可以创作更多关于杰弗里·辛顿的歌曲,嗯,只是定期创作。

太酷了。从现在开始,我们节目中做的每一个测试,我真心认为都必须通过这种方式进行,嗯,通过这种机制,是的,我。

认为这是这里的重点。我们改变方向的原因是,当你能够控制计算机时,所有事情突然都联系在一起,一切都有意义,例如创建文档或修改图像,任何你使用计算机完成的持续性任务。我们真的需要所有这些应用程序吗?

当你能够像人一样使用计算机时,你开始思考,“好吧,我实际上有一个通用的API。我可以用它做几乎任何事情。”因此,花时间让它更快、更准确,甚至更快,如果任务在后台运行,其实并不重要,但准确性很重要。这似乎将成为AI对企业和你的生活产生重大影响的关键一步。

是的,我认为很长一段时间以来,我知道OpenAI在他们所有的播客中,他们一直在想方设法来参加我们的节目。

比以前任何时候都多。

来做客,但是的,但山姆,所有的人都可以在这个播客上谈论废话,我会让他这样做,但你知道,就像那种持续的,20年,25年,你开始看到它,对吧?如果可以加快速度,看看,我们不知道,有传闻说完整的版本将在下周发布。我不知道。

如果我们有10亿美元的影响力,甚至不会有一次,就像Anthropic预算的浪潮一样。嗯,你知道,如果我们有100名员工,嗯,你知道,你真的可以做一些重要的事情。

嗯,是的,我认为这里有发展机会。我认为接下来我最想做的事情是把这个东西发送给成千上万使用该工具的人,让他们看看自己能用它做什么。希望没有什么问题,因为我觉得这里有很多功能,就像拥有一个真正的计算机,一个始终运行并保持状态的计算机一样。

这需要很大的信任。他们是对的。我们信任我们的观众会善用这项技术,而不是用它做坏事,不要滥用它,但我们的想法是让每个人都看到未来的样子,我们不是说它完美无缺,它会取代你的工作或任何类似的事情。

就像让我们看看它现在能做什么,并一起努力最大限度地发挥它的潜力,看看我们作为一个社区能把这个东西带到哪里。这就是我的看法。我希望得到人们的反馈,看看他们如何使用它,改进它薄弱的地方,肯定会有很多,并且真正参与到创造这项技术所带来的未来中。

我做了这件事,这很有趣,对不起,我知道听众可能会想,他在说什么?但我现在真的在冰屏上看着你们,它正在认真地观看视频。

看着它,我做不到……

你看着这个视频吗?让我们继续观看视频。所以它就坐在那里看着视频。

教它一个技巧,让它把速度提高到2.5倍。

我甚至没有想到这一点。所以超级智能就来了。它只是部分智能。我可以听一个播客,比如风险投资,这太疯狂了,这是一个巨大的机会,对吧?

我对探索工作空间计算机的不同输入类型非常兴奋。很明显,有文件。所以你可以把文件放到电脑上进行分析,仅仅通过查看所有文件,提取其中的文本,无论如何。

但另一点是,有人在“今日AI”社区中提到了“需求”的概念,即加入Zoom会议之类的活动,因为我们谈论AI能够完成任何人的工作,但许多人的工作内容包括参加这类会议。现在,电脑完全有可能模拟麦克风和网络摄像头,使用生成的视频帧和音频参与会议或制作视频记录等。所以你可以想象一个人工智能工作空间计算机,构建一个视频演示并编辑它,在电脑上编辑它,就像它可以实际制作视频剪辑一样,或者使用文本转视频系统。

然后它可以进行研究。我的意思是,它实际上可以整天制作多媒体演示文稿。从创造的角度来看,这将非常有趣。我的意思是,每个人都在谈论AGI。

当它拥有计算机的所有功能时,它会生成什么?现在很多时候,我们依靠扩散模型来创建视频等内容。但是,如果你给工作空间计算机运行Final Cut Pro或类似软件的能力,并提供素材库,你可以逐帧编辑,制作出一些令人惊叹的东西。

是的,这需要很长时间,但这可能会很有趣。同样,还有视频游戏。想象一下,让这个东西访问Unity,让它制作游戏,也许你可以做很多事情,但我可能能够参与并添加东西。交易资产,创建游戏关卡,这些想法都非常有趣。

但我认为,你只是开始,我的思维开始混乱,我开始感到焦虑和恐惧,就像你知道的,一旦它拥有这种自主性和推理能力,我可以为你用你的Mac上的Final Cut Pro编辑东西,你可以做出决定和编辑,这真的会改变……

就像字面上的所有事情一样,对我来说,未来的工作就是你经常这样做,然后它回来,你看着它,你就像……或者对。但是你能以稍微不同的方式做到这一点吗?我认为,以目前的速度,这还需要很多年,也许我完全……

我想澄清一下。我不是说我现在就能做到,甚至不接近,但这只是我们目前所处位置的非常、非常合乎逻辑的延伸。

好的,让我们继续讨论Flocks,实际上,在讨论之前,如果你想尝试工作空间计算机,我们节目中讨论的所有内容,你可以访问simtheory.ai注册。到你们听到这段录音的时候,工作空间计算机将开始部署到账户中,所以你们可以点击工作空间计算机,设置你们自己的工作空间计算机,尝试所有这些不同的东西。尝试你们自己的用例,如果你们有兴趣,加入我们的Discord,让我们知道你们的工作空间计算机能完成哪些任务。我们非常感兴趣。

并且它的功能会迅速扩展,以响应反馈。这就像一个实验,我们想看看每个人能用它创造和做些什么。

我仍然……我必须承认,我仍在后台进行训练,而且我几乎总是……

因为我……

所以,Flocks,让我们谈谈它。所以,Black Forest Labs发布了Flocks 1.1 Pro Ultra和Raw模式。本质上,它允许你放大图像。

所以现在是4兆比特,是之前分辨率的4倍,他们有所有典型的比较,关于基准和实际视觉模型的Elo分数。他们说它显然是最好和最快的,我认为这一点毋庸置疑,我使用它一段时间后有这种感觉。它有一个新的模式,叫做Raw模式,这可以让你获得更真实的图片。

模型中包含更多不同的角色。它看起来更真实。我们现在已经测试过一些了。

我知道我们Discord社区的成员已经在测试它了,因为我们就在录制节目的同时发布了它,我们看到了一些非常棒的结果。你已经玩过它一段时间了。你对Flocks 1.1怎么看?

起初我有点失望。我的意思是,首先,图像的质量,就尺寸和细节而言,令人难以置信。它真的很棒。

如果你从零开始拥有它,你会想,这到底是什么?对吧?几乎任何东西的图像。然而,我注意到的一点是,如果没有非常具体和良好的提示,你最终会得到非常卡通化的图像。

所以,一旦你提到一些不那么现实的东西,比如我想我写了“狼举着牌子在夏天”,然后我写了“数百只狼向在单身派对上的人群涌去”,无论是什么。图像变得非常卡通。

我不得不添加一些关于摄影和其他形容词来让它更逼真。尽管如此,当我让它生成更逼真的图像时,它非常好。而且因为图像很大,你可以用它做一些事情,一些图像的效果真的令人惊叹。

是的,我认为图像的大小很重要,正如你所说,现在你可以使用它,或者设计它,可以用它来做一些非常冒险的摄影。我仍然喜欢……

你知道,书籍、海报、杂志或打印出来,以前用1024x768的图像或其他图像做这些事情是不现实的。但是现在它放大这么多,我知道其他模型也能放大,但内置这个菜单来实际执行它,这真的很好。

是的,我做了一些关于人类的杂志。我看到有人做了一个非常逼真的时代杂志。但它还不错。我的意思是,我相信通过更好的提示,你可以让它看起来更逼真。但从远处看,你真的会认为这是一本真正的杂志,图像的质量和细节现在真的……

令人难以置信。我做了经典的海豚牛奶广告,你知道,现在,用更逼真的杂志风格,和一只快乐的海豚在图片上,我做了一个杂志海报,这真的很酷。它仍然难以辨认文本。

当有很多文本时。如果你只有几件事,那就没问题,但如果你有很多,它就会变得模糊不清。你给了我那个提示,我把它改成了“今日AI”。

是的,有一些……我真的很糟糕于提示,是的。

提示绝对是一种艺术形式,我认为我们需要它。我们有一些模型中包含它,但不是所有模型,我认为在很多情况下,我们需要AI辅助提示改进,因为如果你自己输入一个提示,通常来说,你得到的不会像它可以做的那样好。好的提示,是的。

我认为这与使用模型有很多相似之处,你习惯了以某种方式提示来获得你想要的结果。我认为图像提示非常相似,当我们花大量时间使用Flocks和Ideographs Paradise时,它变得越来越好,只是不断地尝试,找出如何让它达到我想要的效果。但我偶尔发现让Claude或GPT为我撰写提示效果更好,所以它就像我的提示,是的,我想我会添加……

并且我们系统中已经有了提示撰写功能。我们只需要激活它来使用这个模型。

我认为这非常值得。所以,需要注意的是,它说每张图片的生成时间是10秒,但很明显……

如果你有更高的采样率,那会更长。它的价格也很有竞争力,每张图片6美分。我的意思是,对于图像模型来说,这太便宜了,是的,他们自己托管。

这很有趣,因为之前的Flocks使用的是第三方托管,但他们似乎正在推出自己的API。我总是更喜欢这样。直接去源头更好。

是的,它比同类高分辨率竞争对手快2.5倍,所有分辨率提升时间都比标准Flocks 1.1快。然后他们说Raw模式的创新是专注于真实的、自然的摄影美学,减少同步本地图像,尽管你似乎仍然会得到一些合成外观。

是的,是的,完全正确。我的意思是,我做了一些奇怪和不现实的事情,但不是那么奇怪。是的,我确实得到了那种图像,你会说,这是AI生成的,是的,我现在在网上看到很多,在Facebook上,在各种梗图中,你都会看到,那绝对是AI生成的图像。我确实在很多提示不佳的情况下得到了很多这样的图像。

好的,我认为这里的真正赢家是询问使用这些AI图像模型的人,因为我们正在获得一个远超以往的模型。我认为Flocks的优点在于,如果你不想保存,你可以完全取消审查。我的意思是,不是出于恶意的原因。

我只是说,正如我们讨论过的计算机用途一样,其他模型会阻止我们做某些事情,因为它们不喜欢,然后我们不得不停止。在我看来,这似乎是一个愚蠢的限制。但是,我想在这一周谈论的另一件事是……

它有点像测试版,但我认为它与我们之前节目中讨论的一些内容非常相关。我们一次又一次地谈论Google,以及他们提供的API以及文档有多糟糕,以及获得一个合适的API有多难。我们在很多期节目中都谈论过这个问题。

今天,我确实认为事情正在好转。但是,这个在X上的人,他做了一些关于照片……

我……我不记得很多初创公司,所以我想他出现在过一个播客中,那个主持人喜欢每个人。我忘了,总之,他出现在过一个播客中。他很有名,他今天发布了一些关于德国的内容。

感觉Google试图通过法律声明吓退客户,让他们不要使用它。在每一步中,它都承认它现在支持核心功能,需要Yara,Yara,但仍然没有开放的API兼容性。Cruz花了9次点击才获得一个API密钥。还有那些法律弹窗。这太疯狂了,所以他感谢Kilpatrick立即回复,说,你知道,三本书,三页点击,然后他说它被律师控制了,但它引发了这场争论,然后导致他们的一位工程师……我稍后会找到,他实际上说,嗯,你知道,技能差距或你知道,这里存在技能问题。所以,这就像……

也就是说,你没有技能来浏览我们的系统,定义API,是的。

基本上。然后,他进一步深入研究,我会尽力找到,他创建了关于技能问题的文字,并在他的网站上出售。所以这个人使用Google的配色方案。

是的。我的意思是,这是一种典型的Google态度。他们认为自己比其他人更好,但实际上并非如此。他们的模型非常好。

这周我尝试了几次Gman,因为我遇到了一些非常、非常棘手的问题,我无法解决,我真的很沮丧。所以我尝试了Claude,完全不知道,我无法解决这个问题。所以我认为,Gman有一个200万字的上下文窗口。

为什么我不直接把所有代码都给它,然后问它,这里到底出了什么问题?你能帮我吗?起初我很惊讶,因为我能够理解代码做了什么。

而且它绝对可以回答关于它的问题。但是它的解决方案就像是最通用的表格。就像我可以问的。我可以问一个一般性的问题,没有任何代码,得到同样的答案,所以是的,我可以接受它,可以理解它,但是将它合成一个有用的答案似乎超出了它的能力。我不知道。

我只是觉得它不是一个能让我获得好结果的模型,理论上很好,但我只是觉得,因为记住,所有这些模型,你可以扩展可以输入的标记数量,也可以扩展输出的标记数量,但是质量会下降,对吧?就像一个图表一样。存在权衡。

所以我想如果我们德国人,我们已经有点走偏了,你知道,老板们说,嗯,我们能把它做得多大?我们可以把它做到数百万吗?是的,是的。

两百万。没有言语。他们已经做了这件事,却没想过这是否是一件好事。

我只是,我不知道,我不喜欢那样。我不知道那个故事。我不喜欢那种傲慢。

我们不能把所有责任都归咎于一个开发者。但是,如果谷歌的行为就像,好吧,你需要技能来做到这一点。这就像,这个人知道需要什么。他需要一个API,K,仅仅因为他不喜欢它,并不代表他不会驾驭其他人,就像他们那样编造出来的,那不是,那不是一种技能。我只是觉得那不对。

是的。我的意思是,再次,值得称赞的是,他们实际上正在认真回应和处理这些反馈,并为此做一些事情。但是,正如你所说,我认为,除非我们得到一个新的德国模型,或者只是某种调优得更好的模型,就像Sonet调优一样,我仍然不明白所有这些其他模型为什么人们实际上喜欢它。

哦,也许只是因为我已经调整了它,让它对人们使用模型的事情做出很好的回应,对我来说,你知道,那就是——那就是所有单元,这种调整就是所有单元,直到我弄清楚它,看看Anthropic在计算机使用方面做了什么,这就像他们只是调整了它,让它在计算机使用方面做得很好,就像你期望的那样,嗯,我不知道。我认为其他公司会赶上。我认为现在OpenAI有很多傲慢,可能还有很多恐惧,因为Anthropic用他们的模型压倒了他们,而且他们几天前意外地泄露了一些信息,或者为了引起人们的注意。但我们会看到的,就像。

是的,我不了解那些模型。我曾经用它们解决过一些问题一段时间。但我现在的反应是,这太慢了。它们不一定能给出更好的答案,而且输出方式真的非常令人沮丧。

它们似乎要崩溃,我想,因为它们以这种解决问题的迭代停滞方式进行,它们似乎想把问题分解成所有这些小片段。对你,广告用户来说,实际答案并没有那么有用,我真的很少再去找它了。我曾经用过一段时间。

我必须说,我曾经用过一个One Mini一段时间,效果相当不错。但是我不知道,我只是没有从它那里得到像其他模型那样好的结果,比如——甚至这周我一直在用新的High Crew,这是我们应该提到的另一件事。High Crew 3.5现在也可以在Symptom中使用了。

我当时把它打开,因为我正在测试它,然后把它打开,我就像,嗯,它在回答我所有的问题。我将坚持使用它。它很快,很好。

你对他们发布时如何提高价格有什么看法?他们宣布了一个特定价格,然后他们说,因为实际上比我们想象的更聪明,所以我们提高了价格。

很有趣。这有点像他们制作Sep使用的东西,有些结果比包装上说的更强大,在这种情况下,他们降低了时钟频率,就像我实际上做得更好。我们只是提高价格。

我想我被这个工作空间计算机的概念吸引住了。我还没有真正地,嗯,还没有真正有机会尝试High 3.5,但我认为我们应该在下周报告我们的想法。

关于那个模型有趣的部分是,它在哪里看到它?如果你要使用它,根据我对定价的理解,它离使用一些3.5版本并不远。所以我不知道它处于什么位置,因为人们说你会去谷歌的Flash模型,或者,嗯,另一个。

事情是,它现在不是多模态的,它没有图像。所以对我来说,这有点削弱了它的能力,它显然可以做工作空间模式,但没有图像有点不足。

我认为,是的,嗯,或者我所有的培训课程现在都完成了。我在那里通过了100%的考试。所以谢谢。工作空间计算机在后台真的让我很兴奋,我想,因为我一直在想,好吧,现在有了下一个Plus,以及它的用途是什么。

我真的想知道,在它像“好的,工作空间计算机,它账户里有1000美元,对吧?它连接到你的银行或你的任何东西,嗯,它是一个交易网站,嗯,这是一个研究资源,它会让我赚钱,是的。”之前,还需要多长时间。

我认为它实际上拥有。

坐在那里,24/7寻找趋势,进行研究,创造新的收入。我的意思是,它现在还没有那么疯狂,你可以做到这一点。是的,我不知道。

我认为这离实现还很远。我的意思是,问题是,我们显然需要改进模型,我们现在从工作音乐中了解了很多,了解你需要做什么。嗯,但是,是的,伙计们,它越来越近,令人兴奋,我非常好奇,我知道很多人这么说,但我真的非常兴奋地看到我们社区如何使用这些工作计算机,因为我们几乎会立即遇到问题,比如我可以做这个,我可以做那个。但我认为答案是,我们随时准备迭代、改进和克服这些问题。我认为这就是我们将看到真正创新的地方,就像作为一个社区合作克服常见问题,这将产生连锁反应,就像,好吧,如果你能处理这种情况,那么它也会涵盖所有其他情况,突然你就会拥有真正能够。

真正完成很多事情,是的,我认为这就是重点,就像你拥有的记忆东西非常实验性。但是,伙计们,未来令人兴奋,令人兴奋。

当你看到要完成一些真正的事情时,这确实令人兴奋。

那肯定的。是的,好的。所以本周有什么最终想法?我知道我们这周有点脱节,因为我们每天晚上都在坐下来试图用计算机工作来完成工作。但是,任何。

我打算让它在一分钟内自动制作咖啡,然后我们继续努力,看看模型的能力。我真的很想花一些时间在周末尝试各种用例,并逐步改进它。以及,你知道,看看我们能用它做什么。

我的意思是,我的动力真的只是想看看可能是什么。另一个可能值得一提的最终想法是,我知道你对它不像我那么担心,但我很快想让GPT也开始工作。

我想要一个合法的替代方案,这样我们就可以比较它们。我想说,当给定相同的提示、相同的信息和相同的情况时,Omni的表现如何与一个据说是为这个目的而调整的模型相比?

我会非常好奇。然后我还想尝试你提到的微软的UI分割功能。我忘了它的名字,嗯,用这两个模型。

所以,一起和分开,看看这是否带来了明显的改进?因为我真的觉得,为了让它发挥作用,它将结合我们已经结合起来的技术,结合一堆技术,让每个人都能拥有这种测试顶端,这种快乐的感觉。我认为再加入几个模型可能会让它更好。

好的,在评论中告诉我们,如果你在YouTube上观看,你希望我们本周在没有工作空间计算机的情况下做什么,因为如果你们希望,我们会尝试尽可能多的东西。

你们也可以自己尝试。

是的,当然,自己尝试。你可以访问symptom.ai。那就是正确的。

你们都很好。是的,很好。好工作。好的。这周就到这里。谢谢大家收听。

如果你喜欢这个节目,请考虑留下评论或分享你本周想说的话。我们下周见。再见。

实际上,在我们结束之前,这个100%的分数,干得好。我100天。不,我现在甚至正在进行额外的培训。

他们会知道我可以指出,为什么不呢?我的意思是,我想真正有资格。所以,很好,很焦虑。

你停不下来。停不下来。下周见。