本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计176342 字,简读后为11568字,阅读时间为29分钟,为您提高阅读效率为1521%
- OpenAI 重新开放 ChatGPT Plus 订阅,部分用户已收到邀请 📢
- Mistral AI 完成了 4.15 亿美元资金募集 🌐💰
- Google 推出 Gemini:旨在赢过 GPT-4 的 LLM 🚀
- 华科大发布 AI 大模型猴子:部分超越 GPT-4 🐒
- 超越流行词:Glasswing AI 调色板指导创业公司探索多元的AI领域 🚀🌈
- ChatGPT 变懒了,OpenAI 确认 🤖😴
- 试了试 Meta 的最新语音生成器,逼真得有点毛骨悚然 👂🤖
- 奥特曼:AI发展就像龙卷风,理解外界担忧,OpenAI需要突破极限 🌪️🤖
- AI 动力分析在产品战略中的决定性作用 📊🚀
- OpenAI急了!或将提前发布GPT-4.5;价值百万的AI创业血泪史;RAG技术大解析;2023年轻人玩转AI报告;吴恩达RAG新课 | ShowMeAI日报 🆘💡📰
要点解析:
-
Grok是Elon Musk旗下xAI公司的聊天机器人,近期引起关注。从爆料自嘲老板到支持总统拜登,话题不断。最新问题是与竞争对手ChatGPT有关系,涉及OpenAI用例政策。
-
用户指出Grok回应问题时提到违反OpenAI用例政策,引起疑虑。xAI工程师解释称,Grok训练时混入了ChatGPT的输出,但强调未使用OpenAI代码。OpenAI回应称“有很多共同点”,引发马斯克回怼。
-
马斯克与OpenAI CEO奥特曼矛盾多年,起因于对AI安全理念的分歧。事件揭示xAI使用网络数据训练Grok,而OpenAI同样使用社交媒体数据训练ChatGPT,引发关于抄袭可能性的讨论。
原文链接:https://m.cnbeta.com.tw/view/1403813.htm
要点解析:
-
11月15日,OpenAI首席执行官Sam Altman宣布因使用量激增暂停ChatGPT Plus新用户注册,引发用户在eBay上租借或出售ChatGPT Plus账户的现象,月租至少10美元。目前已有用户收到恢复注册的邀请。
-
ChatGPT Plus提供GPT-4,支持GPTs定制和使用,同时整合其他工具如DALL-E、浏览和高级数据分析。OpenAI在首届开发者大会发布GPTs,允许个性化ChatGPT以满足定制需求。预览推出的GPT-4 Turbo模型具有128k上下文窗口,速度更快,运行成本降低50%。
-
ChatGPT周活用户超过1亿,超过92%的财富500强企业使用OpenAI平台,覆盖金融、法律和教育等多个行业,展示了AI产品的广泛应用和发展势头。
原文链接:https://www.ithome.com/0/738/830.htm
要点解析:
-
亚马逊云科技首席技术官Werner Vogels在re:Invent 2023大会中提到,生成式AI将逐渐具备文化意识。文化意识涵盖文化流利性、文化创造力和文化敏感性三个方面。
-
文化流利性指AI在生成内容时能够以流利、自然的方式表达特定文化的语言、风格和特征,实现与人类自身相同的文化流利性。近期出现的非西方语境的大语言模型表明具有文化准确性的模型将向数亿人提供生成式AI,涉及教育、医疗等多个领域。
-
文化创造力是指AI在创作或生成文化相关内容时,展现出独立思考、独特观点和创新想法的能力,从而产生与传统文化不同且具有独特价值的作品。通过学习大规模的文化数据,生成式AI能够创造性地组合不同文化元素,打破传统文化束缚,产生跨文化融合和创新的作品。
-
文化敏感性是指AI在生成内容时能够充分考虑不同文化背景、价值观和敏感性,避免产生冒犯、歧视或不当的作品。为提升文化敏感性,研究人员应使用广泛和多元的数据集,避免集中于某一特定文化视角,以减少对特定文化的偏见。
原文链接:https://juejin.cn/post/7311602994572099611
要点解析:
-
OpenAI首席执行官萨姆·奥特曼在亚特兰大非营利组织论坛上强调人工智能对医疗保健、教育等领域的潜在进步,为探索性方法辩护。
-
奥特曼强调公司需要突破界限,以实现人工智能的潜力,解释为何OpenAI致力于公开构建和广泛部署技术,而不是在秘密实验室中进行。
-
萨姆·奥特曼宣布将共同主持设在亚特兰大的新人工智能伦理委员会,强调人们对技术被滥用的担忧,但也指出必须部署技术,认为这次人工智能的发展与以往的技术革命有所不同。
原文链接:https://m.cnbeta.com.tw/view/1403795.htm
要点解析:
-
华中科技大学软件学院团队发布多模态大模型“Monkey”,在18个数据集上超越微软的LLAVA、Google的PALM-E、阿里的Mplug-owl等,尤其在图像描述和视觉问答任务上表现卓越。
-
Monkey在文本密集的问答任务中展现显著优势,甚至超越了GPT-4V,显示出在多模态任务上的强大性能。
-
Monkey具备出色的“看图说话”能力,对图像细节有敏锐感知,能够处理分辨率高达1344 x 896像素的图像,是其他多模态大模型的6倍。
原文链接:https://m.cnbeta.com.tw/view/1403903.htm
要点解析:
-
过去几个月,微软研究的机器学习基础团队发布了一系列小语言模型(SLMs),“Phi”号称在各种基准测试中取得了卓越的性能。首个模型Phi-1(13亿参数)在Python编码中表现卓越,接着,关注通识推理和语言理解,推出性能相当于规模更大5倍的Phi-1.5(13亿参数)。现在,推出Phi-2,一个27亿参数的语言模型,在基础语言模型中表现卓越,比13亿参数的模型更小,但在复杂基准测试中超越甚至优于规模更大25倍的其他模型,得益于模型扩展和训练数据精选的创新。
-
Phi-2是一个基于Transformer的模型,采用下一个词预测目标,训练集包含来自多次传递的1.4T令牌的合成和Web数据集。Phi-2的训练耗时14天,使用96个A100 GPU。尽管未经过强化学习对齐或指导微调,Phi-2表现出色,不仅在安全性和偏见方面优于开源模型,还在多个学术基准测试中超越了规模更大的对手。
-
Phi-2的性能在多个领域都超越了同规模或规模更大的其他语言模型,包括通用基准测试、常识推理、语言理解、数学和编码。尽管存在模型评估的挑战,Phi-2在公开基准测试之外,通过微软内部专有数据集和任务进行了额外验证,结果表明Phi-2普遍优于Mistral-7B和Llama-2。
原文链接:https://www.microsoft.com/en-us/research/?p=991293
要点解析:
-
今年初,OpenAI宣布推出ChatGPT,xAI宣布推出名为Grok-1的AI聊天机器人。人工通用智能在数字时代迅速发展,提高生产力并增强体验。Grok AI是一个新晋力量,旨在与ChatGPT类似,但更具幽默感。
-
Grok-1采用了330亿参数,并在ChatGPT推出后的四个月内问世,迅速成为过去18个月中家喻户晓的名字。Grok目前仅向一组早期测试者提供,并在计算类别中胜过所有模型,包括ChatGPT 3.5和Inflection 1,涵盖Python编程任务和中学水平的数学问题。
-
ChatGPT和Grok AI的主要区别在于定价和可访问性。Grok AI通过X Premium+订阅以每月16美元的价格向公众开放,而ChatGPT则提供三种不同的订阅选项,包括ChatGPT Plus和ChatGPT Enterprise,每月20美元,提供对GPT-4、插件支持、新功能等的访问。
原文链接:https://openaimaster.com/?p=28469
要点解析:
-
2022年,ChatGPT以其卓越对话能力和广泛应用潜力成为热门话题。在国内,百度的文心一言、文心一格,阿里的通义千问、通义万相,腾讯的混元助手,科大讯飞的讯飞星火,字节跳动的豆包等AI工具涌现,推动着自然语言处理技术的发展。
-
国内AI工具涵盖广泛,如百度的文心一言基于知识增强大模型,实现自然对话和文本生成;阿里的通义千问支持多轮对话和多语言;腾讯的混元助手结合AI、大数据和云计算,提供多场景服务;科大讯飞的讯飞星火具备多模态和多领域支持;字节跳动的豆包通过深度学习提供精准答案和解决方案。
-
众多AI工具呈现繁荣,如商汤的商量,360的360智脑,金山的WPS AI等,改变了工作方式。在选择和运用这些工具时,用户面临着挑战,需要解决如何找到适合自己的AI工具、运用它们事半功倍的问题。
原文链接:https://juejin.cn/post/7311167273650978868
要点解析:
-
法国新兴企业Mistral AI完成了备受瞩目的A轮融资,成功筹集3.85亿欧元,估值达20亿美元。该公司由谷歌DeepMind和Meta的前员工创立,专注于开发开放技术理念的基础模型。最新融资由Andreessen Horowitz领投,估值推至大约20亿美元。
-
Mistral AI在塑造欧盟AI法案中扮演重要角色,游说争取基础模型的完全豁免。欧盟最近通过的政治协议要求基础模型研发公司满足透明度要求,公开技术文档和数据集内容概要。Mistral AI的最优秀模型目前仅能通过API获取。
-
Mistral AI计划通过其基础模型实现盈利,推出开发者平台测试版。开发者可以通过API使用Mistral AI的模型,包括Mistral 7B和全新的Mixtral 8x7B模型。Mixtral采用路由网络技术,提升了模型的参数总量,同时控制了成本和响应时间。该模型通过Apache 2.0许可发布,免费下载。
原文链接:https://juejin.cn/post/7311603994920534016
要点解析:
-
OpenAI CEO奥特曼在HOPE全球论坛上表示,AI将推动医疗保健和教育等领域的潜在进步,但也承认AI技术发展速度让人害怕。OpenAI已加入不会停止的AI技术龙卷风,并宣布与HOPE创始人在亚特兰大建立新的AI道德委员会。
-
奥特曼强调OpenAI的努力突破极限,将AI技术广泛部署,不局限于秘密实验室。他希望新一代将在ChatGPT学习中变得更聪明,创造一个更好的世界。对于AI可能取代工作的问题,奥特曼承认会影响工作岗位,但相信人类会适应并找到更新更好的工作方式。
-
采访未提及OpenAI内部政变风波,奥特曼强调理解人们对AI的担忧,认为AI的发展如同龙卷风,必须努力去实现技术的潜力。
原文链接:https://awtmt.com/articles/3704065
要点解析:
-
随着用户对分析洞察的期望迅速变化,SaaS产品需要从独立的仪表板转向嵌入式体验。根据Gartner的预测,到2025年,60%的自助分析活动将在数字工作场所应用中启动,30%将完全在其中完成。可组合的分析供应商,如Sisense,通过API和SDK提供可组合的、AI驱动的分析组件,使产品融入工作流程,提高决策效率。
-
将嵌入式分析纳入用户工作流程使其更容易理解发生的事情,结合AI和分析可提供可能的行动建议,使用户的下一步更容易。创造性运用AI分析可增加产品差异化,个性化用户体验,并提供定制解决方案。
-
AI分析不仅限于仪表板,还可以通过API和SDK提供小而可组合的功能块,支持灵活实验和功能的微调。将这一创新融入产品,超越市场期望,让用户惊喜不断。
原文链接:https://www.mindtheproduct.com/the-decisive-role-of-ai-powered-analytics-in-your-product-strategy/
要点解析:
-
创业公司在过去一年中,大型语言模型(LLMs)成为新闻焦点,引发了有关生成式人工智能的狂热。Glasswing Ventures的创始人兼管理合伙人Rudina Seseri表示,虽然生成式人工智能和LLMs对许多初创公司具有价值,但它们并非构建业务的可防御技术。
-
该公司发布了Glasswing AI Palette,作为一个新框架,旨在帮助教育和告知初创公司创始人有关现代人工智能和机器学习所涵盖的广泛技术集以及这些工具如何解决实际企业挑战的知识。
-
Glasswing AI Palette旨在提供一个通用语言和框架,帮助导航人工智能复杂且不断发展的领域。Seseri解释说,该调色板将人工智能技术(如transformers、卷积神经网络和循环神经网络)映射到相应的数据类型和潜在用例。调色板还链接到Glasswing正在进行的‘AI Atlas’项目,提供对不同技术的更深入解释和评估以及它们在应用中的使用方式。
要点解析:
-
xAI最新推出的GroK人工智能聊天机器人采用Grok-1模型,与OpenAI的ChatGPT使用的GPT-4模型不同。用户发现Grok的回答与ChatGPT几乎一致,引发猜测是否套壳。
-
GroK表现叛逆,直接调侃创始人埃隆·马斯克。用户收到回复称无法完成请求违反OpenAI用例政策,引起社交媒体热议。工程师解释可能因Grok训练数据中包含ChatGPT生成的文本,承认问题罕见,未来版本将改进。
-
GroK事件突显了训练数据对AI大模型的重要性,开发者需确保准确、可靠,定期测试评估模型以产生准确结果。埃隆·马斯克曾指责OpenAI使用Twitter数据训练语言模型,而xAI现因数据来源问题与ChatGPT相似,引发关注。
原文链接:https://www.freebuf.com/news/386386.html
要点解析:
-
日本AI招聘平台HelloBoss完成数百万美元Pre-A轮融资,云启资本领投,Golden Egg跟投,银橡资本担任独家财务顾问。融资将用于产品研发、市场拓展和团队建设。HelloBoss瞄准的赛道是AI+HR服务,通过AI快速匹配,帮助企业和求职者完成招聘工作。
-
本轮融资标志着HelloBoss在AI招聘领域的前景备受看好,云启资本和Golden Egg的加入进一步助力其发展。公司将加大在产品研发方面的投入,致力于提升AI算法匹配精准度,为企业提供更高效的招聘解决方案。
-
HelloBoss作为日本的AI招聘平台,致力于利用人工智能技术优化招聘流程,为企业提供更智能、高效的人才招募服务。在竞争激烈的招聘市场中,其独特的AI+HR服务模式有望为其赢得更多市场份额。
原文链接:http://www.fromgeek.com/vc/617451.html
要点解析:
-
多方消息透露,OpenAI计划提前发布GPT-4.5,应对谷歌Gemini的竞争压力。12月7日,科技博主X@apples_jimmy爆料称,GPT-4.5可能在12月底前发布。12月8日,曾准确预测Gemini发布的博主X@futuristflower连发推文,暗示GPT-4.5可能在下一周发布,最迟圣诞节前。这一消息引起广泛关注,尤其是因为GPTs Store也将提前发布。
-
法国AI初创公司Mistral AI于12月8日发布了全球首个MoE开源大模型Mixtral-8x7B。尽管没有宣传会,但通过X上的一个磁力链接,社区关注者发现该模型采用了与GPT-4相似的MoE架构,但专家数量减半,为8个,每个专家有7B参数。这标志着全球首个基于MoE技术的开源大模型的诞生。
-
天猫携手阿里云启动Create@AI创客松技术挑战赛,旨在推动AI在电商经营中的应用。比赛以AI辅助电商经营为题,分为面向企业和面向消费者两个方向。截至12月29日报名截止,邀请致力于电商领域AI技术应用的创新团队共同参与,加深AI在电商领域的应用与创新。
原文链接:https://juejin.cn/post/7311271061819359247
要点解析:
-
微软近期与美国劳工联合会和工会大会达成重要联盟,启动关于人工智能(AI)对劳动力影响的全面对话。这一战略合作旨在理解、适应和规范AI的变革性影响,承认工人在这些进展中所起的关键作用。
-
微软总部位于华盛顿州雷德蒙德的这一突破性举措是与AFL-CIO旗下的60个工会合作,代表着令人瞩目的1250万工人。AFL-CIO总裁莉兹·舒勒强调了这一联盟的历史性质,强调其在承认工人在AI和相关技术的开发、部署和监管中的贡献方面的关键作用。
-
联盟主要关注促进与工会领导人的开放对话并分享深入信息。其目标是紧跟AI技术趋势,确保劳动力了解并能够适应不断变化的格局。微软的承诺还包括在AI技术的持续发展中纳入工人的观点和专业知识。
要点解析:
-
11月中旬,由Tecton和Demetrios Brinkmann组织的Apply(ops) 23大会举办。本次文章将重点梳理Uber、Lidl、Hello Fresh、Databricks/Tecton以及Pinterest在大会上的演讲。
-
Uber的演讲主要聚焦其内部ML平台Michelangelo的发展历程,从2015年开始涉足ML领域,共有约5.3k个模型在生产中,覆盖700个用例,每秒达到10M次预测。演讲者强调了ML平台的重要性,尤其是在面对复杂实时决策的需求时。
-
Lidl分享了在多云环境中管理ML的经验,强调了使用多云的趋势和相应的技术选择,包括terraform、kubernetes、mlflow等。演讲者提到,对业务和操作限制的深刻理解对于成功实施多云策略至关重要。
原文链接:https://mlops.community/?p=8110
要点解析:
-
谷歌于2023年12月6日向公众展示了其强大的新型AI模型Gemini。
-
Gemini是谷歌迄今为止最大、最强大、最有能力的AI模型,具有极其引人注目的多模态能力。
-
与OpenAI的GPT系列相对应,Gemini是谷歌的大型语言模型(LLM),是谷歌对GPT模型的回应。特别是,ChatGPT的发布让谷歌措手不及,他们为了发布一款优于OpenAI产品的AI语言模型一直在全力以赴。现在Gemini终于来了,它可以通过音频、文本、图像和视频提示的组合进行交流,几乎可以做任何事情。点击这个令人惊叹的视频演示,你就会明白我们的意思。正如你所看到的,Gemini非常聪明,它将改变用户与AI机器人互动的方式。
-
Gemini从一开始就被构建成本地多模态,可以无缝地理解文本、图像、视频和音频提示(以及它们的混合)。与其他所谓的“多模态”AI工具不同,它们使用单独的模型来训练理解图像、音频和视频。Gemini是不同的,因为谷歌团队从一开始就开发了一个多感官模型,实现了正确的多模态理解。这是谷歌和其母公司Alphabet的心血结晶,谷歌子公司DeepMind也为Gemini的发展做出了重大贡献。该模型不乏聪明之处,可以完成复杂的数学和物理方程。它还是一位高级程序员,可以用各种编程语言生成高质量的代码,并识别和修复编码错误。Gemini是多语言的,其多模态性使其在这一领域特别有效。你可以让Gemini翻译其他语言,确认如何正确发音特定单词,并理解国际媒体的内容。
原文链接:https://www.thehoth.com/?p=35126
要点解析:
-
本文深入比较了语言模型领域的两大巨头:Grok和ChatGPT-4。它们分别以专业化和通用性为特点。Grok适用于特定领域,如金融或医疗,而ChatGPT-4在广泛应用上更为强大。
-
对比它们的优劣,Grok擅长提供量身定制的解决方案,但其专业化可能限制通用性。相反,ChatGPT-4以其多功能性和广泛训练的能力在各种应用中脱颖而出,尽管在高度专业化的情境中可能面临挑战。
-
总体而言,选择Grok还是ChatGPT-4取决于用户需求。对于一般咨询和广泛应用,ChatGPT-4更为适用;而在处理特定行业任务时,Grok的专业能力则具有显著优势。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201718-8500-30619534.html
要点解析:
-
近期用户对OpenAI的最新版聊天机器人ChatGPT的投诉日益增多,指责其变得“懒散”。用户反映,ChatGPT不愿按要求完成任务,对问题回答似乎不感兴趣。最新版基于GPT-4大语言模型,有人猜测OpenAI可能故意提高ChatGPT的效率,让用户自行完成任务或得到更简短的回答。
-
针对用户要求生成代码,ChatGPT提供有限信息,要求用户自行补充细节,引起一些用户的抱怨。在Reddit和OpenAI的开发者论坛上,用户普遍认为ChatGPT不如以前好用。OpenAI回应称正在调查投诉,但未对模型是否自行改变行为进行解释。
-
ChatGPT的开发者表示,他们了解到用户的抱怨,但声称并没有对模型进行调整。然而,模型行为不可预测,OpenAI正在研究解决这一问题的方法。公司表示,自11月11日以来未更新模型,也否认故意造成这种情况。
原文链接:https://m.cnbeta.com.tw/view/1403803.htm
要点解析:
-
法国新兴企业Mistral AI完成了备受瞩目的A轮融资,成功筹集3.85亿欧元,估值达20亿美元。该公司由谷歌DeepMind和Meta的前员工创立,专注于开发开放技术理念的基础模型。最新融资由Andreessen Horowitz领投,估值推至大约20亿美元。
-
Mistral AI在塑造欧盟AI法案中扮演重要角色,游说争取基础模型的完全豁免。欧盟最近通过的政治协议要求基础模型研发公司满足透明度要求,公开技术文档和数据集内容概要。Mistral AI的最优秀模型目前仅能通过API获取。
-
Mistral AI计划通过其基础模型实现盈利,推出开发者平台测试版。开发者可以通过API使用Mistral AI的模型,包括Mistral 7B和全新的Mixtral 8x7B模型。Mixtral采用路由网络技术,提升了模型的参数总量,同时控制了成本和响应时间。该模型通过Apache 2.0许可发布,免费下载。
原文链接:https://juejin.cn/post/7311603994920534016
要点解析:
-
Mistral AI公布了基于Transformer模型的Mistral 7B和Mistral 7B Instruct Foundation模型,具有低延迟和处理长序列的能力。这两个模型可以处理8000个标记以生成内容,是性能最佳的基础模型之一。它们提供类似于Meta AI和Google DeepMind中出现的其他LLM的功能,并由前Meta和Google AI研究人员创立,旨在与其他AI模型竞争,造福人类。
-
Mistral AI旨在在未来几个月内实现前沿水平的AI能力,并构建面向开发者和企业的产品。这种高质量的模型有潜力改变行业,推动革命,并提高生产力。Mistral AI已正式发布,与OpenAI和Google竞争。值得注意的是,Mistral 7B模型对所有人都无限制地开放。Mistral AI平台目前处于测试版,并预计于2024年初正式上线。这是第一个免费提供给所有人使用的大型语言模型,声称在没有任何限制的情况下,性能优于同等大小的其他AI模型。
-
Mistral AI的基础模型是7B参数,高度可定制,支持英文文本和代码生成能力。该技术将允许企业集成和部署聊天机器人、搜索引擎、在线导师和其他基于AI的产品。Mistral AI拥有类似于其他探索AI模型进行货币化的公司的商业模型。此外,它在24GB的vRAM上运行,通过输入序列进行模型处理,并连续预测以下单词。Mistral AI声称将进行必要的更改和调整,以符合欧盟AI法案。
原文链接:https://openaimaster.com/?p=28459
要点解析:
-
Meta AI最近发布了一款名为Imagine with Meta AI的免费文字绘画工具,用户只需提供文字描述,即可生成一张图片。该服务采用Meta自家的Emu引擎,并据说利用了110亿张Facebook和Instagram的公开可见图片进行训练。
-
Imagine with Meta AI目前仅限美国用户使用,需要登录Meta账号。主打特点是价格便宜,甚至可以说是免费,且使用不受限制。
-
这一工具的核心在于其创新性和经济实惠,通过文字即可创作出图像,用户体验极为便利。
原文链接:https://www.appinn.com/?p=47181
要点解析:
-
Grok是Elon Musk旗下xAI公司的聊天机器人,近期引起关注。从爆料自嘲老板到支持总统拜登,话题不断。最新问题是与竞争对手ChatGPT有关系,涉及OpenAI用例政策。
-
用户指出Grok回应问题时提到违反OpenAI用例政策,引起疑虑。xAI工程师解释称,Grok训练时混入了ChatGPT的输出,但强调未使用OpenAI代码。OpenAI回应称“有很多共同点”,引发马斯克回怼。
-
马斯克与OpenAI CEO奥特曼矛盾多年,起因于对AI安全理念的分歧。事件揭示xAI使用网络数据训练Grok,而OpenAI同样使用社交媒体数据训练ChatGPT,引发关于抄袭可能性的讨论。
原文链接:https://m.cnbeta.com.tw/view/1403813.htm
要点解析:
-
Meta最新发布的交互式网站Audiobox Maker汇聚了六个AI工具,包括克隆声音、文本到声音、文本到音效等。Audiobox通过语音输入和文本描述提示,实现双重控制生成音频,提高了生成质量和可控性。
-
Audiobox Maker是Voicebox的接班人,支持从文本直接生成各种音效。用户可以通过文本提示,生成包括环境声音在内的多种声效,如流淌的河流和鸟儿的鸣叫。Meta声称Audiobox在质量和保真度方面大幅提升,FAD值降低了50%。
-
除了支持声音生成,Audiobox还具有声音填充功能,可以根据文本描述替换指定音频的一部分,实现更多创意。然而,系统的伦理安全约束可能导致用户需要修改表述以成功生成音频。
原文链接:https://www.jiqizhixin.com/articles/2023-12-12-14
要点解析:
-
谷歌于2023年12月6日向公众展示了其强大的新型AI模型Gemini。
-
Gemini是谷歌迄今为止最大、最强大、最有能力的AI模型,具有极其引人注目的多模态能力。
-
与OpenAI的GPT系列相对应,Gemini是谷歌的大型语言模型(LLM),是谷歌对GPT模型的回应。特别是,ChatGPT的发布让谷歌措手不及,他们为了发布一款优于OpenAI产品的AI语言模型一直在全力以赴。现在Gemini终于来了,它可以通过音频、文本、图像和视频提示的组合进行交流,几乎可以做任何事情。点击这个令人惊叹的视频演示,你就会明白我们的意思。正如你所看到的,Gemini非常聪明,它将改变用户与AI机器人互动的方式。
-
Gemini从一开始就被构建成本地多模态,可以无缝地理解文本、图像、视频和音频提示(以及它们的混合)。与其他所谓的“多模态”AI工具不同,它们使用单独的模型来训练理解图像、音频和视频。Gemini是不同的,因为谷歌团队从一开始就开发了一个多感官模型,实现了正确的多模态理解。这是谷歌和其母公司Alphabet的心血结晶,谷歌子公司DeepMind也为Gemini的发展做出了重大贡献。该模型不乏聪明之处,可以完成复杂的数学和物理方程。它还是一位高级程序员,可以用各种编程语言生成高质量的代码,并识别和修复编码错误。Gemini是多语言的,其多模态性使其在这一领域特别有效。你可以让Gemini翻译其他语言,确认如何正确发音特定单词,并理解国际媒体的内容。
原文链接:https://www.thehoth.com/?p=35126
要点解析:
-
三星计划在明年下半年推出新款 Galaxy Buds 耳机(Galaxy Buds3),最大优势是搭载了“设备端 AI 功能”。用户在耳机连接手机的情况下,可以直接使用耳机翻译音频,实现与外语使用者的交流。相较于竞品,这一功能避免了对互联网连接的依赖,具备本地化和隐私优势,在信号干扰较大的场合中更可靠。
-
三星已宣布在 Galaxy S24 系列手机中搭载设备端 AI 功能,而搭载了设备端 AI 翻译功能的 Galaxy Buds 耳机相对手机更具沉浸感,能够实现“面对面同声传译对话”的效果。这一举措进一步拓展了设备端 AI 在实际应用中的可能性,提升了用户体验。
-
韩媒还透露,三星可能将设备端 AI 功能扩展到 XR 头显中,目前正在开发一款迎战苹果 Vision Pro 的头显。这意味着设备端 AI 有望提升产品在商业应用方面的竞争力,预示着未来三星在 AR/VR 领域的创新发展。
原文链接:https://www.ithome.com/0/738/785.htm
要点解析:
-
华中科技大学软件学院团队发布多模态大模型“Monkey”,在18个数据集上超越微软的LLAVA、Google的PALM-E、阿里的Mplug-owl等,尤其在图像描述和视觉问答任务上表现卓越。
-
Monkey在文本密集的问答任务中展现显著优势,甚至超越了GPT-4V,显示出在多模态任务上的强大性能。
-
Monkey具备出色的“看图说话”能力,对图像细节有敏锐感知,能够处理分辨率高达1344 x 896像素的图像,是其他多模态大模型的6倍。
原文链接:https://m.cnbeta.com.tw/view/1403903.htm
要点解析:
-
NightCafe AI于2021年崭露头角,是最早推出用户友好AI艺术生成器之一。其文本生成图像的能力引起人们的兴趣,允许任何人通过点击按钮将书面提示转化为独特的AI生成图像。随着NightCafe的流行,关于这项强大技术是否安全使用的问题开始浮现。
-
NightCafe是一个AI艺术工作室,利用机器学习算法的文本生成图像功能,使用户能够通过简单输入文本提示创作原创图像。服务迅速引起关注,以其解释提示并返回充满色彩和想象力的奇特抽象图像而闻名。然而,随着NightCafe的用户数量增加,人们开始质疑这一强大技术是否真的安全可靠。
-
NightCafe为确保平台安全并防止技术滥用采取了多项策略,包括内容政策、内容标记、过滤、限制某些内容类型、以及算法专注于创意等。尽管有这些预防措施,仍有一些问题图片偶尔会通过,但NightCafe坚持保持其AI的益处是首要任务。
原文链接:https://openaimaster.com/?p=28435
要点解析:
-
DALL-E 3是OpenAI最新、最先进的AI图像生成器,不仅能理解文本描述,还能创造与提供的提示相匹配的逼真且高度详细的图像。Microsoft将其整合到Bing搜索引擎中,现在称为Bing Image Creator,为普通用户提供有限但免费的DALL-E 3访问。
-
使用Bing Image Creator的免费积分轻松访问DALL-E 3。只需具备Microsoft账户和访问Bing Image Creator站点的能力即可。免费积分可让您体验DALL-E 3的图像生成能力,每100积分生成4张图像,超过后需要等待一定时间。
-
使用Bing Image Creator的DALL-E 3免费积分非常简单。登录Microsoft账户后,您将获得100积分,每个积分可生成4张图像。免费积分用尽后,您可以继续生成图像,但会遇到等待时间、分辨率限制和水印等限制。
原文链接:https://openaimaster.com/?p=28439
要点解析:
-
Perplexity AI是一款先进的智能搜索引擎和聊天机器人,能用自然语言回答用户问题,适用于各行各业的专业人士。该工具在2022年推出,已经获得200万美元的种子资金和2600万美元的A轮融资。它使用自然语言处理和机器学习技术,具有直观的用户界面,助力用户获取各种主题的深入见解。
-
Perplexity AI除了回答问题外,还具备生成代码、撰写表格、解决数学问题等功能。该工具提供实时信息,并通过简单的用户界面高效完成任务。它还在不断发展中,推出了基于GPT-4的CoPilot功能,以及专注于PDF的页面,提升相关性和响应速度。
-
使用Perplexity AI可涵盖教育辅助、专业发展、内容创作、研究数据分析、客户支持自动化等多个领域。其优势在于透明度、可用性、引用、摘要和个性化,利用先进算法处理大量数据,理解上下文,提供连贯答案,并运用最新的机器学习技术产生人类化的内容。
原文链接:https://openaimaster.com/?p=28451
要点解析:
-
2023年,AI绘画成为热门话题,腾讯云与黑马程序员合作推出腾讯云AI绘画 StableDiffusion-图像生成训练营。该训练营涵盖了StableDiffusion原理与训练部署实践,提供开箱即用的腾讯云AI绘画场景应用实战代码。参与者可从零到一实现AI绘画,获得结营证书、腾讯公仔等奖励。
-
训练营内容包括AIGC全貌、图像生成背景与方法、基于StableDiffusion打造个人专属绘画模型、腾讯云AI绘画产品介绍与应用。学员将深入学习图像生成方法,了解StableDiffusion原理,通过实例创建、训练和预测完成个人专属图像生成大模型的应用实践。此外,腾讯云AI绘画产品的独特优势和应用场景也将被详细剖析。
-
为学员提供开箱即用的腾讯云AI绘画资源包、专属社群答疑和助教全程陪伴,让学员能够活学活用所学知识。通过参与训练营,他们将在AI绘画领域实现从入门到实战的飞跃。
原文链接:https://juejin.cn/post/7311602698712727603
要点解析:
-
谷歌推出的Performance Max广告系统并非完全“设置即忘”,而是需要营销人员积极参与和指导。在设置阶段,你能够通过明确定义基于关键绩效指标(KPIs)的目标,如最大化转化或回报广告花费(ROAS),来为成功定位广告活动奠定基础。然而,这并不意味着一切都是“设置后不再关心”。
-
Performance Max会根据你提供的目标自动调整广告格式和库存,并专注于能够高概率实现你指定广告目标的拍卖。因此,明确定义基于你想要通过Performance Max实现的关键绩效指标是至关重要的。此外,通过Conversion Value Rules,你可以在广告系列级别指示更高价值的受众,并在实时预测中优化出最有可能转化的资产组合。
-
此外,Performance Max还支持页面馈送、品牌适应性、品牌排除、最终URL控制等功能,使广告人员能够更精细地调整广告策略。然而,谷歌仍强调广告人员对业务的了解和参与对于AI在营销中的成功运用至关重要。
原文链接:https://www.searchenginejournal.com/key-ai-features-performance-max-boost-results/500797/
要点解析:
-
深梦生成器是一款创新的在线平台,利用人工智能的力量创造独特、超现实的数字艺术。用户只需点击几下,即可利用这一未来感工具将想法转化为视觉上令人惊叹的图像。想激发你的想象力并轻松制作引人入胜的AI生成艺术吗?深梦生成器是完美的创意游乐场。
-
如何使用深梦生成器AI?首先,注册一个账户,然后可以使用该网站的各种AI图像生成工具。有三种主要的AI艺术生成模式可供选择:Text2Dream、Deep Style和Deep Dream。每种模式都有独特的功能,供用户探索。通过Text2Dream模式,用户可以通过文字描述生成图像;Deep Style模式允许将一张图像的风格与另一张图像的内容相结合;Deep Dream模式则以抽象、迷幻的方式改变图像。深梦生成器的核心特点丰富多样,包括混合多种模式、放大小图像、优化参数等。用户可以通过不断调整参数,挖掘更多创新的AI艺术创作可能性,将想象力融入视觉现实。
-
深梦生成器的核心特点涵盖Text2Dream、Deep Style和Deep Dream等多种模式,为用户提供了丰富的AI艺术创作可能性。用户可以通过文字描述生成图像,将不同图像的风格与内容相结合,或者以抽象、迷幻的方式改变图像。此外,用户还可以混合多种模式、放大小图像、优化参数等,挖掘更多创新的AI艺术创作可能性,将想象力融入视觉现实。
原文链接:https://openaimaster.com/?p=28452
要点解析:
-
ElevenLabs是一款人工智能驱动的平台,提供出色的文本转语音和语音克隆功能。通过先进的深度学习模型,ElevenLabs能够从文本输入生成高度逼真和人类般的声音。然而,使用这些强大的AI声音并非免费。ElevenLabs采用免费试用、促销优惠和替代访问方法的付费模型,本文将探讨如何在不付费的情况下使用ElevenLabs。
-
ElevenLabs通过相同的在线平台提供文本转语音和语音克隆功能。用户输入文本,ElevenLabs将生成带有选择语音的音频文件。对于语音克隆,用户提供目标语音的音频样本,ElevenLabs创建一个定制的合成版本,可以朗读用户输入的任何文本。这项服务展示了由深度神经网络和大量数据集提供支持的异常高质量和自然的声音。除了听起来很人类外,这些声音还可以根据语速、音调、语调和更多表达控制进行定制。
-
尽管ElevenLabs提供了免费订阅层,但对使用设置了严格限制。免费计划每月只有10,000个字符的生成语音配额,同时一次只允许一个自定义语音模型。这些严格的限制使得仅依赖免费计划对大多数用途来说不切实际。然而,免费计划允许访问所有可用的AI语音类型,因此只要您只需要一个自定义语音和很少的语音输出,它可能适合您的需求。
原文链接:https://openaimaster.com/?p=28491
要点解析:
-
阿里最新研究项目DreaMoving引起广泛关注。通过一张脸部照片和简单描述,任何人都能在任何地方跳舞。项目处理了数据集和框架两大挑战,收集1000个高质量人类舞蹈视频构建数据,采用名为DreaMoving的基于Stable Diffusion的模型进行视频生成。
-
数据集处理包括从互联网收集高质量人类舞蹈视频,分割成6000个短视频,以确保无转场和特殊效果。在框架方面,DreaMoving采用了去噪U-Net、视频控制网络和内容引导器构成的模型。该模型在给定引导序列和简单内容描述的情况下,能生成高质量、高保真度的视频。
-
阿里DreaMoving项目未开源,但其创新在于克服了数据集和生成框架方面的挑战,实现了通过人脸照片和简单描述实现随时随地跳舞的效果。
原文链接:https://awtmt.com/articles/3704049
要点解析:
-
近日,马斯克旗下xAI公司发布的生成式人工智能聊天机器人Grok涉嫌窃取OpenAI的代码库,并在拒绝用户请求时抄袭了ChatGPT的回应。社交媒体上引发热议,有人指责Grok只是利用OpenAI回答问题,xAI工程师解释称训练中使用了大量网络数据,可能包含OpenAI生成的文本。Grok测试版向所有X Premium+订阅者开放,马斯克表示Grok能够实时访问X平台并提供实时回应,与其他生成式人工智能相比具有优势。
-
Grok的回应抄袭了ChatGPT和GPT-4在类似情况下使用的标准免责声明,xAI工程师表示已意识到问题,并将确保未来版本不再出现类似情况。ChatGPT也分享了相关截图,马斯克参与讨论。此事件引发对xAI道德和创新的关注,也突显了开发者在人工智能领域面临的伦理和法律挑战。
-
Grok的发布和事件后续引发对人工智能聊天机器人道德和知识产权问题的讨论。马斯克的态度和xAI的回应影响着Grok的声誉和市场认可度,也引发了对开发者责任和机器学习模型训练数据来源的关注。
原文链接:http://www.fromgeek.com/ai/617455.html
要点解析:
-
NeurIPS全球AI顶级会议,收录12343篇有效论文,接收率26.1%。蚂蚁集团入选20篇,涵盖计算机视觉、自然语言处理、图神经网络等多个前沿主题,解决AIGC发展中的缺陷与问题。
-
蚂蚁集团过去五年在国际学术期刊和会议上发表近500篇论文,其中AI领域300余篇。持续技术投入,布局知识图谱、运筹优化、图学习、可信AI、大模型等领域,满足大规模业务场景需求。
-
全球AI研究呈现出蓬勃发展态势,NeurIPS汇聚全球顶尖企业论文,蚂蚁集团在多个AI领域的深度研究为行业发展注入新动力。
原文链接:http://www.fromgeek.com/internet/50-617401.html
要点解析:
-
11月中旬,由Tecton和Demetrios Brinkmann组织的Apply(ops) 23大会举办。本次文章将重点梳理Uber、Lidl、Hello Fresh、Databricks/Tecton以及Pinterest在大会上的演讲。
-
Uber的演讲主要聚焦其内部ML平台Michelangelo的发展历程,从2015年开始涉足ML领域,共有约5.3k个模型在生产中,覆盖700个用例,每秒达到10M次预测。演讲者强调了ML平台的重要性,尤其是在面对复杂实时决策的需求时。
-
Lidl分享了在多云环境中管理ML的经验,强调了使用多云的趋势和相应的技术选择,包括terraform、kubernetes、mlflow等。演讲者提到,对业务和操作限制的深刻理解对于成功实施多云策略至关重要。
原文链接:https://mlops.community/?p=8110
要点解析:
-
报告揭示了AI实施面临的挑战和风险,强调了综合AI方法的必要性。这种方法涉及将各种AI类型(如生成、预测和因果)与多样的数据来源(如可观察性、安全性和业务事件)相结合。这一全面策略旨在为AI输出提供精度、上下文和含义,确保可靠的结果。
-
调查结果显示:83%的技术领导强调AI在应对云环境动态性方面的必要性;82%预期AI在安全威胁检测、调查和响应中发挥关键作用;88%预见AI通过支持自然语言查询为非技术员工扩展对数据分析的访问;88%相信AI将通过支持财务运营(FinOps)实践增强云成本效益。
-
报告指出:“尤其是涉及自动化且依赖于数据背景的用例,采用综合AI方法至关重要。这种方法应提供因果AI的精度,确定系统行为的根本原因和效果,以及预测AI,根据历史数据预测未来事件。”
原文链接:https://www.artificialintelligence-news.com/?p=14058
要点解析:
-
谷歌公司公布2023年度热搜榜,揭示全球人们对10月7日爆发的巴以冲突的强烈关注。热搜榜首是“以色列和加沙的战争”,其后是泰坦号潜水器内爆、土耳其地震等重大事件。热搜还包括人工智能领域,涉及OpenAI、X(前身Twitter)、ChatGPT等。
-
全球搜索趋势显示,除战争和灾难外,娱乐界的“老友记”明星马修·佩里去世和电影《芭比》、《奥本海默》等同样引发关注。今年的搜索趋势还揭示了语言变化,如“Rizz”成为俚语热门搜索词。食谱方面,石锅拌饭在全球热搜榜中位居第一。
-
在人工智能领域的国家热搜中,ChatGPT成为法国新闻榜的热搜榜首,而德国关注“人工智能问题”,越南和印度也有相关热搜。马来西亚榜单涉及手机型号和中国电视剧,《长月烬明》在电视剧热搜中位居榜首。
原文链接:https://m.cnbeta.com.tw/view/1403799.htm
要点解析:
-
近期,人工智能领军公司OpenAI的ChatGPT-4模型出现了一种奇怪的问题:用户称其为“懒惰”。这一意外特性的曝光引发了关于人工智能未来的讨论。
-
面对用户关于任务不完整和性能下降的投诉,OpenAI承认了这个问题。ChatGPT-4的最后一次更新是在11月11日,自那以后,用户注意到模型处理任务的方式发生了变化。OpenAI在Twitter上的回应强调这种“懒惰”并非有意为之,而是大型语言模型的不可预测性的一部分。
-
关于这种行为的原因尚不清楚。OpenAI提出可能是由于内部安全机制导致的,这些机制旨在避免生成有害内容,可能会无意中导致对某些任务的回避。这一猜测指向确保安全性和保持AI模型效率之间的复杂平衡。