363050.com

西湖娱乐城

西湖娱乐城- 西湖娱乐城官方网站- APP李未可创始人茹忆：AI眼镜和Agent的应用和发展

　　西湖娱乐城,西湖娱乐场,西湖娱乐场注册,西湖娱乐城注册,西湖娱乐城官方网站,西湖娱乐城APP,西湖娱乐城网址,西湖娱乐城链接,西湖娱乐城登录,西湖娱乐城平台,西湖娱乐城网址,西湖娱乐城最新,寻宝奇航

西湖娱乐城- 西湖娱乐城官方网站- 西湖娱乐城APP李未可创始人茹忆：AI眼镜和Agent的应用和发展

　　茹忆，李未可科技创始人兼首席执行官，曾任阿里人工智能实验室硬件终端总经理、小米电视联合创始人；中国大陆第一款安卓智能手机开发工程师之一；从零开始打造小米盒子、天猫精灵；2021年创立李未可科技推出中国第一款搭载自研备案大模型的AI眼镜。

　　智能眼镜市场的空间有多大？若市场普遍认同智能眼镜的发展前景，则意味着全球每年13.7亿副传统眼镜将逐步升级为智能眼镜产品，这一市场规模具有显著潜力。当前智能手机年出货量约为12.2亿部，相比之下，智能眼镜市场容量更为可观。该产品定位于移动可穿戴场景，用户早晨外出时佩戴，晚间归家后摘除。从产品特性来看，智能眼镜与人工智能技术具有天然的契合度，因其紧邻用户的眼睛、鼻子和耳朵等感知器官，且支持全天候佩戴。

　　未来眼镜市场将长期存在三种主要形态：纯语音交互眼镜、带摄像头的智能眼镜以及具备显示功能的智能眼镜。Meta推出的带摄像头智能眼镜已取得显著市场表现，销量达200万台。华为和小米等厂商正积极布局音频眼镜。我们于去年推出的纯语音交互AI眼镜，作为AI技术落地的代表性产品，具有显著的成本优势，用户仅需千元以内即可体验。带摄像头的智能眼镜价格区间为1000-2000元，而具备显示功能的智能眼镜价格更高，通常在2000-3000元以上。当前轻薄型带显示的AR眼镜在功耗、内容呈现及重量等关键指标上尚未达到预期水平。市场发展呈现渐进式特征，未来十年内，纯语音眼镜、语音+摄像头眼镜以及语音+摄像头+显示眼镜将保持共存状态并持续迭代演进。

　　AI系统应当具备优秀助手或agent的功能特性。更重要的是，AI需要具备人格化特征和提供情绪价值的能力，这是其成为用户真正合作伙伴的重要条件。在未来十年的AI技术发展浪潮中，一个显著的趋势是从功能性需求向服务性需求的转变。当前年轻消费群体的需求满足方式已经从单纯的功能型转向情绪价值的获取，这一点可以从泡泡玛特Labubu产品的市场热度得到印证。这种趋势表明，在未来十年间，具有IP属性或能够满足情绪价值需求的产品将会获得显著的市场成功。

　　当智能眼镜所搭载的agent系统能够实现agent间的相互交互与调用，并具备完整任务执行能力时，即标志着人工智能技术发展取得了重大突破。通过持续的技术迭代演进，预计在未来两至三年内，此类agent系统将实现普及化应用，届时每位用户均可通过智能设备获得真正意义上的任务辅助支持，从而显著提升工作效率。这一技术演进的核心价值在于其提供的操作便捷性优势。

　　非常感谢中信建投的邀请，在这里给大家做一个关于AI智能体在AI眼镜上的应用和探索的分享。

　　本人在人工智能领域已有八至九年的从业经历，自2016年正式进入该行业。将人工智能技术应用于硬件产品或实际落地场景，需要进行深度思考并与具体应用场景紧密结合。李未可成立于2021年10月，专注于AI眼镜的研发工作。在第一代产品推出后，恰逢2022年11月30日ChatGPT正式发布。这一轮生成式大语言模型在2022至2024年期间展现出快速的迭代发展态势：ChatGPT发布后，2023年出现SORA模型，2024年底至2025年DeepSeek取得重要突破。技术发展呈现出每三个月快速迭代的特征，即将推出的DeepSeek R2预计将实现显著性能提升。

　　这次的AI进步是一个巨大的进步。它有两个关键词：一是生成式，二是大语言模型。生成式意味着它是一个生产力工具，有效率提升。与以往科技浪潮相比，从生成式角度来看，它应该跟电、蒸汽机相提并论，因为它可以改变未来30年、50年甚至100年的产业格局，它是具备生产效率提升的。其次就是大语言模型，大语言模型的出现标志着机器首次采用人类自然语言作为交互方式的重要突破。回顾技术发展历程，互联网时代的人机交互主要依赖键盘鼠标输入，移动互联网时代则演进为触控交互模式，这一转变带来了数十亿用户便捷获取信息和高效沟通的革命性进步。当人机交互方式进一步升级为自然语言交流，并整合生成式人工智能这一效率工具，必将对各行业产生深远影响，这也是当前人工智能技术发展具有重大战略意义的核心原因。

　　因为眼镜作为人机交互设备具有显著优势，主要体现在其与人体交互器官的近距离接触特性以及可长时间佩戴的特点。该行业的发展历程可追溯至2014-2015年谷歌推出的Cardboard设备，该产品通过将智能手机装入头显实现VR功能，标志着VR行业近十年发展的开端。在行业技术路线方面，主要存在两个发展方向：其一是虚拟现实体验场景的技术路线，该方向从早期VR公司发展至苹果公司去年推出的VISION PRO产品，实现了游戏娱乐和影视观赏等沉浸式体验场景的极致呈现。正如扎克伯格所述，该技术路线的终极目标是取代传统电视设备，创造类似《头号玩家》电影所描绘的完全沉浸式虚拟世界。另一技术路线则是Meta公司去年推出的带摄像头功能的智能眼镜产品，即AI眼镜，该产品代表着移动可穿戴场景的技术发展方向。

　　李未可公司成立的时候做的是移动穿戴的技术方向，是另外一条技术路线，它的场景会更加广阔。这个技术方向的逻辑是，过去10年看到手机从传统手机feature phone升级成了smart phone。电视从传统电视升级为智能电视，音箱从传统音箱升级为智能音箱，相信未来十年人们戴的眼镜都会升级为智能眼镜。

　　若市场普遍认同智能眼镜的发展前景，则意味着全球每年13.7亿副传统眼镜将逐步升级为智能眼镜产品，这一市场规模具有显著潜力。当前智能手机年出货量约为12.2亿部，相比之下，智能眼镜市场容量更为可观。该产品定位于移动可穿戴场景，用户早晨外出时佩戴，晚间归家后摘除。从产品特性来看，智能眼镜与人工智能技术具有天然的契合度，因其紧邻用户的眼睛、鼻子和耳朵等感知器官，且支持全天候佩戴。实现这一移动可穿戴场景的关键在于产品设计必须无限接近普通眼镜的使用体验，重量需控制在极轻范围内，能够适配近视用户的视力矫正需求，或保持与普通墨镜相当的轻便性。而在虚拟体验场景方面，则需要提供更具沉浸感的技术方案。这一产品定位体现了我们对智能眼镜发展路径的基本判断和技术路线选择。

　　大语言模型的发展验证了语音作为主要交互方式的有效性，研究表明日常生活中80%的问题可通过语音交流解决，这为纯语音交互方案提供了理论基础。但也有公司例如影目和Rokid做带显示的方案，人类80%的信息获取依赖视觉通道，虽然现阶段显示技术成熟度较低，但在特定场景（如户外作业）中对显示功能存在明确需求。日常佩戴场景下，用户对彩色显示等功能的要求更为复杂且期望值较高，

　　而当前轻薄型带显示的AR眼镜在功耗、内容呈现及重量等关键指标上尚未达到预期水平。市场发展呈现渐进式特征，未来十年内，纯语音眼镜、语音+摄像头眼镜以及语音+摄像头+显示眼镜将保持共存状态并持续迭代演进。

　　Meta公司推出的带摄像头智能眼镜取得市场成功主要基于两个关键因素：首先，由于未配备显示模组，产品实现了显著的轻量化设计；其次，摄像功能在特定应用场景中具有刚性需求。虽然该功能与人工智能技术关联性有限，但通过赋予设备视觉识别能力，显著提升了人机交互的沟通效率。这种技术实现方式在多个垂直应用场景中展现出解决实际问题的潜力，并具备更快的市场普及速度。行业共识认为，

　　在未来5-10年内，纯语音交互、带摄像头以及带显示功能的三种智能眼镜形态将长期共存。若以13.7亿副眼镜的潜在市场规模计算，基础语音款产品凭借其价格优势预计将成为出货量最大的产品类型。

　　AI眼镜产品的研发目标与技术要求，其核心在于解决全天候佩戴的可行性问题。

　　若要将传统眼镜进行全面智能化升级，该产品必须满足全天佩戴的基本要求，这意味着需要实现充分的舒适性与轻量化设计。基于过去三年的发展规划，2021年李未可完成公司创立，2022年推出首款产品，2024年启动AI眼镜研发，

　　这一重量限制是基于人体工程学研究得出的佩戴舒适性临界值，超过此重量将导致使用者产生明显疲劳感。此外，产品还需确保全天候的电力供应，避免出现可佩戴时长与使用时长不匹配的矛盾情况，即能够持续佩戴一整天但仅能使用半天的技术缺陷。

　　续航能力是需要解决的关键问题之一，必须实现佩戴时长与使用时长的平衡，确保产品能够全天佩戴的同时也能满足全天使用的需求。

　　在此基础上，产品需要配备完善的语音交互系统，该系统应当具备高效的语音交流功能，能够切实有效地完成交流任务。

　　AI系统应当具备优秀助手或agent的功能特性。更重要的是，AI需要具备人格化特征和提供情绪价值的能力，这是其成为用户真正合作伙伴的重要条件。

　　在未来十年的AI技术发展浪潮中，一个显著的趋势是从功能性需求向服务性需求的转变。当前年轻消费群体的需求满足方式已经从单纯的功能型转向情绪价值的获取，这一点可以从泡泡玛特Labubu产品的市场热度得到印证。这种趋势表明，在未来十年间，具有IP属性或能够满足情绪价值需求的产品将会获得显著的市场成功。

　　AI交互逻辑设计领域，实现优质AI眼镜或agent产品的关键在于对交互逻辑的深入理解。

　　交互逻辑设计具有双重特性：一方面体现为工程化实施过程，另一方面则需要对模型进行深度定制。在设计过程中，我们参考了丹尼尔·卡尼曼在《思考，快与慢》中提出的理论框架，旨在构建一套完整的交互系统。该系统需要明确区分即时反馈场景与需要思考后给出准确答复的场景。我们的设计目标是使AI具备自主判断能力，能够真正为用户提供有效帮助。在技术实现层面，我们采用多模型架构，底层基于通义千问、DeepSeek优化模型，上层则负责快速响应机制。举例而言，当用户查询天气时系统应即时反馈，而询问当日新闻时则需经过检索后提供答复。整个技术架构需要进行深度优化，方能实现AI在眼镜端与人进行类人化交流的目标。这正是我们当前重点推进的研发方向。

　　在研发过程中，我们发现能够真正发挥助手功能、有效协助用户拆解任务的智能体，并将其命名为零级智能体（zero agent）。该智能体的核心功能在于解决未来智能眼镜生态系统的关键问题。相较于当前手机应用的使用模式（如使用听歌、通过饿了么点餐等需要逐个打开特定应用程序的操作方式），未来AI时代的交互范式将发生根本性变革。当用户提出今日天气如何、想听音乐或附近美食推荐等需求时，智能体不应要求用户先启动特定应用程序（如请先打开饿了么），而应直接理解用户意图并提供服务。例如，系统能够基于用户历史行为（如昨日食用红烧牛肉面）主动推荐相关选择（如海南鸡饭），并显示具置信息。这种服务模式将突破现有APP的离散形态，实现基于意图理解的智能化服务交付。

　　关于agent的功能边界问题，研究表明单一agent难以解决所有需求，但其核心能力应包含准确识别问题并确定可解决问题的对应agent。以与携程的合作为例，当用户提出旅行需求时，系统可调用携程agent完成行程规划；查询天气时直接提供答复；音乐播放需求则交由agent处理。该系统通过意图理解模块实现多agent协同工作。行业预测2025年将迎来agent技术发展的关键时期，届时将涌现包括Manus在内的多种专业agent。当前阶段，整个行业正在共同探索agent生态系统的构建模式，其中关键要素包括agent间的协同调用机制、任务分配逻辑以及责任界定标准。在眼镜终端设备上，这一功能将由第一个agent或zero agent负责协调实现。该agent系统本质上属于任务导向型交互系统，其核心功能在于协助用户完成特定任务，同时具备类人化交流能力。

　　关于agent来源问题，目前国内主要科技企业已开展相关研发工作：百度已建立开发者平台用于开发各类agent；豆包的扣子平台已集成超过一千万个agent，支持用户自定义工作流程和agent开发；阿里通义的百炼平台也具备类似功能。当前行业正在探索这些平台上的agent能否接入agent store实现发布和相互调用。具体而言，当明确某个agent（如占星师agent）能够执行特定任务时，即可实现功能调用。这正是现阶段技术发展的主要方向，这些agent均可实现系统接入。李未可具备深度定制各类智能代理（agent）的技术能力，涵盖翻译、记录、讲解及剪辑等多样化功能。在硬件适配方面，我们能够针对特定硬件特性进行专业化定制与优化，确保充分发挥设备性能优势。通过场景化深度定制方案，可精准满足用户在特定应用场景下的专业化需求。

　　关于选择的理由是因为大语言模型在翻译领域具有显著优势，其基于全人类语言训练的特性使其在翻译任务上具备降维打击能力。通过与合作伙伴的深度优化合作，例如与专注于中国出海一带一路展会的米奥兰特合作，该机构每年组织百万级中国企业参与十余场一带一路沿线国家展会。实地考察（包括近期在迪拜和越南的展会调研）表明，在中国企业拓展一带一路市场过程中，翻译服务已成为刚性需求。此类场景不仅需要解决嘈杂环境下的实时翻译问题，更需要深入理解企业实际需求。这一领域存在广阔的发展空间，翻译服务的价值已超越单纯的语言转换功能，更延伸至助力企业国际化拓展和客户获取等商业层面。本系统提供的翻译服务采用智能化操作模式，用户仅需直接表达即可实现自动识别与翻译功能。记录功能作为基础性配置，在完成小语种理解并应用于商务会谈场景后，系统将自动保存每次翻译内容。该功能可进一步生成会议总结、纪要文件，并支持日程安排与提醒设置。当前在线会议平台（如飞书、钉钉）已具备会议纪要功能，而针对现场商务拜访场景中的实时交流过程，本系统创新性地实现了面对面交谈的全程记录功能，有效填补了该领域的服务空白。

　　关于多模态交互技术在商旅场景的应用探索，带摄像头的智能眼镜具备类人感知能力这一显著优势。

　　人类的感知系统不仅限于视觉信息获取，还包括听觉等多种感知方式。通过整合环境感知技术（如地理位置信息等），可显著提升特定场景的识别准确率。以西湖断桥为例，在缺乏充分图片数据训练的情况下，仅依靠视觉感知的识别成功率约为60%；而结合环境感知技术（如确认用户位于西湖区域且天气为雨天），识别准确率可提升至100%。这种多维感知技术的融合应用，为主动交互创造了条件。当系统确认用户处于特定场景（如雨天在西湖断桥），即可触发基于场景的主动交互，例如介绍该地点的相关信息。关于多模态交互技术在文旅场景的应用实践，目前已在西湖景区特定路线开展为期一年的运营测试。该项目实现了100多种语言的实时讲解功能，成功服务了大量国际留学生群体，并在孤山景区完成了多模态交互的技术验证。基于前期运营成果，计划于本年度将该技术方案扩展至更广泛的应用领域。

　　该视频内容的核心观点在于：人工智能技术最适宜的载体是人体可穿戴设备中的眼镜形态，当然也存在其他设备形态。

　　选择眼镜作为主要载体的根本原因在于用户使用习惯——人们通常在早晨佩戴眼镜后全天持续使用，直至晚间回家方才摘除。相比之下，耳机设备并不具备这一使用特性，用户不会从早到晚持续佩戴。眼镜作为可全天佩戴且能够实现轻量化设计的设备，能够确保人工智能系统保持持续运行状态（always on）。这种长时陪伴特性对人工智能系统的功能实现至关重要，同时对于人机交互体验也具有同等重要的价值。

　　关于人工智能交互的核心问题，其本质在于探讨人工智能系统是否能够全面满足用户需求。

　　我在阿里巴巴开发天猫精灵项目期间，单一企业的人工智能系统难以实现对所有需求的覆盖。随着技术发展进入大模型时代，特别是2025年被定义为agent（agent）发展的元年，市场将涌现大量由不同AI创业公司开发的多样化agent。当前需要解决的关键技术问题在于如何实现不同agent之间的通信与调用机制，这一领域的突破将为人工智能应用带来广阔的发展前景。

　　当智能眼镜所搭载的agent系统能够实现agent间的相互交互与调用，并具备完整任务执行能力时，即标志着人工智能技术发展取得了重大突破。通过持续的技术迭代演进，预计在未来两至三年内，此类agent系统将实现普及化应用，届时每位用户均可通过智能设备获得真正意义上的任务辅助支持，从而显著提升工作效率。

　　李未可当前正在推进一项重要工作，旨在将已积累的技术框架与更多硬件厂商实现深度整合。我们正与深圳地区多家芯片制造商开展合作洽谈，其中包括年产量达十亿乃至数十亿颗芯片的行业领先企业，共同探讨开发快速解决方案以实现人工智能技术与硬件产品的有效融合。字节豆包和通义等模型也在同步推进此项工作。作为字节、豆包、通义以及百度的官方服务提供商（SV），我们在硬件与人工智能技术结合方面具备丰富的实践经验，这些经验积累能够有效协助硬件厂商快速开发出具有实际应用价值的场景化人工智能产品。该项目于本年度正式启动，其核心价值体现在两个方面：一是加速人工智能硬件产品的商业化落地进程；二是促进更多agent（AI agent）在硬件平台上的定制化开发。预计在未来两至三年内，市场将涌现出适用于不同应用场景、满足多样化需求的人工智能硬件产品，该领域将迎来持续性的快速发展。

　　不管如何，看一段我们的视频，我们觉得未来AI的眼镜还是有很多可以探索的功能。

　　其实AI眼镜是一个开始，现在在探索的这些功能是非常基础，是AI最早期的一些应用。借用凯文凯利的一句线年这个世界上最伟大的产品还没有被开发出来，希望和大家共勉。

　　通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司（下称“中信建投”）客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制，若您并非中信建投客户中的机构类专业投资者，为控制投资风险，请您请取消关注，请勿订阅、接收或使用本订阅号中的任何信息。对由此给您造成的不便表示诚挚歉意，感谢您的理解与配合！

363050.com

关于西湖

西湖娱乐场

西湖娱乐城

西湖APP