LLM聊天质量评估-介绍

LLM evaluation allows engineers, QAs, and PMs to:

  • Prevent regressions – Catch breaking changes before they reach production
  • Optimize performance – Find the best prompts, models, and parameters for your use case
  • Build confidence – Get data-driven insights into your AI application’s quality
  • Save time – Automate manual testing with 40+ pre-built evaluation metrics
  • Enable iteration – Compare different versions of your AI system objectively
  • Quality assurance – Ensure consistent performance across different inputs and scenarios

More details https://www.confident-ai.com/docs

A new AI LLM world (A fresh perspective) !

还在坚持的跨时区生活:工作、旅途与脚下的球

过去的三个月,像一张被精心编织的网,它的经纬线是由截然不同的时空构成的。一端,是凌晨一点的越洋电话会议;另一端,是家乡泸州1902米山巅的辽阔风声。我穿梭在这张网中,试图在全球化的工作节奏与个人真实的生活体验之间,找到自己的平衡点。

这三个月,工作的主旋律依然是与美国团队的深度协作。

  • “凌晨1点”与“早上11点”,这两个时间点像两个锚点,固定了我一天的框架。深夜的沟通,需要清醒的头脑和精准的表达;午前的复盘,则是对一夜工作的沉淀与梳理。
  • 这种跨时区的协作,磨砺了我的时间管理能力和异步沟通的艺术。它让我深刻体会到,在全球化的工作环境中,真正的“在一起”并非物理时间的重叠,而是目标与进度的同步。

身体,是承载所有思想和工作的容器,我从未忘记对它的关照。

  • 每周踢球,是雷打不动的仪式。在球场上,没有代码、没有会议,只有最原始的奔跑、对抗与协作。这是一次次精神的“重启”,汗水冲刷掉的是疲惫,换来的是多巴胺带来的纯粹快乐。
  • 每日骑车,则是我与这座城市最直接的对话。穿行在街道上,感受风、阳光和季节的细微变化,这片刻的独处,是忙碌生活中珍贵的留白。

输入,是防止内心枯竭的最好方式。

  • 读了《黄家驹传》, Beyond的音乐是时代的呐喊,家驹的故事让我思考理想与坚持的力量。那是一种“灵魂的摇滚”——即便在商业与现实中碰撞,也要守护内心的旋律。
  • 翻了《Tiktok爆款攻略》,这是另一个极端的探索。我好奇于这个时代注意力经济的运作逻辑,这是“流量的密码”,是算法和数据构建的现代巴别塔。
  • 在两种截然不同的内容间切换,仿佛让大脑在不同的维度上做体操,既感性又理性,既怀旧又前沿。

这三个月最浓墨重彩的一笔,无疑是关于足球的远征。

  • 作为一名成都蓉城的球迷,飞赴韩国首尔,在宏伟的世界杯球场,亲眼见证心爱的球队客场作战,这是一种无法用言语完全形容的震撼。
  • 当身披红色战袍的球员在异国的绿茵场上奔跑,当熟悉的助威声在客队看区响起,0-0的比分背后,是巨大的激情与坚守。那一刻,我感受到的是一种“当地的全球化”——家乡的球队,站上了亚洲顶级的舞台;而我个人的爱好,也因此与更广阔的世界产生了连接。

回望这三个月,当我站在泸州1902米的山顶,那些碎片化的生活图景仿佛被瞬间串联,变得清晰:

  1. 关于平衡: 生活不是单选题。我们完全可以既深入全球化的工作,又扎根于个人真实的热爱。平衡,不是静态的完美,而是动态的驾驭。
  2. 关于尺度: 我们同时生活在多个尺度的世界里。从个人骑行的街道,到家乡的山川,再到首尔的世界杯球场和跨时区的协作网络。重要的不是固守一隅,而是拥有在不同尺度间自由切换的心境与能力。
  3. 关于坚持: 无论是凌晨一点的会议,每周的绿茵之约,还是远赴他乡的助威,所有微小的、日复一日的坚持,最终会定义我们是谁,并将我们带往想去的地方。

下山,回归日常。但这段整合了工作、健康、知识与远方的旅程,已经为我注入了新的能量。这三个月,充实而立体。期待下一个季度的故事。

《ToB的本质》摘录与感触(1)

“而国内的企业软件仍重度依赖于售前,交付,沟通,驻场等服务,对这些与客户同协同律的工作的依赖,意味着地区壁垒可能通过企业客户而对软件厂商的经营模式产生间接影响。”——软件只是实现客户定制的工具罢(还不错的工具)?

“换句话说,企业软件行业可能少有颠覆性的新机会,现有大厂可以相对安稳地经营下去,持续享受整个市场水涨船高带来的福利。”——企业软件解决的痛点不够痛?

“销售扩张时优先设立地区线,而后考虑行业线,理应具备最佳的性价比。”

“近10年以来,有多少旧人折戟沉沙,就有多少新人奋勇争先。诸多我尊敬的团队,景仰的前辈,未坚持到日出之刻;多少优秀的产品,精致的服务,徘徊在黎明之前。”——创业维艰呢


“稳定且仍在发展的广阔土壤,较低的门槛,专业的需求以及纷杂的壁垒,这“大,专,低,杂”的因素综合在一起,互相作用,共同构成了行业珊瑚礁状的形态特点。”

“这像是企业软件行业存在的市场壁垒,让大资本与巨头食之无味的同时 ,给无数创业者和管理者以穿越周期,安稳栖身的机会。”——无序意味着机会。

“在社会中的其他科技领域增长乏力时,企业软件行业可能以其特殊的结构,稳定的土壤,庞大的需求,较低的门槛,纷杂的市场壁垒,吸引大量科技和工程领域人才进入耕耘。”

“当一个具备标准功能,标准流程的企业软件产品交付给客户时,会同时发生3件事情:客户的认知需要与软件价值达成一致;企业的流程需要与软件支持的流程对齐;旧有的系统需要与新软件完成对接。”——软件开发结束只完成了一小步。


“软件厂商和投资者如果抛开对低利润,难扩张的重交付模式的厌恶,只从市场整体的利弊出发,不带感情色彩来看,或许会发现:可以(或愿意)提供重交付模式,反而是厂商具有的,符合市场需要的竞争优势。”——优势由交付决定??

“发展不是规划出来的,而必须是实践出来的。”

“定制多,交付重,离业务近,却解决了企业的核心问题。”——服务模型(管家式服务)。

“对老旧系统的兼容问题,属于非功能性质的需求,对技术水平和投入的隐性要求很高,会给企业带来极高的成本,且没有经验的人员很难预估其难度。”——骨头上的肉。

“老系统带来的交付难度可作为衡量企业的信息化阶段和步幅的指标,交付难度越低,企业的信息化成熟度可能就越高。”


“中国企业软件的云化趋势是由中小企业(特别是科技企业 )和新兴企业的快速发展带动的。”

“需求是发展的驱动力和方向,但又天然具有一定的模糊性,盲目性,甚至欺骗性。”

“SaaS只能解决产品成本问题,无法绕过软件产生价值的必要步骤。国内大部分企业缺的并非单纯的产品,而是顾问式的,能落地的解决方案。”——有多少清晰的认知到?

寻找“身体-生活-工作”的平衡

在各个焦虑的场景里,更多的忘记了是什么在支撑着你走到今天,走过时日。

是身体。在节奏越来越快越来越紧急的生活中,生活为了工作,工作为了生活,是吧?有几分道理。我们熬夜,我们深度工作许久,总还是觉得年轻身体能抗的了。

没有善待的身体,需要在各个之间寻找一个平衡,加上身体这一要素。

如果说工作太苦,需要更多的生活,那给更多的生活时,身体就更好或更健康了,不见得。不工作的时日就是生活,而生活的时光中就让身体更好了,不见得。

这逻辑关系对否?

不能因为工作了10+小时就是在伤身体,而躺在沙发上一天玩手机不工作就是在善待身体了。许多的逻辑不能用时长来看待,只能算着是一个潜在的因素罢了。

阿里的“认真生活,快乐工作”需要每个人自身去考评,很难有标准的依据去平衡。

如何善待身体?定期体检(一年一次),周期性的坚持锻炼(最好以周为单位,每次1小时以上),睡足8小时。

如何过好生活?没有一个标准的答案,心态好,积极向上,开开心心,有人有事有意义就行啦。

工作中多喝水,多走动(每天1万步),多上厕所。特别是IT行业,要寻找到自己的平衡之术,才能在坚持多年后的工作中有点点成绩,且还有个不错的身体。跨掉的不会是工作,也不会是生活,唯有你的身体会跨掉。

平凡人做非凡事,非凡人做非凡事。其实平凡人就干平凡事。工作的核心要把难的事变成平凡人也能干,还能干好;而不是总希望平凡人去干非凡事,或一个人去干几人的事,往往事与愿违,半斤八两。

IT人经常所说的996,但又有许多人坚持了多年的996而继续着,坚持每个周两次锻炼,篮球足球或游泳,当身体锻炼舒展后,在一周5天多的工作中变得紧绑,而又在下一个周末的锻炼变得舒展,周期性地循环着十几年;但凡有点小的成绩出来之时皆是多少个小周期的循环着坚持着。

价值皆在工作中体现,而不是说你价值多少后才去证明,那往往是证明不了的。没有哪公司会对你说:给你支付100万/年的福利,你去给做出100万的价值回报公司。弄反了的人。

身体里装着你的灵魂你的思考你的邪恶你的世界,还有整个宇宙的奥秘。400KM以上速度的撞击身体,瞬间灰飞烟灭成气态,比如MU5735。