AI 数学的秘密花园:02.词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)

AI 数学的秘密花园:02.词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)

第2章:词怎么变成数字?(Tokenization:把一锅语言粥切成能下嘴的小积木)**

上一章咱们刚把AI数学比作搭乐高,是不是已经有点手痒想动手拼了?今天继续往前走,先解决一个最基础、最接地气的问题:那些五颜六色的乐高积木,到底是从哪儿来的?

在这里插入图片描述

(瞧这张厨房图,孩子做饭要切菜——把里面的菜换成“语言粥”,小机器人拿着菜刀笑眯眯地切,就完美了!)

AI不是天生就会说话,它其实是个超级挑食的数字星人——只吃数字,不吃汉字!

很多人以为AI直接读懂“你好,世界”,其实不然。它眼里只有0和1,像个只吃数字饭的小朋友,根本不认识那些弯弯曲曲的字。所以,第一步就是把人类的语言——那锅热腾腾、黏糊糊的语言粥——切成一块块大小能直接下嘴的小积木块。这道工序,就叫 Tokenization(分词 / Token化)。

我最爱这个比喻:一锅语言粥,切成乐高小积木。粥里混着中英文、标点、表情、网络热梗……乱七八糟热气腾腾。AI胃口小,吃不了整锅,得切成均匀小块才行!


为什么一定要切?

想象你端一整锅粥给AI,它直接傻眼:这玩意儿怎么吃啊?
必须切成小块,它才能一块一块慢慢嚼,找出里面的模式、统计规律和几何关系。

比如你敲一句:
“今天天气真不错,想出去浪~”

后台可能被切成:
[“今天”, “天气”, “真”, “不错”, “,”, “想”, “出去”, “浪”, “~”]

每个小积木再对应一个数字ID,比如 3456、7890……
这样AI就能用数字算

Read more

Flutter 三方库 react 泛前端核心范式框架鸿蒙原生层生态级双向超能适配:跨时空重塑响应式单向数据流拓扑与高度精密生命周期树引擎解耦视图渲染控制中枢(适配鸿蒙 HarmonyOS ohos)

Flutter 三方库 react 泛前端核心范式框架鸿蒙原生层生态级双向超能适配:跨时空重塑响应式单向数据流拓扑与高度精密生命周期树引擎解耦视图渲染控制中枢(适配鸿蒙 HarmonyOS ohos)

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 react 泛前端核心范式框架鸿蒙原生层生态级双向超能适配:跨时空重塑响应式单向数据流拓扑与高度精密生命周期树引擎解耦视图渲染控制中枢 前言 在 OpenHarmony 的大型应用开发中,面对如分布式协同白板、复杂仪表盘或多端动态配置等业务,如何优雅地组织繁杂的交互逻辑是每个架构师的宿命。虽然 Flutter 本身已有完善的 Widget 体系,但在处理极其深度的“逻辑-视图”分离时,借鉴前端 React 思想的库可以提供更高级的抽象。react 库(注:指 Dart 生态中模拟 React 核心 API 的封装库)为开发者提供了声明式、可组合的状态管理逻辑。本文将调研其在鸿蒙端的集成实战,探索逻辑复用的新边界。 一、原理解析 / 概念介绍 1.1 基础原理/概念介绍 react

【Web】CTFSHOW元旦水友赛漏洞解析:从PHP反序列化到RCE实战

1. PHP反序列化漏洞基础认知 第一次接触PHP反序列化漏洞时,我盯着那一串O:6:"Logger":3:{...}格式的字符串发了半小时呆。这玩意儿就像快递站的条形码,看似杂乱无章,实际上藏着完整的物品信息。简单来说,PHP反序列化就是把这种特殊格式的字符串,重新转换成内存中的对象实例。 举个例子,假设有个用户登录类: class User { public $username = 'guest'; public $is_admin = false; public function checkPermission() { if($this->is_admin) { return '最高权限'; } return '普通权限'; } } 当这个类被序列化后,会变成: O:4:"

ReMe 深度解析:面向 AI 智能体的模块化记忆管理工具包设计与实现

导读:在大语言模型驱动的 AI 智能体中,“记忆”(Memory)是决定智能体能否跨会话学习、长期适应用户需求的关键能力。ReMe(Remember Me, Refine Me)是由 AgentScope 团队开源的一款面向智能体的模块化记忆管理工具包,其核心理念是将记忆管理本身视为一项智能体任务,而非简单的数据存取操作。本文将从架构设计、记忆分类体系、核心数据模型、执行引擎及工程实现等多个维度,对 ReMe 的记忆体设计进行深度剖析。 一、设计背景与核心理念 在传统的 RAG(Retrieval-Augmented Generation)系统中,“记忆"通常等价于"向量检索”——将文本切块、生成嵌入向量、存入向量数据库。然而,对于一个真正具备持续学习能力的 AI 智能体而言,记忆问题远比简单的文本检索复杂得多。 ReMe 的设计者借鉴了认知科学中人类记忆的分层模型,将智能体的记忆体系形式化为: Agent Memory

使用VS Code插件搭建AI开发环境完全指南

使用VS Code插件搭建AI开发环境完全指南

1. AI编程工具概述 目前主流的AI编程工具主要分为三类:集成IDE、插件模式和独立CLI。其中,插件模式以其轻量级和高兼容性成为许多开发者的首选。通过在VS Code中安装相应插件,开发者可以在不离开熟悉的编辑器环境的情况下,享受到AI辅助编程的便利。 插件模式的优势在于: 无需切换编辑器,保持开发环境一致性 可根据需求灵活选择不同AI模型 资源占用小,启动速度快 支持与本地开发环境深度集成 2. VS Code AI插件选择 目前市场上有多种VS Code AI插件可供选择,各有特色。以下是几款主流插件的对比分析: 插件名称 开发公司 主要特点 中文支持 推荐指数 RooCode 第三方 支持多种模型,架构/编码/问答模式 优秀 ★★★★★ TRAE 字节跳动 原名MarsCODE,支持国产模型 优秀 ★★★★☆ 通义灵码 阿里巴巴 基于千问模型,集成阿里生态 优秀 ★★★★☆ CodeBuddy