Go 语言：字符串的内存本质

🔹 字符串在内存中的存储

1	str := "eat"

在内存中，str 存储的就是这 3 个字节：

1 2	str → [ 'e' 'a' 't' ] 101 97 116 ← 每个字符的 ASCII 值，各占 1 byte (uint8)

📐 字节与字符的对应关系

字符	ASCII 码（十进制）	ASCII 码（二进制）	占用内存
`'e'`	101	`01100101`	1 byte
`'a'`	97	`01100001`	1 byte
`'t'`	116	`01110100`	1 byte

💡 结论：对于纯 ASCII 字符串，len(str) 等于字符个数，也等于字节数。

🔹 string 的底层结构（源码视角）

// Go 源码 reflect/value.go
type StringHeader struct {
    Data uintptr   // 🔗 指向字节数组的指针
    Len  int       // 📏 长度（字节数）
}

🧠 内存布局图解

变量 str（16 字节，64 位系统）
┌──────────────────────┐
│  Data: 0xABC (指针)   │  8 字节
│  Len:  3             │  8 字节
└──────┬───────────────┘
       │
       │ 指向
       ▼
   底层字节数组（只读）
   ┌────┬────┬────┐
   │'e' │'a' │'t' │
   │101 │ 97 │116 │
   └────┴────┴────┘
        ↑
   不可修改！⚠️

🔹 核心结论

string 本质上就是一个只读的 []byte

特性	string	[]byte
底层结构	`Data + Len`	`Data + Len + Cap`
可变性	❌ 只读	✅ 可修改
内存拷贝	赋值/传参只拷贝头部（16 字节）	同左
底层数据	共享，不可变	共享，可变

🔹 关键推论与实践

✅ 推论 1：字符串赋值/传参是”浅拷贝”

s1 := "hello"
s2 := s1   // ✅ 只拷贝 StringHeader（16 字节），不拷贝底层数据

// 内存状态：
// s1.Data → 0xABC ─┐
// s2.Data → 0xABC ─┴→ ["h","e","l","l","o"]  ← 同一块只读内存

💡 这就是为什么字符串传参高效——无论多长，只拷贝 16 字节的头部。

✅ 推论 2：字符串不可修改的根本原因

1 2	str := "eat" str[0] = 'x' // ❌ 编译错误：cannot assign to str[0]

原因：

str.Data 指向的内存区域被标记为只读
多个字符串可能共享同一块底层数据（字符串驻留/去重优化）
如果允许修改，会破坏其他引用该数据的字符串

// 字符串驻留示例：
a := "hello"
b := "hello"
// a 和 b 可能指向同一块只读内存，修改任一会破坏另一个

✅ 推论 3：string ↔ []byte 转换会拷贝数据

str := "eat"

// string → []byte：必须拷贝，因为 []byte 是可写的
b := []byte(str)   // ✅ 新分配内存，拷贝 3 个字节
b[0] = 'x'         // ✅ 合法，b = ["x","a","t"]

// []byte → string：必须拷贝，因为 string 是只读的
s := string(b)     // ✅ 新分配只读内存，拷贝 3 个字节

内存变化：

原始:  str → [e,a,t]（只读）
转换:  b   → [e,a,t]（可写，新内存）
修改:  b   → [x,a,t]
再转:  s   → [x,a,t]（只读，又是新内存）

⚠️ 性能提示：频繁的 string ↔ []byte 转换会产生内存拷贝和分配开销，热点代码中需注意。

✅ 推论 4：子串操作可能共享底层数组（历史行为）

// Go 1.20 之前：
big := strings.Repeat("x", 1000000)  // 1MB 字符串
small := big[0:3]                     // 只取前 3 个字符

// ⚠️ small 的 StringHeader 仍指向 big 的底层大数组
// 即使 small 只用 3 字节，big 的 1MB 内存也无法被回收！

✅ 解决方案（Go 1.20+ 已优化，但显式拷贝更保险）：

// 显式拷贝，切断与大数组的引用
small := string([]byte(big[0:3]))
// 或
small = strings.Clone(big[0:3])  // Go 1.18+ 专用函数

🔹 进阶：Unicode 与多字节字符

上述讨论基于 ASCII 字符（1 字节）。对于 Unicode 字符（如中文），Go 的 string 使用 UTF-8 编码：

str := "你好"

// 内存布局（UTF-8 编码）：
// '你' → 0xE4 0xBD 0xA0  (3 字节)
// '好' → 0xE5 0xA5 0xBD  (3 字节)
// 总共 6 字节

fmt.Println(len(str))           // 6  ← 字节数
fmt.Println(utf8.RuneCountInString(str))  // 2  ← 字符数（rune 个数）

操作	返回值	含义
`len(str)`	字节数	适用于内存/网络传输计算
`utf8.RuneCountInString(str)`	字符数	适用于用户可见的”长度”
`[]rune(str)`	`[]int32`	按 Unicode 码点拆分，可索引单个字符

🔑 关键要点速记

┌─────────────────┬───────────────────────────────────────────┐
│      要点       │                   说明                    │
├─────────────────┼───────────────────────────────────────────┤
│ string 本质     │ 只读的 []byte，底层是 Data 指针 + Len 长度 │
├─────────────────┼───────────────────────────────────────────┤
│ 赋值/传参       │ 只拷贝 16 字节头部，底层数据共享          │
├─────────────────┼───────────────────────────────────────────┤
│ 不可修改原因    │ 只读内存 + 字符串驻留优化，修改会破坏共享 │
├─────────────────┼───────────────────────────────────────────┤
│ string↔[]byte   │ 转换必拷贝，产生新内存，注意性能开销      │
├─────────────────┼───────────────────────────────────────────┤
│ 子串内存泄漏    │ 大字符串的小子串可能持有大数组，用 Clone  │
├─────────────────┼───────────────────────────────────────────┤
│ Unicode 支持    │ string 用 UTF-8 编码，len() 返回字节数    │
└─────────────────┴───────────────────────────────────────────┘

🎯 实践建议

✅ 高效字符串拼接

// ❌ 低效：每次 + 都产生新 string + 拷贝
s := ""
for i := 0; i < 1000; i++ {
    s += "x"  // O(n²) 复杂度
}

// ✅ 高效：用 strings.Builder（内部用 []byte 缓冲）
var b strings.Builder
b.Grow(1000)  // 预分配容量
for i := 0; i < 1000; i++ {
    b.WriteByte('x')
}
s := b.String()  // 最后一次性转为 string

✅ 避免不必要的转换

// ❌ 循环内反复转换
for _, ch := range str {
    b := []byte(str)  // 每次都拷贝！
    // ...
}

// ✅ 转换提到循环外
b := []byte(str)
for _, ch := range b {
    // ...
}

✅ 使用 strings.Cut / Clone 等现代 API

// Go 1.18+：安全截取子串，避免内存泄漏
prefix, found := strings.Cut(s, ":")
if found {
    prefix = strings.Clone(prefix)  // 显式拷贝，切断引用
}

📌 一句话总结：string 是”只读的 []byte 视图”，理解其指针+长度的底层结构、不可变性原因及转换开销，是编写高效、安全 Go 字符串代码的基础。