在 Java 中,String.length()
方法返回的是字符串中的 字符数,而不是字节数。这里的“字符”是指 Unicode 编码中的一个代码单元(code unit),而不是字节。
具体解释:
-
字符数 vs 字节数:
String.length()
返回的是字符串中 UTF-16 编码的代码单元数量。- 每个字符在 Java 的
String
中是以 UTF-16 编码存储的,大多数常见字符(如英文字母、数字、标点符号)只需要一个代码单元(即 2 字节),而一些特殊字符(如某些汉字、表情符号等)可能需要两个代码单元(即 4 字节)。
-
汉字的表示:
- 在 UTF-16 编码中,大部分汉字(如常见的简体和繁体汉字)只需要一个代码单元(2 字节),因此对于这些汉字,
String.length()
会将其计为 1 个字符。 - 但是,对于一些特殊的汉字或扩展字符(如 Unicode 扩展区的字符),它们可能需要用到两个代码单元(4 字节),在这种情况下,
String.length()
会将其计为 2 个字符。 - 英文字符(如字母、数字、标点符号等)通常占 1 个字符
- 在 UTF-16 编码中,大部分汉字(如常见的简体和繁体汉字)只需要一个代码单元(2 字节),因此对于这些汉字,
public class Test {public static void main(String[] args) {String str1 = "你好"; // 常见汉字System.out.println("str1 长度:" + str1.length()); // 输出 2String str2 = "\uD83D\uDE00"; // 表情符号 😊System.out.println("str2 长度:" + str2.length()); // 输出 2String str3 = "a😊b"; // 包含字母和表情符号System.out.println("str3 长度:" + str3.length()); // 输出 4}
}
总结:
String.length()
返回的是 UTF-16 代码单元的数量,也就是字符数。- 对于常见的汉字,通常是一个代码单元(2 字节),计为 1 个字符。
- 对于特殊字符(如表情符号或扩展区字符),可能需要两个代码单元(4 字节),计为 2 个字符。