Strings, Runes und Bytes in Go verstehen

Snippet

Strings, Runes und Bytes in Go verstehen

In Go ist ein String ein read-only Slice von Bytes. Jedes Zeichen in einem String kann 1 bis 4 Bytes belegen, abhängig vom Unicode-Codepunkt. Die eingebaute len()-Funktion gibt die Anzahl der Bytes zurück, nicht der Zeichen. Um die tatsächliche Zeichenanzahl zu erhalten, konvertiere zuerst zu []rune. Bei der Iteration mit range dekodiert Go immer ein Rune auf einmal, was es sicher für Multi-Byte-Zeichen macht.

snippet.go
go
package main
 
import (
    "fmt"
    "unicode"
)
 
func main() {
    str := "Hello, 世界"
    fmt.Printf("String: %s\n", str)
    fmt.Printf("Length in bytes: %d\n", len(str))
    fmt.Printf("Length in runes: %d\n", len([]rune(str)))
 
    fmt.Println("\nIterating by byte:")
    for i := 0; i < len(str); i++ {
        fmt.Printf("  [%d] = 0x%X\n", i, str[i])
    }
 
    fmt.Println("\nIterating by rune:")
    for i, r := range str {
        fmt.Printf("  [%d] = '%c' (U+%04X)\n", i, r, r)
    }
 
    fmt.Printf("\nIs '世' a Chinese character? %v\n", unicode.Is(unicode.Han, '世'))
}

Erklärung

str := "Hello, 世界"

Erstellt einen String mit sowohl ASCII- als auch Multi-Byte-Unicode-Zeichen

len([]rune(str))

Konvertiert String zu Rune-Slice, um tatsächliche Zeichen statt Bytes zu zählen

for i, r := range str

Range dekodiert automatisch Runes und liefert sowohl Index als auch Unicode-Codepunkt

unicode.Is(unicode.Han, '世')

Nutzt das unicode-Paket, um zu prüfen, ob ein Rune zu einer Zeichenkategorie gehört

Vorheriges Snippet Nächstes Snippet

Verwandt

Aus deiner Bibliothek