19. April 2024

HTML/XML Unicode Aufruf und Entitäten als regulärer Ausdruck

Werden in HTML bzw. XML Entitäten aufgerufen, so möchte man diese sehr häufig z.B. beim Parsen herausfiltern.

Hier finden Sie einige Reguläre Ausdrücke, die diese Aufgabe übernehmen können.

Entitäten allgemein

Mit diesem regulären Ausdruck können Sie beliebige Entitäten herausfiltern. Es wird davon ausgegeangen, dass die Entitäten nur mit Groß- und Kleinbuchstaben benannt sind und keine Zahlen enthalten.

&[AZaz]+;

Aufruf von Unicode Zeichen

 In HTML gibt es die Möglichkeit Unicode Zeichen explizit mit ihrer Hexadezimalen Nummer aufzurufen. z.B. „&x20AC;“ für „€“. Ein regulärer Ausdruck zur Erkennung dieser Aufrufe kann wiefolgt aussehen:

&x[09AZaz]{1,4};

Durch {1,4} wird sichergestellt, dass mindestens ein Zeichen für die Nummer verwendet wird. Führende Nullen sind dadurch nicht verpflichtend, aber möglich.

Beide zusammen

Wenn es egal ist, ob es sich um Entitäten oder explizite Unicode-Aufrufe handelt, kann auch folgender Ausdruck genügen:

&[09AZaz]+;

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert