Werden in HTML bzw. XML Entitäten aufgerufen, so möchte man diese sehr häufig z.B. beim Parsen herausfiltern.
Hier finden Sie einige Reguläre Ausdrücke, die diese Aufgabe übernehmen können.
Entitäten allgemein
Mit diesem regulären Ausdruck können Sie beliebige Entitäten herausfiltern. Es wird davon ausgegeangen, dass die Entitäten nur mit Groß- und Kleinbuchstaben benannt sind und keine Zahlen enthalten.
&[A–Za–z]+;
Aufruf von Unicode Zeichen
In HTML gibt es die Möglichkeit Unicode Zeichen explizit mit ihrer Hexadezimalen Nummer aufzurufen. z.B. „&x20AC;“ für „€“. Ein regulärer Ausdruck zur Erkennung dieser Aufrufe kann wiefolgt aussehen:
&x[0–9A–Za–z]{1,4};
Durch {1,4}
wird sichergestellt, dass mindestens ein Zeichen für die Nummer verwendet wird. Führende Nullen sind dadurch nicht verpflichtend, aber möglich.
Beide zusammen
Wenn es egal ist, ob es sich um Entitäten oder explizite Unicode-Aufrufe handelt, kann auch folgender Ausdruck genügen:
&[0–9A–Za–z]+;