ich habe ein Problem mit dem Parsen von HTMLs. Ich programmiere gerade ein Tool, welches guibasierend die qt-help für ein programm generiert (qhp und qhcp files bzw qch und qhc) . in diesem zuge sollen html-files automatisch erstellt werden und auch html-files eingelesen und in den baum (eigene baumklasse) überführt werden. html nach xml umwandeln geht nicht, da html nicht wohldefiniert ist (ständiger wechsel zw. bold, italic, ...). also parse ich selbst.
meine frage ist: wie kann ich QRegExp benutzen, um z.b. aus dem html-text alle kommentare zu entfernen?
Code: Alles auswählen
<!-- kommentar 1 -->
.
.
.
<!-- kommentar n -->
Code: Alles auswählen
<h1 class = "TOCHead" align = "center">Meine_Ueberschrift</h1>
<h2 class = "TOCSubhead" align = "left"><a name="Unterkapitel1_Ueberschrift"></a>Unterkapitel1_Ueberschrift</h2>
.
.
.
<h2 class = "TOCSubhead" align = "left"><a name="Unterkapitel2_Ueberschrift"></a>Unterkapitel2_Ueberschrift</h2>
.
.
.
Code: Alles auswählen
<p class = "..."> .... </p>
<h2 class = "..."> .... </h2>