2008-04-06から1日間の記事一覧

DirtyなHTMLなのにXHTMLと名乗っているページをC#でスクレイピングする

C#でスクレイピング - DENKENを参考にやってみた。元ネタはGoogleが吐いたHTMLを処理してたので(比較的キレイなHTMLなんだろう)、HTMLtoXHTMLは無事にXHTMLに変換できていたが、とある有名なブログのページを変換しようとしたら、XHTMLの宣言部が下記のよ…