ウェブスクレイピング

PHPでウェブスクレイピング

他サイトから取得したHTMLソースから目的のテキストなどを取り出したい時、ソースを文字列として扱うよりもDOMとして操作すると簡単に取り出せる事がわかりました。 HTMLソースの取得は別記事(PHPでサイトのソースを取得する)を参照してもらうことにして、スクレイピングについて書いていきます。 サンプルコード 例えば、ページのタイトルを取得する場合 [crayon-616cebf41a5431237 […]