PHPでサイトのHTMLソースを取得する

PHPを使って、外部サイトのHTMLを取得する方法を2つ(file_get_contents と cURL)ご紹介。
例えば、あるサイトをスクレイピングしたい時など、まず最初にHTMLソースを取得しなければいけません。
その方法が、意外と簡単だった。

file_get_contents

最初に調べて出てきた方法が、file_get_contents

これだけ。

しかし、とあるサイトでは取得できなかった。
そこで、また調べたところcURLという方法が出てきた。
こちらの方が、様々なオプションが設定できる他、パフォーマンスもいいらしい。

cURL

今度は少し複雑ですが、以下のコードをそのままコピペでいけます。

もし、そのままのコードで取得できない場合は、取得先のサイトに合わせて、オプション部分を工夫する必要があるかもしれません。

用意されているオプションが結構多いので、公式で確認して必要なものを実装してみてください。

 

取得したソースから特定の要素を取り出す方法は、下記の過去記事。

PHPでウェブスクレイピング