Bài viết này hướng dẫn truy xuất dữ liệu của một trang web bằng cách nhập đường dẫn và dữ liệu cần lấy của trang. Bạn có thể áp dụng để lấy toàn bộ hình ảnh, liên kết… có trong trang.

Truy xuất mã nguồn HTML của một trang web bằng PHP

Để thực hành bài viết này, các bạn cần:

Thư viện sử dụng: PHP Simple HTML DOM Parser.

Tải về

Ví dụ, lấy toàn bộ hình ảnh của phần nội dung trong liên kết này: http://hinhnendepnhat.net/hinh-anh-dep (.content_block img).

<?php
  include "simple_html_dom.php";
  $page = file_get_html('http://hinhnendepnhat.net/hinh-anh-dep');
  foreach ($page->find('.content_block img') as $element) {
    echo $element->src . '<br>';
  }
?>

Ngoài ra, bạn có thể xuất toàn bộ mã nguồn của trang đích bằng cách dùng lệnh.

echo file_get_html('http://hinhnendepnhat.net/hinh-anh-dep')->plaintext;

Các cách sử dụng còn lại, thì tùy vào sự sáng tạo của các bạn!

Lưu ý: Các website có khả năng bảo mật cao có thể chặn truy cập từ thư viện này.

Chúc các bạn thành công!