从URL加载下一组结果 - PHP cURL

问题描述 投票:0回答:1

寻求一些帮助,我使用curl从所述网站提取数据,在网站上他们在第一页上有10个结果,然后下一组10个结果在下一个附加?page = 2,依此类推。

我确实试过一个循环,但它似乎没有工作,任何建议我可以使用,最好是滚动加载更多,但希望让他卷曲部分正确的第一。

下面是我使用的测试代码,完整版包含附加到URL的post参数,但只需要下一个结果

<?php

// Main url but the next result will be on https://example.org/data/?page=2
$url = "https://example.org/data";

$result = get($url) ;

function get ($url) {
    $curl = curl_init();
    curl_setopt($curl, CURLOPT_URL, $url);
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.85 Safari/537.36');
    $result = curl_exec($curl);
    curl_close($curl);
    return $result;
}

preg_match_all('!<h1>(.*?)<\/h1>!',$result,$title);

for ($i = 0; $i < count($result[1]); $i++) {
    echo '<h1>' . $title[1][$i] . '"</h1>';
}

对于正如我所做的那样阅读本文的所有内容,上面的代码也适用于在值匹配时在任何给定URL上基本提取H1标头,如果我能帮助解决新编码器的任何基本问题。

修改示例,显示URL中的页面1,2示例。

<?php

for ($i = 1; $i <= 2; $i++) {
$url = "https://www.gamespot.com/search/?q=gta&page=". $i;
echo $url . "<br>";
}

$result = get($url) ;

function get ($url) {
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.85 Safari/537.36');
$result = curl_exec($curl);
curl_close($curl);
return $result;
}

preg_match_all('!<h4 class="media-title" style="margin:0;padding-bottom:4px;">
                            <span style="font-weight:bold;"><a href=".*?">(.*?)<\/a><\/span>
          <\/h4>!',$result,$title);

for ($i = 0; $i < count($title[1]); $i++) {
echo '<p>' . $title[1][$i] . '</p>';
}
php curl scrape
1个回答
0
投票

好吧,经过多个小时的研究和失败,我已经做了以下工作,因为我想,所以我希望与您分享。

我设置了一些变量,如下面的值

// Get the value of $pg through the GET value of 'page'
$pg = $_GET['page'];

// Increase the $pg variable when clicking $next/$prev with +1 or -1
$next = $pg +1;
$prev = $pg -1;

// Append the $pg value to the CURL url
$url = "https://www.gamespot.com/search/?q=gta&page=".$pg;

// The next & previous
<?php
  echo '<div class="btn-group special">';
   // Added an IF statement so that this does not go to the -1 values
   if ($prev >= 1) {
    echo '<a href="results.php?page='.$prev.'" class="btn btn-info" role="button"><i class="fas fa-chevron-left"></i></a>';
   } else {
    // Nothing to display
   }
  echo '<a href="results.php?page='.$next.'" class="btn btn-info" role="button"><i class="fas fa-chevron-right"></i></a>';
  echo '</div>'
?>
© www.soinside.com 2019 - 2024. All rights reserved.