我如何从第1页到第2页抓取Google搜索结果

问题描述 投票:-2回答:1

我想将Google搜索结果抓取到第2页,但是我在网站空白页或超时的结果上遇到了麻烦。

for($j=0; $j<$acount; $j++){
sleep(60);
for($sp = 0; $sp <= 10; $sp+=10){
                        $url = 'http://www.google.'.$lang.'/search?q='.$in.'&start='.$sp;
                        if($sp == 10){
                            $datenbank = "proxy_work.php"; 
                            $datei = fopen($datenbank,"a+");
                            fwrite($datei, $data);  
                            fwrite ($datei,"\r\n");
                            fclose($datei);
                        } else {

                            $datenbank = "proxy_work.php"; 
                            $datei = fopen($datenbank,"w+");
                            fwrite($datei, $data);  
                            fwrite ($datei,"\r\n");
                            fclose($datei);
                        }
}
                        $html = file_get_html("proxy_work.php");
                        foreach($html->find('a') as $e){
                            //  $title = $h3->innertext;
                            $link  = $e->href;
                        if(in_array($endomain, $approveurl)){ 
                                }
                            // if it is not a direct link but url reference found inside it, then extract
                            if (!preg_match('/^https?/', $link) && preg_match('/q=(.+)&amp;sa=/U', $link, $matches) && preg_match('/^https?/', $matches[1])) {
                                $link = $matches[1];
                         } else if (!preg_match('/^https?/', $link)) { // skip if it is not a valid link
                                continue;
                            } 
                        }

}

php web-scraping scrape
1个回答
0
投票

Google搜索结果页(SERP)不像带有静态html的普通网站。 Google会从网络抓取中保留其数据。将其数据视为业务目录,并查看以下有关业务目录刮取的提示:

  1. IP代理。
  2. 通过使用某些浏览器自动化工具(Selenium,iMacros等)来模仿人类的行为。

阅读更多here

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.