为什么我提交表单网页抓取代码不起作用?

问题描述 投票:-1回答:1

我试着访问这个网站的表格:https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php

因此,您需要选择“Selecione um estado”形式的一个州,然后将有一个名为“Selecioneummunicípio”的城市新表格。当您选择所需的城市时,您将获得要删除的表格。但我的代码只获取网站初始状态的html代码:

import requests
url = 'http://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php'
data = {'Selecione um estado':'SP - São Paulo', 'Selecione um município': 'Bauru'}
r = requests.post(url, data = data)

r.text

我已经尝试在邮寄请求中使用params而不是data,但它们都没有奏效。

python forms web-scraping
1个回答
1
投票

它需要为我忽略SSL证书错误。请尝试以下(感谢@SIM的审核和建议)

import requests
from bs4 import BeautifulSoup  
import pandas as pd
import urllib3; urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
url = 'https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php'
params ={
    'uf_ibge' : '27',
    'nome_estado' : 'AL - Alagoas',
    'p_ibge' : '2700201',
    'nome_municipio' : 'Anadia'
}


r = requests.post(url, params = params, verify=False).
soup = BeautifulSoup(r.text, "lxml")
tables = pd.read_html(r.text)
print(tables[1])

这是为AL - Alagoas和Anadia

© www.soinside.com 2019 - 2024. All rights reserved.