如何拆分字符串以获取联系号码?

问题描述 投票:-1回答:4

我正在尝试从字符串中获取联系号码但是失败了。

我的代码:

url="https://www.zillow.com/homes/for_sale/2121711837_zpid/47.285925,-122.4099 
25,47.224756,-122.549143_rect/12_zm/1_fr//"

 browser = webdriver.Firefox() 
 browser.get(url)
 soup = bs4.BeautifulSoup(browser.page_source,'html.parser')

try:
   contact_info= browser.find_element_by_xpath("//ul[@class='ds-listing-a 
   gent-info']")
   contact_info = contact_info.text.strip()
   print("Contact number : " + contact_info)
except:
    try:
      contact_info= 
      browser.find_element_by_xpath("//span[@class='property-info contact- 
      phone']")
      contact_info = contact_info.text.strip()
      print("Contact number : " + contact_info)
    except:
      contact_info= 
      browser.find_element_by_xpath("//span[@class='property-info contact- 
      phone']")
      contact_info = contact_info.text.strip()
      print("Contact number : " + contact_info)

从我的代码输出

联系电话:Tyler Edwards

5/5 5条点评

电话:(253)381-0981

预期结果

联系电话:(253)381-0981

谁能找到最好的解决方案。谢谢

python web-scraping
4个回答
1
投票

只是做一个找到你可以做一些事情,比如从你的联系信息中创建一个新的变量

contact_info = "whatever your setting contact info to"

然后找到(启动电话号码

contact = contact_info[contact_info.find("("):]


print("Contact number:" + contact)

这应该适用于一个简单的方法来做到这一点,而不使用正则表达式,但就像正则表达式这只有它的格式(区号)电话号码


1
投票

最简单的方法是将你在contact_info中返回的文本子串

contact_info  = '''
Contact number : Tyler Edwards

5 / 5 5 reviews

Call: (253) 381-0981'''

start = contact_info.find('Call: ')+6 # Find where Call starts and add 6 to account for the text

contact_info = contact_info[start:]

产量

'(253) 381-0981'

0
投票

如果在你的代码中,contact_info = "Tyler Edwards 5 / 5 5 reviews Call: (253) 381-0981",那么你可以尝试使用正则表达式来找到具有以下精确格式的匹配数字:

import re
phn_no = re.findall(r'\d{,3}\D{,2}\d{,3}-\d{,4}', contact_info)
# Output : phn_no = ['253) 381-0981']

或者,如果字符串始终包含'Call',然后是最后的电话号码,那么试试这个:

phn_no = ci[ci.lower().rfind('call')+5:]
# Output : phn_no = ' (253) 381-0981'

注意:正则表达式部分不适用于其他格式的电话号码,如+7 123 41 86 789


0
投票

使用等待条件后,您可以从其中一个隐藏的输入元素中获取

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

url = 'https://www.zillow.com/homes/for_sale/2121711837_zpid/47.263111,-122.466574,47.247644,-122.492452_rect/14_zm/1_fr/'
driver = webdriver.Chrome()
driver.get(url)
phone =  WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '[name=zmailRecipientPhone]'))).get_attribute('value')
print(phone)
© www.soinside.com 2019 - 2024. All rights reserved.