beautifulsoup - python - 在BeautifulSoup中,处理无限滚动UI

我正在研究如何抓取Linkedin source (https://www.Linkedin.com/mynetwork/invite-connect/connections/),但是似乎无法无限滚动,如何处理它?我不想使用selenium (我希望在以后把这个作为web服务实现)。


import bs4


from bs4 import BeautifulSoup


import requests



def scraping(webpage):


 headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}


 response= requests.get(str(webpage), headers=headers)


 soup = BeautifulSoup(response.text,"html.parser")


 print(soup)



scraping('https://www.linkedin.com/mynetwork/invite-connect/connections')



时间: 作者:

BeautifulSoup只能处理HTML;你需要让LinkedIn返回更多的HTML,但内容不在HTML中,因此你必须获取内容,

你需要另一个工具。

你可以使用selenium,这可能是解决问题的最简单方法,因为它可以很好地复制浏览器环境,

如果不使用Selenium ,建议你在LinkedIn网站上进行深入研究,看看是否可以找出javascript的哪一部分负责获取数据,并复制它们发出的网络请求,然后自己进行解析数据。

对于大多数人来说,selenium是正确的答案。

作者:
...