[問題] Selenium抓不到src的連結(已解決) fragmentwing PTT批踢踢實業坊

[問題] Selenium抓不到src的連結(已解決)

作者: fragmentwing (片翼碎夢) 2023-03-06 12:43:00

問題解決，單純只是class的位置搞混了
如題，想做爬蟲抓圖
用的網站是這個https://unsplash.com/
這是正確的class位置:

我從這篇開始改的:https://reurl.cc/OVEXz9
另外他這篇的程式碼改成現在用的語法可以運作後不知道為甚麼只能存一張圖片
(大概是我太不熟這類爬蟲工具了......)
我的程式碼如下:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import os
import time
import numpy as np
options = Options()
folder_path = os.getcwd()
driver_path = folder_path + "\chromedriver_win32\chromedriver.exe"
options.chrome_executable_path = driver_path
driver = webdriver.Chrome(options=options)
driver.maximize_window()
img_url_dic = {}
driver.get("https://unsplash.com/s/photos/burger")
# print(driver.page_source)
position = 0
picture_number = 0
for i in range(10):
position += i*500 + np.random.randint(100)
js = "document.documentElement.scrollTop=%d" % position
driver.execute_script(js)
time.sleep(np.random.random())
tags = driver.find_elements(By.XPATH,"//img[contains(@class,'tB6UZ
a5VGX')]")
src = []
for tag in tags:
src.append(tag.get_attribute('src'))
# print(src)
for i,element in enumerate(src):
print(i,element)
src_len = len(src)
print(f'{src_len=}')
driver.close()

作者: fragmentwing (片翼碎夢) 2023-03-06 13:00:00

啊靠腰我知道哪裡錯了 class是在src後面那個才是不過這篇先留著不知道哪裡還有錯正在吃飯等會回去修正改到目前可以了，雖然還是被反爬蟲擋掉我把標題和內文修改一下

繼續閱讀

[問題] 初學者對於Python路徑問題fred1541 [問題] Django+dbf資料庫可行性forkome [問題] VSCode IntelliSense不再記憶變數名了？Sylph [問題] BeautifulSoup如何排除特定classatb [問題] vscode切換python版本後的一連串問題fragmentwing [問題] requests的ssl驗證問題gene50814 [問題] 如何在fly.io部屬有selenium爬蟲aocaoef [問題] 用Selenium 定位Instgram搜尋頁無法定位lalelee [問題] Django 可以動態產生資料庫與資料表嗎?pshuang [問題] jupyter沒有kernels文件fragmentwing