Meteor App
每日配對一位校外同學
立即下載

{{adMap.article_top.title}}
{{adMap.article_top.cta}}

#提問 爬蟲問題(已解決)
程式設計板

|

{{ articleMoment(createdAt) }}

痾...小弟我最近在學爬蟲 原本都是用c++拉 但為了學爬蟲所以學了一點python 但是遇到了一些小問題(剛剛有發文 因為我看到一些錯誤所以刪文了) 就是在瀏覽器按下f12的東東和網頁的原始碼是一樣的嗎? 因為我目前學到request和selenium,從書上來看好像是一個用在網頁原始碼 一個用在html的元素上 我不確定兩個是不是一樣的東西(或是request也能搜尋html元素?) 然後就是我遇到ㄉ問題qq 我目前是拿dcard來做練習 https://i.imgur.com/tlJ7k7n.jpg 想要試著把頁面上的標題給print出來,所以我打了下面的程式 https://i.imgur.com/xeZ5F6f.jpg 執行的時候就出現了下面這些問題qq https://i.imgur.com/GRl8D4s.jpg 第一條紅字是 C:/Users/admin/Desktop/python/main.py:3: DeprecationWarning: executable_path has been deprecated, please pass in a Service object   browser = webdriver.Chrome(driverpath) 只要打上了browser.get(url)就會跑出這串,不知道哪裡出了問題 而第二條紅字是 C:/Users/admin/Desktop/python/main.py:7: DeprecationWarning: find_elements_by_* commands are deprecated. Please use find_elements() instead   tags=browser.find_elements_by_class_name('tgn9uw-3 bJQtxM') 是因為'tgn9uw-3 bJQtxM'裡面不能有"-"嗎?如果是的話那要怎麼解決呢? 總結一下問題: 1.除了selenium之外還有沒有其他方法能搜尋html元素?因為我用來練習的網站好像都不能用原始碼來蒐... 2.第一條紅字是為什麼出現qwq?是哪個環節出問題了? 3.第二條紅字是因為有"-"嗎?如果是的話那要怎麼解決?如果不是的話那是什麼原因qq然後有什麼方法能夠解決 *我很少發文 排版可能有點醜 在這邊先道歉一下~ **我有買<python網路爬蟲 王者歸來> 洪錦魁 寫的 如果我的問題能在這本書中找到答案 希望能提醒我一下 因為我很想把爬蟲給學好


  回文

你可能有興趣的文章...

{{adMap.article_bottom.cta}}
{{adMap.article_bottom.title}}
{{adMap.article_bottom.content}}

全部留言

B1 {{commentMoment( "2022-01-24T16:02:39.895Z" )}}

文章講的那個問題我建議你可以把第三行改成用 browser = webdriver.Chrome()#決定瀏覽器讀取方式 webdriver.get(url)#抓去網頁原始碼 這個指令試試看,我很久沒用selenium了我猜你是少這行 然後你之後問的三個問題: 1. 你可以用用看bs4(beautiful soup4),我也建議你先看bs4會比較好懂爬蟲的概念你買的書大概對你來說有點太難了(? 2.照上面的方式做做看 3.你上面的有問題導致下面的方法沒辦法做,先一行一行解 #如果有大佬看到我講錯的再幫我更正w

原 Po 回覆:

我第三行是打那個沒錯啊… 然後最近我解決了 好像是沒等網頁跑完……..

1
B2 {{commentMoment( "2022-02-04T03:28:16.976Z" )}}

@B1 我認為Dcard爬蟲用selenium會更適合, 可以以更接近人類的操作與網頁互動, 所以我會建議用selenium來爬 bs4則純粹拿來解析HTML

0
B3 {{commentMoment( "2022-02-04T03:57:23.602Z" )}}

然後針對樓主的部分, 我真心建議上網看教學文章會更快上手, 如果你已經有Scratch的底子, 應該都可以很快理解, 推薦幾個自學時會用到的網站 https://www.w3schools.com https://ithelp.ithome.com.tw/2021ironman/event https://medium.com https://stackoverflow.com https://github.com https://youtube.com https://www.google.com.tw https://facebook.com

1


登入後發表留言






確定要刪除此文章?
#提問 爬蟲問題(已解決)

痾...小弟我最近在學爬蟲 原本都是用c++拉 但為了學爬蟲所以學了一點python 但是遇到了一些小問題(剛剛有發文 因為我看到一些錯誤所以刪文了) 就是在瀏覽器按下f12的東東和網頁的原始碼是一樣的嗎? 因為我目前學到request和selenium,從書上來看好像是一個用在網頁原始碼 一個用在html的元素上 我不確定兩個是不是一樣的東西(或是request也能搜尋html元素?) 然後就是我遇到ㄉ問題qq 我目前是拿dcard來做練習 https://i.imgur.com/tlJ7k7n.jpg 想要試著把頁面上的標題給print出來,所以我打了下面的程式 https://i.imgur.com/xeZ5F6f.jpg 執行的時候就出現了下面這些問題qq https://i.imgur.com/GRl8D4s.jpg 第一條紅字是 C:/Users/admin/Desktop/python/main.py:3: DeprecationWarning: executable_path has been deprecated, please pass in a Service object   browser = webdriver.Chrome(driverpath) 只要打上了browser.get(url)就會跑出這串,不知道哪裡出了問題 而第二條紅字是 C:/Users/admin/Desktop/python/main.py:7: DeprecationWarning: find_elements_by_* commands are deprecated. Please use find_elements() instead   tags=browser.find_elements_by_class_name('tgn9uw-3 bJQtxM') 是因為'tgn9uw-3 bJQtxM'裡面不能有'-'嗎?如果是的話那要怎麼解決呢? 總結一下問題: 1.除了selenium之外還有沒有其他方法能搜尋html元素?因為我用來練習的網站好像都不能用原始碼來蒐... 2.第一條紅字是為什麼出現qwq?是哪個環節出問題了? 3.第二條紅字是因為有'-'嗎?如果是的話那要怎麼解決?如果不是的話那是什麼原因qq然後有什麼方法能夠解決 *我很少發文 排版可能有點醜 在這邊先道歉一下~ **我有買 洪錦魁 寫的 如果我的問題能在這本書中找到答案 希望能提醒我一下 因為我很想把爬蟲給學好

檢舉{{reportFloor? '留言B'+reportFloor: '文章'}}
附件說明
插入圖片

請點文字方塊右下角的 插入圖片,或直接插入 imgur 圖片網址。

https://i.imgur.com/8wlRxfM.png
輸入
顯示

插入 Youtube 影片

直接將影片網址貼上。

https://www.youtube.com/watch?v=wvzfOyW0ZMo
輸入
顯示

分享 Meteor 文章

直接將文章網址貼上。

https://meteor.today/article/8ZgvtS
輸入
您即將進入之文章內容需滿十八歲方可瀏覽

根據「電腦網路內容分級處理辦法」修正條文第六條第三款規定,已於網站首頁或各該限制級網頁,依台灣網站分級推廣基金會規定作標示。若您尚未年滿十八歲,麻煩點選離開。若您已滿十八歲,一樣不可將本區之內容派發、傳閱、出售、出租、交給或借予年齡未滿18歲的人士瀏覽閱讀,或將本網站內容向該人士出示、播放或放映。

離開
回覆 B{{reply.floor}}