[教學文]_抓取GOOGLE圖書上的書籍，並利用OCR辨識順利複製圖書的文字

2014/12/02 thkaw Hack 0

本文章僅供學術研究使用，出發點也是因為學術需要才進行本教學文

抓取圖書時務必注意圖書的授權使用範圍以及版權宣告！

今天某研究生朋友跑來丟給我一個GOOGLE圖書的LINK，問我是否能夠複製該GOOGLE圖書的段落？…

看了一下他給的LINK，稍微翻了一下，看來GOOGLE不提供直接的PDF連結…當然也不能直接複製段落了

所以找了下載器，然後透過PDF OCR做辨識，就可以很快速地將GOOGLE圖書變成可以供複製的PDF檔案

廢話不多說，概念很簡單，那怎麼做呢？

1.首先你需要GOOGLE圖書的下載器：http://www.gbooksdownloader.com/

2.然後複製你要抓的圖書網址

3.安裝好剛剛抓的Downloader，開啟之後把剛剛複製的網址貼過來，下方的設定基本上不要動，如果你需要很清楚的版本，自行調整resolution，但也代表抓取的時間會變長。

4.之後就開始download啦！

5.接著請去抓具有OCR功能的PDF READER，不知道OCR是什麼的菸酒生請自行詢問估狗大神

6.剛剛下載好的PDF請用該XCHANGE VIEWER開啟，發現在記號1的位置，選取模式沒辦法選取任何的文字，因為抓下來其實是一塊一塊的圖片…所以要做OCR，請點選記號2的OCR按鈕

7.OCR選項，可以選擇你要辨識哪一個PAGE跟精準度調整，建議挑你要辨識的那幾頁就好，否則會等地有點久

8.依照你電腦的效能決定這有多快

9.辨識完之後，再點選剛剛步驟6中記號1的選取工具，發現可以選取並且複製了！，不過可以看到有些地方怪怪的…，不過妳可以調整下載的檔案清晰度以及OCR辨識精準度來改善這些問題

10.最後…會發現有些頁數有問題，這其實是GOOGLE要限制流量的把戲…如果你這次抓的PDF少了你要的頁數，就可能要請你再次嘗試，因為我試了兩次相同文件，就有一些第一次抓不到的頁面第二次有抓到…所以這個問題目前是這樣解

以上～，祝各位研究生HAPPY寫論文

NTL-Network