वेब पेजेस और फ़ाइलों को डाउनलोड करने के लिए wget लिनक्स कमांड का उपयोग कैसे करें

by जुर्गेन हास

Wget उपयोगिता आपको लिनक्स कमांड लाइन का उपयोग कर वेब से वेब पेज, फाइलें और छवियां डाउनलोड करने की अनुमति देती है।

आप किसी साइट से डाउनलोड करने के लिए अपने आप पर एक एकल wget कमांड का उपयोग कर सकते हैं या एकाधिक साइटों में एकाधिक फ़ाइलों को डाउनलोड करने के लिए इनपुट फ़ाइल सेट अप कर सकते हैं।

मैन्युअल पेज के अनुसार wget का उपयोग तब भी किया जा सकता है जब उपयोगकर्ता सिस्टम से लॉग आउट हो। ऐसा करने के लिए आप nohup कमांड का उपयोग करेंगे।

जब कनेक्शन बंद हो जाता है तब भी wget उपयोगिता एक डाउनलोड फिर से शुरू कर देगी, कनेक्शन से रिटर्न होने पर संभव होने पर इसे छोड़ दिया जाता है।

आप wget का उपयोग कर पूरी वेब साइट डाउनलोड कर सकते हैं और लिंक को स्थानीय स्रोतों पर इंगित करने के लिए कनवर्ट कर सकते हैं ताकि आप वेबसाइट को ऑफ़लाइन देख सकें।

Wget की विशेषताएं निम्नानुसार हैं:

HTTP, HTTPS और FTP का उपयोग कर फ़ाइलें डाउनलोड करें
डाउनलोड फिर से शुरू करें
डाउनलोड किए गए वेब पृष्ठों में रिश्तेदार यूआरएल में पूर्ण लिंक कन्वर्ट करें ताकि वेबसाइट ऑफ़लाइन देखी जा सके
HTTP प्रॉक्सी और कुकीज़ का समर्थन करता है
लगातार HTTP कनेक्शन का समर्थन करता है
जब भी आप लॉग ऑन नहीं होते हैं तब भी पृष्ठभूमि में चला सकते हैं
लिनक्स और विंडोज पर काम करता है

Wget का उपयोग कर एक वेबसाइट कैसे डाउनलोड करें

इस गाइड के लिए, मैं आपको दिखाऊंगा कि मेरा व्यक्तिगत ब्लॉग कैसे डाउनलोड करें।

www.everydaylinuxuser.com wget

Mkdir कमांड का उपयोग करके और फिर cd कमांड का उपयोग कर फ़ोल्डर में स्थानांतरित करने के लिए अपनी मशीन पर अपना स्वयं का फ़ोल्डर बनाना उचित है।

उदाहरण के लिए:

mkdir everydaylinuxuser
सीडी रोज़लिनलिनक्स्यूसर
www.everydaylinuxuser.com wget

नतीजा एक एकल index.html फ़ाइल है। अपने आप पर, यह फ़ाइल काफी बेकार है क्योंकि सामग्री अभी भी Google से खींची गई है और छवियों और स्टाइलशीट अभी भी Google पर हैं।

पूर्ण साइट और सभी पृष्ठों को डाउनलोड करने के लिए आप निम्न आदेश का उपयोग कर सकते हैं:

wget -r www.everydaylinuxuser.com

यह पृष्ठों को अधिकतम 5 स्तरों तक गहराई से डाउनलोड करता है।

5 स्तर गहरे साइट से सब कुछ पाने के लिए पर्याप्त नहीं हो सकता है। आप निम्न स्तरों की संख्या निर्धारित करने के लिए -l स्विच का उपयोग कर सकते हैं:

wget -r -l10 www.everydaylinuxuser.com

यदि आप अनंत रिकर्सन चाहते हैं तो आप निम्न का उपयोग कर सकते हैं:

wget -r -l inf www.everydaylinuxuser.com

आप inf के साथ 0 को प्रतिस्थापित भी कर सकते हैं जिसका अर्थ एक ही चीज़ है।

अभी भी एक और समस्या है। आपको स्थानीय रूप से सभी पृष्ठ मिल सकते हैं लेकिन पृष्ठों में सभी लिंक अभी भी उनके मूल स्थान पर इंगित करते हैं। इसलिए पृष्ठों पर लिंक के बीच स्थानीय रूप से क्लिक करना संभव नहीं है।

आप -के स्विच का उपयोग कर इस समस्या को हल कर सकते हैं जो पृष्ठों पर सभी लिंक को उनके स्थानीय रूप से डाउनलोड समकक्ष को इंगित करने के लिए निम्नानुसार परिवर्तित करता है:

wget -r -k www.everydaylinuxuser.com

यदि आप किसी वेबसाइट का पूर्ण दर्पण प्राप्त करना चाहते हैं तो आप बस निम्न स्विच का उपयोग कर सकते हैं जो -r -k और -l स्विच का उपयोग करने की आवश्यकता को दूर करता है।

wget -m www.everydaylinuxuser.com

इसलिए यदि आपकी अपनी वेबसाइट है तो आप इस सरल आदेश का उपयोग कर पूर्ण बैकअप बना सकते हैं।

एक पृष्ठभूमि कमांड के रूप में wget भागो

आप फ़ाइलों को डाउनलोड करते समय टर्मिनल विंडो में अपने काम के साथ आगे बढ़ने में सक्षम होने के बावजूद पृष्ठभूमि कमांड के रूप में चलाने के लिए wget प्राप्त कर सकते हैं।

बस निम्न आदेश का प्रयोग करें:

wget -b www.everydaylinuxuser.com

आप निश्चित रूप से स्विच गठबंधन कर सकते हैं। साइट को प्रतिबिंबित करते समय पृष्ठभूमि में wget कमांड चलाने के लिए आप निम्न आदेश का उपयोग करेंगे:

wget -b -m www.everydaylinuxuser.com

आप इसे निम्नानुसार सरल बना सकते हैं:

wget -bm www.everydaylinuxuser.com

लॉगिंग

यदि आप पृष्ठभूमि में wget कमांड चला रहे हैं तो आपको स्क्रीन पर भेजे गए सामान्य संदेशों में से कोई भी दिखाई नहीं देगा।

आप उन सभी संदेशों को लॉग फ़ाइल में भेज सकते हैं ताकि आप पूंछ कमांड का उपयोग करके किसी भी समय प्रगति की जांच कर सकें।

Wget कमांड से लॉग फ़ाइल में जानकारी आउटपुट करने के लिए निम्न आदेश का उपयोग करें:

wget -o / path / to / mylogfile www.everydaylinuxuser.com

इसके विपरीत, बिल्कुल लॉगिंग की आवश्यकता नहीं है और स्क्रीन पर कोई आउटपुट नहीं है। सभी आउटपुट को छोड़ने के लिए निम्न आदेश का उपयोग करें:

wget -q www.everydaylinuxuser.com

एकाधिक साइटों से डाउनलोड करें

आप कई अलग-अलग साइटों से डाउनलोड करने के लिए एक इनपुट फ़ाइल सेट अप कर सकते हैं।

अपने पसंदीदा संपादक या यहां तक कि बिल्ली कमांड का उपयोग करके एक फ़ाइल खोलें और फ़ाइल की प्रत्येक पंक्ति से डाउनलोड करने के लिए साइट्स या लिंक सूचीबद्ध करना शुरू करें।

फ़ाइल को सहेजें और फिर निम्न wget कमांड चलाएं:

wget -i / path / to / inputfile

अपनी वेबसाइट का बैक अप लेने के अलावा या शायद ट्रेन पर पढ़ने के लिए कुछ ढूंढने के अलावा, यह संभावना नहीं है कि आप एक पूरी वेबसाइट डाउनलोड करना चाहेंगे।

आप छवियों के साथ एक एकल यूआरएल डाउनलोड करने की संभावना रखते हैं या शायद ज़िप फ़ाइलों, आईएसओ फाइलों या छवि फ़ाइलों जैसे फाइलें डाउनलोड कर सकते हैं।

इस बात को ध्यान में रखते हुए आप इनपुट फ़ाइल में निम्न टाइप करना नहीं चाहते हैं क्योंकि यह समय लेने वाला है:

http://www.myfileserver.com/file1.zip
http://www.myfileserver.com/file2.zip
http://www.myfileserver.com/file3.zip

यदि आप जानते हैं कि आधार यूआरएल हमेशा एक जैसा होगा, तो आप केवल इनपुट फ़ाइल में निम्नलिखित निर्दिष्ट कर सकते हैं:

file1.zip
file2.zip
file3.zip

इसके बाद आप wget कमांड के हिस्से के रूप में आधार URL प्रदान कर सकते हैं:

wget -b http://www.myfileserver.com -i / path / to / inputfile

पुनः प्रयास विकल्प

यदि आपने इनपुट फ़ाइल में डाउनलोड करने के लिए फ़ाइलों की कतार स्थापित की है और आप फ़ाइलों को डाउनलोड करने के लिए पूरी रात अपने कंप्यूटर को चलते हैं तो आप सुबह में नीचे आते हैं जब यह पहली फ़ाइल पर फंस गया है और आप काफी परेशान होंगे। पूरी रात फिर से प्रयास कर रहा है।

आप निम्न स्विच का उपयोग कर रीट्रीज़ की संख्या निर्दिष्ट कर सकते हैं:

wget -t 10 -i / path / to / inputfile

आप उपरोक्त कमांड को -T स्विच के साथ संयोजन में उपयोग करना चाहेंगे जो आपको सेकंड में टाइमआउट निर्दिष्ट करने की अनुमति देता है:

wget -t 10 -T 10 -i / path / to / inputfile

उपरोक्त आदेश 10 बार पुनः प्रयास करेगा और फ़ाइल में प्रत्येक लिंक के लिए 10 सेकंड के लिए कनेक्ट करने का प्रयास करेगा।

जब आप ड्रॉप आउट होने के लिए केवल धीमे ब्रॉडबैंड कनेक्शन पर 4 गीगाबाइट फ़ाइल का 75% आंशिक रूप से डाउनलोड करते हैं तो यह भी काफी परेशान होता है।

आप निम्न आदेश का उपयोग करके डाउनलोड करना बंद कर दिया है से पुनः प्रयास करने के लिए wget का उपयोग कर सकते हैं:

wget -c www.myfileserver.com/file1.zip

यदि आप किसी सर्वर को हथियार दे रहे हैं तो मेजबान इसे बहुत पसंद नहीं कर सकता है और या तो आपके अनुरोधों को ब्लॉक या सिर्फ मार सकता है।

आप एक प्रतीक्षा अवधि निर्दिष्ट कर सकते हैं जो निर्दिष्ट करता है कि प्रत्येक पुनर्प्राप्ति के बीच कितना समय प्रतीक्षा करना है:

wget -w 60 -i / पथ / से / इनपुटफाइल

उपरोक्त आदेश प्रत्येक डाउनलोड के बीच 60 सेकंड इंतजार करेगा। यह उपयोगी है अगर आप एक ही स्रोत से कई फाइलें डाउनलोड कर रहे हैं।

कुछ वेब होस्ट आवृत्ति को खोज सकते हैं हालांकि वैसे भी आपको अवरुद्ध करेंगे। आप प्रतीक्षा अवधि को यादृच्छिक बना सकते हैं ताकि ऐसा लगता है कि आप प्रोग्राम का उपयोग नहीं कर रहे हैं:

wget --random-wait -i / path / to / inputfile

डाउनलोड सीमा की रक्षा

कई इंटरनेट सेवा प्रदाता अभी भी आपके ब्रॉडबैंड उपयोग के लिए डाउनलोड सीमा लागू करते हैं, खासकर यदि आप किसी शहर के बाहर रहते हैं।

आप एक कोटा जोड़ना चाहते हैं ताकि आप उस डाउनलोड सीमा को उड़ा न सकें। आप इसे निम्न तरीके से कर सकते हैं:

wget -q 100m -i / path / to / inputfile

ध्यान दें कि -q कमांड एक फ़ाइल के साथ काम नहीं करेगा।

इसलिए यदि आप फ़ाइल में 2 गीगाबाइट्स फ़ाइल डाउनलोड करते हैं, तो -q 1000m फ़ाइल डाउनलोडिंग को रोक नहीं पाएगा।

कोटा केवल तभी लागू होता है जब साइट से रिकर्सिवली डाउनलोड हो या इनपुट फ़ाइल का उपयोग किया जाए।

सुरक्षा के माध्यम से हो रही है

कुछ साइटों को आपको उस सामग्री तक पहुंचने में सक्षम होने के लिए लॉग इन करने की आवश्यकता होती है, जिसे आप डाउनलोड करना चाहते हैं।

आप उपयोगकर्ता नाम और पासवर्ड निर्दिष्ट करने के लिए निम्न स्विच का उपयोग कर सकते हैं।

wget --user = yourusername --password = yourpassword

एक बहु उपयोगकर्ता प्रणाली पर नोट अगर कोई ps कमांड चलाता है तो वे आपका उपयोगकर्ता नाम और पासवर्ड देख पाएंगे।

अन्य डाउनलोड विकल्प

डिफ़ॉल्ट रूप से -r स्विच सामग्री को पुन: डाउनलोड करेगा और निर्देशिका के रूप में इसे बनाएगा।

आप निम्न स्विच का उपयोग कर एक ही फ़ोल्डर में डाउनलोड करने के लिए सभी फाइलें प्राप्त कर सकते हैं:

wget -nd -r

इसके विपरीत निर्देशिकाओं के निर्माण को मजबूर करना है जो निम्न आदेश का उपयोग करके हासिल किया जा सकता है:

wget -x -r

कुछ फ़ाइल प्रकार कैसे डाउनलोड करें

यदि आप किसी साइट से रिकर्सिवली डाउनलोड करना चाहते हैं लेकिन आप केवल एक विशिष्ट फ़ाइल प्रकार जैसे एमपी 3 या एक पीएनजी जैसी छवि डाउनलोड करना चाहते हैं तो आप निम्न वाक्यविन्यास का उपयोग कर सकते हैं:

wget -A "* .mp3" -r

इसके विपरीत कुछ फ़ाइलों को अनदेखा करना है। शायद आप निष्पादन योग्य डाउनलोड नहीं करना चाहते हैं। इस मामले में, आप निम्न वाक्यविन्यास का उपयोग करेंगे:

wget -R "* .exe" -r

Cliget

एक फ़ायरफ़ॉक्स ऐड-ऑन क्लिगेट कहा जाता है। आप इसे निम्नलिखित तरीके से फ़ायरफ़ॉक्स में जोड़ सकते हैं।

Https://addons.mozilla.org/en-US/firefox/addon/cliget/ पर जाएं और "फ़ायरफ़ॉक्स में जोड़ें" बटन पर क्लिक करें।

दिखाई देने पर इंस्टॉल बटन पर क्लिक करें। आपको फ़ायरफ़ॉक्स को पुनरारंभ करना होगा।

क्लिगेट का उपयोग करने के लिए एक पेज या फ़ाइल पर जाएं जिसे आप डाउनलोड करना चाहते हैं और राइट क्लिक करें। एक संदर्भ मेनू क्लिगेट कहा जाएगा और "wget को कॉपी करें" और "कर्ल पर प्रतिलिपि" के विकल्प होंगे।

"Wget to copy" विकल्प पर क्लिक करें और टर्मिनल विंडो खोलें और फिर राइट क्लिक करें और पेस्ट करें। उचित wget कमांड खिड़की में चिपकाया जाएगा।

असल में, यह आपको स्वयं को कमांड टाइप करने के लिए बचाता है।

सारांश

विकल्पों और स्विच की एक बड़ी संख्या के रूप में wget कमांड।

टर्मिनल विंडो में निम्नलिखित टाइप करके wget के लिए मैन्युअल पृष्ठ को पढ़ने के लायक है:

आदमी wget