読者です 読者をやめる 読者になる 読者になる

紙媒体で管理するとなくなりがちなのでブログで進捗などを管理することにしました
※殆どの記事は自分自身のためだけにかいています.他人に見せられるレベルには至っていません...

スクレイピング

imgタグのみを抽出する.

# encoding : utf-8
# for python3
import urllib.request
import os.path
import pyquery as pq
import requests
from bs4 import BeautifulSoup
import urllib.request
from urllib.request import Request, urlopen

#def download(url,folderName):
def scraping():
    url = 'http://umashika5555.hatenablog.com/'#まずはurlをぶち込む
    req = Request(url)
    response = urlopen(req)#開け!url
    html = response.read()#htmlを読み込んでぶち込む
    soup = BeautifulSoup(html, "lxml")#ここでBeautifulsoupの出番だぁっ
    #contents = soup.find_all(id = 'contents') #今回抜き出したいタグ
    contents = soup.find_all("img") #今回抜き出したいタグ
    for i,content in enumerate(contents): 
        print(i,end="")
        print('-'*50)
        print(content)
        

			
if __name__ == '__main__':
	scraping() 

こんな感じの結果が得られる.
f:id:umashika5555:20170322025727p:plain



参考
engineer-terminal.com
qiita.com
umashika5555.hatenablog.com