维基百科 | 动漫花园

.:. 草榴社区 » 技术讨论区 » [众所周知] 购物之前一定要先看一眼买家秀 - 爬虫黑丝篇 [264P]
本页主题: [众所周知] 购物之前一定要先看一眼买家秀 - 爬虫黑丝篇 [264P]字体大小 宽屏显示 只看楼主 最新点评 热门评论 时间顺序
怒怼


级别:风云使者 ( 13 )
精华:2
发帖:9764
威望:2271 点
金钱:779 USD
贡献:142254 点
註册:2021-02-18

[众所周知] 购物之前一定要先看一眼买家秀 - 爬虫黑丝篇 [264P]



众 所 周 知


——《玉娇梨》第二十回:“城中宣杂难住,莫苦就在众所周知石村卜一居,与白公为邻。”




购物之前一定要先看一眼买家秀,虽然某宝商品页面上存储的商品数据是以Json格式存储的,但因其有反爬虫机制,如果想批量爬取买家秀就需要使用多线程、修改headers参数,以及使用代理ip等方法结合在一起循环爬取,即便如此也不能保证每次100%成功爬取所有。而我们所生活中的网络往往只有一个公网ip,所以推荐使用校园网做测试环境的不易被封,而在增加循环爬取直至所有的页面全部爬取成功,第一次就得到了几千张。


利用工具:pycharm,chrome devTools,Anaconda
此帖最后附上代码





送上爬取的黑丝图,部分图片已通过Ps处理了公布的公号、微信号和QQ,不影响观感。










































































































































































































































































引用


引用代码:
import re
import time
import random
import requests
import pandas as pd
from retrying import retry
from concurrent.futures import ThreadPoolExecutor

start = time.clock()  # 开始计时

# 请求头池
user_agent = [
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; "
    ".NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR "
    "2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR "
    "3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; "
    ".NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR "
    "3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 ("
    "Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 "
    "Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 "
    "Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 "
    "LBBROWSER",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 "
    "LBBROWSER",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR "
    "3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 "
    "Mobile/8C148 Safari/6533.18.5",
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
    "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 "
    "Safari/537.36",
]

# 代理ip池
proxies = ['http://125.71.212.25:9000', 'http://202.109.157.47:9000', 'http://47.94.169.110:80',
           'http://111.40.84.73:9999', 'http://114.245.221.21:8060', 'http://117.131.235.198:8060']

# plist 为1-100页的URL的编号num
plist = []
for i in range(1, 101):
    j = 44 * (i - 1)
    plist.append(j)

listno = plist
datatmsp = pd.DataFrame(columns=[])

while True:
    @retry(stop_max_attempt_number=8)
    def network_programming(num):
        url = 'https://s.taobao.com/search?q=%E9%9B%B6%E9%A3%9F&imgfile=&js=1&stats_click=search_radio_tmall%3A1' \
              '&initiative_id=staobaoz_20190508&tab=mall&ie=utf8&sort=sale-desc&filter=reserve_price%5B%2C200%5D' \
              '&bcoffset=0&p4ppushleft=%2C44&s=' + str(num)
        random_user_agent = random.choice(user_agent)  # 从user_agent池中随机生成headers
        random_proxies = random.choice(proxies)  # 从代理ip池中随机生成proxies
        web = requests.get(url, headers={'user-agent': random_user_agent}, proxies={'http': random_proxies})
        web.encoding = 'utf-8'
        return web


    # 多线程
    def multithreading():
        number = listno  # 每次爬取未成功爬取的页
        event = []

        with ThreadPoolExecutor(max_workers=10) as executor:
            for result in executor.map(network_programming, number, chunksize=10):
                event.append(result)
        return event


    headers = {"User-Agent": "Mozilla/5.0 (WindowsNT 10.0; WOW64);Chrome/55.0.2883.87 Safari/537.36"}

    listpg = []
    event = multithreading()
    for i in event:
        json = re.findall('"auctions":(.*?),"recommendAuctions"', i.text)
        if len(json):
            table = pd.read_json(json[0])
            datatmsp = pd.concat([datatmsp, table], axis=0, ignore_index=True)
            pg = re.findall('"pageNum":(.*?),"p4pbottom_up"', i.text)[0]  # 记入每一次成功爬取的页码
            listpg.append(pg)

    # 将爬取成功的页码转为url中的num值
    lists = []
    for a in listpg:
        b = 44 * (int(a) - 1)
        lists.append(b)

    listn = listno

    listno = []
    for p in listn:
        if p not in lists:
            listno.append(p)

    # 当未爬取页数未0时,终止循环
    if len(listno) == 0:
        break

datatmsp.to_excel('datatmsp.xls', index=False)

end = time.clock()
print("爬取完成 用时:", end - start, 's')





感谢版主通过





赞(16)
DMCA / ABUSE REPORT | TOP Posted: 06-24 12:21 发表评论
甬上人家


级别:骑士 ( 10 )
发帖:5217
威望:522 点
金钱:26444 USD
贡献:107 点
註册:2020-10-18

感谢分享


点评

    TOP Posted: 06-24 12:31 #1楼 引用 | 点评
    上榴社会


    级别:侠客 ( 9 )
    发帖:1333
    威望:144 点
    金钱:4655 USD
    贡献:1755 点
    註册:2012-02-15

    看妹子才是目的
    TOP Posted: 06-24 12:32 #2楼 引用 | 点评
    发发有力


    级别:圣骑士 ( 11 )
    发帖:9017
    威望:824 点
    金钱:3833 USD
    贡献:20 点
    註册:2015-06-25

    美腿 加丝袜 诱惑满分
    TOP Posted: 06-24 12:35 #3楼 引用 | 点评
    百岁弥勒


    级别:精灵王 ( 12 )
    发帖:17789
    威望:1780 点
    金钱:85327 USD
    贡献:0 点
    註册:2017-09-28

    感谢分享。
    TOP Posted: 06-24 12:37 #4楼 引用 | 点评
    slience


    级别:禁止发言 ( 8 )
    发帖:19428
    威望:1936 点
    金钱:1021 USD
    贡献:1000 点
    註册:2014-12-23

    感谢分享!
    TOP Posted: 06-24 12:37 #5楼 引用 | 点评
    享爱人生


    级别:侠客 ( 9 )
    发帖:1209
    威望:116 点
    金钱:60940 USD
    贡献:0 点
    註册:2021-04-29

    感谢分享
    TOP Posted: 06-24 12:42 #6楼 引用 | 点评
    坤坤大神2016


    级别:风云使者 ( 13 )
    发帖:19757
    威望:4661 点
    金钱:902329 USD
    贡献:23257 点
    註册:2016-11-16
    认证: 技术区认证会员
    2020-06-04

    感谢技术分享
    TOP Posted: 06-24 12:43 #7楼 引用 | 点评
    平胸小贵妇


    级别:天使 ( 14 )
    发帖:35883
    威望:8408 点
    金钱:35883 USD
    贡献:3456789 点
    註册:2014-12-31

    腿玩年
    TOP Posted: 06-24 12:46 #8楼 引用 | 点评
    时光鸡


    级别:禁止发言 ( 8 )
    发帖:2012
    威望:450 点
    金钱:927 USD
    贡献:2500000 点
    註册:2015-01-01

    最喜欢黑丝大美腿


    点评

      TOP Posted: 06-24 12:58 #9楼 引用 | 点评
      百度大虾


      级别:风云使者 ( 13 )
      发帖:8900
      威望:1672 点
      金钱:2019322 USD
      贡献:210114 点
      註册:2014-12-02

      这个牛逼了 
      ------------------------
      N

      TOP Posted: 06-24 13:02 #10楼 引用 | 点评
      不太平


      级别:圣骑士 ( 11 )
      发帖:6384
      威望:633 点
      金钱:40602 USD
      贡献:2 点
      註册:2020-03-25

      感谢分享
      TOP Posted: 06-24 13:07 #11楼 引用 | 点评
      玉山观景


      级别:精灵王 ( 12 )
      发帖:15559
      威望:1581 点
      金钱:29375 USD
      贡献:1749 点
      註册:2021-01-05

      这么多美腿
      TOP Posted: 06-24 13:10 #12楼 引用 | 点评
      遇见就不错过


      级别:精灵王 ( 12 )
      发帖:28254
      威望:2813 点
      金钱:196901005 USD
      贡献:0 点
      註册:2015-04-01

        感谢分享
      TOP Posted: 06-24 13:16 #13楼 引用 | 点评
      特洛夫斯基


      级别:精灵王 ( 12 )
      发帖:16620
      威望:1580 点
      金钱:55662814 USD
      贡献:66666 点
      註册:2015-01-27

      感谢分享技术贴
      TOP Posted: 06-24 13:21 #14楼 引用 | 点评
      含朕龙根


      级别:圣骑士 ( 11 )
      发帖:8875
      威望:898 点
      金钱:99659 USD
      贡献:3116 点
      註册:2020-07-27

      极品身材,完美的炮架子啊
      TOP Posted: 06-24 13:21 #15楼 引用 | 点评
      仗剑行天下


      级别:新手上路 ( 8 )
      发帖:669
      威望:67 点
      金钱:3519 USD
      贡献:0 点
      註册:2020-02-11

      感谢分享
      TOP Posted: 06-24 13:28 #16楼 引用 | 点评
      盖区炮王


      级别:骑士 ( 10 )
      发帖:991
      威望:314 点
      金钱:93 USD
      贡献:0 点
      註册:2020-04-08

      感谢分享
      TOP Posted: 06-24 13:32 #17楼 引用 | 点评
      唯一的净土


      级别:风云使者 ( 13 )
      发帖:7063
      威望:1681 点
      金钱:147677 USD
      贡献:310000 点
      註册:2018-05-28

      很有诱惑力
      TOP Posted: 06-24 13:34 #18楼 引用 | 点评
      鞭名马


      级别:精灵王 ( 12 )
      发帖:5882
      威望:618 点
      金钱:36701 USD
      贡献:102183 点
      註册:2018-08-30

      不错,高手到处都有啊。
      TOP Posted: 06-24 13:41 #19楼 引用 | 点评
      梦似人生


      级别:精灵王 ( 12 )
      发帖:8359
      威望:839 点
      金钱:31578 USD
      贡献:13579 点
      註册:2011-06-06

      相当诱惑
      TOP Posted: 06-24 13:48 #20楼 引用 | 点评
      massager


      级别:禁止发言 ( 8 )
      发帖:11634
      威望:4046 点
      金钱:61114 USD
      贡献:1008 点
      註册:2021-02-11

      感谢分享
      TOP Posted: 06-24 13:53 #21楼 引用 | 点评
      苏筱熙


      级别:光明使者 ( 14 )
      发帖:84998
      威望:46231 点
      金钱:19946 USD
      贡献:65 点
      註册:2012-09-01

      支持发图
      ------------------------
      7

      TOP Posted: 06-24 14:02 #22楼 引用 | 点评
      miao_yi2000


      级别:骑士 ( 10 )
      发帖:4326
      威望:433 点
      金钱:67007 USD
      贡献:0 点
      註册:2014-08-12

      感谢分享
      TOP Posted: 06-24 14:09 #23楼 引用 | 点评
      你很特别


      级别:圣骑士 ( 11 )
      发帖:3520
      威望:353 点
      金钱:150649 USD
      贡献:22048 点
      註册:2020-05-01

      涨知识了 图不错
      TOP Posted: 06-24 14:12 #24楼 引用 | 点评
      .:. 草榴社区 » 技术讨论区

      电脑版 手机版 客户端 DMCA
      用时 0.03(s) x2, 01-27 14:10