Reply
 
Thread Tools
  #1  
Old 10-11-2019, 10:14
Dr Slump's Avatar
Dr Slump Dr Slump is offline
Junior Member
Join Date: 02-2014
Posts: 18
Hỏi về Scrapy lấy link và title ở F17

Hi ae,

Mình mới lọ mọ học Scrapy, đang làm 1 bài tập nhỏ là lấy url và title của các bài viết ở F17, chỉ ở page đầu thôi mà chưa đc.

Ae nào rành chỉ giúp mình fix với

Code:
import scrapy


class SpiderSpider(scrapy.Spider):
    name = 'f17'
    allowed_domains = ['forums.voz.vn/forumdisplay.php?f=17']
    start_urls = ['https://forums.voz.vn/forumdisplay.php?f=17']
    base_url = 'https://forums.voz.vn/'

    def parse(self, response):
        all_posts = response.xpath('//tbody[@id="threadbits_forum_17"]')
        for each in all_posts:
            short_url = each.xpath('.//td[contains(@id,"td_threadtitle_")]/div/a[2]/@href').extract()
            full_url = self.base_url + short_url
            title = each.xpath('//td[contains(@id,"td_threadtitle_")]/div/a[2]/text()').extract()
            yield {
                "URL": full_url,
                "Title": title,
            }
__________________
Quote:
Originally Posted by King.03 View Post
:surrender: Bạn ko lắc não trước khi cm àh
Quote:
Originally Posted by Woo_Ok_Seon Ver2 View Post
Lắc nhiều chóng mặt. Lâu lâu ko lắc xem nó thế nào :byebye::byebye::byebye::byebye:
=))

Last edited by Dr Slump; 10-11-2019 at 12:57.
Reply With Quote
  #2  
Old 10-11-2019, 12:58
Dr Slump's Avatar
Dr Slump Dr Slump is offline
Junior Member
Join Date: 02-2014
Posts: 18
Re: Hỏi về Scrapy lấy link và title ở F17

Fix

Code:
import scrapy


class SpiderSpider(scrapy.Spider):
    name = "f17"
    allowed_domains = ["forums.voz.vn/forumdisplay.php?f=17"]
    start_urls = ["https://forums.voz.vn/forumdisplay.php?f=17"]
    base_url = "https://forums.voz.vn/"

    def parse(self, response):
        urls = response.xpath('//td[contains(@id,"td_threadtitle")]/div/a/@href').getall()
        titles = response.xpath('//td[contains(@id,"td_threadtitle")]/div/a/text()').getall()
        for url, title in zip(urls, titles):
            yield {
                "URL": self.base_url + url,
                "Title": title
            }
__________________
Quote:
Originally Posted by King.03 View Post
:surrender: Bạn ko lắc não trước khi cm àh
Quote:
Originally Posted by Woo_Ok_Seon Ver2 View Post
Lắc nhiều chóng mặt. Lâu lâu ko lắc xem nó thế nào :byebye::byebye::byebye::byebye:
=))
Reply With Quote
Reply

« Previous Thread | Next Thread »
Thread Tools

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off


All times are GMT +7. The time now is 07:12.