İçindekiler:

Python'da güzel çorbayı nasıl kullanırsınız?
Python'da güzel çorbayı nasıl kullanırsınız?

Video: Python'da güzel çorbayı nasıl kullanırsınız?

Video: Python'da güzel çorbayı nasıl kullanırsınız?
Video: Arkadaşlarınızı Pythonla milyar tane mesaj yollayarak gıcık edin 🤙 #coding #yazılım #setup #python 2024, Mart
Anonim

Debian veya Ubuntu Linux'un yeni bir sürümünü kullanıyorsanız, sistem paketi yöneticisi ile Beautiful Soup'u yükleyebilirsiniz:

  1. $ apt-get kurulumu piton -bs4 (için piton 2)
  2. $ apt-get install python3-bs4 (için piton 3)
  3. $ easy_install güzelsoup4.
  4. $ pip güzelsoup4 yükleyin.
  5. $ piton setup.py kurulumu

Aynı şekilde, insanlar Python'da nasıl güzel bir çorba yaparsın diye soruyorlar.

Kullanmak güzel çorba , yüklemeniz gerekiyor: $ pip güzelsoup4 yükleyin. güzel çorba ayrıca bir ayrıştırıcıya dayanır, varsayılan değer lxml'dir. zaten olabilir Sahip olmak ama kontrol etmelisiniz (IDLE'yi açın ve lxml'yi içe aktarmayı deneyin). Değilse, şunları yapın: $ pip install lxml veya $ apt- elde etmek Yüklemek piton -lxml.

Aynı şekilde Güzel Çorbayı nasıl ithal ediyorsunuz? Başlamak, içe aktarmak NS güzel çorba kütüphane, HTML dosyasını açın ve güzel çorba ve ardından “ güzel ” versiyonu terminalde. Terminal pencerenizin orijinal html metninin güzel girintili bir versiyonuyla dolduğunu görmelisiniz (bkz. Şekil 3).

Aynı şekilde güzel çorba ne için kullanılır diye sorulur.

güzel çorba HTML ve XML belgelerini ayrıştırmak için bir Python paketidir (hatalı biçimlendirmeye sahip olmak, yani kapalı olmayan etiketlere sahip olmak dahil, bu nedenle etiketten sonra adlandırılır) çorba ). Ayrıştırılmış sayfalar için bir ayrıştırma ağacı oluşturur. kullanılmış web kazıma için yararlı olan HTML'den veri çıkarmak için.

Python ve BeautifulSoup ile bir web sitesini nasıl kazırsınız?

Öncelikle kullanacağımız tüm kütüphaneleri import etmemiz gerekiyor. Ardından, sayfanın url'si için bir değişken tanımlayın. Daha sonra, piton urllib2, bildirilen url'nin HTML sayfasını almak için. Son olarak, sayfayı ayrıştırın GüzelÇorba kullanabilmemiz için format GüzelÇorba üzerinde çalışmak için.

Önerilen: