Notebook

これは日々の作業を通して学んだことや毎日の生活で気づいたことをを記録しておく備忘録である。

HTML ファイル生成日時: 2025/06/26 21:41:30.689 (台灣標準時)

Beautiful Soup を使って HTML ファイルの中から必要な情報を抽出する

Beautiful Soup を使って HTML ファイルの中から必要な情報を抽出する方法を調べてみたでござる。

まず、 NHK のニュース記事から、記事の題名と本文を抽出する、ということを試してみたでござる。 HTML ファイルを見てみると、 <h1 class="content--title"> と </h1> で囲まれた部分に記事の題名があり、 <div class="content--detail-body"> と </div> で囲まれた部分に記事の本文があるようでござる。

そこで、以下のようなプログラムを書いてみたでござる。


#!/usr/pkg/bin/python3.13

#
# Time-stamp: <2025/06/06 18:10:00 (UT+08:00) daisuke>
#

# importing urllib module
import urllib.request

# importing beautiful soup module
import bs4

# URL
url_nhk = 'https://www3.nhk.or.jp/news/html/20250606/k10014827981000.html'

# output file name
file_text = 'nhk.txt'

# fetching HTML file
with urllib.request.urlopen (url_nhk) as fh:
    html_nhk = fh.read ().decode ('utf-8')

# creating BeautifulSoup object
soup = bs4.BeautifulSoup (html_nhk, 'html.parser')

# extracting article title and body
html_article_title = soup.find ('h1', class_='content--title')
html_article_body  = soup.find ('div', class_='content--detail-body')

# opening file for writing
with open (file_text, 'w') as fh_out:
    fh_out.write (html_article_title.get_text ())
    fh_out.write (f'\n\n')
    fh_out.write (html_article_body.get_text ())

すると、期待通りに動作してくれて、記事の題名と本文が書かれたテキストファイルが作られたでござる。

次に、 BBC の記事から題名と本文を抽出するプログラムを作ってみることにしたでござる。 HTML ファイルを見てみると、 <article> タグの中にある <h1> タグを探せば記事の題名が見つかるようでござる。また、記事の本文は <div data-component="text-block"> というところを見つければよいようでござる。ただし、記事の本文が格納されている <div> タグは一つだけでなく、複数あるようでござる。 .find () ではなく、 .find_all () を使う必要があるようでござる。また、 data-component で指定されている値を見るためには、 .find_all (attrs={"data-component": "text-block"}) と使えばよいようでござる。

以下のようなプログラムを作ってみたでござる。


#!/usr/pkg/bin/python3.13

#
# Time-stamp: <2025/06/06 18:23:18 (UT+08:00) daisuke>
#

# importing argparse module
import argparse

# importing sys module
import sys

# importing urllib module
import urllib.request

# importing beautiful soup module
import bs4

# importing subprocess module
import subprocess

# initialising a parser
descr  = f'Downloading BBC news article and generating MP3 file'
parser = argparse.ArgumentParser (description=descr)

# adding arguments
list_gender = ['female', 'male']
dic_voice = {
    'female': 'en-GB-SoniaNeural',
    'male':   'en-GB-ThomasNeural',
}
parser.add_argument ('-u', '--url', default='', \
                     help='URL of BBC news article')
parser.add_argument ('-t', '--text', default='bbc.txt', \
                     help='output text file')
parser.add_argument ('-a', '--audio', default='bbc.mp3', \
                     help='output audio file')
parser.add_argument ('-g', '--gender', choices=list_gender, default='female', \
                     help='gender of synthesised speech (female or male)')
parser.add_argument ('-e', '--edgetts', default='edge-tts', \
                     help='edge-tts command')

# parsing arguments
args = parser.parse_args ()

# input parameters
url_bbc         = args.url
file_text       = args.text
file_audio      = args.audio
voice_gender    = args.gender
voice_name      = dic_voice[voice_gender]
command_edgetts = args.edgetts

# checking URL
if not ('https://www.bbc.com/' in url_bbc):
    # printing a message
    print ("ERROR:")
    print ("ERROR: specified URL is not for BBC news article.")
    print ("ERROR:")
    # exit
    sys.exit (0)

# fetching HTML file
with urllib.request.urlopen (url_bbc) as fh_in:
    html_bbc = fh_in.read ().decode ('utf-8')

# creating BeautifulSoup object
soup = bs4.BeautifulSoup (html_bbc, 'html.parser')

# extracting article title and body
html_article_title = soup.find ('article').find ('h1')
html_article_body  = soup.find ('article').find_all (attrs={"data-component": "text-block"})

# writing extracted plain text into a file
with open (file_text, 'w') as fh_out:
    fh_out.write (html_article_title.get_text ())
    fh_out.write (f'\n\n')
    for i in range (len (html_article_body)):
        fh_out.write (html_article_body[i].get_text ())
        fh_out.write (f'\n\n')

# executing edge-tts command to make MP3 file
command_create_mp3 = f'{command_edgetts} -f {file_text} --write-media {file_audio} --voice {voice_name}'
subprocess.run (command_create_mp3, shell=True)

期待通りに動作してくれたでござる。

Beautiful Soup はとても便利だということがわかったでござる。

About this article:

author: daisuke
file: 20250606_00.html
category: Computer___Python
title: Beautiful Soup を使って HTML ファイルの中から必要な情報を抽出する
mode: public
last modified: 2025/06/06 18:51:30 (UT+08:00)
html generated: 2025/06/26 21:41:30.689 (Taiwan Standard Time)

Frequently accessed files

Computer___Python/20220518_0.html

12922 page views
title: Matplotlib で作る図の縦横比

Computer___Network/20230726_00.html

7355 page views
title: git の SSL certificate problem の解決方法

Misc___Taiwan/20240207_00.html

6022 page views
title: 台灣から台灣の外に EMS で荷物を発送する方法

Computer___Network/20230516_00.html

4967 page views
title: OpenVPN 2.6 を使い VPN Gate に接続するときの注意点

Computer___FreeBSD/20220621_0.html

3499 page views
title: FreeBSD での X.org の設定の仕方

Computer___Network/20240130_00.html

2968 page views
title: Google Colaboratory で Python 3.12 を使う方法

Computer___Network/20230508_00.html

2887 page views
title: git push するときにパスワードの入力を省略する方法

Computer___Python/20220715_0.html

2788 page views
title: SciPy による最小二乗法

Computer___TeX/20231107_00.html

2584 page views
title: LaTeX での counter の利用方法について

Computer___NetBSD/20230119_00.html

2402 page views
title: NetBSD でバイナリーパッケージを利用する方法

Food___Taiwan/20220429_0.html

2217 page views
title: 「楊滇風」の滇味辣炒豬

Computer___Network/20220413_1.html

2087 page views
title: HTML 文書の中の一部の文字を点滅させる方法

Computer___Network/20240416_00.html

2087 page views
title: git push としたときの error: RPC failed

Computer___Python/20220410_0.html

2068 page views
title: Pint モジュールを使った単位を含む数値の取り扱い

Misc___Japan/20240610_00.html

2044 page views
title: NHK ラジオの「聞き逃し」の変更点 (2024 年 06 月)

Computer___Python/20221013_0.html

2012 page views
title: Matplotlib での作図において順番を決めて点や線を描画する方法

Computer___TeX/20230726_01.html

1928 page views
title: Beamer の Metropolis テーマで block の色を変える方法

Computer___Python/20240101_00.html

1911 page views
title: Matplotlib の 3D plot においての注意点

Computer___NetBSD/20220817_3.html

1882 page views
title: JupyterLab のインストール直後に行うべきこと

Computer___Debian/20210223_1.html

1880 page views
title: Debian で autofs を使い自動で NFS マウントする方法

Computer___NetBSD/20220818_1.html

1823 page views
title: Emacs の markdown-mode について

Computer___NetBSD/20240101_02.html

1769 page views
title: ffmpeg を使って動画に音声を追加する方法

Computer___Python/20210124_0.html

1760 page views
title: Python での argparse を使ったコマンドライン引数の取り扱い方法

Computer___NetBSD/20220428_0.html

1758 page views
title: Beamer で verbatim 環境を使う方法

Misc___Taiwan/20240819_00.html

1748 page views
title: 住所から台灣の郵便番号を調べる方法

Science___Math/20220420_0.html

1711 page views
title: ラプラシアンの三次元極座標表示

Computer___TeX/20240414_00.html

1636 page views
title: LuaTeX での fontspec を使ったフォントの設定の方法

Computer___TeX/20230503_00.html

1612 page views
title: LaTeX CJK で日本語や中国語を取り扱うための準備について

Computer___NetBSD/20240101_03.html

1599 page views
title: ffmpeg で動画に metadata を追加する方法

Science___Astronomy/20220503_0.html

1531 page views
title: Lane-Emden 方程式を数値的に解く

HTML file generated by Kinoshita Daisuke.