use beautifulsoup to parse the description from the first paragraph

Signed-off-by: Brian S. Stephan <bss@incorporeal.org>
2026-01-28 14:27:21 -06:00
parent 20673c178a
commit 8238787900
4 changed files with 44 additions and 15 deletions
--- a/tests/test_markdown.py
+++ b/tests/test_markdown.py
@@ -134,62 +134,77 @@ def test_request_path_to_breadcrumb_display_patterns():

 def test_parse_md_metadata():
    """Test the direct results of parsing a markdown file."""
-    content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'more-metadata.md'), PAGES_DIR)
+    content, md, page_name, page_title, page_desc, mtime = parse_md(
+        os.path.join(PAGES_DIR, 'more-metadata.md'),
+        PAGES_DIR
+    )
    assert page_name == 'title for the page'
    assert page_title == 'title for the page - example.org'
+    assert page_desc == 'description of this page made even longer'


 def test_parse_md_metadata_forced_no_title():
    """Test the direct results of parsing a markdown file."""
-    content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'forced-no-title.md'), PAGES_DIR)
+    content, md, page_name, page_title, _, mtime = parse_md(os.path.join(PAGES_DIR, 'forced-no-title.md'), PAGES_DIR)
    assert page_name == ''
    assert page_title == 'example.org'


 def test_parse_md_metadata_no_title_so_h1():
    """Test the direct results of parsing a markdown file."""
-    content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'subdir/index.md'), PAGES_DIR)
+    content, md, page_name, page_title, _, mtime = parse_md(os.path.join(PAGES_DIR, 'subdir/index.md'), PAGES_DIR)
    assert page_name == 'another page'
    assert page_title == 'another page - example.org'


 def test_parse_md_metadata_no_title_or_h1_so_path():
    """Test the direct results of parsing a markdown file."""
-    content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'no-title-or-h1.md'), PAGES_DIR)
+    content, md, page_name, page_title, _, mtime = parse_md(os.path.join(PAGES_DIR, 'no-title-or-h1.md'), PAGES_DIR)
    assert page_name == '/no-title-or-h1'
    assert page_title == '/no-title-or-h1 - example.org'


 def test_parse_md_metadata_no_title_or_h1_so_path_dir():
    """Test the direct results of parsing a markdown file."""
-    content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'no-title-subdir/index.md'), PAGES_DIR)
+    content, md, page_name, page_title, _, mtime = parse_md(os.path.join(PAGES_DIR, 'no-title-subdir/index.md'),
+                                                            PAGES_DIR)
    assert page_name == '/no-title-subdir/'
    assert page_title == '/no-title-subdir/ - example.org'


 def test_parse_md_metadata_no_title_or_h1_so_path_dir_file():
    """Test the direct results of parsing a markdown file."""
-    content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'no-title-subdir/no-title-or-h1.md'),
-                                                         PAGES_DIR)
+    content, md, page_name, page_title, _, mtime = parse_md(os.path.join(PAGES_DIR,
+                                                                         'no-title-subdir/no-title-or-h1.md'),
+                                                            PAGES_DIR)
    assert page_name == '/no-title-subdir/no-title-or-h1'
    assert page_title == '/no-title-subdir/no-title-or-h1 - example.org'


+def test_parse_md_derive_description_from_p():
+    """Test that we can get a description from the first paragraph in the file."""
+    content, md, page_name, page_title, page_desc, mtime = parse_md(
+        os.path.join(PAGES_DIR, 'rambling.md'),
+        PAGES_DIR
+    )
+    assert page_desc == 'this is a long string of text where I am typing a lot over multiple lines'
+
+
 def test_parse_md_no_file():
    """Test the direct results of parsing a markdown file."""
    with pytest.raises(FileNotFoundError):
-        content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'nope.md'), PAGES_DIR)
+        content, md, page_name, page_title, _, mtime = parse_md(os.path.join(PAGES_DIR, 'nope.md'), PAGES_DIR)


 def test_parse_md_bad_file():
    """Test the direct results of parsing a markdown file."""
    with pytest.raises(ValueError):
-        content, md, page_name, page_title, mtime = parse_md(os.path.join(PAGES_DIR, 'actually-a-png.md'), PAGES_DIR)
+        content, md, page_name, page_title, _, mtime = parse_md(os.path.join(PAGES_DIR, 'actually-a-png.md'), PAGES_DIR)


 def test_md_extension_in_source_link_is_stripped():
    """Test that if a foo.md file link is specified in the Markdown, it is foo in the HTML."""
-    content, _, _, _, _ = parse_md(os.path.join(PAGES_DIR, 'file-with-md-link.md'), PAGES_DIR)
+    content, _, _, _, _, _ = parse_md(os.path.join(PAGES_DIR, 'file-with-md-link.md'), PAGES_DIR)
    assert '<a href="foo">Foo</a>' in content
    assert '<a href="foo#anchor">Anchored Foo</a>' in content
    assert '<a href="sub/foo">Sub Foo</a>' in content
@@ -198,7 +213,7 @@ def test_md_extension_in_source_link_is_stripped():

 def test_index_in_source_link_is_stripped():
    """Test that if a index.md file link is specified in the Markdown, it is just the dir in the HTML."""
-    content, _, _, _, _ = parse_md(os.path.join(PAGES_DIR, 'file-with-index.md-link.md'), PAGES_DIR)
+    content, _, _, _, _, _ = parse_md(os.path.join(PAGES_DIR, 'file-with-index.md-link.md'), PAGES_DIR)
    assert '<a href="cool/">Cool</a>' in content
    assert '<a href="cool/#anchor">Anchored Cool</a>' in content
    assert '<a href=".">This Index</a>' in content