Parse multiline string literals and all multiline strings with text on

the first line
2025-02-18 22:14:30 +00:00 · 2014-08-22 23:59:02 +02:00 · 2014-08-22 23:59:02 +02:00 · ccca314649
commit ccca314649
parent 1f290c94b8
9 changed files with 154 additions and 10 deletions
--- a/2
+++ b/2
@ -1,5 +1,5 @@
 NEXT
-Multiline strings.
+Multiline and literal strings.
 Pass TOML validator (https://github.com/BurntSushi/toml-test), which uncovered many bugs.
 Key names can contain dots.
 Reduced visibility of internal classes, so that only Toml class is visible to users.
--- a/src/main/java/com/moandjiezana/toml/MultilineLiteralStringConverter.java
+++ b/src/main/java/com/moandjiezana/toml/MultilineLiteralStringConverter.java
@ -0,0 +1,47 @@
 package com.moandjiezana.toml;
 import static com.moandjiezana.toml.ValueConverterUtils.INVALID;
 import static com.moandjiezana.toml.ValueConverterUtils.parse;
 import static com.moandjiezana.toml.ValueConverterUtils.parser;
 import java.util.List;
 import org.parboiled.errors.ParseError;
 import org.parboiled.parserunners.RecoveringParseRunner;
 import org.parboiled.support.ParseTreeUtils;
 import org.parboiled.support.ParsingResult;
 class MultilineLiteralStringConverter implements ValueConverter {
  public static void main(String[] args) {
    ParsingResult<List<java.lang.String>> parsingResult = new RecoveringParseRunner<List<String>>(ValueConverterUtils.parser().MultilineLiteralString()).run("'''abc''' # comment");
    if (parsingResult.hasErrors()) {
      for (ParseError parseError : parsingResult.parseErrors) {
        System.out.println(parseError.getInputBuffer().extract(0, 1000));
      }
    }
    System.out.println(ParseTreeUtils.printNodeTree(parsingResult));
  }
  static final MultilineLiteralStringConverter MULTILINE_LITERAL_STRING_CONVERTER = new MultilineLiteralStringConverter(); 
  @Override
  public boolean canConvert(String s) {
    return s.startsWith("'''");
  }
  @Override
  public Object convert(String s) {
    List<String> result = parse(parser().MultilineLiteralString(), s);
    if (result == null) {
      return INVALID;
    }
    return result.get(0);
  }
  private MultilineLiteralStringConverter() {}
 }
--- a/src/main/java/com/moandjiezana/toml/TomlParser.java
+++ b/src/main/java/com/moandjiezana/toml/TomlParser.java
@ -8,6 +8,7 @@ import java.util.List;
 import java.util.regex.Pattern;
 class TomlParser {
  private static final String STRING_LITERAL_DELIMITER = "'''";
  private static final Pattern MULTILINE_ARRAY_REGEX = Pattern.compile("\\s*\\[([^\\]]*)");
  private static final Pattern MULTILINE_ARRAY_REGEX_END = Pattern.compile("\\s*\\]");
  private static final ValueConverters VALUE_ANALYSIS = new ValueConverters();
@ -29,7 +30,7 @@ class TomlParser {
    for (int i = 0; i < lines.length; i++) {
      String line = lines[i];
-      if (line != null && multiline != Multiline.STRING) {
+      if (line != null && multiline.isTrimmable()) {
        line = line.trim();
      }
@ -87,10 +88,30 @@ class TomlParser {
          pair[1] = multilineBuilder.toString().trim();
          multilineBuilder.delete(0, multilineBuilder.length());
        } else {
          if (multilineBuilder.toString().trim().length() > 3) {
            multilineBuilder.append('\n');
          }
          continue;
        }
      }
      if (multiline.isNotMultiline() && pair[1].trim().startsWith(STRING_LITERAL_DELIMITER)) {
        multiline = Multiline.STRING_LITERAL;
        multilineBuilder.append(pair[1]);
        key = pair[0].trim();
        if (pair[1].trim().indexOf(STRING_LITERAL_DELIMITER, 3) > -1) {
          multiline = Multiline.NONE;
          pair[1] = multilineBuilder.toString().trim();
          multilineBuilder.delete(0, multilineBuilder.length());
        } else {
          if (multilineBuilder.toString().trim().length() > 3) {
            multilineBuilder.append('\n');
          }
          continue;
        }
      }
      if (multiline == Multiline.ARRAY) {
        String lineWithoutComment = removeComment(line);
        multilineBuilder.append(lineWithoutComment);
@ -111,6 +132,16 @@ class TomlParser {
          multilineBuilder.append('\n');
          continue;
        }
      } else if (multiline == Multiline.STRING_LITERAL) {
        multilineBuilder.append(line);
        if (line.contains(STRING_LITERAL_DELIMITER)) {
          multiline = Multiline.NONE;
          value = multilineBuilder.toString().trim();
          multilineBuilder.delete(0, multilineBuilder.length());
        } else {
          multilineBuilder.append('\n');
          continue;
        }
      } else {
        key = pair[0].trim();
        value = pair[1].trim();
@ -203,10 +234,14 @@ class TomlParser {
  }
  private static enum Multiline {
-    NONE, ARRAY, STRING;
+    NONE, ARRAY, STRING, STRING_LITERAL;
    public boolean isNotMultiline() {
      return this == NONE;
    }
    public boolean isTrimmable() {
      return this == NONE || this == ARRAY;
    }
  }
 }
--- a/src/main/java/com/moandjiezana/toml/ValueConverters.java
+++ b/src/main/java/com/moandjiezana/toml/ValueConverters.java
@ -6,6 +6,7 @@ import static com.moandjiezana.toml.DateConverter.DATE_PARSER;
 import static com.moandjiezana.toml.FloatConverter.FLOAT_PARSER;
 import static com.moandjiezana.toml.IntegerConverter.INTEGER_PARSER;
 import static com.moandjiezana.toml.LiteralStringConverter.LITERAL_STRING_PARSER;
 import static com.moandjiezana.toml.MultilineLiteralStringConverter.MULTILINE_LITERAL_STRING_CONVERTER;
 import static com.moandjiezana.toml.MultilineStringConverter.MULTILINE_STRING_PARSER;
 import static com.moandjiezana.toml.StringConverter.STRING_PARSER;
 import static com.moandjiezana.toml.ValueConverterUtils.INVALID;
@ -13,7 +14,7 @@ import static com.moandjiezana.toml.ValueConverterUtils.INVALID;
 class ValueConverters {
  private static final ValueConverter[] PARSERS = { 
-    MULTILINE_STRING_PARSER, LITERAL_STRING_PARSER, STRING_PARSER, DATE_PARSER, INTEGER_PARSER, FLOAT_PARSER, BOOLEAN_PARSER, ARRAY_PARSER
+    MULTILINE_STRING_PARSER, MULTILINE_LITERAL_STRING_CONVERTER, LITERAL_STRING_PARSER, STRING_PARSER, DATE_PARSER, INTEGER_PARSER, FLOAT_PARSER, BOOLEAN_PARSER, ARRAY_PARSER
  };
  public Object convert(String value) {
--- a/src/main/java/com/moandjiezana/toml/ValueParser.java
+++ b/src/main/java/com/moandjiezana/toml/ValueParser.java
@ -6,9 +6,22 @@ import java.util.List;
 import org.parboiled.BaseParser;
 import org.parboiled.Rule;
 import org.parboiled.annotations.BuildParseTree;
 import org.parboiled.parserunners.RecoveringParseRunner;
 import org.parboiled.support.ParseTreeUtils;
 import org.parboiled.support.ParsingResult;
@BuildParseTree
 class ValueParser extends BaseParser<List<Object>> {
  public static void main(String[] args) {
    ParsingResult<Object> parsingResult = new RecoveringParseRunner<Object>(ValueConverterUtils.parser().T()).run("'''abc''' # comment");
    System.out.println(ParseTreeUtils.printNodeTree(parsingResult));
  }
  public Rule T() {
    return Sequence("'''", OneOrMore(TestNot("'''"), ANY), "'''", Comment());
  }
  public Rule Array() {
    return FirstOf(EmptyArray(), Sequence('[', startList(), OneOrMore(FirstOf(NonEmptyArray(), ' ', ',')), ']', endList()));
@ -23,7 +36,11 @@ class ValueParser extends BaseParser<List<Object>> {
  }
  public Rule LiteralString() {
-    return FirstOf(Sequence('\'', '\'', startList(), pushToken(""), endList()), Sequence('\'', OneOrMore(TestNot("'"), ANY), startList(), pushToken(match()) , '\'', endList(), Comment()));
+    return FirstOf(EmptyLiteralString(), Sequence('\'', OneOrMore(TestNot("'"), ANY), startList(), pushToken(match()) , '\'', endList(), Comment()));
  }
  public Rule MultilineLiteralString() {
    return FirstOf(EmptyMultilineLiteralString(), Sequence("'''", startList(), Sequence(OneOrMore(TestNot("'''"), ANY), pushToken(match())), "'''", endList(), Comment()));
  }
  public Rule Boolean() {
@ -42,6 +59,14 @@ class ValueParser extends BaseParser<List<Object>> {
    return Sequence(Sequence('"', ZeroOrMore(Sequence(TestNot('"'), ANY)), '"'), pushToken(match()));
  }
  Rule EmptyLiteralString() {
    return Sequence('\'', '\'', startList(), pushToken(""), endList());
  }
  Rule EmptyMultilineLiteralString() {
    return Sequence("'''", "'''", startList(), pushToken(""), endList(), Comment());
  }
  Rule EmptyArray() {
    return Sequence('[', ']', startList(), endList());
  }
--- a/src/test/java/com/moandjiezana/toml/TomlTest.java
+++ b/src/test/java/com/moandjiezana/toml/TomlTest.java
@ -64,7 +64,16 @@ public class TomlTest {
    assertEquals("Tom \"Dubs\" Preston-Werner", toml.getString("quoted"));
    assertEquals("<\\i\\c*\\s*>", toml.getString("regex"));
  }
-
+  
  @Test
  public void should_get_multiline_literal_string() throws Exception {
    Toml toml = new Toml().parse(file("should_get_multiline_literal_string"));
    assertTrue(toml.getString("empty_line").isEmpty());
    assertEquals(toml.getString("regex2_ref"), toml.getString("regex2"));
    assertEquals(toml.getString("lines_ref"), toml.getString("lines"));
  }
  @Test
  public void should_get_number() throws Exception {
    Toml toml = new Toml().parse("b = 1001");
@ -316,6 +325,10 @@ public class TomlTest {
    assertEquals(cal.getTime(), toml.getDate("d"));
    assertThat(toml.getList("e", String.class), Matchers.contains("a", "b"));
    assertTrue(toml.getBoolean("f"));
    assertEquals("abc", toml.getString("g"));
    assertEquals("abc", toml.getString("h"));
    assertEquals("abc\nabc", toml.getString("i"));
    assertEquals("abc\nabc", toml.getString("j"));
  }
  @Test
@ -428,7 +441,12 @@ public class TomlTest {
  public void should_fail_on_invalid_literal_string() {
    new Toml().parse("a = ' ' jdkf");
  }
-  
+
  @Test(expected = IllegalStateException.class)
  public void should_fail_on_invalid_multiline_string() {
    new Toml().parse("a = \"\"\" \"\"\" jdkf");
  }
  private File file(String file) {
    return new File(getClass().getResource(file + ".toml").getFile());
  }
--- a/src/test/resources/com/moandjiezana/toml/should_allow_comment_after_values.toml
+++ b/src/test/resources/com/moandjiezana/toml/should_allow_comment_after_values.toml
@ -3,4 +3,10 @@ b = 1.1    # comment
 c = "abc" # comment
 d = 2014-08-04T13:47:00Z # comment
 e = ["a", "b"] # comment
-f = true # comment
+f = true # comment
 g = """abc""" # comment
 h = '''abc''' # comment
 i = """abc
 abc""" # comment
 j = '''abc
 abc''' # comment
--- a/src/test/resources/com/moandjiezana/toml/should_get_basic_multiline_string.toml
+++ b/src/test/resources/com/moandjiezana/toml/should_get_basic_multiline_string.toml
@ -1,5 +1,5 @@
 ref = "One\nTwo"
-one_line = """One\nTwo"""
+one_line = """One\nTwo""" # comment
 many_lines = """
 One
-Two"""
+Two""" # comment
--- a/src/test/resources/com/moandjiezana/toml/should_get_multiline_literal_string.toml
+++ b/src/test/resources/com/moandjiezana/toml/should_get_multiline_literal_string.toml
@ -0,0 +1,12 @@
 regex2_ref = "I [dw]on't need \\d{2} apples"
 regex2 = '''I [dw]on't need \d{2} apples'''
 lines_ref = "The first newline is\ntrimmed in raw strings.\n   All other whitespace\n   is preserved.\n"
 lines  = '''
 The first newline is
 trimmed in raw strings.
   All other whitespace
   is preserved.
 '''
 empty_line = ''''''