Spaces:

svenwey
/

logmetric

Sleeping

App Files Files Community

svenwey commited on Apr 1

Commit

582c535

1 Parent(s): dd8881c

implement 0. space heuristic as fallback in case the timestamp can't be parsed

Browse files

Files changed (1) hide show

logmetric.py +19 -11

logmetric.py CHANGED Viewed

@@ -176,21 +176,30 @@ class PredRefScore:
     # Split all log-entries in timestamps and log-messages
     def split_log_entry(self, pred : str, ref: str):
-        pred_split_log = TIMESTAMP_PATTERN.split(pred)
-        ref_split_log = TIMESTAMP_PATTERN.split(ref)
         # One logentry always consists of timestamp + log-message
         pred_timestamps, pred_logMessages = [], []
         ref_timestamps, ref_logMessages = [], []
-        # reorganize log into logentry-tuples, consisting of timestamp + log-message
-        for i in range(1, len(pred_split_log), 2):
-            pred_timestamps.append(pred_split_log[i])
-            pred_logMessages.append(pred_split_log[i+1])
-        for i in range(1, len(ref_split_log), 2):
-            ref_timestamps.append(ref_split_log[i])
-            ref_logMessages.append(ref_split_log[i+1])
         # We extend the shorter list to the length of the longer one
         max_logentries = max(len(pred_logMessages), len(ref_logMessages))
@@ -271,4 +280,3 @@ class PredRefScore:
         pred_timestamps, pred_logMessages, ref_timestamps, ref_logMessages = self.split_log_entry(self.prediction, self.reference)
         self.all_linecontent_scores(pred_logMessages, ref_logMessages)
         self.all_timestamp_scores(pred_timestamps, ref_timestamps)

     # Split all log-entries in timestamps and log-messages
     def split_log_entry(self, pred : str, ref: str):
+        pred_lines = pred.splitlines()
+        ref_lines = ref.splitlines()
         # One logentry always consists of timestamp + log-message
         pred_timestamps, pred_logMessages = [], []
         ref_timestamps, ref_logMessages = [], []
+        for i in range(len(pred_lines)):
+            if TIMESTAMP_PATTERN.match(pred_lines[i]) is not None:
+                # try to match timestamp
+                _, pred_ts, pred_msg = TIMESTAMP_PATTERN.split(pred_lines[i])
+                pred_timestamps.append(pred_ts)
+                pred_logMessages.append(pred_msg)
+            else:
+                # 0. space heuristic
+                pred_msg = pred_lines[i]
+                pred_logMessages.append(pred_msg)
+        for i in range(len(ref_lines)):
+            if TIMESTAMP_PATTERN.match(ref_lines[i]) is None:
+                raise ValueError("The provided regex can't parse a timestamp in a reference log. Please make sure that the regex can parse a provided reference log format. Line: " + ref_lines[i])
+            _, ref_ts, ref_msg = TIMESTAMP_PATTERN.split(ref_lines[i])
+            ref_timestamps.append(ref_ts)
+            ref_logMessages.append(ref_msg)
         # We extend the shorter list to the length of the longer one
         max_logentries = max(len(pred_logMessages), len(ref_logMessages))
         pred_timestamps, pred_logMessages, ref_timestamps, ref_logMessages = self.split_log_entry(self.prediction, self.reference)
         self.all_linecontent_scores(pred_logMessages, ref_logMessages)
         self.all_timestamp_scores(pred_timestamps, ref_timestamps)