Changed msg_style and msg_delim to be file static to m_getfld.c
[mmh] / sbr / m_getfld.c
1
2 /*
3  * m_getfld.c -- read/parse a message
4  *
5  * This code is Copyright (c) 2002, by the authors of nmh.  See the
6  * COPYRIGHT file in the root directory of the nmh distribution for
7  * complete copyright information.
8  */
9
10 #include <h/mh.h>
11 #include <h/mts.h>
12 #include <h/utils.h>
13
14 /* This module has a long and checkered history.  First, it didn't burst
15    maildrops correctly because it considered two CTRL-A:s in a row to be
16    an inter-message delimiter.  It really is four CTRL-A:s followed by a
17    newline.  Unfortunately, MMDF will convert this delimiter *inside* a
18    message to a CTRL-B followed by three CTRL-A:s and a newline.  This
19    caused the old version of m_getfld() to declare eom prematurely.  The
20    fix was a lot slower than
21
22                 c == '\001' && peekc (iob) == '\001'
23
24    but it worked, and to increase generality, MBOX style maildrops could
25    be parsed as well.  Unfortunately the speed issue finally caught up with
26    us since this routine is at the very heart of MH.
27
28    To speed things up considerably, the routine Eom() was made an auxilary
29    function called by the macro eom().  Unless we are bursting a maildrop,
30    the eom() macro returns FALSE saying we aren't at the end of the
31    message.
32
33    The next thing to do is to read the mts.conf file and initialize
34    delimiter[] and delimlen accordingly...
35
36    After mhl was made a built-in in msh, m_getfld() worked just fine
37    (using m_unknown() at startup).  Until one day: a message which was
38    the result of a bursting was shown. Then, since the burst boundaries
39    aren't CTRL-A:s, m_getfld() would blinding plunge on past the boundary.
40    Very sad.  The solution: introduce m_eomsbr().  This hook gets called
41    after the end of each line (since testing for eom involves an fseek()).
42    This worked fine, until one day: a message with no body portion arrived.
43    Then the
44
45                    while (eom (c = Getc (iob), iob))
46                         continue;
47
48    loop caused m_getfld() to return FMTERR.  So, that logic was changed to
49    check for (*eom_action) and act accordingly.
50
51    This worked fine, until one day: someone didn't use four CTRL:A's as
52    their delimiters.  So, the bullet got bit and we read mts.h and
53    continue to struggle on.  It's not that bad though, since the only time
54    the code gets executed is when inc (or msh) calls it, and both of these
55    have already called mts_init().
56
57    ------------------------
58    (Written by Van Jacobson for the mh6 m_getfld, January, 1986):
59
60    This routine was accounting for 60% of the cpu time used by most mh
61    programs.  I spent a bit of time tuning and it now accounts for <10%
62    of the time used.  Like any heavily tuned routine, it's a bit
63    complex and you want to be sure you understand everything that it's
64    doing before you start hacking on it.  Let me try to emphasize
65    that:  every line in this atrocity depends on every other line,
66    sometimes in subtle ways.  You should understand it all, in detail,
67    before trying to change any part.  If you do change it, test the
68    result thoroughly (I use a hand-constructed test file that exercises
69    all the ways a header name, header body, header continuation,
70    header-body separator, body line and body eom can align themselves
71    with respect to a buffer boundary).  "Minor" bugs in this routine
72    result in garbaged or lost mail.
73
74    If you hack on this and slow it down, I, my children and my
75    children's children will curse you.
76
77    This routine gets used on three different types of files: normal,
78    single msg files, "packed" unix or mmdf mailboxs (when used by inc)
79    and packed, directoried bulletin board files (when used by msh).
80    The biggest impact of different file types is in "eom" testing.  The
81    code has been carefully organized to test for eom at appropriate
82    times and at no other times (since the check is quite expensive).
83    I have tried to arrange things so that the eom check need only be
84    done on entry to this routine.  Since an eom can only occur after a
85    newline, this is easy to manage for header fields.  For the msg
86    body, we try to efficiently search the input buffer to see if
87    contains the eom delimiter.  If it does, we take up to the
88    delimiter, otherwise we take everything in the buffer.  (The change
89    to the body eom/copy processing produced the most noticeable
90    performance difference, particularly for "inc" and "show".)
91
92    There are three qualitatively different things this routine busts
93    out of a message: field names, field text and msg bodies.  Field
94    names are typically short (~8 char) and the loop that extracts them
95    might terminate on a colon, newline or max width.  I considered
96    using a Vax "scanc" to locate the end of the field followed by a
97    "bcopy" but the routine call overhead on a Vax is too large for this
98    to work on short names.  If Berkeley ever makes "inline" part of the
99    C optimiser (so things like "scanc" turn into inline instructions) a
100    change here would be worthwhile.
101
102    Field text is typically 60 - 100 characters so there's (barely)
103    a win in doing a routine call to something that does a "locc"
104    followed by a "bmove".  About 30% of the fields have continuations
105    (usually the 822 "received:" lines) and each continuation generates
106    another routine call.  "Inline" would be a big win here, as well.
107
108    Messages, as of this writing, seem to come in two flavors: small
109    (~1K) and long (>2K).  Most messages have 400 - 600 bytes of headers
110    so message bodies average at least a few hundred characters.
111    Assuming your system uses reasonably sized stdio buffers (1K or
112    more), this routine should be able to remove the body in large
113    (>500 byte) chunks.  The makes the cost of a call to "bcopy"
114    small but there is a premium on checking for the eom in packed
115    maildrops.  The eom pattern is always a simple string so we can
116    construct an efficient pattern matcher for it (e.g., a Vax "matchc"
117    instruction).  Some thought went into recognizing the start of
118    an eom that has been split across two buffers.
119
120    This routine wants to deal with large chunks of data so, rather
121    than "getc" into a local buffer, it uses stdio's buffer.  If
122    you try to use it on a non-buffered file, you'll get what you
123    deserve.  This routine "knows" that struct FILEs have a _ptr
124    and a _cnt to describe the current state of the buffer and
125    it knows that _filbuf ignores the _ptr & _cnt and simply fills
126    the buffer.  If stdio on your system doesn't work this way, you
127    may have to make small changes in this routine.
128    
129    This routine also "knows" that an EOF indication on a stream is
130    "sticky" (i.e., you will keep getting EOF until you reposition the
131    stream).  If your system doesn't work this way it is broken and you
132    should complain to the vendor.  As a consequence of the sticky
133    EOF, this routine will never return any kind of EOF status when
134    there is data in "name" or "buf").
135   */
136
137 /*
138 Purpose
139 =======
140 Reads an Internet message (RFC 5322), or one or more messages stored in a
141 maildrop in mbox (RFC 4155) or MMDF format, from a file stream.  Each call
142 to m_getfld() reads one header field, or a portion of the body, in sequence.
143
144 Inputs
145 ======
146 state:  message parse state
147 bufsz:  maximum number of characters to load into buf
148 iob:  input file stream
149
150 Outputs
151 =======
152 name:  header field name (array of size NAMESZ=999)
153 buf:  either a header field body or message body
154 (return value):  message parse state on return from function
155 (global) int msg_count:  number of characters loaded into buf
156
157 Functions (part of Inputs, really)
158 =========
159 void m_unknown(FILE *iob):  Determines the message delimiter string for the
160   maildrop.  Called by inc, scan, and msh when reading from a maildrop file.
161
162 void m_eomsbr (int (*action)(int)):  Sets the hook to check for end of
163   message in a maildrop.  Called only by msh.
164
165 Those functions save state in the State variables listed below.
166
167 Definitions
168 ===========
169 state is one of:
170   FLD      // Field returned
171   FLDPLUS  // Field returned with more to come
172   FLDEOF   // Field returned ending at eom
173   BODY     // Body  returned with more to come
174   BODYEOF  // Body  returned ending at eom
175   FILEEOF  // Reached end of input file
176   FMTERR   // Message Format error
177   LENERR   // Name too long error from getfld
178
179 msg_style is maildrop style, one of:
180   MS_UNKNOWN // type not known yet
181   MS_DEFAULT // default (one msg per file)
182   MS_MBOX    // Unix-style "from" lines
183   MS_MMDF    // string mmdlm2
184   MS_MSH     // whacko msh
185
186 State variables (part of Outputs)
187 ===============
188 m_getfld() retains state internally between calls in some state variables.
189
190 These two variables are global, but only used internally by m_getfld.c:
191 int msg_style
192 char *msg_delim
193
194 These are used for the end-of-message matcher when reading maildrops:
195 static unsigned char **pat_map
196 static unsigned char *fdelim
197 static unsigned char *delimend
198 static int fdelimlen
199 static unsigned char *edelim
200 static int edelimlen
201
202 Restriction
203 ===========
204 m_getfld() is restricted to operate on one file stream at a time because of
205 the retained state (see "State variables" above).
206
207 Current usage
208 =============
209 The first call to m_getfld() on a file stream is with a state of FLD.
210 Subsequent calls provide the state returned by the previous call.
211
212 Along the way, I thought of these possible interface changes that we
213 might want to consider before rototilling the internals:
214
215 1) To remove a global:
216    Change bufsz to be in-out instead of in, and therefore int * instead of
217    int, and use that instead of global msg_count.  There are only 3 call
218    sites that use msg_count so it wouldn't take much effort to remove use of
219    it.  Of course, all call sites would have to change to provide an int *
220    instead of an int.  Some now pass constants.
221
222 2) To remove the state argument from the signature:
223    Given the Current usage and Restriction above, the state variable could
224    be removed from the signature and just retained internally.
225
226 3) To remove the Restriction above:
227    One approach would be for m_getfld() to retain multiple copies of that
228    state, one per iob that it sees.  Another approach would be for the
229    caller to store it in an opaque struct, the address of which is passed
230    through the interface.
231 */
232
233 /*
234  * static prototypes
235  */
236 static int m_Eom (int, FILE *);
237 static unsigned char *matchc(int, char *, int, char *);
238 static unsigned char *locc(int, unsigned char *, unsigned char);
239
240 #define Getc(iob)       getc(iob)
241 #define eom(c,iob)      (msg_style != MS_DEFAULT && \
242                          (((c) == *msg_delim && m_Eom(c,iob)) ||\
243                           (eom_action && (*eom_action)(c))))
244
245 static unsigned char **pat_map;
246
247 /*
248  * defined in sbr/m_msgdef.c = 0
249  * This is a disgusting hack for "inc" so it can know how many
250  * characters were stuffed in the buffer on the last call
251  * (see comments in uip/scansbr.c).
252  */
253 extern int msg_count;
254
255 static int msg_style = MS_DEFAULT;
256
257 /*
258  * The "full" delimiter string for a packed maildrop consists
259  * of a newline followed by the actual delimiter.  E.g., the
260  * full string for a Unix maildrop would be: "\n\nFrom ".
261  * "Fdelim" points to the start of the full string and is used
262  * in the BODY case of the main routine to search the buffer for
263  * a possible eom.  Msg_delim points to the first character of
264  * the actual delim. string (i.e., fdelim+1).  Edelim
265  * points to the 2nd character of actual delimiter string.  It
266  * is used in m_Eom because the first character of the string
267  * has been read and matched before m_Eom is called.
268  */
269 static char *msg_delim = "";
270 static unsigned char *fdelim;
271 static unsigned char *delimend;
272 static int fdelimlen;
273 static unsigned char *edelim;
274 static int edelimlen;
275
276 static int (*eom_action)(int) = NULL;
277
278 #ifdef _FSTDIO
279 # define _ptr    _p             /* Gag   */
280 # define _cnt    _r             /* Retch */
281 # define _filbuf __srget        /* Puke  */
282 # define DEFINED__FILBUF_TO_SOMETHING_SPECIFIC
283
284 # if defined __CYGWIN__
285   /* Cygwin's stdio.h does not declare __srget(). */
286   int __srget(FILE *);
287 # endif /* __CYGWIN__ */
288 #endif
289
290 #ifndef DEFINED__FILBUF_TO_SOMETHING_SPECIFIC
291 extern int  _filbuf(FILE*);
292 #endif
293
294
295 int
296 m_getfld (int state, unsigned char name[NAMESZ], unsigned char *buf,
297           int bufsz, FILE *iob)
298 {
299     register unsigned char  *bp, *cp, *ep, *sp;
300     register int cnt, c, i, j;
301
302     if ((c = Getc(iob)) < 0) {
303         msg_count = 0;
304         *buf = 0;
305         return FILEEOF;
306     }
307     if (eom (c, iob)) {
308         if (! eom_action) {
309             /* flush null messages */
310             while ((c = Getc(iob)) >= 0 && eom (c, iob))
311                 ;
312             if (c >= 0)
313                 ungetc(c, iob);
314         }
315         msg_count = 0;
316         *buf = 0;
317         return FILEEOF;
318     }
319
320     switch (state) {
321         case FLDEOF: 
322         case BODYEOF: 
323         case FLD: 
324             if (c == '\n' || c == '-') {
325                 /* we hit the header/body separator */
326                 while (c != '\n' && (c = Getc(iob)) >= 0)
327                     ;
328
329                 if (c < 0 || (c = Getc(iob)) < 0 || eom (c, iob)) {
330                     if (! eom_action) {
331                         /* flush null messages */
332                         while ((c = Getc(iob)) >= 0 && eom (c, iob))
333                             ;
334                         if (c >= 0)
335                             ungetc(c, iob);
336                     }
337                     msg_count = 0;
338                     *buf = 0;
339                     return FILEEOF;
340                 }
341                 state = BODY;
342                 goto body;
343             }
344             /*
345              * get the name of this component.  take characters up
346              * to a ':', a newline or NAMESZ-1 characters, whichever
347              * comes first.  
348              */
349             cp = name;
350             i = NAMESZ - 1;
351             for (;;) {
352 #ifdef LINUX_STDIO
353                 bp = sp = (unsigned char *) iob->_IO_read_ptr - 1;
354                 j = (cnt = ((long) iob->_IO_read_end -
355                         (long) iob->_IO_read_ptr)  + 1) < i ? cnt : i;
356 #elif defined(__DragonFly__)
357                 bp = sp = (unsigned char *) ((struct __FILE_public *)iob)->_p - 1;
358                 j = (cnt = ((struct __FILE_public *)iob)->_r+1) < i ? cnt : i;
359 #else
360                 bp = sp = (unsigned char *) iob->_ptr - 1;
361                 j = (cnt = iob->_cnt+1) < i ? cnt : i;
362 #endif
363                 while (--j >= 0 && (c = *bp++) != ':' && c != '\n')
364                     *cp++ = c;
365
366                 j = bp - sp;
367                 if ((cnt -= j) <= 0) {
368 #ifdef LINUX_STDIO
369                     iob->_IO_read_ptr = iob->_IO_read_end;
370                     if (__underflow(iob) == EOF) {
371 #elif defined(__DragonFly__)
372                     if (__srget(iob) == EOF) {
373 #else
374                     if (_filbuf(iob) == EOF) {
375 #endif
376                         *cp = *buf = 0;
377                         advise (NULL, "eof encountered in field \"%s\"", name);
378                         return FMTERR;
379                     }
380 #ifdef LINUX_STDIO
381                 iob->_IO_read_ptr++; /* NOT automatic in __underflow()! */
382 #endif
383                 } else {
384 #ifdef LINUX_STDIO
385                     iob->_IO_read_ptr = bp + 1;
386 #elif defined(__DragonFly__)
387                     ((struct __FILE_public *)iob)->_p = bp + 1;
388                     ((struct __FILE_public *)iob)->_r = cnt - 1;
389 #else
390                     iob->_ptr = bp + 1;
391                     iob->_cnt = cnt - 1;
392 #endif
393                 }
394                 if (c == ':')
395                     break;
396
397                 /*
398                  * something went wrong.  possibilities are:
399                  *  . hit a newline (error)
400                  *  . got more than namesz chars. (error)
401                  *  . hit the end of the buffer. (loop)
402                  */
403                 if (c == '\n') {
404                     /* We hit the end of the line without seeing ':' to
405                      * terminate the field name.  This is usually (always?)
406                      * spam.  But, blowing up is lame, especially when
407                      * scan(1)ing a folder with such messages.  Pretend such
408                      * lines are the first of the body (at least mutt also
409                      * handles it this way). */
410
411                     /* See if buf can hold this line, since we were assuming
412                      * we had a buffer of NAMESZ, not bufsz. */
413                     /* + 1 for the newline */
414                     if (bufsz < j + 1) {
415                         /* No, it can't.  Oh well, guess we'll blow up. */
416                         *cp = *buf = 0;
417                         advise (NULL, "eol encountered in field \"%s\"", name);
418                         state = FMTERR;
419                         goto finish;
420                     }
421                     memcpy (buf, name, j - 1);
422                     buf[j - 1] = '\n';
423                     buf[j] = '\0';
424                     /* mhparse.c:get_content wants to find the position of the
425                      * body start, but it thinks there's a blank line between
426                      * the header and the body (naturally!), so seek back so
427                      * that things line up even though we don't have that
428                      * blank line in this case.  Simpler parsers (e.g. mhl)
429                      * get extra newlines, but that should be harmless enough,
430                      * right?  This is a corrupt message anyway. */
431                     fseek (iob, ftell (iob) - 2, SEEK_SET);
432                     return BODY;
433                 }
434                 if ((i -= j) <= 0) {
435                     *cp = *buf = 0;
436                     advise (NULL, "field name \"%s\" exceeds %d bytes", name, NAMESZ - 2);
437                     state = LENERR;
438                     goto finish;
439                 }
440             }
441
442             while (isspace (*--cp) && cp >= name)
443                 ;
444             *++cp = 0;
445             /* fall through */
446
447         case FLDPLUS: 
448             /*
449              * get (more of) the text of a field.  take
450              * characters up to the end of this field (newline
451              * followed by non-blank) or bufsz-1 characters.
452              */
453             cp = buf; i = bufsz-1;
454             for (;;) {
455 #ifdef LINUX_STDIO
456                 cnt = (long) iob->_IO_read_end - (long) iob->_IO_read_ptr;
457                 bp = (unsigned char *) --iob->_IO_read_ptr;
458 #elif defined(__DragonFly__)
459                 cnt = ((struct __FILE_public *)iob)->_r++;
460                 bp = (unsigned char *) --((struct __FILE_public *)iob)->_p;
461 #else
462                 cnt = iob->_cnt++;
463                 bp = (unsigned char *) --iob->_ptr;
464 #endif
465                 c = cnt < i ? cnt : i;
466                 while ((ep = locc( c, bp, '\n' ))) {
467                     /*
468                      * if we hit the end of this field, return.
469                      */
470                     if ((j = *++ep) != ' ' && j != '\t') {
471 #ifdef LINUX_STDIO
472                         j = ep - (unsigned char *) iob->_IO_read_ptr;
473                         memcpy (cp, iob->_IO_read_ptr, j);
474                         iob->_IO_read_ptr = ep;
475 #elif defined(__DragonFly__)
476                         j = ep - (unsigned char *) ((struct __FILE_public *)iob)->_p;
477                         memcpy (cp, ((struct __FILE_public *)iob)->_p, j);
478                         ((struct __FILE_public *)iob)->_p = ep;
479                         ((struct __FILE_public *)iob)->_r -= j;
480 #else
481                         j = ep - (unsigned char *) iob->_ptr;
482                         memcpy (cp, iob->_ptr, j);
483                         iob->_ptr = ep;
484                         iob->_cnt -= j;
485 #endif
486                         cp += j;
487                         state = FLD;
488                         goto finish;
489                     }
490                     c -= ep - bp;
491                     bp = ep;
492                 }
493                 /*
494                  * end of input or dest buffer - copy what we've found.
495                  */
496 #ifdef LINUX_STDIO
497                 c += bp - (unsigned char *) iob->_IO_read_ptr;
498                 memcpy( cp, iob->_IO_read_ptr, c);
499 #elif defined(__DragonFly__)
500                 c += bp - (unsigned char *) ((struct __FILE_public *)iob)->_p;
501                 memcpy( cp, ((struct __FILE_public *)iob)->_p, c);
502 #else
503                 c += bp - (unsigned char *) iob->_ptr;
504                 memcpy( cp, iob->_ptr, c);
505 #endif
506                 i -= c;
507                 cp += c;
508                 if (i <= 0) {
509                     /* the dest buffer is full */
510 #ifdef LINUX_STDIO
511                     iob->_IO_read_ptr += c;
512 #elif defined(__DragonFly__)
513                     ((struct __FILE_public *)iob)->_r -= c;
514                     ((struct __FILE_public *)iob)->_p += c;
515 #else
516                     iob->_cnt -= c;
517                     iob->_ptr += c;
518 #endif
519                     state = FLDPLUS;
520                     break;
521                 }
522                 /* 
523                  * There's one character left in the input buffer.
524                  * Copy it & fill the buffer.  If the last char
525                  * was a newline and the next char is not whitespace,
526                  * this is the end of the field.  Otherwise loop.
527                  */
528                 --i;
529 #ifdef LINUX_STDIO
530                 *cp++ = j = *(iob->_IO_read_ptr + c);
531                 iob->_IO_read_ptr = iob->_IO_read_end;
532                 c = __underflow(iob);
533                 iob->_IO_read_ptr++;    /* NOT automatic! */
534 #elif defined(__DragonFly__)
535                 *cp++ =j = *(((struct __FILE_public *)iob)->_p + c);
536                 c = __srget(iob);
537 #else
538                 *cp++ = j = *(iob->_ptr + c);
539                 c = _filbuf(iob);
540 #endif
541                 if (c == EOF || 
542                   ((j == '\0' || j == '\n') && c != ' ' && c != '\t')) {
543                     if (c != EOF) {
544 #ifdef LINUX_STDIO
545                         --iob->_IO_read_ptr;
546 #elif defined(__DragonFly__)
547                         --((struct __FILE_public *)iob)->_p;
548                         ++((struct __FILE_public *)iob)->_r;
549 #else
550                         --iob->_ptr;
551                         ++iob->_cnt;
552 #endif
553                     }
554                     state = FLD;
555                     break;
556                 }
557             }
558             break;
559
560         case BODY: 
561         body:
562             /*
563              * get the message body up to bufsz characters or the
564              * end of the message.  Sleazy hack: if bufsz is negative
565              * we assume that we were called to copy directly into
566              * the output buffer and we don't add an eos.
567              */
568             i = (bufsz < 0) ? -bufsz : bufsz-1;
569 #ifdef LINUX_STDIO
570             bp = (unsigned char *) --iob->_IO_read_ptr;
571             cnt = (long) iob->_IO_read_end - (long) iob->_IO_read_ptr;
572 #elif defined(__DragonFly__)
573             bp = (unsigned char *) --((struct __FILE_public *)iob)->_p;
574             cnt = ++((struct __FILE_public *)iob)->_r;
575 #else
576             bp = (unsigned char *) --iob->_ptr;
577             cnt = ++iob->_cnt;
578 #endif
579             c = (cnt < i ? cnt : i);
580             if (msg_style != MS_DEFAULT && c > 1) {
581                 /*
582                  * packed maildrop - only take up to the (possible)
583                  * start of the next message.  This "matchc" should
584                  * probably be a Boyer-Moore matcher for non-vaxen,
585                  * particularly since we have the alignment table
586                  * all built for the end-of-buffer test (next).
587                  * But our vax timings indicate that the "matchc"
588                  * instruction is 50% faster than a carefully coded
589                  * B.M. matcher for most strings.  (So much for elegant
590                  * algorithms vs. brute force.)  Since I (currently)
591                  * run MH on a vax, we use the matchc instruction. --vj
592                  */
593                 if ((ep = matchc( fdelimlen, fdelim, c, bp )))
594                     c = ep - bp + 1;
595                 else {
596                     /*
597                      * There's no delim in the buffer but there may be
598                      * a partial one at the end.  If so, we want to leave
599                      * it so the "eom" check on the next call picks it up.
600                      * Use a modified Boyer-Moore matcher to make this
601                      * check relatively cheap.  The first "if" figures
602                      * out what position in the pattern matches the last
603                      * character in the buffer.  The inner "while" matches
604                      * the pattern against the buffer, backwards starting
605                      * at that position.  Note that unless the buffer
606                      * ends with one of the characters in the pattern
607                      * (excluding the first and last), we do only one test.
608                      */
609                     ep = bp + c - 1;
610                     if ((sp = pat_map[*ep])) {
611                         do {
612                             /* This if() is true unless (a) the buffer is too
613                              * small to contain this delimiter prefix, or
614                              * (b) it contains exactly enough chars for the
615                              * delimiter prefix.
616                              * For case (a) obviously we aren't going to match.
617                              * For case (b), if the buffer really contained exactly
618                              * a delim prefix, then the m_eom call at entry
619                              * should have found it.  Thus it's not a delim
620                              * and we know we won't get a match.
621                              */
622                             if (((sp - fdelim) + 2) <= c) {
623                                 cp = sp;
624                                 /* Unfortunately although fdelim has a preceding NUL
625                                  * we can't use this as a sentinel in case the buffer
626                                  * contains a NUL in exactly the wrong place (this
627                                  * would cause us to run off the front of fdelim).
628                                  */
629                                 while (*--ep == *--cp)
630                                     if (cp < fdelim)
631                                         break;
632                                 if (cp < fdelim) {
633                                     /* we matched the entire delim prefix,
634                                      * so only take the buffer up to there.
635                                      * we know ep >= bp -- check above prevents underrun
636                                      */
637                                     c = (ep - bp) + 2;
638                                     break;
639                                 }
640                             }
641                             /* try matching one less char of delim string */
642                             ep = bp + c - 1;
643                         } while (--sp > fdelim);
644                     }
645                 }
646             }
647             memcpy( buf, bp, c );
648 #ifdef LINUX_STDIO
649             iob->_IO_read_ptr += c;
650 #elif defined(__DragonFly__)
651             ((struct __FILE_public *)iob)->_r -= c;
652             ((struct __FILE_public *)iob)->_p += c;
653 #else
654             iob->_cnt -= c;
655             iob->_ptr += c;
656 #endif
657             if (bufsz < 0) {
658                 msg_count = c;
659                 return (state);
660             }
661             cp = buf + c;
662             break;
663
664         default: 
665             adios (NULL, "m_getfld() called with bogus state of %d", state);
666     }
667 finish:
668     *cp = 0;
669     msg_count = cp - buf;
670     return (state);
671 }
672
673
674 void
675 m_unknown(FILE *iob)
676 {
677     register int c;
678     register long pos;
679     char text[10];
680     register char *cp;
681     register char *delimstr;
682
683 /*
684  * Figure out what the message delimitter string is for this
685  * maildrop.  (This used to be part of m_Eom but I didn't like
686  * the idea of an "if" statement that could only succeed on the
687  * first call to m_Eom getting executed on each call, i.e., at
688  * every newline in the message).
689  *
690  * If the first line of the maildrop is a Unix "From " line, we
691  * say the style is MBOX and eat the rest of the line.  Otherwise
692  * we say the style is MMDF and look for the delimiter string
693  * specified when nmh was built (or from the mts.conf file).
694  */
695
696     msg_style = MS_UNKNOWN;
697
698     pos = ftell (iob);
699     if (fread (text, sizeof(*text), 5, iob) == 5
700             && strncmp (text, "From ", 5) == 0) {
701         msg_style = MS_MBOX;
702         delimstr = "\nFrom ";
703         while ((c = getc (iob)) != '\n' && c >= 0)
704             ;
705     } else {
706         /* not a Unix style maildrop */
707         fseek (iob, pos, SEEK_SET);
708         if (mmdlm2 == NULL || *mmdlm2 == 0)
709             mmdlm2 = "\001\001\001\001\n";
710         delimstr = mmdlm2;
711         msg_style = MS_MMDF;
712     }
713     c = strlen (delimstr);
714     fdelim = (unsigned char *) mh_xmalloc((size_t) (c + 3));
715     *fdelim++ = '\0';
716     *fdelim = '\n';
717     msg_delim = (char *)fdelim+1;
718     edelim = (unsigned char *)msg_delim+1;
719     fdelimlen = c + 1;
720     edelimlen = c - 1;
721     strcpy (msg_delim, delimstr);
722     delimend = (unsigned char *)msg_delim + edelimlen;
723     if (edelimlen <= 1)
724         adios (NULL, "maildrop delimiter must be at least 2 bytes");
725     /*
726      * build a Boyer-Moore end-position map for the matcher in m_getfld.
727      * N.B. - we don't match just the first char (since it's the newline
728      * separator) or the last char (since the matchc would have found it
729      * if it was a real delim).
730      */
731     pat_map = (unsigned char **) calloc (256, sizeof(unsigned char *));
732
733     for (cp = (char *) fdelim + 1; cp < (char *) delimend; cp++ )
734         pat_map[(unsigned char)*cp] = (unsigned char *) cp;
735
736     if (msg_style == MS_MMDF) {
737         /* flush extra msg hdrs */
738         while ((c = Getc(iob)) >= 0 && eom (c, iob))
739             ;
740         if (c >= 0)
741             ungetc(c, iob);
742     }
743 }
744
745
746 void
747 m_eomsbr (int (*action)(int))
748 {
749     if ((eom_action = action)) {
750         msg_style = MS_MSH;
751         *msg_delim = 0;
752         fdelimlen = 1;
753         delimend = fdelim;
754     } else {
755         msg_style = MS_MMDF;
756         msg_delim = (char *)fdelim + 1;
757         fdelimlen = strlen((char *)fdelim);
758         delimend = (unsigned char *)(msg_delim + edelimlen);
759     }
760 }
761
762
763 /*
764  * test for msg delimiter string
765  */
766
767 static int
768 m_Eom (int c, FILE *iob)
769 {
770     register long pos = 0L;
771     register int i;
772     char text[10];
773
774     pos = ftell (iob);
775     if ((i = fread (text, sizeof *text, edelimlen, iob)) != edelimlen
776             || strncmp (text, (char *)edelim, edelimlen)) {
777         if (i == 0 && msg_style == MS_MBOX)
778             /* the final newline in the (brain damaged) unix-format
779              * maildrop is part of the delimitter - delete it.
780              */
781             return 1;
782
783 #if 0
784         fseek (iob, pos, SEEK_SET);
785 #endif
786
787         fseek (iob, (long)(pos-1), SEEK_SET);
788         getc (iob);             /* should be OK */
789         return 0;
790     }
791
792     if (msg_style == MS_MBOX) {
793         while ((c = getc (iob)) != '\n')
794             if (c < 0)
795                 break;
796     }
797
798     return 1;
799 }
800
801
802 static unsigned char *
803 matchc(int patln, char *pat, int strln, char *str)
804 {
805         register char *es = str + strln - patln;
806         register char *sp;
807         register char *pp;
808         register char *ep = pat + patln;
809         register char pc = *pat++;
810
811         for(;;) {
812                 while (pc != *str++)
813                         if (str > es)
814                                 return 0;
815                 if (str > es+1)
816                         return 0;
817                 sp = str; pp = pat;
818                 while (pp < ep && *sp++ == *pp)
819                         pp++;
820                 if (pp >= ep) 
821                         return ((unsigned char *)--str);
822         }
823 }
824
825
826 /*
827  * Locate character "term" in the next "cnt" characters of "src".
828  * If found, return its address, otherwise return 0.
829  */
830
831 static unsigned char *
832 locc(int cnt, unsigned char *src, unsigned char term)
833 {
834     while (*src++ != term && --cnt > 0);
835
836     return (cnt > 0 ? --src : (unsigned char *)0);
837 }
838