dglb73 发表于 2016-8-21 11:33:04

正则表达式中的条件替换换行符的表达式如何写?

我想用DELPHI XE8 提取ASP网页的查询结果,之前用 WEBBROWSER 比较好处理,直接读TABLE中的内容就可以了,由于WEBBROWSER占用资源较多, 现在相改用 TIDHTTP来处理,要想在TIDHTTP里提取TABLE里的数据似乎除了正则表达式也没有什么其他好办法,但是在我要提取数据的网页中有些字段会从中间换行(好象字符串中有空格就会变成换行),HTML源代码摘录如下:
<a id="GridViewleft_LinkButton1_10" href="javascript:__doPostBack('GridViewleft$ctl12$LinkButton1','')">SMD-101-01</a>

                            </td><td>碳膜电阻</td><td>100R,0603,误差1%</td><td>0.000</td><td>pcs</td><td>委外加工</td><td>2016/01/22</td><td>成品仓</td><td>&nbsp;</td><td>需要且檢查庫存量</td><td>&nbsp;</td>
                </tr><tr style="background-color:White;">
                        <td>

<a id="GridViewleft_LinkButton1_11" href="javascript:__doPostBack('GridViewleft$ctl13$LinkButton1','')">SMD-101-02</a>

                            </td><td>碳膜电阻</td><td>100R,0603,误差5%</td><td>1.000</td><td>pcs</td><td>委外加工</td><td>2016/01/22</td><td>成品仓</td><td>&nbsp;</td><td>不需要</td><td>&nbsp;</td>
                </tr><tr style="background-color:#E3EAEB;">
                        <td>

<a id="GridViewleft_LinkButton1_12" href="javascript:__doPostBack('GridViewleft$ctl14$LinkButton1','')">SMD-101-03</a>

                            </td><td>碳膜电阻</td><td>100R,0603,
误差10%</td><td>3.000</td><td>pcs</td><td>委外加工</td><td>20160309</td><td>成品仓</td><td>&nbsp;</td><td>不需要</td><td>&nbsp;</td>
                </tr><tr style="background-color:White;">
                        <td>

<a id="GridViewleft_LinkButton1_13" href="javascript:__doPostBack('GridViewleft$ctl15$LinkButton1','')">SMD-102-01</a>
如上面代码中的第三条记录从一个字段中间换行了,现在的想法是利用正则表达式,检查每行结尾是不是字符 “>”,如果不是,就把换行符替换成空格,请问这个条件替换表达式要如何写?或者有其它更好的办法?谢谢各位了。

runapp 发表于 2016-8-21 14:33:03

据我所知posix正则是行内操作的
试试在字符串里直接加入换行符

kinoko 发表于 2016-8-21 15:51:41

>\r
这个是匹配行末的>号

mcu5i51 发表于 2016-8-21 16:08:43

先把换行换掉就好了

SkyGz 发表于 2016-8-21 16:22:16

先用Str := stringreplace(Str, #13#10, '', );替换掉所有换行,然后再用正则处理...

KuJJ 发表于 2016-8-21 11:33:05

楼主要的正则表达式就是 [^>]\n 或者 [^>]\n\r 看楼主换行符是哪种类型了
建议用RegexBuddy 4测试你的表达式

shamiao 发表于 2016-8-25 12:53:30

题外话

原则上来讲,不要使用正则表达式处理HTML

在形式语法的理论中,正则的语法层级,比XML/HTML的语法层级要低,即必然存在一部分XML结构,用正则的匹配能力不足以匹配到
另外正则也难以收拾HTML当中林林总总的转义问题

不知道delphi下有什么正规的html解析库可以用

redroof 发表于 2016-8-25 13:19:56

shamiao 发表于 2016-8-25 12:53
题外话

原则上来讲,不要使用正则表达式处理HTML


上面的webbrowser控件就行。它其实就是系统里ie的核心。

canlin029 发表于 2016-8-27 15:13:51

\n 匹配一个换行符。等价于 \x0a 。
\r 匹配一个回车符。等价于 \x0d 。

dglb73 发表于 2016-8-27 20:32:53

KuJJ 发表于 2016-8-21 16:26
楼主要的正则表达式就是 [^>]\n 或者 [^>]\n\r 看楼主换行符是哪种类型了
建议用RegexBuddy 4测试你的表达 ...

我下载了RegexBuddy测试了,换行符用 [^>]\n 可以匹配到,但我想要的是:不等于 " >"字符 + 换行符 , 是不等于

KuJJ 发表于 2016-8-28 17:38:22

dglb73 发表于 2016-8-27 20:32
我下载了RegexBuddy测试了,换行符用 [^>]\n 可以匹配到,但我想要的是:不等于 " >"字符 + 换行符 , 是 ...

^这个符号就是不等于的意思
页: [1]
查看完整版本: 正则表达式中的条件替换换行符的表达式如何写?