word转html如何清除冗余代码
我有几万个从word转来的html文件,但这些html文件由doc的100多K变成了几M,几十M。
原来转为html时产生了大量的冗余代码,请问有什么方法可以清除这些垃圾。
需要程序代码。
刚才没分了,现在又有了,可以加分的
/// <summary>
/// 清理Word生成的冗余HTML
/// </summary>
/// <param name="html"> </param>
/// <returns> </returns>
public static string CleanWordHtml(string html)
{
StringCollection sc = new StringCollection();
// get rid of unnecessary tag spans (comments and title)
sc.Add(@" <!--(\w|\W)+?-->");
sc.Add(@" <title>(\w|\W)+? </title>");
// Get rid of classes and styles
sc.Add(@"\s?class=\w+");
sc.Add(@"\s+style='[^']+'");
// Get rid of unnecessary tags
//sc.Add(@"
相关问答:
如题所示,处于某种需要,需要(无法改变)在html最头端加上一段JavaScript代码。可是加上之后就影响了页面的显示,有没有哪种办法可以避免这种情况的
如下所示,原来的htmlHTML code:
<!DOCTYPE html P ......
例:把下面一行代码用循环10次.后页面代码显示为10行;其中strID后跟着循环次数显示,如strID1,strID2,strID3
<tr>
&nbs ......
字符串转化为 HTML 实体? 怎么写最简单?
比如把“你好”
输出为:
你 好
不行
C# code:
string str = "你好";
......
怎么才可以去掉 <html:file>中的那个输入框,让页面只显示那个浏览按钮.或是用一个button来做,当点击一个button就可以浏览本地的文件夹.
我是写了一个button和一个 <html:file>标签
然后 ......