晨风资讯网
新闻资讯网络冲浪网页设计网络编程图形图像数据库网络媒体服务器网络安全网站运营软件教程黑客认证Wap技术
教程搜索
教程搜索:
  首页 > 程序开发 > VB/VB.NET > 正文  

VB.NET2005从网页源码中分离文本
日期:2008-6-27 13:54:48 来源: 作者: 浏览:

VB.NET2005从网页源码中分离文本

在使用 HttpWebRequest HttpWebResponse 二个虚拟类进行多线程序获取网页文件时,得到的是网页源码。这就存在一个“从网页源码中分离文本”的工作。

下面的函数就是从网页源码中分离文本的一种算法,实用效果还行。不知道还有没有更好的算法?

Private Function GetHtmlText(ByVal HTML As String) As String
'HTML = StrConv(HTML, VbStrConv.SimplifiedChinese)
HTML = HTML.Replace(" ", "")
Dim temp As String = String.Empty
Dim HtmlText As String = String.Empty
Dim i As Integer = 0
Dim j As Integer = 0
Dim k As Integer = HTML.IndexOf("<body")
Do
i = HTML.IndexOf(">", k)
If i > 1 Then
j = HTML.IndexOf("<", i + 1)
If j > 1 Then
temp = temp.Substring(i + 1, j - i - 1)
If temp.Length > 0 Then
HtmlText = HtmlText & temp
End If
Else
Exit Do
End If
Else
Exit Do
End If
k = j
Loop
Return HtmlText
End Function


上一篇: VB.NET2005计算图像的颜色变化(浮雕) 下一篇:

VB.NET2005获取并保存图标文件

返回列表 打印此页 加入收藏 资讯论坛 关闭窗口 点击复制本页地址,发送给QQ/MSN好友
关于我们 - 联系我们 - 版权声明 - 帮助(?) - 广告服务 - 友情链接 - 服务项目 - 人才招聘
2003-2008 版权所有 © 晨风资讯网 未经授权禁止复制或建立镜像
CopyRight 2003-2008 www.Net118.com,All Rights Reserved.Design By ChenFeng Network Studio