前老板找过来要我帮忙做个小功能,以前在他那里工作,关系还不错,一直有往来,基本上春节也会走动走动拜拜年啥的,他目前开了一个客服外包的公司,他自己办公室里面买了一台戴尔的刀片服务器,上面跑了他们公司自己用的IVR和callcenter系统,由于办公室没有办固定IP是动态IP,他之前用的都是某生壳动态域名来远程访问这两个系统的,最近某生壳开始收费了,而且获取到的动态IP也不对,导致无法远程访问了,他寻思着能不能帮他做个小软件,能自动获取到办公室的动态IP然后显示在一个页面上,这样他就能通过IP直接访问到他办公室里面服务器上的系统了,我寻思了一下,这不难,有两种方案,但是都需要一个有固定IP的服务器来参与:,下面我们就来聊聊关于java抓取网页怎么实现?接下来我们就一起去了解一下吧!
java抓取网页怎么实现
前老板找过来要我帮忙做个小功能,以前在他那里工作,关系还不错,一直有往来,基本上春节也会走动走动拜拜年啥的,他目前开了一个客服外包的公司,他自己办公室里面买了一台戴尔的刀片服务器,上面跑了他们公司自己用的IVR和callcenter系统,由于办公室没有办固定IP是动态IP,他之前用的都是某生壳动态域名来远程访问这两个系统的,最近某生壳开始收费了,而且获取到的动态IP也不对,导致无法远程访问了,他寻思着能不能帮他做个小软件,能自动获取到办公室的动态IP然后显示在一个页面上,这样他就能通过IP直接访问到他办公室里面服务器上的系统了,我寻思了一下,这不难,有两种方案,但是都需要一个有固定IP的服务器来参与:
1、获取当前机器的外网IP,各种网站像什么IP138还有ipinfo之类的好多,获取到了通过接口发到邮箱或者指定的服务器上去就行;
2、直接在当前机器定时访问一下指定的服务器,服务器上就能获得客户机的IP了;
而我刚好有一台买来自己玩的服务器,正好可以用上,于是就采用第二种方案,比较简单快速,由于客户机是windows系统,于是就用 schtasks 和 curl 来实现,用schtasks建一个定时任务,每1分钟执行一次bat脚本,bat脚本只有一行代码,就是用curl访问我服务器的一个API,这个API里面获取客户机的IP,并存起来,大概的流程如下:
简易的流程图
schtasks定时任务的脚本:
schtasks /create /sc minute /mo 1 /tn "AutoGetIp" /tr "C:\\Users\\BadSmile\\Desktop\\AotuGetIpJob\\getIp.bat"
curl的脚本:
curl -s "http://xxx.com/other/ip/v1/reg?group=机器标识,通过不同标识支持多个机器通用&secret=秘钥"
这样当本地的办公室IP改变后,服务器就能及时感知到,服务器处理分为三个接口:
1、ip注册,通过传入不同的group标识,可以支撑多台机器使用同一个服务,互不干扰;
2、查看ip,通过传入group,查看指定group的最新ip信息,或者不传入group信息,查看所有group的ip信息;
3、重定向,通过传入group和需要重定向的项目名以及端口号,既通用又方便,就能适应不同项目使用,适合一个环境下跑多个服务的情况;
服务器端代码如下:
/**
* 注册IP,不同分组的ip单独存放,可以保存多个服务器的IP
* @param group
* @return
*/
@RequestMapping(value = "v1/reg", method = RequestMethod.GET)
@ResponseBody
public String reg(@RequestParam String group,@RequestParam String secret) {
log.info("注册ip接口参数,group={}", group);
if(SECRET_KEY.equals(secret)){
String time= DateTool.dateToStr2(Calendar.getInstance().getTime());
String key=CACHE_KEY group;
IPCacheVo vo= redisMapper.get(key,IPCacheVo.class);
String ip=getTerminalAddr();
if(vo==null){
vo=new IPCacheVo();
vo.setGroup(group);
vo.setIp(ip);
vo.setUpdateTime(time);
redisMapper.set(key,vo);
}else{
if(!vo.getIp().equals(ip)){
vo.setIp(ip);
vo.setUpdateTime(time);
redisMapper.set(key,vo);
}
}
return SUCCESS;
}
return FAIL;
}
/**
* 查看注册的ip列表
* @param group
* @return
*/
@RequestMapping(value = "v1/get", method = RequestMethod.GET)
@ResponseBody
public String get(@RequestParam(required = false) String group) {
log.info("查看ip接口参数,group={}",group);
if(StringUtils.isEmpty(group)){
String key=CACHE_KEY "*";
List<IPCacheVo> vos = redisMapper.values(key,IPCacheVo.class);
if(CollectionUtils.isEmpty(vos)){
throw new BizException(OtherResultCode.NOT_FIND_IP_INFO);
}else{
return JSON.toJSONString(vos);
}
}else{
String key=CACHE_KEY group;
IPCacheVo vo= redisMapper.get(key,IPCacheVo.class);
if(vo==null){
throw new BizException(OtherResultCode.NOT_FIND_IP_INFO);
}else{
return JSON.toJSONString(vo);
}
}
}
/**
* 重定向到指定的分组
* @param group
* @return
*/
@RequestMapping(value = "redirect", method = RequestMethod.GET)
public ModelAndView redirect(@RequestParam String group,@RequestParam String domain,@RequestParam String port){
log.info("重定向接口参数,group={},domain={},port={}",group,domain,port);
if(StringUtils.isEmpty(group)){
throw new BizException(OtherResultCode.NOT_FIND_IP_INFO);
}else{
String key=CACHE_KEY group;
IPCacheVo vo= redisMapper.get(key,IPCacheVo.class);
if(vo==null){
throw new BizException(OtherResultCode.NOT_FIND_IP_INFO);
}else{
return new ModelAndView(new RedirectView("http://" vo.getIp() ":" port "/" domain "/"));
}
}
}
这样,就能解决办公室或者家里没有固定IP但是又想远程访问WEB服务的问题了,远程访问的时候,浏览器访问指定的地址即可,如:
http://xxxx.com/other/ip/redirect?group=office&domain=callcenter&port=9999
就会自动重定向到office所在机器的最新外网IP上的9999端口的callcenter服务上,最终重定向的URL如下:
http://实时外网动态IP:9999/callcenter
这只是朋友用到的小功能,主要解决他目前遇到的问题,办公室没有外网固定IP,但是又想外网访问办公室的内网服务器的问题,当然也可以用这个方法实现域名的自动解析,接入某云的域名解析SDK,就可以在感知到IP变化的时候自动修改域名解析,当然能用某生壳的还是用某生壳,这只是一个好玩的小功能,不喜勿喷。
前老板反馈还不错